Sei sulla pagina 1di 19

APPUNTI ED ELEMENTI DI PSICOACUSTICA

Kevin Manolli

Allievo al triennio del corso di


Tecnico del suono al

Conservatorio G.Nicolini di Piacenza


Indice

INTRODUZIONE ........................................................................................................................................... 3

I PARAMETRI DELLA PERCEZIONE


Volume, Altezza e Timbro.............................................................................................................................. 3

STORIA ............................................................................................................................................................ 7

FISIOLOGIA DELL’UDITO
L'orecchio e la trasduzione delle vibrazioni acustiche ...................................................................................... 7

BANDE CRITICHE E MASCHERAMENTO ........................................................................................... 12

PATOLOGIA AUDIOLOGICA .................................................................................................................. 16

LOCALIZZAZIONE SONORA .................................................................................................................. 17


1. INTRODUZIONE

La psicoacustica studia l’interazione tra il fenomeno sonoro ed i meccanismi fisiologici della percezione uditiva. L’organo che permette
all’uomo di percepire i suoni è l’orecchio. Tramite questo organo le onde sonore vengono trasformate in impulsi nervosi che, una volta
trasmessi al cervello, vengono percepiti come suoni. In pratica sentiamo un suono quando il timpano dell’orecchio viene eccitato da
un’onda di pressione avente caratteristiche fisiche ben definite.
In generale, si possono individuare due compiti principali per il nostro sistema uditivo: il primo è la comprensione del messaggio
sonoro e il secondo è la ricostruzione della mappa spaziale delle sorgenti sonore.

2. I PARAMETRI DELLA PERCEZIONE

Le relazioni tra grandezze fisiche e grandezze percettive sono molto complesse, perché tipicamente più di una grandezza fisica
corrisponde a una singola grandezza percettiva e talvolta non sono sempre facilmente determinabili.
Le tre sensazioni primarie che accompagnano l’ascolto di un suono sono: altezza, intensità o volume e timbro: l’intensità (o loudness)
di un suono è il correlato percettivo diretto dell’intensità sonora; la frequenza è il principale responsabile della sensazione di altezza di
un suono (o pitch), per i suoni complessi, l’altezza percepita dipende direttamente dalla frequenza fondamentale del suono, nel caso
tale frequenza non è presente nello spettro viene ricostruita direttamente dal nostro cervello (frequenza fantasma); infine, il timbro ha
come correlato fisico diretto la forma d’onda del suono o lo spettro, ovvero la rappresentazione della composizione in frequenza su un
diagramma energia-frequenza, o livello sonoro-frequenza.

Volume

L’ampiezza del segnale viene misurata in SIL (sound intensity level) sulla scala logaritmica dei decibel ed è data da 10log I/I0, dove I
è l’intensità misurata in watt/m² e I0, che vale 1012 watt/m², è l’intensità minima alla quale si può udire un suono di 1000 Hz. La
giustificazione del fatto che per l’uso dei valori di Pressione sonora utilizziamo i decibel e non i W/m2 o i Pa, dipende dal fatto che il
nostro udito ha un’enorme estensione e non sarebbe pratico, quindi l’utilizzo dei logaritmi risulta molto più comodo, inoltre la legge
di Stevens o di Weber-Fechner dimostra che la sensazione uditiva aumenta lentamente proprio come una scala logaritmica. In ogni
caso da questo calcolo si capisce come la nostra percezione dell’ampiezza di un segnale sia influenzato dalla sua frequenza, perciò la
grandezza percettiva del volume deve tener conto della frequenza: l’unità di misura psico-fisica del livello di sensazione sonora
(loudness level) sono i foni (phones), che coincide col decibel solo per f= 1000 Hz, cioè un suono ha un volume di x foni, se un suono
di 1000 Hz che viene percepito con lo stesso volume ha un’intensità di x dB. La scala dei Phones non è ancora una scala soggettiva,
infatti un raddoppio dei phon non determina un raddoppio dell’intensità percepita, ma gli studi per la determinazione di una scala
soggettiva hanno portato alla definizione della scala dei Son (sone). Il piano cartesiano seguente mette a confronto le due unità di
misura, ovvero i phones e i son:

Dato che la correlazione tre le grandezze fisiche dell’acustica e la sensazione sonora nell’uomo è possibile solo su base statistica, la
relazione che lega frequenza e intensità alla sensazione sonora è stata determinata sperimentalmente sulla base delle risposte di un gran
numero di soggetti, questa ha condotto alla definizione delle curve isofoniche o di isosensazione. Queste curve sono rappresentate nel
diagramma di Fletcher-Munson, dove nelle ascisse troviamo le frequenze udibili (tra 20 e 20000 Hz), mentre nelle ordinate ci sono i
valori di intensità sonora (da 0 a 140 dB). La curva di 0 foni presente nel diagramma è anche detta soglia assoluta di udibilità e i suoni
presenti sotto ad essa non verranno uditi dall’uomo.
Nel 2003 la ISO 226 è stata revisionata. Nella nuova norma, le curve di egual sensazione sonora hanno cambiato significativamente
forma:

In pratica le nuove curve sono ancora più gobbe, per cui ora un suono di 40 dB a 1000 Hz corrisponde ad un suono di ben 65 dB a 100
Hz.
Per ottenere una curva di isofonia, è necessario scegliere un tono puro di riferimento di 1000 Hz e un livello, dato in dB SPL, ad
esempio 40dB. Il soggetto deve regolare il livello di un suono di confronto, per esempio un suono puro di 1300 Hz, in modo che si
abbia la stessa sensazione di intensità rispetto al suono di riferimento. In altre parole, il suono di confronto viene regolato in modo che
suoni forte (o debole) quanto il suono di riferimento.
Un compito ovvio dato che in questo caso le frequenze differiscono. Ripetiamo la stessa procedura per un gran numero di frequenze e
otteniamo una curva per un dato livello (esempio: 40dB SPL). Tutti i punti collegati dalla stessa curva rappresentano i suoni che hanno
la stessa intensità soggettiva (lo stesso volume), equivalente a quella del suono di riferimento.
Nel diagramma revisionato nel 2003, sono evidenziati due punti, i quali descrivono la curva di ponderazione A, essa è una curva che
simula il comportamento dell’orecchio umano e di queste curve ne esistono 3: la curva di ponderazione A, B e C che corrispondono al
comportamento dell’orecchio umano ai rispettivi livelli bassi, medi e alti. Per ottenere l’adeguata approssimazione dell’effettiva
sensazione umana, è indispensabile compensare i livelli ottenuti alle diverse frequenze, quindi possiamo dire che una curva di
ponderazione equivale ad applicare un filtro al segnale di ingresso con le caratteristiche derivanti, ad ognuno di essi, dalle curve
isofoniche. Se guardiamo il diagramma possiamo prendere in esempio la curva di ponderazione A, la quale è costruita sull’isofonica a
40 phon: alla frequenza di 1000 Hz corrispondono 40 dB, quindi per avere la stessa sensazione che avrebbe l’orecchio umano alla
frequenza di 40 Hz, bisogna avere una ponderazione che mi porti il livello di ascolto a 70 dB, così facendo otteniamo la curva in
questione.
Nel diagramma di Fletcher-Munson la prima curva rappresenta il livello minimo udibile dei suoni puri e per misurarla esistono due
metodi: il primo è effettuato con gli auricolari, per misurare la “Pressione minima udibile” o MAP, la pressione acustica ricevuta,
monitorata dopo la calibrazione, utilizzando una microsonda posizionata a livello del timpano del soggetto; il secondo metodo, invece,
è effettuato in camera anecoica, per misurare il “Campo minimo udibile” o MAF, qui la pressione è controllata piazzando i microfoni
di una testa artificiale.

Dall’immagine possiamo notare che le soglie sono inferiori nel secondo caso, poiché in cuffia i rumori della circolazione sanguigna
sono amplificati e maschera il suono che si cera di ascoltare.
Altezza

Il parametro fisico a cui è correlata più da vicino la sensazione di altezza di un suono è la frequenza. La banda di frequenza udibili si
estende all’incirca da 20 a 20000 Hz, con casi noti di individui che scendono fino a 15 Hz o salgono fino a 25000 Hz in relazione a
pure onde sinusoidali. In pratica un adulto in buona salute percepisce fino a 17-18 kHz e la banda si restringe in vecchiaia con una
differenziazione molto marcata tra i sessi. I suoni sotto i 30 Hz sono piuttosto difficili da udire: a un’intensità elevata e in condizioni
di isolamento si può arrivare ad ascoltare onde sinusoidali di 15-20 Hz, ma sotto i 20 Hz si passa dall’udito alla sensazione vibratoria.
I suoni in natura non sono onde sinusoidali, ma sono suoni complessi con un gran numero di armoniche. Il parametro percettivo
dell’altezza corrisponde in generale alla nozione di frequenza fondamentale, nel caso non è presente nello spettro che raggiunge il
nostro orecchio, ci viene “inferita” dalle parziali presenti, così il nostro cervello ricostruirà la frequenza fantasma. Come avviene per
intensità e volume, anche per il binomio frequenza-altezza occorre riuscire a differenziare tra le altezze in modo percettivo. Questo
problema è stato studiato in modo approfondito in musica, attraverso la nozione di intervallo, cioè la distanza tra due note di differente
altezza. L’intervallo alla base del nostro sistema musicale è quello di ottava, che corrisponde in termini di frequenza un rapporto di 2:1,
anche se, questo rapporto, non è sempre esatto. Tuttavia esiste una discordanza, particolarmente evidente al di sopra dei 1000 Hz, fra
la frequenza reale del suono e l’altezza mediamente percepita dall’ascoltatore. Allo scopo di avere per il pitch una scala coerente con
la curva di percezione dell’altezza, è stata introdotta la scala Mel. Per definizione, infatti, a 1000 Hz corrispondono 1000 Mel (con
livello di pressione sonora 40 dB sopra la soglia di udibilità 1000 Hz) e ad ogni ottava i Mel si raddoppiano o si dimezzano. Quindi
possiamo dire che la scala Mel è una scala psicofisica del pitch.
La curva della scala Mel ha un andamento assai non lineare, l’intera gamma tra 0 e 20 kHz viene giudicata come se coprisse un
intervallo di soli 2500 mel. La forma della curva indica, però, che la maggior parte della compressione riguarda le frequenze elevate:
nella zona tra 20 e 200 Hz, la corrispondenza tra altezza percepita in mel e frequenza reale in hertz è quasi esatta.
Esiste un limite alla distinzione delle altezze di due toni molto prossimi in frequenza e anche sotto questo profilo le differenze tra i vari
individui sono molto marcate. Naturalmente si parla di suoni uditi in successione immediata e non simultaneamente, poiché nel secondo
caso i battimenti vengono in aiuto all’ascoltatore, permettendogli di identificare differenze di frequenze anche minime.
La frequenza dello stimolo sinusoidale risulta essere il parametro fondamentale nella determinazione della sensazione d’altezza.
Tuttavia esso non è il solo. Gli esperimenti di Stevens hanno mostrato che al crescere dell’intensità dello stimolo da 40 a 90 dB, per
frequenze al di sopra dei 1000 Hz il pitch percepito subisce un incremento, mentre per frequenze al di sotto dei 100 Hz esso subisce un
decremento rispetto all’intensità iniziale. Per frequenze intorno ai 100 Hz, la variazione è quasi nulla. Questi dati sono riassunti nel
diagramma di Stevens e Wolkmann:

Timbro

Il timbro descrive la “qualità” o il “colore” del suono ed è qual parametro che ci permette di distinguere due suoni di origine diversa
con stessa altezza, volume e durata. In pratica è grazie al timbro se siamo in grado di distinguere un la4 a 440 Hz di 50 foni suonato da
un sassofono e un la4 a 440 Hz di 50 foni suonato da un violino. Il principale elemento che caratterizza il timbro è lo spettro di energia,
questo se analizzato nell’evoluzione temporale è un elemento fondamentale per il riconoscimento e la caratterizzazione dei suoni
strumentali.
Lo spettro di un segnale sonoro è la rappresentazione della sua composizione in frequenza su un diagramma che descrive il rapporto
energia-frequenza. Gli spettri che conosciamo sono: il tono puro, formato da una sola frequenza e che in natura non esiste, infatti si
può creare solo digitalmente; il suono “complesso”, ovvero un suono formato da più frequenze; lo spettro continuo, che è formato da
più segnali complessi costituiti da un gran numero di frequenze; il Rumore bianco, formato da tutte le frequenze senza enfatizzazioni.
La descrizione della composizione in frequenza dei segnali sonori può essere condotta valutando il contenuto d’energia sonora
all’interno di prefissati intervalli di frequenze, ovvero le bande di frequenza. Ciascuna banda è caratterizzata da una frequenza di taglio
superiore (Fs) e da una frequenza di taglio inferiore (Fi). L’analisi in frequenza può essere di due tipi: l’analisi a banda costante e
l’analisi a banda percentuale costante da 1/1 o 1/3 di ottava.
L’analisi a banda costante è tipicamente impiegata per analisi approfondite della composizione in frequenza. Solitamente viene usata
per misure nel campo delle vibrazioni delle strutture o delle macchine tramite una tecnica di elaborazione matematica detta FFT.
L’analisi a banda percentuale costante invece, è impiegata, tipicamente, per misure acustiche. Possono essere “banchi” di 10 filtri
(ottave) o 30 filtri (terzi), ottenuti con circuiti analogici o digitali.
Gli spettri a banda stretta sono i seguenti:

Asse frequenze lineare Asse frequenze logaritmico

Gli spettri in ottava e 1/3 di ottava sono:

Bande di 1/3 ottava Banda di 1/1 ottava.

Il rumore bianco:

Come vediamo lo spettro è piatto nell’analisi in banda stretta.

Il rumore Rosa:

Lo spettro è piatto nell’analisi a ottave o terzi di ottava.

Un altro determinante fisico del timbro è la forma d’onda, cioè il contenuto armonico del suono, ma anche le caratteristiche dinamiche
come l’inviluppo dell’ampiezza del suono, soprattutto nella fase di attacco, e i fenomeni di vibrato.
Le forme d’onda che conosciamo sono: l’onda sinusoidale, l’onda periodica e l’onda casuale.
Il contenuto armonico è dato dal numero di intensità relativa delle armoniche superiori presenti in un suono, le quali vengono percepite
dal nostro sistema uditivo e ne codifica il risultato dando la percezione del timbro.
Il contenuto armonico, è particolarmente importante per suoni che rimangono costanti per un certo periodo: ad esempio nelle vocali
della voce umana, che al contrario delle consonanti, rimangono sostenute con il risultato timbrico che è dato dalle formanti. Nei suoni
con un’evoluzione dinamica molto veloce, invece i contributi timbrici più importanti sono dati dalle prime fasi dell’inviluppo: sono
infatti le fasi di attacco e di decadimento che determinano la maggior parte delle caratteristiche timbriche di un suono.
Nel caso degli strumenti musicali i contributi fondamentali sono dati anche dalla presenza di vibrato, ovvero una modulazione periodica
dell’altezza di un suono nel tempo che è presente anche nella voce (il suo corrispettivo in ampiezza è il tremolo, ovvero una
modulazione d’intensità di un suono nel tempo).
Il riconoscimento di un timbro avviene in poche decine di millisecondi e al di sotto di questa durata non riusciamo a percepire la
caratterizzazione timbrica di un suono, quest’ultimi chiamati click atonali.
Oltre alle sensazioni primarie appena viste, ne esistono altre che rivestono notevole importanza nel processo percettivo. La direzionalità
è una sensazione legata alla percezione dei suoni, ed è legata alla differenza di fase con cui il suono giunge alle orecchie, di questo poi,
ne parleremo più tardi. Altri parametri sono la Consonanza e la dissonanza che sono infine due sensazioni che dipendono dal
condizionamento culturale provocate dalla sovrapposizione di due o più suoni e anche i battimenti che queste sovrapposizioni possono
dar vita. Il rapporto fra le frequenze e la frequenza di battimento determinano il grado di consonanza e dissonanza percepita.
3. STORIA

La psicoacustica è lo studio psicofisico dell’acustica, ovvero lo studio delle relazioni tra la sensazione di percezione e le variabili
fisiche. Per esempio come si sente il suono in relazione al livello di pressione, Il termine di psicoacustica fu coniato da Gustav Fechner
nel 1860, nel suo libro: “Elemente der Psychophysik”. Questo libro è stato il primo tentativo di esprimere matematicamente la relazione
che sussiste tra stimolo e percezione umana di tale stimolo e all’interno del quale troviamo una formula, ovvero la legge di Fechner, la
quale dice che lo stimolo cresce per moltiplicazione, il responso per addizione. In termini matematici, ciò significa che tra la sensazione
percettiva e la potenza sonora agente sussiste una relazione logaritmica:

P = k In S

Questa legge non è corretta sotto diversi aspetti. La proporzionalità tra sonorità percepita e logaritmo dell’intensità del suono non si
riscontra ai bassi livelli di intensità, né è univoca, in quanto la sensibilità dell’orecchio è influenzata anche dalla frequenza del suono
e, in misura minore, da timbro e dall’impasto delle componenti sonore.

Successivamente sono stati svolti alcuni studi, ovvero tra il XVII e XIX sec Hook e Savart effettuarono delle indagini, le quali
riguardarono l’altezza del suono e la percezione uditiva. Furono i secoli delle ruote sonore e dei diapason, infatti quest’ultimo è stato
inventato da John Shore e sviluppato sa Johann Scheiber con il tonometro, formato da 56 diapason.

Solo nel XIX secolo ci fu una vera e propria svolta grazie a Helmholtz che scrisse il libro “On the Sensations of Tone as a Psysiological
Basis for the Theory of Music” nel 1862, il quale rappresentò il maggior riferimento per gli studi di acustica musicale e del sistema
uditivo. Attraverso gli studi di Fechner e di Helmholtz si avviò lo studio scientifico dei fenomeni acustici legati alla percezione.

Helmholtz fu influenzato dalla legge di acustica di Georg Simon Ohm, la quale stabilisce che l’orecchio esegue un’analisi di Fourier
limitata, determinando le componenti sinusoidali del suono complesso. Helmholtz usò il teorema di Fourier quindi, per descrivere la
teoria della risonanza dell’analisi in frequenza dell’orecchio interno come base del tono e sostenne che il luogo di risonanza con la
massima ampiezza sarà il fattore determinante nella percezione dell’intonazione. Poiché i suoi risonatori interni all’orecchio erano più
nettamente sintonizzati alle basse frequenze, era probabile che le basse frequenze fossero un fattore dominante nella percezione del
tono.

Lord Rayleigh sulla localizzazione della sorgente propose il rapporto binaurale. Inoltre, suggerì che la fase interaurale permette di avere
informazione sulla locazione.

Le teorie della localizzazione (ITD e ILD) furono indagate soprattutto negli anni ’30 da Stevens e Newman.

Come direttore del laboratorio di acustica, Fletcher ha visto passare una litania di risultati di ricerche psicoacustiche di ineguagliabile
importanza: misure di soglie uditive (che conducono al moderno audiogramma). Studi sulla discriminazione dell’intensità e della
frequenza, suono di mascheramento, banda critica, scala dei phon, indice di articolazione.
Le curve isofoniche mostrano che il volume percepito per segnale dipende sia dall’intensità del suono che dalla frequenza, mentre
l’intensità fisica e la risposta in frequenza sono indipendenti l’una dall’altra.

4. FISIOLOGIA DELL’UDITO

Il sistema uditivo umano ha una struttura complessa e svolge funzioni


notevolmente avanzate, infatti non solo è in grado di elaborare un ampio insieme
di stimoli, ma può identificare precisamente l’altezza o il timbro di un suono, o
la direzione da cui esso proviene. Il punto di ingresso del segnale è dato
dall’orecchio, un dispositivo molto complicato, come si può notare
dall’immagine affianco, con componenti di dimensioni molto ridotte che
vengono protette in locazioni remote dalle ossa temporali. Il compito
dell’orecchio è di convertire le variazioni di pressione dell’aria in impulsi
nervosi elettrochimici che vengono elaborati dal cervello.

Il segnale in ingresso mette in vibrazione la membrana del timpano, che


trasmette il movimento meccanico agli ossicini: martello, incudine e staffa; di
conseguenza, questo movimento, viene tramandato al liquido contenuto nella
coclea, che stimola il nervo uditivo. La tromba d’Eustachio connette l’orecchio con la cavità orale, garantendo la stessa pressione sui
due lati della membrana, questo fa sì che la membrana torni in posizione una volta passata la vibrazione. Il segnale propagato dal
timpano verso l’interno viene elaborato nella coclea, dove avviene la trasduzione da segnale acustico a segnale elettrochimico. Il
segnale elettrochimico viaggia lungo le vie nervose uditive e viene manipolato in “stazioni” di elaborazione dette nuclei,
raggruppamenti di cellule nervose con specifiche proprietà, dove arrivano e partono fasci che costituiscono i segmenti delle vie uditive.
In tali stazioni il segnale viene anche miscelato con il segnale proveniente dall’altro orecchio, infatti è grazie al confronto sul segnale
bi-auricolare che avviene la localizzazione. La destinazione è la corteccia uditiva, che risiede nel lobo temporale, dove avvengono le
elaborazione di alto livello, cioè le funzioni superiori di interpretazione del segnale, dopo che questo ha subito numerose trasformazioni
durante il tragitto.
Orecchio

L’orecchio si può suddividere in tre zone principali: l’orecchio esterno, formato da padiglione, meato e timpano, l’orecchio medio,
formato dagli ossicini e l’orecchio interno, formato dalla coclea.

Il segnale quindi, entra nell’orecchio esterno, dall’apertura circondata


dal padiglione auricolare e percorre il condotto uditivo esterno, detto
anche meato. La forma del padiglione è molto complessa: il suo scopo
è quello di offrire un imbuto per la cattura di segnali ad alta frequenza,
che sono fondamentali per la comprensione dei messaggi e che non
riuscirebbero ad entrare nel condotto. Le pieghe del padiglione
auricolare “colorano” i suoni ad alta frequenza mediante
l’interferenza tra segnali riflessi di pieghe differenti. Le frequenze
interessate sono quelle superiori ai 3000 Hz, in quanto la loro
lunghezza d’onda è paragonabile alle dimensioni delle pieghe del
padiglione, ovvero da circa 9 cm a 1,5 cm. Le altre frequenze vengono
amplificate in modo diverso, a seconda della loro direzione, che
seguano o meno le pieghe del padiglione. Il meato uditivo è il canale
che connette il padiglione al timpano e la sua risonanza (ovvero la sua frequenza naturale di vibrazione) è intorno ai 2000 Hz, perciò
le frequenze di questa regione vengono amplificate, arrivando così, in maniera più efficiente al timpano. Questa amplificazione è
importante, poiché nella regione di queste frequenze è presente il parlato, quindi ci aiuta con la comprensione delle parole.

Il segnale poi, attraversa l’orecchio medio, ovvero una


cavità di circa 2 cm3 piena d’aria, nella quale la pressione
statica è regolata dalla tromba d’Eustachio n
comunicazione con la faringe. L’orecchio medio propaga
le vibrazioni dalla membrana del timpano alla coclea,
presente nell’orecchio interno, tramite la serie dei tre
ossicini: martello, incudine e staffa. In particolare, il
martello è connesso con il timpano, la staffa è connessa
alla coclea, attraverso la finestra ovale che funge da
entrata alla chiocciola e che presenta una superficie di
vibrazione inferiore a quella del timpano; l’incudine
propaga il movimento tra i due ossicini. L’orecchio medio
assolve due compiti: innanzi tutto risolve i problemi
dovuti alla resistenza differente tra l’aria e il fluido interno alla coclea, la perilinfa; questo fluido, essendo molto più denso, non
trasmetterebbe le vibrazioni di minor entità sulla coclea, quest’ultime rimbalzerebbero, quindi noi, non le percepiremmo; perciò il
meccanismo degli ossicini permette di trasformare una vibrazione su un’ampia superficie (quella del timpano) in una vibrazione della
stessa energia, ma distribuita su una piccola superficie (quella della finestra ovale; Inoltre secondo il principio della leva, che si applica
in questo caso in conseguenza della differente lunghezza dei due bracci rispetto al fulcro, la forza che agisce sulla finestra ovale viene
amplificata permettendo la percezione anche di segnali deboli. Il secondo scopo è la protezione della coclea da suoni forti a bassa
frequenza, che potrebbero danneggiarla; la protezione si basa sul riflesso del muscolo stapedio, che irrigidisce la vibrazione degli
ossicini nel caso di trasmissione di suoni forti.

Infine il segnale arriva all’orecchio interno, quest’ultimo si trova nel canale osseo della
coclea, è diviso da due membrane in tre compartimenti pieni di liquido, chiamati rampe
o scale. La rampa media è separata dalla rampa vestibolare, dalla membrana di Reissner
e dalla rampa timpanica. Si può dire che l’orecchio interno è un labirinto di passaggi
nell’area temporale del cranio. I due elementi principali sono i canali semicircolari, che
assolvono perlopiù i compiti di equilibrio, e la coclea, un tubo di 3,5 cm avvolto a forma
di chiocciola, che è il cuore della percezione uditiva. Questo “tubo” percepisce le diverse
frequenze in diversi punti ben caratterizzati, infatti come si vede nell’immagine, ad ogni
punto della coclea corrisponde un valore ottimo della frequenza per il quale si ottiene la
massima eccitazione.
La coclea è ricoperta da una parete ossea, la capsula otica. Questa è formata da tre rampe avvolte da una lamina ossea detto modiolo.
Le tre rampe, sono tre sezioni in cui la coclea è suddivisa e sono: la rampa vestibolare, la rampa media e la rampa timpanica;
quest’ultime separate da membrane. La membrana fondamentale per l’elaborazione del segnale acustico è la membrana basilare, che
separa la rampa media dalla rampa timpanica. La rampa vestibolare e la rampa timpanica contengono perilinfa, mentre la rampa media
contiene endolinfa. Sulla membrana basilare è appoggiato l’organo di Corti, che con oltre 20000 cellule ciliate si occupa della
trasduzione del segnale acustico al segnale elettrochimico, che viene inviato al cervello.

Le rampe vestibolari e timpaniche sono isolate


dall’orecchio medio dalla finestra ovale e dalla
finestra rotonda, infatti il segnale acustico entra dalla
finestra ovale, sulla quale è inserita la staffa. L’onda di
pressione si diffonde lungo la spirale formata
dall’organo di Corti. Essendo i liquidi indeformabili,
l’aumento di pressione prodotto viene eliminato
attraverso la finestra rotonda. Le rampe vestibolari e
timpaniche circondano il canale cocleare pieno di
endolinfa. Il canale cocleare è delimitato dalla
membrana di Reissner, e dall’organo di Corti.

La perilinfa e l’endolinfa differiscono profondamente per il loro contenuto ionico.


Mentre la perilinfa ha una composizione molto vicina ai liquidi extracellulari,
l’endolinfa è caratterizzata da un’estrema ricchezza di potassio.
L’organo di Corti è il più specializzato, il più intricato il più sensibile dei complessi
componenti del sistema uditivo. Quest’organo è formato da recettori ciliati atti a
recepire le vibrazioni sonore che inviano al cervello, tramite singoli nervi di
collegamento sotto forma di segnali di tipo elettrico.
L’organo di Corti è protetto dalla membrana tettoria, che è fissata rigidamente solo a
una estremità. Le cellule cigliate si ammassano a destra e a sinistra della galleria di
Corti, sostenute da altre cellule strutturali. Le connessioni nervose delle cellule cigliate
sono incatenate nel nervo uditivo; in cima alle cellule cigliate vi sono i peli sensoriali
che si proiettano verso la membrana tettoria.
L’organo di Corti riceve una innervazione, allo stesso tempo doppia afferente ed
efferente. L’innervazione afferente ha origine dai neuroni di tipo I e II del ganglio spirale, i cui assoni proiettano verso i nuclei cocleari.
L’innervazione efferente ha origine da neuroni che appartengono a due distinti sistemi i cui corpi cellulari si localizzano nei nuclei del
tronco cerebrale. Il prolungamento assonale dell’insieme di questi neuroni costituisce il nervo cocleare.

La membrana basilare occupa la parte centrale della coclea per tutta la sua lunghezza. Essa è stretta e leggera vicino agli ossicini e
aumenta il suo spessore verso l’estremità, dove si trova un orifizio circolare, metà membranoso, detto elicotrema, che permette alla
rampa vestibolare di comunicare direttamente con la rampa timpanica. Lo spessore variabile della membrana corrisponde a una
differente risonanza, per cui la membrana vibra in risposta a frequenze differenti lungo la sua lunghezza.

Quindi, La staffa, messa in vibrazione dal timpano attraverso la catena degli ossicini all’arrivo di un’onda sonora, fa vibrare la perilinfa
attraverso la finestra ovale. La vibrazione percorre tutta la coclea, cominciando dalla rampa vestibolare, passando attraverso
l’elicotrema, e finendo nella rampa timpanica, dove la finestra rotonda smorza tali vibrazioni che altrimenti rimarrebbero in circolo
nella coclea. Nel caso di vibrazioni molto veloci, cioè per le alte frequenze, il passaggio dalla rampa vestibolare alla rampa timpanica
avviene in modo diretto attraverso la membrana basilare. Le onde prodotte mettono in moto la membrana basilare, che fa vibrare
l’organo di Corti. Quando le cellule cigliate si flettono al contatto della membrana tettoria, si stimola la generazione di impulsi
elettrochimici verso il cervello.

All’interno dell’organo di Corti, come


si vede nella figura, le CCI (1) e le
CCE (2) sono collocate da una parte
dall’altra del tunnel di Corti,
sostenuto dai pilastri di Corti. La
membrana tectoria, fluttuante
nell’endolinfa, ricopre le stereocilia
delle cellule ciliate. Le CCI sono
contornate da cellule di sostegno. Le
CCE sono saldamente ancorate sulle
cellule di Deiters e la sua membrana
laterale è in contatto diretto con la
corticolinfa che riempie il tunnel di
Corti e lo spazio di Nuel. La parte
apicale delle cellule ciliate, quella dei
pilastri interni e delle altre cellulare annesse come le Cellule di Hensen, formano la lama reticolare che isola il compartimento
endolinfatico. Le fibre nevose lasciano l’organo di Corti attraverso l’habenula perforata attraversando la membrana basilare.
La membrana basilare distingue tra le frequenze presenti in un suono complesso rispondendo in modo differente a seconda della
posizione lungo la membrana. Il diverso spessore e rigidità dalla base all’apice determinano la posizione sulla membrana per ogni
frequenza dell’udibile. Quindi, per un suono complesso, le frequenze si distribuiscono ordinatamente da n’estremità all’altra della
membrana: le alte frequenze alla base, le basse frequenze all’apice, verso l’elicotrema. La membrana agisce come un banco di filtri
passabanda basati sull’analisi di Fourier: ciascun filtro è accordato su una ristretta banda di frequenze. L’idea che l’orecchio agisse
come uno strumento a risonanza multipla fu alla base di molti studi fin dal XVII sec. Nel XIV sec, il fisico e fisiologo Hermann von
Helmholtz, ispirato dagli studi di Alfonso Corti sulla coclea, postulò l’esistenza di una serie di risonatori che analizzassero un suono
complesso nelle sue frequenze componenti. Anche se individuò il sito dei risonatori nelle fibre della membrana basilare, le sue
congetture sulla correlazione tra la lunghezza delle fibre individuali e le frequenze coperte non erano del tutto corrette. Resta valida
l’idea del funzionamento tonotopico della coclea, che postula il fatto che frequenze diverse stimolano regioni diverse della membrana
basilare e dell’organo di Corti. Gli studi condotti da Georg von Békésy negli anni ’60, che gli valsero il premio Nobel per la medicina,
associarono le frequenze alla varietà strutturale nella membrana basilare che, a partire dalla base, aumenta in massa, larghezza e
flessibilità. È per questo che le regioni più vicine all’apice vibrano in risonanza con le basse frequenze, mentre le regioni più vicine
alla base vibrano con le alte frequenze.
La regione che vibra in modo più vigoroso in corrispondenza di un suono stimola un alto numero di cellule cigliate in una determinata
area dell’organo di Corti, e quest’area manderà il più alto numero di impulsi al cervello. Dal sito di provenienza sulla membrana si
riesce a riconoscere la frequenza del segnale e quindi la sua altezza. Per le frequenze fino a 3kHz, anche la frequenza dello stimolo,
oltre al posto di provenienza, è un indicatore dell’altezza. Quindi il nervo uditivo trasporta l’informazione di tipo temporale e di tipo
spaziale. Per le alte frequenze solo la localizzazione sulla membrana sembra determinante.
L’intensità dei suoni viene determinata al livello della coclea a partire dall’ampiezza della vibrazione della membrana basilare, che
aumenta con l’intensità. Più ampia è la vibrazione, più cellule cigliate si flettono, generando così un maggior numero di impulsi nervosi.

Trasduzione delle vibrazioni acustiche

La trasduzione delle informazioni meccaniche in segnali elettrochimici è assicurata dalle cellule sensoriali. Queste ultime sono ricoperte
al loro polo apicale da tre file di stereocilia. Esistono due tipi di cellule ciliate, disposte da una parte e dall’altra del tunnel di Corti: le
cellule ciliate esterne (CCE) e le cellule ciliate interne (CCI).
Le CCE hanno il ruolo di amplificare l’onda sonora e le CCI quello di tradurre l’informazione sonora in messaggio nervoso. Mentre le
stereocilia delle cellule ciliate nuotano nell’endolinfa, il loro corpo cellulare è localizzato nel compartimento perilinfatico. Le stereocilia
sono in numero di un centinaio per cellula ciliata e sono disposte su tre file. Esse sono collegate tra loro da numerosi legami trasversali
e da legami terminali. Le stereocilia più lunghe delle CCE sono ancorate in una struttura amorfa che ricopre l’organo di Corti, la
membrana tectoria. Quest’ultima è composta da fibre collagene e da proteine.

Le cellule ciliate esterne, localizzate sul bordo esterno della spirale cocleare, sono organizzate in tre file e sono in numero di circa
16.000 per coclea nell’uomo. Da un punto di vista morfologico le CCE hanno una forma perfettamente cilindrica e la loro lunghezza
cresce regolarmente dalla base all’apice della coclea. La rigidità delle stereociglia varia dalla base all’apice in un rapporto di circa 1 a
10 per la prima fila e di circa 1 a 40 per la terza fila. Questa rigidità dipende dal senso di deflessione delle ciglia: è più alta per una
deflessione verso l’esterno rispetto all’asse della coclea. Queste misure permettono di valutare la frequenza di risonanza delle ciglia
delle CCE, tenendo conto del loro accoppiamento con la membrana tectoria. Questa frequenza di risonanza varia dalla base della coclea
al suo apice di un fattore 20 nella gamma delle frequenze udibili, ossia di 1,2-22 kHz nella cavia. Dopo una stimolazione sonora
rilevante una restitutio ad integrum della funzione ciliare è possibile entro limiti ragionevoli quando la funzione cellulare è normale. Il
nucleo delle CCE è localizzato alla base delle cellule, appena al di sopra del compartimento sinaptico che racchiude molti mitocondri.
Vi sono pochi dati sulla registrazione elettrica delle CCE in vivo poiché il posizionamento e il mantenimento di un micro elettrodo
intracellulare sono difficili. Queste difficoltà sono dovute alla scarsa fissità delle CCE nello spazio di Nuel, alla motilità delle CCE,
alle loro piccole dimensioni e alla resistenza alla penetrazione della loro parete laterale. Nella cavia la parte essenziale delle registrazioni
è stata effettuata nel terzo giro cocleare. Il potenziale a riposo intracellulare è negativo, compreso tra –53 m Ve –70 mV dall’apice alla
base. Sotto l’influenza di una stimolazione sonora le deflessioni posteriori delle stereociglia in un senso e poi nell’altro creano delle
serie di depolarizzazione (inclinazione delle ciglia verso l’esterno) e di iper polarizzazione (inclinazione delle ciglia verso l’interno).
In risposta a uno stimolo sonoro, è dunque possibile registrare due componenti elettriche sovrapposte: una componente continua che
riproduce l’aspetto dello stimolo acustico e una componente alternata che riproduce la sua frequenza. Sembra esistano importanti
variazioni delle proprietà elettriche delle CCE in funzione della loro posizione sulla membrana basilare.

Le CCI si distinguono dalle CCE per la forma a pera del loro corpo cellulare. Le CCI, in numero di 3 500 per coclea, sono situate sul
bordo interno dell’organo del Corti e sono disposte su una singola fila. Contrariamente alle CCE, le stereociglia sono disposte in linea
e non sono ancorate alla membrana tectoria. Il nucleo è in posizione mediana e la membrana plasmatica laterale è classica. Le CCI
sono le vere e proprie cellule sensoriali. Esse assicurano la trasduzione della vibrazione meccanica in segnale elettrico e il trasferimento
dell’informazione mediante la liberazione di neurotrasmettitore sulle fibre del nervo uditivo. Le zone attive delle CCI sono
caratterizzate dalla presenza di una struttura bastoncino. Questi corpi sinaptici sono ancorati alla membrana plasmatica e dove si
localizza il neurotrasmettitore delle CCI. Generalmente vi è un solo bastoncino per zona attiva e una decina di zone attive per CCI.
Ogni zona attiva è connessa mediante la terminazione di una singola fibra del nervo uditivo.
Le cellule presentano un potenziale di riposo negativo di –40 mV alla base e di –32 mV all’apice. Quando la cellula è stimolata da un
suono, presenta una risposta elettrica a due componenti. La componente continua riproduce lo sviluppo dello stimolo acustico mentre
la componente alternata ne segue la frequenza. Ogni CCI ha una risposta elettrofisiologica molto dipendente dalla frequenza del suono
che stimola. È possibile tracciare delle curve isoelettriche che presentano una selettività in frequenza molto forte, sia che la misura
venga eseguita sulla componente continua o sulla componente alternata della risposta. Queste curve di accordo sono paragonabili sia
a quelle ottenute studiando lo spostamento puramente meccanico della membrana basilare nel punto dove poggia la CCI che a quelle
ottenute studiando l’attività unitaria delle fibre afferenti che nascono sotto la cellula ciliata interna studiata.
L'inclinazione delle stereociglia nella direzione della fila più alta avviene quando la membrana basilare è spinta verso l'alto (ciò
corrisponde ad una estroflessione della staffa ed ad una fase di "rarefazione" della forma d'onda acustica), e ciò causa un influsso di
K+ nella cellula cigliata, diretto dal gradiente di potenziale di 130 mV. L‘afflusso di ioni positivi all'interno della cellula (-50 mV) ne
provoca la depolarizzazione. Al contrario, la deflessione delle stereociglia in direzione opposta causa un aumento della polarizzazione,
perché i canali del K+ aperti in fase di riposo, vengono ostruiti, aumentando la negatività del bilancio ionico intracellulare. Gli ioni K+
entrano nella cellula attraverso canali disposti sulla parete delle stereociglia. L'apertura e la chiusura di questi canali seguirebbe un
regime probabilistico. Ponti fibrillari ("tiplinks") che congiungono la parte intermedia di un ciglio con l'apice di un ciglio più corto
adiacente, permettono di aprire con un meccanismo a molla i canali del K+, quando l'apparato ciliare si piega in direzione delle ciglia
più alte.

La flessione delle ciglia provoca la comparsa del


potenziale del recettore e Lo spostamento delle ciglia
verso le strie vascolari, apre i canali cationici. K+
entra e la cellula ciliata è depolarizzata. La chiusura
dei canali K+ interviene prima che le ciglia ritornino
verso il modiolo (iper polarizzazione).

Il movimento di taglio della membrana tectoria provoca la deflessione delle stereociglia delle CCE, impiantate nella membrana tectoria
stessa. Il movimento delle stereociglia favorisce l’apertura dei canali cationici non specifici situati ad ogni estremità delle stereociglia.
Questa è una trasduzione meccano-elettrica. Messa in gioco dei meccanismi attivi le CCE, depolarizzate dall’ingresso di potassio, si
contraggono. Questa contrazione modifica l’accoppiamento tra la membrana basilare e la membrana tectoria e amplifica localmente le
vibrazioni della membrana basilare grazie ai meccanismi attivi, permettendo l’acquisizione di una tonotopia molto sottile. Questa è una
trasduzione elettromeccanica. Il funzionamento della CCE si basa quindi su una doppia trasduzione meccano elettrica e poi
elettromeccanica. Stimolazione delle CCI: Analogamente alla CCE, la CCI che corrisponde alla frequenza di stimolazione è attivata in
risposta alla deflessione delle sue stereociglia. A differenza delle CCE le stereociglia delle CCI, più grandi, non sono ancorate alla
membrana tectoria: la deflessione delle stereociglia delle CCI è favorita dal contatto diretto con la banda di Hensen della membrana
tectoria. L’apertura dei canali meccano-sensibili determina l’ingresso di potassio e conseguentemente depolarizza la CCI. Liberazione
del neurotrasmettitore. Le cinetiche di attivazione e di desensibilizzazione di questi recettori sono molto rapide, il che permette una
risposta delle fibre del nervo uditivo appropriato allo stimolo acustico. Un messaggio nervoso sarà allora veicolato dai neuroni uditivi
di tipo I e inviato verso il sistema nervoso centrale.

I messaggi uditivi sono veicolati sotto forma di potenziali delle fibre afferenti di tipo I del nervo cocleare, che unisce la coclea al nucleo
cocleare nel tronco cerebrale. L’informazione camminerà fino alla corteccia uditiva. Su diversi piani del sistema uditivo esistono delle
decussazioni: queste consentono tra l’altro ai dati provenienti dalle due orecchie di essere raggruppati e confrontati. Per capire ciò che
i centri uditivi potranno estrarre come informazione e per anticipare il modo in cui una sordità neurosensoriale, il più delle volte di
origine cocleare, va a provocare disturbi di comprensione, è necessario determinare la natura del o dei codici veicolati. I messaggi
acustici sono stati smistati dalla coclea prima di tutto sulla base del loro contenuto in frequenze. Quando diversi picchi spettrali sono
presenti nel suono da codificare, l’elevata selettività del sistema membrana basilare e CCE si manifesta con la presenza di risonanze
molto fini. I neuroni connessi con le CCI di questo punto hanno quindi un attivismo intenso che i loro vicini non hanno. Il tasso per
unità di tempo di potenziali d’azione veicolati in un neurone uditivo codifica per l’intensità della componente spettrale che fa rispondere
il neurone. Il comportamento compressivo della membrana basilare insieme alle CCE (crescita da 0,2 a 0,3 dB/dB di aumento del
suono esterno) offre una prima soluzione per aumentare la dinamica neuronale. La seconda soluzione è fornita dalla coesistenza di
neuroni di bassa e alta attività spontanea. Poiché il tasso di potenziali d’azione per secondo, considerato globalmente, codifica per
l’intensità sonora, ci si può interrogare sulle informazioni che la struttura fine dei potenziali d’azione può veicolare. Alle frequenze
superiori a 3 kHz, questa non rappresenta in niente la struttura fine temporale dell’onda di pressione da codificare, poiché i periodi
refrattari dei neuroni sono troppo lunghi per permettere a un sincronismo (o phase locking) di verificarsi. A frequenza più bassa la
probabilità di presenza di un potenziale d’azione tende invece, a presentare un’oscillazione sinusoidale che riproduce quella del suono,
con un massimo che corrisponde a una fase precisa dell’oscillazione. Questa capacità di sincronismo di fase si manifesta a livello della
popolazione neuronale che risponde a un suono, piuttosto che a livello di un neurone individuale i cui potenziali di azione possono
«essere privi di» uno o di diversi periodi del suono incidente. Ciò ha due conseguenze sul piano delle informazioni codificate. La prima
è che vi sia una possibilità di codificazione delle basse frequenze complementare a quella basata sul principio di tonotopia. Questa
nuova possibilità, di natura temporale, consiste nel prendere in considerazione il periodo medio dei potenziali d’azione. In caso di
patologia invece, gli indici temporali sono spesso più consistenti di quelli tonotopici, che sono molto degradati in caso di sordità con
lesione delle CCE. In presenza di rumore aleatorio sembra anche che gli indici temporali possano essere i soli conservati. È stato
recentemente dimostrato che la percezione di altezza è molto alterata in caso di discordanza importante tra tonotopia e periodicità: ciò
può spiegare le difficoltà tipiche dei soggetti con impianti cocleari per quanto riguarda la percezione dell’altezza e della musica. Il
centro uditivo responsabile dell’elaborazione è a volte identificato chiaramente. In altri casi sono senza dubbio implicati diversi piani
del sistema uditivo. In cima alla scala si trovano i meccanismi di comprensione della parola, implicati nella comunicazione parlata,
tanto essenziali per la specie umana.
In conclusione, tutto ciò che abbiamo descritto è perlopiù la fisiologia dell'orecchio. Poco si sa di cosa succede dall'istante in cui i
segnali lasciano il nervo cocleare, e cominciano il loro viaggio di qualche millisecondo verso la corteccia. Il segnale viene elaborato in
più stadi, e viene miscelato con il segnale che arriva dall'altro orecchio.
5. BANDE CRITICHE E MASCHERAMENTO

Il nostro apparato uditivo si comporta come un analizzatore di Fourier e percepisce le componenti individuali di un suono distribuendole
lungo la membrana basilare della coclea. È un dispositivo meccanico di trasduzione tra la frequenza del segnale e la posizione del picco
di vibrazione sulla membrana. Tuttavia il picco di vibrazione interessa una regione che, sebbene limitata, non è un punto infinitesimo
sulla membrana: poiché invece ha una dimensione, più frequenze ravvicinate ricadono in una stessa regione, causando imprecisioni
nella percezione delle singoli componenti. Considerando la membrana basilare come un banco di filtri accordato su frequenze diverse,
le capacità discriminatorie del nostro apparato uditivo non sono assolute, ma dipendono dalla acutezza dei filtri. Il fenomeno
psicoacustico che ci consente di rilevare l’ampiezza di banda dei filtri uditivi lungo la membrana basilare è detto mascheramento. Il
mascheramento è quel fenomeno per cui un segnale forte maschera un segnale debole. Nella vita quotidiana ciò si verifica quando non
si riesce ad ascoltare qualcuno che bisbiglia se contemporaneamente qualcun altro sta urlando nella stessa stanza. Un effetto analogo
avviene nella radio, quando una stazione potente impedisce la ricezione di una stazione debole, se in una frequenza vicina. Nella
letteratura psicoacustica tradizionale sono stati condotti estesi studi con esperimenti di mascheramento, e l’ampiezza di banda con cui
lavorano i filtri uditivi ha assunto il nome di banda critica. La banda critica rappresenta la gamma di frequenze all’interno della qual
si verificano i fenomeni di mascheramento: l’idea generale è che i suoni possano essere discriminati perfettamente dal nostro apparato
uditivo solo quando ricadono in differenti bande critiche: quando ricadono nella stessa banda critica, la discriminazione diventa più
difficile, ed è possibile solo in determinate condizioni. Nel caso di un suono complesso, lo stesso discorso vale per le componenti
parziali, che possono essere udite tutte senza problemi solo se in bande critiche differenti; nel caso in cui due parziali ricadano in una
stessa banda critica, una potrebbe mascherare l’altra. Inoltre, la presenza di rumore con un’ampiezza di banda che copre una banda
critica contribuisce al mascheramento dei toni presenti nella medesima banda.

Per capire meglio facciamo un esempio dato da un esperimento effettuato su alcune persone: consideriamo un tono puro a 2000 Hz, in
condizioni di perfetto silenzio e l’intensità sonora viene aumentata dieci volte di 5 dB, i soggetti che partecipano all’esperimento sono
in grado di cogliere tutti e dieci gli aumenti di intensità; ma in presenza di rumore a banda larga, i soggetti sperimentali sono in grado
di percepire solo cinque dei dieci aumenti di intensità a causa del mascheramento dato dal rumore. Restringendo l’ampiezza di banda
del rumore a 1000 Hz, e poi a 250 Hz, non si nota alcun cambiamento: i soggetti percepiscono sempre solo 5 aumenti di intensità.
Infatti la banda critica in cui ricade il tono da 2000 Hz è ampia proprio 250 Hz, quindi il rumore copre ancora la banda critica. Scendendo
a 10 Hz di larghezza di banda del rumore, finalmente si possono udire più di 5 cambi di intensità, in quanto ora il rumore ha una banda
più stretta della banda critica, e quindi ha un’inferiore capacità di mascheramento.

I suoni puri con frequenze sufficientemente vicine danno luogo al fenomeno dei
battimenti. Questa gamma di frequenza è chiamata larghezza di banda critica. Quando
le componenti di frequenza sono separate d una distanza maggiore della larghezza di
banda critica, allora le possiamo ascoltare separatamente.

Nel tratto in cui, sul grafico logaritmico, la relazione tra banda critica e frequenza è circa
lineare, si può scrivere in forma matematica: Δf = Afn, dove A= 0.3 e n= 0.9.
In termini delle posizioni lungo la membrana basilare, la banda critica corrisponde lungo
la membrana basilare, la banda critica corrisponde ad una distanza tra i siti stimolati di
circa 1.3mm.
I filtri a 1/3 di ottava visti precedentemente, rappresentano una semplificazione
normalizzata del concetto di banda critica, infatti hanno la funzione di misurare, nel
campo dell’udibile, i valori efficaci della pressione sonora in cui è proporzionale la
sonorità sperimentata.

La banda critica potremmo descriverla come un gruppo di frequenza, all’interno delle quali la sonorità è funzione unicamente della
somma di potenze o valore efficace delle componenti contenute nella banda. Il campo uditivo è diviso in 25 bande critiche, delle quali
la prima si ricostruisce sommando in potenza i primi 6 terzi di ottava da 25 a 80 Hz; la seconda sommando i 3 terzi da 100 a 160 Hz,
la terza sommando i terzi dei 200 e 250 Hz. Per valutare a quale separazione in frequenza due suoni di frequenza f1 e f2 iniziano ad
essere indistinguibili, basta sommare a quello inferiore e sottrarre a quello superiore metà delle rispettive bande critiche. La soglia di
non separabilità si raggiunge quando i due valori vanno a coincidere:
f1 + Δf/2 = f2 – Δf/2, avendo prese per semplificare: Δf1 = Δf2 = Δf. Durante tale operazione di accostamento delle frequenze, il carattere
del suono percepito muta gradualmente, presentandosi più ruvido, con un massimo di alterazione quando la separazione in frequenza
vale circa un quarto della banda critica. All’aumentare del modulo di Δf oltre i 15Hz, la sensazione di battimento scompare, lasciando
il posto a una sensazione sgradevole di ruvidità (roughness). Quando Δf supera in modulo la grandezza ΔfD (soglia di discriminazione)
i due suoni risultano distinguibili, pur esistendo ancora la sensazione di ruvidità del suono. Solo quando il modulo di Δf supera una
seconda soglia Δf CB, la sensazione dei due suoni distinti risulta netta e piacevole. La grandezza 2ΔfCB è chiamata banda critica. La
discriminazione del pitch ΔfD e la banda critica Δf CB dipendono dalla frequenza centrale. Dalla figura si può vedere anche come alcuni
intervalli musicali siano consonanti o dissonanti a seconda della frequenza centrale (semitono, tono e terza minore hanno rapporti di
frequenza rispettivamente pari a 16/15, 9/8 e 6/5). Si noti come l’intervallo di mezzo tono è dissonante su tutta l’estensione delle
frequenze, mentre l’intervallo di terza minore risulta dissonante solo al di sotto dei 600 Hz circa. Si può notare, infine, che fra JND e
bande critiche vale la relazione approssimata: ΔfCB= 30JND.
Una banda critica corrisponde a circa 1.3 mm di membrana basilare e a circa 1300 ricettori.
L’introduzione alle bande critiche permette di misurare la frequenza in un modo
che sia uniforme dal punto di vista percettivo. Si usa come unità la larghezza
delle bande critiche. La larghezza delle bande critiche stimata corrisponde a una
nozione di banda rettangolare equivalente, che simula l’inviluppo della
vibrazione con una banda rettangolare, questo perché la forma del filtro uditivo
non è semplicemente un rettangolo ed è per questo motivo che è più conveniente
l’uso del Equivalent Rectangular bandwidth (ERB), in pratica è la larghezza di
banda di un filtro rettangolare che dà la stessa trasmissione di potenza si un filtro
uditivo. La scala che si utilizza in psicoacustica per identificare l’unità di misura
della larghezza di banda è la scala Bark, proposta da Eberhard Zwicker nel 1961,
la quale prende il nome da Heinrich Barkhausen che propose la prima misura
soggettiva del loudness.

La capacità di distinguere tra due stimoli pressoché uguali è spesso caratterizzata, negli studi psicofisici, da una misura di minima
differenza apprezzabile (just noticeable difference, JND). Due stimoli sono giudicati uguali se differiscono per meno del JND. In
psicoacustica si incontrano misure di JND per molte delle sensazioni uditive. Gli studi sulla percezione del pitch hanno mostrato che
il JND di frequenza dipende, oltre che dal valore di frequenza iniziale dello stimolo, anche dall’intensità sonora, dalla durata e dalla
velocità di variazione della frequenza (per cambiamenti improvvisi le soglie si abbassano anche di 30 volte). La figura mostra il JND
medio per suoni puri al variare della frequenza. Si può notare che la risoluzione di frequenza (definita come JND/fc, con fc frequenza
centrale) è massima intorno ai 2000 Hz e raggiunge il suo minimo alle basse frequenze.
Dal seguente audiogramma viene descritta la variazione di
un tono con il livello di volume: il numero su ciascuna
curva rappresenta il livello di volume in phones, sulla scala
verticale viene letta la variazione di intonazione prodotta
da una variazione del volume da 40 phones, eccetto per il
livello a 12 foni, la variazione massima si verifica a circa
100 cps.

Questo audiogramma funziona correttamente per i suoni


per i quali è stato determinato sperimentalmente, quindi
per i toni puri, che rappresentano una classe molto ristretta
nel campo dei fenomeni sonori. Ogni tentativo di utilizzare
i dati contenuti nell'audiogramma, per la caratterizzazione
della percezione auditiva nei confronti dei suoni complessi,
risulta vano. Ad esempio se si analizza il contenuto
spettrale di un suono complesso e per ciascuna riga dello spettro (ovvero per bande di frequenza abbastanza ristrette da poterle
assimilare ad una riga) si calcola il livello equivalente in phon utilizzando l'audiogramma normale e poi si combinano linearmente i
risultati parziali per risalire alla sensazione sonora del suono complesso, si ottiene un risultato che, sottoposto al vaglio di una prova
soggettiva d'ascolto, risulta errato.
Il motivo per cui non risulta valido il principio di sovrapposizione degli effetti dipende dalle caratteristiche intrinseche del meccanismo
di percezione auditiva. Uno dei fenomeni più evidenti che interviene quando vengono percepiti più suoni contemporaneamente consiste
nel fatto che ciascun suono non conserva totalmente la sua individualità nei confronti della percezione. Il fenomeno prende il nome di
mascheramento acustico o mascheramento uditivo. Questo fenomeno può essere descritto genericamente come un disturbo all'ascolto
di un suono desiderato (suono mascherato) da parte di un altro suono disturbante (suono mascherante).
La soglia di mascheramento di un tono, detto tono mascherato, è il livello di intensità al quale esso si riesce ad ascoltare anche in
presenza di un altro tono, detto tono mascheratore. Ovviamente la soglia di mascheramento varia con il livello del tono mascheratore.
La quantità di energia che viene mascherata è la differenza tra la soglia di mascheramento e la soglia assoluta di udibilità. Questo
fenomeno può essere spiegato considerando appunto due toni puri di nota frequenza e intensità. Se uno dei sue suoni ha un livello tale
da essere appena udibile, cioè il suo livello è pari al livello di soglia Ls, non appena ad esso si sovrappone il secondo tono, esso viene
totalmente mascherato per un livello sufficientemente elevato del suono mascherante. Per distinguere nuovamente la presenza del tono
mascherato è necessario innalzare il suo livello fino ad un valore Lm (soglia mascherata d’udibilità) per il quale si raggiungono le nuove
condizioni di soglia. Si assume quindi come valutazione quantitativa del mascheramento la differenza M, espressa in dB, fra i due
livelli di soglia, in presenza e in assenza del tono mascherante: M= Lm – Ls.
Il mascheramento può essere di due tipi, ovvero il mascheramento tonale e quello non tonale: il mascheramento tonale avviene quando
nello spettro del suono mascheratore è possibile individuare un tono, mentre quello non tonale, avviene quando il suono mascheratore
è una forma di rumore a banda più o meno larga in cui non è possibile individuare un tono specifico.

• Mascheramento di un tono da parte di un suono complesso:


• Mascheramento tonale:

Prendiamo ora in considerazione il diagramma qui affianco, il quale


rappresenta il mascheramento operato da un suono puro di 400 Hz
a 80, 60 e 40 dB. La soglia di mascheramento è data dalla curva
continua e riguarda i suoni di frequenza compresa nella gamma
sottesa dalla curva, ovvero quelle frequenze che corrispondono con
l’asse delle ascisse. In altre parole, tutti i suoni al di sotto della curva
non possono essere uditi in presenza del tono considerato.
Qualitativamente, si può notare che i toni di 400 Hz mascherano
suoni che hanno un’ampiezza inferiore e l’estensione del
mascheramento è maggiore per frequenze superiori al tono
mascheratore che per quelle inferiori. Ad esempio, in presenza del
suono a 400 Hz e 80 dB, sarà necessario che un suono a 100 Hz sia
forte almeno 40 dB per essere udito.

• Mascheramento non tonale:

Il diagramma qui a destra rappresenta il mascheramento operato da un rumore di 90


Hz di banda centrato sui 410 Hz. Il mascheramento imposto dal rumore alza la soglia
di udibilità rispetto al mascheramento tonale, ma il mascheramento tonale è più
efficace per le frequenze più alte.

• Mascheramento di un tono da parte del rumore bianco:


• Mascheramento in frequenza:

Un suono puro abbastanza forte crea una maschera in


frequenza: un altro tono che stia sotto tale maschera diviene
inudibile. La maschera è asimmetrica ed ha maggior estensione
a frequenze più alte del tono mascherante.

• Mascheramento temporale:

Dopo un suono forte, per un po’ di tempo, il sistema


uditivo rimane meno sensibile, come mostrato dalla
“curve di mascheramento” di Zwicker. La curva
dipende dalla durata dell’impulso sonoro forte e
dalla sua frequenza. Il premasking rappresenta un
effetto imprevisto perché appare durante un periodo
all’accensione del masker. Ciò non significa che il
nostro sistema uditivo sia in grado di ascoltarlo in
futuro. Piuttosto, l’effetto è comprensibile se ci si
rende conto che ad ogni sensazione, incluso il
premasking non esiste istantaneamente il tempo per
essere percepito. Se ipotizziamo un tempo di accumulo più lento per deboli suoni di prova deboli, allora possiamo capire perché esiste
il premasking.

• Mascheramento simultaneo:

6. PATOLOGIA AUDIOLOGICA

• Sordità psichica: non riconoscimento del significato dei suoni. Il soggetto indica solo la presenza di suoni indifferenziati,
oppure confonde un suono con un altro, o tutti i suoni gli appaiono simili. L’intensità del suono viene ben differenziata, ma
non la qualità. Nella grande maggioranza dei soggetti la sordità psichica è caratteristica di lesioni dell’emisfero non
dominante, cioè il destro.

• Amusia: Una perdita o deficit della percezione, del ricordo o della esecuzione della musica. Il soggetto presenta impossibilità
di discriminare i suoni, di riconoscere un accordo, una musica o un canto. La musica acquista sgradevolezza, diventando
rumore. Dal punto di vista anatomico corrispondono lesioni al temporale medio destro e sinistro.

• Sordità verbale pura: disturbo limitato al riconoscimento dei suoni connessi al linguaggio. Il soggetto non capisce quello
che gli viene riferito ad alta voce, non può scrivere sotto dettatura ma il suo linguaggio spontaneo sarà perfetto. Dal punto di
vista anatomico la lesione si colloca in regioni unilaterali sinistre.
7. LOCALIZZAZIONE SONORA

Come abbiamo accennato, il nostro sistema uditivo ha due compiti: il primo è la comprensione del messaggio sonoro e il secondo è la
ricostruzione della mappa spaziale delle sorgenti sonore. In questo paragrafo trattiamo il secondo compito, il quale tratta due esperienze
distinte: la localizzazione delle sorgenti sonore e la caratteristica dell’ambiente che ci circonda. La localizzazione sonora è stato
probabilmente il primo uso dell’udito dal punto di vista evolutivo, ancor prima dell’identificazione degli oggetti sonori, essendo
necessaria per integrare le informazioni sull’ambiente circostante che provenivano dalla vista. Ancora oggi, nella vita di tutti i giorni
ci sono molte esperienze uditive di tipo spaziale, si pensi solo a quando si percepisce di essere chiamati da una persona posizionata in
un determinato punto della stanza o l’arrivo di un auto mentre si è vicino alla strada e tanti altri. L’udito è particolarmente importante
perché rappresenta il solo organo di senso che ci informa sugli eventi fuori dal nostro campo visivo. A differenza dello spazio visivo,
lo spazio uditivo è caratterizzato dalla sua evanescenza (il suono scompare rapidamente) e dall’aspetto evolutivo degli elementi sonori
nel tempo, in pratica è uno spazio spazio-temporale. La localizzazione spaziale dell'origine dei suoni è possibile grazie alla presenza
delle due orecchie, che percepiscono i suoni con differenze di fase o di intensità in base alla loro posizione rispetto alla fonte. Se le
prestazioni più precise dipendono dalla comparazione tra le informazioni pervenute a ciascuna delle due orecchie, esistono dei
meccanismi strettamente monoaurali che partecipano alla percezione dello spazio uditivo. L'udito binaurale consente quindi la
localizzazione nel campo libero di sorgenti primarie. Inoltre, dopo aver raddoppiato la superficie dei sensori timpanici, migliora anche
l'udito abbassando la soglia uditiva di 3dB rispetto all'udito monofonico. L'udito binaurale contribuisce ugualmente a focalizzare la
nostra attenzione uditiva su una particolare sorgente, contribuendo al miglioramento delle prestazioni in un ambiente rumoroso o
quando diverse fonti sonore sono in competizione.
Per stabilire la percezione oggettiva dello spazio sonoro dell’ascoltatore si
può far riferimento a tre direzioni principali: la lateralità, indicata con
azimut, l’altezza, o elevazione, e la profondità di origine del suono, perché
la nostra percezione dipende anche dalla sua posizione d’origine nello
spazio uditivo. I fattori che influenzano la percezione della lateralità è
significativamente migliorata dall’ascolto binaurale, grazie alle piccole
differenze degli stessi messaggi sonori raccolti da ciascun orecchio quando
la sorgente non si trova sull’asse di simmetria della testa. Le differenze
possono essere: la differenza di livello tra le pressioni acustiche ricevute,
la differenza di livello derivante il fenomeno di diffrazione del suono
intorno alla testa, ovvero l’effetto ombra e la differenza nei segnali dal
tempo di arrivo alle orecchie, che si traduce con un a differenza di fase.
Per spiegare la differenza del livello di pressione sonora prendiamo in
considerazione una sorgente sonora posta lateralmente rispetto alla testa, il
percorso dell’onda acustica è più lungo per raggiungere l’orecchio sul lato opposto alla fonte sonora. Infatti se pensiamo ad un’onda
sferica, la pressione acustica è inversamente proporzionale alla distanza sorgente-ricevitore, possiamo osservare un’attenuazione del
livello causato dalla distanza extra da percorrere. Tuttavia, questa differenza è molto bassa, circa meno di 1 dB e quindi quasi
impercettibile, a meno che la fonte non sia molto vicina all’ascoltatore.
Se pensiamo al principio di Huygens-Fresnel, possiamo capire l’influenza della diffrazione, chiamato effetto ombra; ogni punto di
uno ostacolo raggiunto da un’onda diventa una fonte secondaria che riemette onde identiche. Queste onde interferiscono l’una con
l’altra, in modo costruttivo o distruttivo secondo il punto di misura dello spazio scelto. L’ostacolo diffrange l’onda. Possiamo notare
che al di là dell’ostacolo alcune porzioni di spazio conterranno delle onde rinforzate, questo spazio sarà il ventre del fenomeno della
diffrazione, mentre altre saranno vuote, come i nodi nel fenomeno della diffrazione. Inoltre questo principio spiega che un’onda rispetto
alle dimensioni dell’ostruzione è essenzialmente riflesso da quest’ultimo, mentre un’onda di lunghezza d’onda maggiore rispetto alle
dimensioni dell’ostacolo saranno diffratte e lo supereranno. Questo principio dunque, è applicabile a ciò che succede quando
l’ascoltatore riceve un’onda acustica: la testa e il tronco fungono da ostacolo formando un effetto ombra. Considerando che le lunghezze
d’onda delle onde acustiche udibili sono comprese tra circa 2m e 0.02m, le onde gravi, essendo che l’ostacolo è più piccolo della
lunghezza d’onda, verranno diffratte, mentre le onde acute, essendo che l’ostacolo è maggiore della lunghezza d’onda, saranno riflesse.
Le onde corrispondenti ai toni bassi potranno quindi facilmente contornare l'ostacolo, formato dalla testa e i tronco, per diffrazione, e
raggiungeranno entrambe le orecchie, mentre le onde corrispondenti ai suoni acuti saranno riflesse indietro o assorbite dall’ostacolo.
Di conseguenza, a causa di questa differenza di comportamento, eseguendo l’orientamento della sorgente in relazione all'asse della
testa, la pressione sonora al livello delle due orecchie non è identica per le alte frequenze e per le basse frequenze. Il differenziale di
pressione tra le due orecchie è importante per i suoni acuti. C'è quindi un effetto ombra del tronco e della testa a partire da una certa
frequenza critica. In pratica, la frequenza critica da
cui inizia l'assenza di diffrazione, comincia a
produrre i suoi effetti ad una lunghezza d'onda
molto maggiore delle dimensioni della testa. Le
misurazioni mostrano che l'effetto di attenuazione
dovuto all'ombreggiamento è piuttosto trascurabile
per frequenze molto gravi (minori di 200 Hz,
lunghezza d'onda di 1.7m); l'attenuazione diventa
importante a partire da 3-4 kHz e raggiunge un
valore da 12 dB a 15 dB a 10 kHz.
Per una sorgente sonora situata al di fuori dell’asse
di simmetria della testa, la differenza di percorso acustico traduce in una differenza Δt nei tempi di arrivo dello stesso messaggio sonoro
a livello delle due orecchie. Questa differenza causa una diversità di fase tra le onde ricevute dalle due orecchie. Per una sorgente
situata in una direzione ad un angolo θ rispetto all'asse e assimilando la testa a una sfera, possiamo facilmente stimare il ritardo in
funzione dell’angolo. La distanza supplementare da percorrere per l'onda che deve aggirare la testa è la somma di un segmento di linea
di lunghezza d, e un arco del cerchio di lunghezza d2. La differenza di tempo di arrivo tra le due orecchie vale:
Questo ritardo tra le due orecchie, anche se rimane molto piccolo in termini di ritardo, può diventare importante in termini di fase.
Infatti quando la frequenza del segnale supera i 1500 Hz, la differenza di fase è maggiore di 360° e non è più possibile sapere quale
orecchio verrà raggiunto per primo. In sintesi, la percezione della lateralità del suono dipende da:
• Molto poco dalla differenza di pressione a causa delle distanze dalla sorgente da entrambe le orecchie ma molto più dalla
differenza di pressione creata dall'effetto ombra dovuto all'assenza di diffrazione delle onde da parte della testa; questa
differenza appare soprattutto per le frequenze alte;
• La percezione della differenza di fase. Questa percezione è possibile solo per frequenze inferiori a 1,5 kHz. Al di sopra di
questa frequenza c'è confusione;
• All'interno della gamma di frequenze da 1,5 a 4 kHz, la percezione della lateralità è più difficile perché le frequenze sono
troppo alte per la differenza in fase e troppo basse perché l'effetto ombra sia ancora più efficace della diffrazione.

La soglia minima di discriminazione angolare udibile nell'asse della testa è da 1°a 2°. Come mostrato nella figura sottostante,
l'accuratezza della posizione dipende anche dall'angolo di incidenza della sorgente. La precisione della posizione di una sorgente che
si muove attorno a un osservatore diminuisce notevolmente quando si trova sul lato della testa. La sorgente posizionata a 90°è
localizzata intorno a 80°con un'incertezza dell'ordine di 20°.

Nell’ambito della psicoacustica la differenza di tempo è nota come interaural time difference ITD e la differenza di intensità con
interaural intensity difference IID.
Un altro aspetto che contribuisce alla localizzazione sonora è la percezione dell’elevazione per una sorgente che si muove sul piano
verticale. Quest’ultimo diventa significativo solo per i suoni acuti, precisamente alle frequenze superiori di 5 kHz, grazie alla
diffrazione nell’orecchio esterno, in particolare sul padiglione. Ad esempio, osserviamo un’amplificazione di 6 dB se una sorgente a 5
kHz si eleva di 60°. La localizzazione nel piano verticale è quindi molto più difficile e più imprecisa rispetto alla posizione nel piano
orizzontale. L’incertezza della localizzazione raggiunge i 15°-20° per una sorgente situata sopra la testa. L’esperienza mostra, tuttavia,
che per una sorgente grave posta alla stessa altezza si una sorgente acuta, quest’ultima sarà percepita soggettivamente con una più
elevate posizione rispetto a quella di bassa frequenza.
L’ultimo aspetto che aiuta a localizzare la sorgente sonora è la profondità, ma la dipendenza dalla distanza non è lineare. Tendiamo
sempre a sottostimare le distanze delle sorgenti. È generalmente accettato che per dare la sensazione del raddoppio della distanza, che
normalmente corrisponde a un calo di livello di 6 dB, il livello di intensità deve essere ridotto di 20 dB. Quando un ascoltatore si
allontana da una sorgente sonora, il rapporto tra suono diretto e suono riverberato diminuisce. Questo decadimento relativo costituisce
un indice di localizzazione di profondità maggiore di quello del solo decadimento relative al suono diretto. Inoltre la profondità è
influenzata dal tempo di arrivo all’ascoltatore che consente di percepire la diffusione spaziale delle fonti, ad esempio, ascoltare la
sezione degli archi da una sensazione di occupare lo spazio, la contrario di quando si ascolta un solista, percepito come una fonte
puntiforme. La densità spettrale di un segnale sonoro varia durante la sua propagazione in funzione dell’assorbimento di segnale delle
basse e alte frequenze: le frequenze alte sono più assorbite dall'aria, e la
sorgente remota conterrà meno alti di una fonte vicina. In particolare, gli
esperimenti hanno dimostrato che in un campo libero, i suoni il cui
contenuto di frequenza è inferiore a 2 kHz sembrano più distanti rispetto ai
suoni con frequenze più alte. La figura a fianco mostra i risultati della stima
(in campo libero) della distanza di una voce maschile sussurrata (con uno
spettro essenzialmente acuto) rispetto a quello di una voce maschile parlata
normalmente con ampio spettro (cioè, anche con frequenze basse). Si
osserva che la percezione della distanza di una voce Sussurrata è sotto
stimata: l’acuto appare più prossimo. Si può dedurre che è possibile creare
la sensazione di una sorgente sonora vicina o lontana artificialmente
mediante un filtraggio appropriato.

Tutti questi indizi sul filtraggio spettrale si possono riunire in una sola misura zione che riguarda la funzione di trasferimento in
relazione alla testa (head related transfer function - HRTF). La HRTF descrive tutti i cambiamenti che occorrono alle nostre orecchie
rispetto alla forma d'onda, alla fase e all'ampiezza, mentre la sorgente sonora si muove rispetto all'ascoltatore o viceversa. La
misurazione delle HRTF avviene registrando i segnali con microfoni posti in una delle posizioni tipiche intorno all' orecchio:
all'ingresso del meato uditivo, dentro il meato uditivo, al timpano. In quest' ultimo caso, in cui l'informazione fornita dalle HRTF tiene
anche conto del filtraggio operato dai padiglioni auricolari e dal canale, si usa una testa finta, cioè un manichino. Esistono molti modelli
di testa finta che danno risultati più o meno accurati: di fatto, le misurazioni devono svolgersi in condizioni di controllo assoluto sui
rumori nell' ambiente, in quanto lo scopo dell'investigazione coinvolge soprattutto la differenza tra i segnali alle due orecchie e tra
ciascuno dei due segnali rispetto al segnale emesso dalla sorgente. Analizzando i dati delle HRTF si possono ricavare indicazioni
interessanti sul filtraggio effettivo che avviene sulle sorgenti dislocate nello spazio intorno all' ascoltatore. Di solito le sorgenti poste
dietro rivelano un povero contenuto di alte frequenze (probabilmente dovuto all'orientamento del padiglione); esiste evidenza
sperimentale che alcune regioni (bande) dello spettro vengano enfatizzate in determinate direzioni (una banda intorno agli 8 kHz per
sorgenti posizionate sopra la testa, le bande 300-600 Hz e 3000-6000 Hz per suoni frontali, bande intorno a 1200 e 12.000 Hz per suoni
posizionati dietro). Insomma, le HRTF, associate con la ITD, aiutano a localizzare le sorgenti sonore. Tuttavia, studi che analizzano la
forma dei padiglioni e la corporatura tra più individui rivelano che le HRTF sono molto difficili da generalizzare. Nelle applicazioni di
spazializzazione del suono risulta molto difficile usare le HRTF di qualcun’altro: infatti le capacità di localizzazione sono molto ridotte
quando la spazializzazione si basa sulle HRTF derivate dallo studio di un altro individuo, e questo anche se la forma delle spalle e del
corpo, nonché del padiglione, sono molto simili (il fenomeno si verifica anche immettendo direttamente il segnale nel canale uditivo,
superando il filtraggio aggiunto del padiglione dell'utente). Nonostante vi siano stati sforzi notevoli per una caratterizzazione delle
HRTF indipendente dagli individui (una sorta di generalizzazione), non si sono avuti risultati finali, anche perché gli individui si
possono classificare proprio per una diversa abilità nella localizzazione. Sembra comunque che il processo di formazione delle HRTF
segua lo stesso procedimento per tutti.
Ora complichiamo lo scenario ammettendo più di una sorgente sonora; in particolare, di notevole interesse per le applicazioni di
spazializzazione del suono è la situazione in cui due sorgenti sonore simili sono in posizioni diverse. In questo caso la percezione si
basa principalmente suono sul cosiddetto effetto di precedenza (o legge del primo fronte d’onda) per cui viene percepita una direzione
che corrisponde all'incirca alla prima sorgente che arriva alle orecchie (entro certi limiti che stiamo per precisare). L'effetto fu scoperto
dallo scienziato tedesco Helmut Haas (spesso infatti l'effetto è anche denominato effetto Haas o legge di soppressione dell'eco), che
determino cosa accadeva nella percezione del parlato in presenza di un'eco singola. L’eco doveva essere molto più forte del primo
suono prima di poter essere percepita come ugualmente forte; e l'aumento di ampiezza doveva essere superiore man mano che il ritardo
temporale diminuiva. L'effetto di precedenza opera in presenza di ritardi interaurali anche superiori al massimo ITD di 0,65 msec:
suoni simili che arrivano con una differenza fino a 30-50 msec tendono a essere fusi assieme, e non si ha che uno sia l'eco dell'altro. Il
ritardo temporale consentito dipende dalle caratteristiche della sorgente sonora: i suoni impulsivi si separano prima dei suoni complessi
c di durata maggiore come la musica e il parlato. Anche le caratteristiche timbriche del suono percepito possono essere influenzate
dall'effetto. L'effetto di precedenza è molto usato nella riproduzione stereofonica, sia mediante cuffia che mediante altoparlanti. Per
ottenere la localizzazione desiderata di una certa sorgente sonora occorre giocare sulle ITD e IID: in particolare si ha che l'intensità in
dB può compensare alcuni millisecondi di ritardo e l'efficacia dipende dalla natura della sorgente.

Potrebbero piacerti anche