Sei sulla pagina 1di 3

AUDIO DIGITALE COMPRESSO

Negli ultimi tempi c’è stato una grande sviluppo di sistemi audio digitali “compressi” (come ad
esempio l’MP3, il Dolby Digital, il DTS, l’ATRAC del MiniDisc e via dicendo), il cui funzionamento si
basa cioè su algoritmi che alleggeriscono la densità del flusso dei dati audio inficiando il meno
possibile la qualità sonora del messaggio originale sfruttando opportunamente i fenomeni
psicoacustici di mascheramento (da cui il nome di "codifiche precettuali" o “percettive”): una
notevole riduzione del bit-rate può essere infatti ottenuta eliminando, in fase di codifica, tutte le
informazioni relative alle componenti del segnale originale situate al di sotto della soglia di
mascheramento e quindi non udibili (vedi fig.1).

Fig. 1 – Il nostro sistema uditivo è caratterizzato da una soglia di udibilità al di sotto della quale non
è in grado di percepire alcun suono, anche se in realtà la soglia varia in presenza di suoni elevati,
che possono mascherare suoni più deboli presenti in un circostante intervallo di frequenze. Nella
figura è mostrato infatti che il segnale più debole, che da solo avrebbe superato la soglia, viene in
realtà mascherato dal segnale più forte.

La generica struttura di un codificatore percettuale assume quindi la forma mostrata in fig. 2:


tramite un opportuno banco di filtri il segnale originale viene decomposto in N componenti spettrali,
ognuna caratterizzata da un ritmo di campionamento pari ad 1/N-esimo di quello di partenza.

Fig. 2 - Struttura di un generico codificatore percettuale.

Sulla base del modello psicoacustico, il segnale uscente dal banco di filtri (oppure, in alcuni casi,
quello originale) viene utilizzato per il calcolo dell'attuale soglia di mascheramento, e quindi le N
componenti vengono riquantizzate e codificate con l'intento di mantenere il rumore di
riquantizzazione al di sotto della soglia appena elaborata: in altre parole la codifica avviene in
modo tale che il numero di bit assegnato dal codificatore stesso ad ogni componente sia minore in
corrispondenza di quelle zone dello spettro audio dove il segnale è più elevato, e viceversa. Le
componenti quantizzate e codificate vengono infine assemblate insieme ad alcune informazioni
ausiliarie (ad esempio quelle di assegnazione dei bit, necessarie in fase di decodifica per la
ricostruzione del segnale a banda intera, il quale naturalmente non potrà essere identico a quello
originale) così da formare il frame definitivo.
Questo vuol dire che le tradizionali misure di distorsione rilevate con toni singoli non possono
fornire alcuna informazione sulle caratteristiche dei sistemi a codifica percettuale, in quanto se
andiamo ad eccitare una macchina audio digitale compressa con un segnale caratterizzato da un
singolo componente allora l'algoritmo provvederà ad eliminare tutte le bande dove il segnale non è
presente, e ad assegnare il massimo numero di bit disponibili all'unica banda dove invece il
segnale c'è.
Per questo motivo abbiamo messo a punto una procedura basata sull’uso di segnali prova
"multitono", ovvero formati da un numero più o meno elevato di componenti.
L'idea di base è quella di inviare al codificatore in prova un segnale formato da molte componenti,
così da mettere alla frusta il codificatore con un segnale più simile a quello musicale, e quindi
rilevare il rumore di quantizzazione presente tra le componenti stesse. Per mettere in pratica tale
idea occorre però seguire un approccio completamente diverso da quello tradizionalmente usato
per la misura del rapporto segnale/rumore di quantizzazione in presenza di segnale, basato sulla
rimozione del singolo tono di prova per mezzo di un filtro elimina banda e sulla successiva misura
dell'energia rimanente, che richiederebbe un'"impossibile" distorsiometro composto da decine e
decine di filtri notch con banda strettissima.
La procedura da noi ideata sfrutta alcune delle possibilità offerte dall'analizzatore Audio Precision,
in particolare quella di poter generare digitalmente segnali multitono composti da componenti (fino
ad un massimo di 60) di frequenza, livello e fase stabiliti dallo sperimentatore, e di poter effettuare
analisi FFT sincrone con il segnale così generato, in modo da evitare l'uso di finestrature che,
disperdendo l'energia del segnale tra linee spettrali adiacenti, renderebbero di fatto impossibile
una precisa rilevazione dell'energia tra i toni di prova. Condizione necessaria affinché vi sia
sincronismo è che la lunghezza del buffer del generatore digitale uguagli quella del buffer
dell'analizzatore FFT, oppure che sia pari ad un esatto sotto-multiplo (1/2, 1/3, 1/4 ecc.) di
quest'ultima; l'autore ha scelto la massima lunghezza possibile per il buffer del generatore, vale a
dire 8192 campioni.
La procedura calcola per ogni coppia di toni la somma RMS dei livelli di tutte le linee spettrali
comprese tra questi (con l'esclusione dei toni stessi, naturalmente), somma che per convenzione
viene associata alla frequenza più elevata della coppia; i dati relativi a tutte le coppie vengono poi
interpolati e graficati su un piano semi-logaritmico rumore-frequenza.
Nelle figure 3, 4 e 5 sono rispettivamente mostrati il segnale test multitono (in questo caso a 29
componenti a fase nulla equispaziate di 689 Hz l’una dall’altra), lo stesso dopo la compressione
effettuata dai circuiti ATRAC di un registratore mini-disc di prima generazione (naturalmente il test
può essere utilizzato anche con qualsiasi altro sistema audio a compressione percettuale) ed infine
il grafico del rumore con e senza compressione.

Fig.3 – Multitono a 0 dB.


Fig. 4 – Multitono a 0 dB dopo la compressione ATRAC.

Fig. 5 – Distorsione totale di un registratore mini-disc.

Correlazione misure-ascolto

Secondo il nostro parere il punto debole dei sistemi a codifica percettuale non è tanto nell'udibilità
del rumore di quantizzazione, quanto nella mancata codifica (o nella codifica con una risoluzione
insufficiente) di alcune componenti del segnale in realtà importanti ai fini dell'ascolto. Tali
componenti, di basso e bassissimo livello, contengono spesso informazioni fondamentali per la
localizzazione, vale a dire informazioni relative ai suoni appartenenti al campo riverberato: per
questo motivo la compressione dei dati viene generalmente percepita dall'ascoltatore come un
appiattimento della scena sonora.
In alcuni (fortunatamente rari) casi l'entità di questo spiacevole effetto è tale da risultare evidente
anche con programmi musicali non particolarmente curati dal punto della resa prospettica, e
talvolta anche con brani di musica leggera: in quest'ultimo caso si può assistere ad una sorta di
"anecoicizzazione" del messaggio musicale, che appare come prosciugato dal contenuto di
riverbero, seppur sintetico.
Tali evidenze hanno quindi ulteriormente rafforzato le ipotesi esposte più volte sulla nostra rivista,
secondo le quali le alterazioni dei segnali a basso livello possono inficiare la corretta ricostruzione
prospettica "virtuale" della scena sonora originale.

Potrebbero piacerti anche