Sei sulla pagina 1di 16

CAMPIONAMENTO ED ELABORAZIONE DEL SUONO

DISPENSA 2

ANALOGICO/DIGITALE

La comunicazione analogica si basa sulla somiglianza (analogia) tra la grandezza comunicata e il


dato da comunicare, mentre la comunicazione digitale trasmette l’informazione dopo averla
codificata in una stringa di cifre di un sistema numerico opportunamente scelto; nel mondo
dell’informatica nel sistema binario.
La comunicazione analogica è utilizzata da tutti gli strumenti che trasmettono una grandezza il cui
valore varia con continuità e che rispecchia un’analoga variazione continua della grandezza che si
vuole rappresentare.
Ad esempio, è analogica la comunicazione del tachimetro di un’autovettura, di un termometro a
mercurio o di un orologio a lancette, che mostrano dati variabili con continuità, seguendo,
rispettivamente, le variazioni continue di velocità, temperatura e tempo.
I segnali analogici, dunque, consistono in una tensione elettrica che segue nel tempo l'andamento
del segnale originale. Nei segnali audio la tensione elettrica è molto simile all'andamento dell'onda
sonora originale (molto simile, non identica, perché vi è sempre l'introduzione di una quota di
distorsione e di rumore, non presenti nel segnale originale).
Nel caso dei segnali digitali invece, il segnale viene rappresentato da una serie di numeri, ciascuno
dei quali rappresenta il valore della pressione istantanea in un dato istante.
I dispositivi basati sul sistema di comunicazione digitale rappresentano, per mezzo di un codice in
cifre, i valori delle grandezze da trasmettere, anche se queste variano con continuità. Utilizzano
quindi la campionatura di tali grandezze a successivi intervalli di tempo, molto ravvicinati, e la
codifica dei valori campionati in un sistema numerico prefissato.
Ad esempio, sono dispositivi basati sulla comunicazione digitale il contachilometri di
un’autovettura o l’orologio munito di display a cristalli liquidi, che convertono in cifre,
rispettivamente, una distanza o lo scorrere del tempo. Questi dispositivi aggiornano l’informazione
mostrata a tempi discreti, effettuando comunque un’approssimazione rispetto alla reale variazione
della grandezza in questione.

FREQUENZA DI CAMPIONAMENTO
Il processo di conversione da analogico a digitale inizia con l’ingresso di segnali audio analogici
(Campionamento). L’intensità del segnale è misurata a intervalli di tempo discreti, ma abbastanza

1
ravvicinati da permettere la ricostruzione fedele del segnale: il numero di volte in cui un segnale
audio in ingresso è misurato in un determinato periodo di tempo è definito frequenza di
campionamento (in inglese, sample rate o sample frequency).
Questi intervalli devono essere sufficientemente brevi da distinguere le frequenze del suono udibili.
Un importante aspetto è che si tratta di numeri interi, cioè che non hanno una parte decimale. Questi
numeri costituiscono quindi un insieme discreto: non è possibile rappresentare tutti i valori, ma
solo quelli che corrispondono a un intero. Invece i segnali analogici non sono discreti, ma
continui. Allora al momento di misurare l'ampiezza di ogni gradino questa dovrà essere
approssimata ad un intero, commettendo così un errore più o meno grande.
In base al teorema di Shannon-Nyquist, la frequenza di campionamento deve essere almeno il
doppio della frequenza più elevata del segnale audio da digitalizzare.
Campionare un segnale ad una frequenza minore del doppio della sua banda significherebbe estrarre
un numero di campioni insufficiente perché troppo “veloci affinchè il dispositivo di campionamento
possa intercettarne almeno due campio per ogni ciclo. Ciò implica che frequenze molto alte non
avrebbero abbastanza campioni a descriverle; ciò porterà all'incapacità dell'elaboratore di stabilire
quale sia la frequenza originale, la quale sarà sostituita da frequenze più basse. Queste frequenze
vengono definite aliasing ed essendo al di sotto dei 20 kHz rientrerebbe nella banda dell'udibile e
dunque avremo aggiunto al segnale iniziale una frequenza che prima dell'operazione di
campionamento non esisteva mentre avremo perso la frequenza alta originale.
Nella figura vediamo come si presenta una frequenza di aliasing sovrapposta ad una sinusoide
sottocampionata:

Nel campo del campionamento dell’immagine in movimento, un classico esempio di aliasing e


quando vediamo girare le ruote al contrario del senso giusto di rotazione questo perché il numero di
immagini al secondo è inferiore al n. di frame giusto. Per evitare questo problema i dispositivi di
campionamento sia software che hardware sono dotati del cosiddetto filtro antialising, ciò impedirà

2
l'introduzione di frequenze superiori alla metà di quella di campionamento. In pratica i moderni
sistemi di campionamento applicano il filtro antialising automaticamente durante la ripresa.
Negli anni ‘70, quando Philips e Sony iniziarono a cercare un modo di migliorare la qualità audio
della musica registrata, si rivolsero al campionamento digitale. Fu scelto un sample rate di 44.100
campioni per secondo (44.1 kHz) sia perché era superiore all’obiettivo fissato e cioè superiore ai
40 kHz (che rappresenta il doppio della massima frequenza, 20 kHz, percepibile dall’orecchio
umano), sia perché rappresentava il massimo di informazioni che potevano essere immagazzinate su
nastro (che è stato il mezzo di archivio di scelta fino a che non furono perfezionati quei piccoli
dischi argentati che oggi conosciamo come CD. Per la cronaca, il primo CD è apparso nel 1981,
riscuotendo un immediato e largo successo).

Riproduzione digitale di un suono analogico a diverse frequenze di campionamento

3
QUANTIZZAZIONE
Abbiamo chiarito, brevemente, alcune questioni legate alla frequenza di campionamento: possiamo
dire, in un linguaggio appena un po’ più tecnico che abbiamo analizzato la questione nel dominio
del tempo – ossia sull’asse orizzontale del grafico del segnale audio.
Proviamo a cambiare punto di vista, e analizziamo in generale la questione dal punto di vista
dell’asse verticale: ossia dal punto di vista dell’ampiezza dove il parametro da impostare
correttamente per ottenere una buona digitalizzazione è la quantizzazione ossia la risoluzione di
campionamento.
Quali sono i valori possibili per la quantizzazione?
Prendiamo il caso che il campionatore metta a disposizione 4 bit per il campionamento. Ciò
significa che avremo a disposizione valori binari da 0000 a 1111, ossia 16 combinazioni di valori
possibili. Questo ci costringerà ad un grafico digitale piuttosto rozzo, con pochi valori possibili per
un segnale che, invece, possiede moltissime possibilità di variazione dinamica (pensate a quanti
possibili valori di ampiezza può produrre un’orchestra, dal pianissimo al fortissimo: un direttore
d’orchestra inorridirebbe al pensiero di soli 16 possibili volumi differenti!).
Già con 8 bit a disposizione la situazione è migliore: il massimo numero possibile è 11111111,
ossia, passando dalla numerazione binaria a quella in base 10: 256.
Questo significa che avremo 256 possibili variazioni di volume.

In generale, la formula che ci da il numero di “regioni di quantizzazione” è 2n , dove n è il n. di


bit.

Così ad esempio, avremo, con 16 bit (una quantizzazione tuttora molto in uso), 216 = 65356, ecc.
Per valori maggiori di bit la qualità è migliore perché la discretizzazione è sicuramente più precisa,
ma, benché gli audiofili più accaniti dissentano, per la grande maggioranza degli ascoltatori non
dotati di orecchie da pipistrello un campionamento a 16 bit e 44,1 kHz è sufficiente per offrire
una buona fedeltà del suono.
Negli usuali cd audio ogni "campione" è dunque un numero a 16 bit con frequenza di
campionamento di 44100 Hz.
Tale campionamento audio digitale è noto con l’acronimo PCM che sta per Pulse Code
Modulation.
Il PCM audio digitale produce un ritratto accurato del suono reale e solamente ascoltatori dotati di
orecchio molto sensibile ed allenato e di buon equipaggiamento stereo possono distinguere tra esso
e l'originale.

4
Volendo schematizzare i concetti sopra esposti, possiamo dire che, per ottenere un suono digitale
fedele, bisogna essenzialmente considerare due variabili: la frequenza di campionamento e la
profondità di bit.

Tabella riassuntiva
FREQUENZA DI CAMPIONAMENTO PROFONDITA' DI BIT

Numero di volte che un segnale audio in ingresso è misurato o Accuratezza con quale è effettuata ciascuna misurazione o campione.
"campionato" in un dato periodo di tempo. E' tipicamente indicata in Si riferisce alla lunghezza delle parole binarie (cioè sequenze di 0 e 1)
kilohertz (kHz, migliaia di cicli per secondo). usate per descrivere ciascun campione del segnale d'ingresso. Parole
Per registrare in "CD-quality" audio è richiesta una frequenza di più lunghe permettono misurazioni più accurate e riproduzioni più
campionamento di 44.1kHz. fedeli di un segnale (maggior dinamica e minor distorsione). In un
sistema a 16 bit, ciascun campione è rappresentato come una parola
binaria lunga 16 cifre. Poiché ciascuna di queste 16 cifre può essere
uno 0 o un 1, sono possibili 65.536 (216) valori per ciascun campione.

LA CODIFICA DIGITALE PCM


Come abbiamo già detto u sistema di registrazione digitale cattura un segnale audio analogico ed
esegue una serie di misurazioni del segnale a intervalli regolari, e le memorizza come un numero
audio in ingresso.
Il dispositivo, inserito nell’apparato, che esegue questa operazione prende il nome di convertitore
Analogue-to-Digital (A-D). La lunga serie di numeri risultanti è immagazzinata in un supporto dal
quale può essere recuperato con il playback, essenzialmente lo stesso processo invertito: una lunga
serie di numeri è recuperata da un mezzo di deposito, ed è passato a quello che è conosciuto come
convertitore Digital-to-Analogue (D-A). Il convertitore D-A prende i numeri ottenuti dalla
misurazione del segnale originale, e li usa per costruire un'approssimazione molto vicina al segnale
originale, che può essere trasferito ad un amplificatore e quindi ad un sistema di diffusori acustici
per l'ascolto.
Il nome generico per il sistema di registrazione digitale, è Pulse Code Modulation (PCM), ed è
usato in tutti i moderni campionatori, registratori digitali ed interfacce audio per computer. Per
ottenere una riproduzione fedele di un segnale audio, la codifica PCM mira ad effettuare un'accurata
lettura della forma d'onda del segnale.
La codifica PCM ha uno svantaggio: è molto dispendiosa in termini di spazio disco. Per calcolare
approssimativamente la quantità di spazio occupato dal file audio si può utilizzare la seguente
formula:
(durata in secondi) x (numero dei canali) x (frequenza di campionamento) x (risoluzione/8)

5
A conti fatti un minuto di audio stereo di qualità pari a un CD occupa: 60 x 2 x 44,1 x 16/8 = 10,6
MB
Abbiamo appena visto come avviene la conversione di un segnale analogico in digitale per
completare il discorso occorre analizzare in dettaglio le differenze esistenti tra questi due tipi di
informazione.
Proviamo ad individuare alcuni punti chiave.
1. Tra due valori analogici ci possono essere infiniti stati intermedi; non è così per un segnale
digitale, caratterizzato da un numero finito di stati.
2. La duplicazione di un segnale analogico comporta un aumento del rumore e della distorsione; un
segnale digitale può invece essere duplicato all'infinito e non crea questi problemi.
3. L'informazione analogica è deperibile, mentre quella digitale può essere conservata a lungo senza
problemi.
4. II rumore rappresenta sicuramente uno dei problemi principali dell'informazione analogica in
quanto, presentandosi nella stessa forma del segnale, si somma a esso diventando un tutt'uno
inseparabile; l'informazione digitale, invece, è formata da cifre che non sono affette da rumore.
5. Nel segnale analogico difficilmente si riesce a correggere un errore, mentre in un segnale digitale
può essere corretto abbastanza facilmente.
Come si può notare, l’informazione digitale presenta numerosi vantaggi rispetto a quella analogica,
sia per quel che riguarda la qualità, sia per la riproducibilità e la possibilità di effettuare modifiche.
Molti però rimproverano al suono digitale, e forse non a torto, di essere troppo “freddo”.

IL FORMATO WAVE
Il Waveform Audio File Format, noto anche come “WAVE”, rappresenta un caso particolare del
formato RIFF (Resorce Interchange File Format, formato di file per lo scambio di risorse),
concepito dalla Microsoft Corporation per memorizzare dati multimediali in generale, corredati di
descrizione del contenuto che portano con sé.
Come prima cosa è lampante notare che questo standard ha origini commerciali, il che rappresenta
un pregio oppure un difetto a seconda del proprietario stesso dello standard, il quale è incaricato di
effettuare le scelte di correzione, mantenimento ed evoluzione cui vincolare il proprio prodotto,
dove ciascuna di esse può essere più o meno azzeccata dal punto di vista degli utilizzatori finali,
nonché dei programmatori.
Volenti o nolenti, quando certi colossi “propongono” alcune scelte tecniche risulta difficile
disinteressarsene, sia come utenti, sia come programmatori. Oggigiorno c’è forse qualcuno che ha il
coraggio di produrre un web browser incapace di riprodurre un Audio Wave File?

6
A prescindere dalle precedenti considerazioni, viene descritta ora la struttura interna dei file audio
in questione.
Le informazioni contenute nei files WAVE sono divise in blocchi di memoria, costituiti da una serie
di byte, detti CHUNK .
Ogni chunk è costituito da una serie di byte che descrive il chunk stesso e di seguito altri dati e
serve ad uno scopo diverso: all’inizio del file, ad esempio, i chunk contengono informazioni
identificative che specificano, tra le altre cose, il tipo di file, poi vengono i chunk contenenti i dati
veri e propri.
Un WAV file è strutturato secondo tre "chunks" di informazioni: Il RIFF chunk che identifica il file
come WAV file, il FORMAT chunk che identifica i parametri come il sample rate e il numero di bit
per campione, e il DATA chunk che contiene i dati effettivi dei campioni.
Ciascun record è auto-esplicativo, pertanto oltre ai dati porta con se la descrizione dei dati.
Dal punto di vista pratico e funzionale, i file “.wav” permettono di realizzare diverse funzionalità
tipiche dei brani audio:
• numero di bit per campione variabile, fino ad un massimo di 32/64 bit per ciascun singolo
campione;
• sono consentite molteplici frequenze di campionamento del suono;
• segnali audio di tipo mono oppure stereo;
• sono ammesse più modalità di conversione in digitale del suono:
• PCM (Pulse Code Modulation);
• M-law, e A-law, che sono sistemi di codifica dell’audio utilizzato nell’industria telefonica.
Campiona il segnale a 8 kHz e 8 bit ma, poiché utilizza un’elevata gamma dinamica, consente di
ottenere suoni con qualità superiore rispetto a quella dei suoni campionati normalmente con gli
stessi valori di frequenza e di risoluzione.
• ADPCM (Adaptive Differential Pulse Code Modulation) ossia il sistema di compressione che
adatta la quantizzazione in modo da diminuire la quantità di dati da elaborare. Il metodo
consiste nel portare l’audio da 16 a 4 bit, con un rapporto di compressione di 4:1;
• identificazione di posizioni fisse (marker) lungo il flusso audio, tramite “cue-points” chunk;
• specificazione della sequenza di esecuzione per una serie di cue-points, grazie a “playlist” chunk;
Sul piano pratico si può sostenere come l’insieme delle procedure rese disponibili dal formato
WAVE sia sufficientemente completo, consentendo una varietà discretamente ampia di tipologie
audio. Da rilevare che le caratteristiche riportate sono solamente quelle principali; l’evoluzione
dello standard ne ha introdotte altre, seppur accessorie e non basilari.
Lo standard per gli utenti Macintosh è invece il formato AIFF (Audio Interchangeable File Format).

7
Dotato dell’estensione .aif o .aiff, è anch’esso un particolare tipo di RIFF. In termini di flessibilità è
a livello del formato WAV, ma presenta meno inconvenienti rispetto a quest’ultimo. Il formato
WAV, infatti, è stato elaborato da un grande numero di programmatori che in molti casi hanno
lavorato senza troppa coordinazione, prendendosi a volte la libertà di scelte azzardate, con pessimi
risultati come, ad esempio, quello di creare troppi chunk, alcuni dei quali non fanno altro che
ripetere informazioni già riportate da altri. Il formato AIFF è frutto dell’opera di un gruppo di poche
persone, in stretta collaborazione le une con le altre, per cui il risultato è stato veramente buono.

LA COMPRESSIONE AUDIO
Si è visto che lo standard PCM utilizzato per i CD audio è in grado di offrire un’elevata qualità, ma
di contro produce file molto pesanti per essere usati sui lettori portatili o trasferiti via Internet.
Cercheremo ora di vedere come questo problema è stato risolto mediante le tecniche di
compressione.
I tipi di compressione più utilizzati sono due: LOSSLESS e LOSSY. Nel primo caso la
compressione avviene senza perdita di informazioni e quindi si otterra un file finale di qualità pari a
quella dell’originale; nel secondo invece si ha una perdita di informazioni e una volta decompresso
il file avrà una qualità inferiore.
A questo scopo e, soprattutto, per aumentare di conseguenza la velocità di trasferimento di un file
audio, sono stati messi a punto diversi codec, ovvero algoritmi per la compressione e la
decompressione dell’audio. I codec attualmente disponibili sono tanti e lo sviluppo dei nuovi è in
continua evoluzione:il settore è in effetti molto vivace anche perché software di questo tipo
vengono utilizzati in tantissime apparecchiature digitali che in qualche maniera hanno a che fare
con un segnale audio; compresi, giusto per fare un esempio, i telefonini cellulari.
Indipendentemente dall’utilizzo per cui è stato sviluppato, qualsiasi codec deve comunque fare i
conti con almeno tre fattori principali:

• Il bitrate, ovvero il numero di bit necessari per trasmettere un secondo di informazioni audio
(bit/sec) e si indica con la sigla Kbps; minore è questo valore rispetto all’originale non compresso,
maggiore è il tasso di compressione. Il calcolo del bitrate per un brano digitalizzato in qualità Cd
Audio è presto fatto: 44.100 Hz x 16 bit x 2 canali stereo =1411,2 Kbps (circa 1,4 Mbit/sec) un
Mp3 di qualità Cd ha un bitrate di soli 128 Kbps.
1. codificando il segnale a 64 kbps si eliminerà oltre alle informazioni meno udibili anche quelle
udibili ma meno importanti, con una qualità che risulterà mediocre;
2. codificando il segnale a 112 kbps si otterrà un suono sufficientemente buono;

8
3. codificando il segnale a 128 kbps si è molto vicini all'originale;
4. codificando il segnale a 160 e 192 kbps non è possibile percepire differenze con l'originale;
5. codificando il segnale a 256 kbps anche i più fanatici ascoltatori saranno soddisfatti;

• Il ritardo di processamento, che è in sostanza la somma dei tempi di compressione e


decompressione necessari alla codifica del segnale; qualsiasi algoritmo richiede infatti un processo
di calcolo che può essere in tempo reale o meno.

• La qualità del segnale, un parametro che misura l’eventuale degrado dell’audio dopo il processo
di compressione e decompressione; questo fattore è misurato sia con criteri soggettivi - ovvero con
l’ascolto – sia con criteri di tipo oggettivo basati sul confronto fra le forme d ’onda.
I codec più complessi possono richiedere lunghi tempi di processamento (quindi la codifica e la
decodifica non avviene in tempo reale) ma arrivano a garantire un alto tasso di compressione e una
buona qualità del segnale.
Algoritmi più semplici hanno invece un’esecuzione immediata ma, di contro,una buona qualità del
segnale può essere assicurata solo da alti valori di bitrate.

COMPRESSIONE LOSSLESS
I formati di compressione senza perdita di informazioni funzionano un po’ come quelli delle
applicazioni che abitualmente impieghiamo per comprimere i nostri file: ad esempio WinZip o
WinRar su Windows, oppure StuffIt su Mac OS. Con queste utility sappiamo bene che è possibile
ridurre le dimensioni di un file, ad esempio un documento di Word, anche del 90%senza che al
momento della successiva decompressione vi sia alcuna perdita di informazioni.
Per la natura ben diversa di un suono digitalizzato rispetto a un banale file di testo, queste
applicazioni non hanno invece praticamente alcun effetto sui file audio. Per la compressione dei file
audio senza perdita di dati esistono quindi dei codec ad hoc che risultano molto utili per fare copie
meno ingombranti dei propri Cd Audio e sono l’unica alternativa per chi, sulla qualità dell’audio,
non è di sposto a scendere a compromessi .
I formati Lossless, quindi, non sono standard come altri formati audio.
Se utilizzate un determinato codec per comprimere una vostra registrazione e desiderate passarla a
qualcun altro, assicuratevi che anche il computer del destinatario abbia la stessa applicazione che
avete utilizzato per la compressione.
Alcuni player software sono in grado di riprodurre determinati file Lossless (per esempio Winamp o

9
iTunes); in altri casi, prima di procedere al l’ascolto, è necessari o decomprimere il file per
riportarlo nel suo formato originale..
Le tecnologie più importanti alla base della compressione lossless sono:
• i Codificatori Entropici (Entropia: quantità di informazione portata da un segnale), che basano
il loro funzionamento sul modello probabilistico, ovvero sulla conoscenza della frequenza di
ogni messaggio (o simbolo dell’alfabeto) all’interno del flusso di dati, come la codifica di
Huffman;
• i Codificatori Mediante Dizionari ossia algoritmi che tendono ad eliminare la ridondanza dei
dati incentrando l’attenzione su dove risiede l’informazione principale come l’algoritmo LZW
(Lempel-Ziv-Welch).

Facciamo ora una carrellata sui principali formati LOSLESS

WMA
Il WMA è un formato di compressione audio proprietario, creato dalla Microsoft per l'utilizzo nel
suo sistema operativo.
In vista della sua entrata nel mercato dei negozi on-line di musica, Microsoft ha indirizzato lo
sviluppo di questo formato a questo fine ed ora il WMA integra due codec (uno lossy e uno
lossless) e un sistema per i diritti d'autore.
Dal punto di vista delle licenze, si tratta di uno dei peggiori formati audio proprietari in quanto le
licenze integrate in ogni singolo file sono gestite e controllate interamente da Microsoft che le può
modificare a proprio piacere senza dover render conto a nessuno. Se per esempio comprate un brano
musicale in WMA e la licenza vi permette di ascoltarlo su qualsiasi dispositivo digitale e di
masterizzarlo, Microsoft potrebbe in seguito modificare questa licenza e voi, per poter continuare
ad ascoltare il brano in questione, potreste essere costretti a pagarlo nuovamente.

APPLE LOSSLESS
Anche questo è un formato audio senza perdita di qualità ed è integrato nel software per la gestione
della musica di Apple,ovvero iTunes disponibile sia per Mac OS X, sia per Windows; l’installer,
gratuito.

10
FLAC
Fra i formati di compressione lossless più apprezzati dagli “scambisti ”di file musicali in Rete -
attività solitamente illegale ma comunque sempre molto diffusa - spicca sicuramente FLAC,
acronimo di Free Lossless Audio Codec .
Come il nome lascia chiaramente intendere,questo codec nasce come progetto open source e,
quindi, non solo è gratuito, ma le sue specifiche sono completamente accessibili a tutti. Nello spirito
delle licenze open source, infatti, né il formato né i metodi di compressione e decompressione
utilizzati da FLAC sono soggette a brevetto e possono liberamente essere rielaborati o implementati
in altre applicazioni. Grazie a questo, i software in grado di gestire il formato FLAC sono
disponibili praticamente per la totalità dei sistemi operativi:da Windows a Mac OS X, da Linux
ecc..
FLAC è infatti al momento supportata solo da pochissimi player.

MONKEY’S AUDIO
Come FLAC,anche questo è un compressore open source e può essere liberamente scaricato .
Pur essendo probabilmente uno dei più efficienti codec di compressione lossless e sono
riconoscibile dall’ estensione “,APE”
Ma attenzione, rispetto a FLAC ad esempio,Monkey’s Audio visualizza in modo inverso i rapporti
di compressione: valori minori rappresentano una compressione più spinta.

SHORTEN
Come il formato WMA, questo codec offre sia la compressione lossy sia quella lossless anche se i
file generati hanno sempre la stessa estensione “.shn ”. A differenza di altri formati lossless, Shorten
non offre la possibilità di impostare il livello di compressione: il valore è dato ed è circa del 50%. I
file compressi arrivano quindi a pesare circa la metà degli originali …un risultato non proprio da
record.

COMPRESSIONE LOSSY
A differenza dei codec che abbiamo analizzato fin qui, i metodi di compressione lossy, quindi con
perdita di dati, tagliano definitivamente una buona parte delle informazioni contenute in un file. Le
informazioni eliminate - e in termini quantitativi sono davvero tante se si pensa che un file audio da
40 MB può diventare tranquillamente da 4 MB - vengono perse per sempre e non sono più
recuperabili in alcuna maniera.

11
Tutti i codec lossy intervengono in modo “distruttivo” e anche ritrasformando un file in un formato
non compresso non si tornerà mai ad avere la stessa quantità di informazioni del file originale.
Immaginate se un metodo di questo tipo fosse applicato a un normale file di dati, ad esempio un
documento di Word: ci troveremmo di fronte a un testo con una parola su dieci dell’originale… a
dir poco inservibile!
I metodi lossy possono invece funzionare molto bene con file che contengono informazioni visive e
sonore: quindi immagini, audio e video (quest’ultimo in pratica fonde gli altri due, offrendo in
contemporanea immagini e suoni). La domanda, come si suol dire, nasce spontanea: perché con
questo tipo di contributi funzionano?
Perché immagini e suoni sono percepiti dall’uomo da organi di senso che non sono perfetti: sia
l’occhio sia l’orecchio possono infatti essere ingannati abbastanza facilmente da ciò che
percepiscono - il primo anche più del secondo - e in ogni caso esistono, come abbiamo visto per
l’audio, delle soglie oltre le quali i nostri sensi non vengono più stimolati.
Le “lacune percettive” dell’occhio sono sfruttate, ad esempio, dai metodi di compressione delle
immagini come il JPEG.
I codec lossy per l’audio si basano invece sui principi di acustica e psicoacustica. Come abbiamo
visto, infatti, una fondamentale caratteristica dell’orecchio umano è la sua incapacità di percepire
stimoli al di fuori del range di frequenze che va da 20 a 20.000 Hz. Questi sono valori medi che,
oltre tutto, variano anche in funzione dell’età: se avete più di 35 anni, rassegnatevi… il vostro udito
è destinato inesorabilmente a peggiorare soprattutto per le frequenze alte.
La maggior parte degli esseri umani, tuttavia, dimostra una certa difficoltà a percepire i suoni già
con frequenze intorno ai 15.000 Hz, soprattutto se a tali suoni acuti sono sovrapposti suoni di
tonalità più grave; cosa che accade normalmente nei brani musicali.
Da questa semplice riflessione sulle caratteristiche del nostro apparato uditivo si può già intuire
quali possono essere le informazioni da eliminare in una compressione lossy: proprio le
informazioni relative alle frequenze al di sopra dei 15.000 Hz, in particolare se esse si
sovrappongono a frequenze più basse. Già così è una bella fetta di informazioni, ma si può fare di
più: si possono scartare anche altri dati e quindi ridurre ulteriormente le dimensioni di un file.
La Psicoacustica, infatti, insegna anche un’altra cosa importantissima sperimentata da tutti uscendo
da un concerto: suoni improvvisi e picchi di volume inibiscono il timpano dell’orecchio per un
tempo - in millisecondi - che è proporzionale all’intensità del fenomeno; in pratica le sfumature di
un glissato di chitarra dopo un colpo di rullante “ben picchiato” sono impossibili da cogliere anche
dall’orecchio più raffinato.

12
Sfruttando questo fenomeno, chiamato “mascheramento acustico”, i codec lossy riescono a
eliminare altre informazioni senza che l’orecchio dell’ascoltatore ne percepisca la mancanza.
Gli studi di Psicoacustica hanno inoltre evidenziato che l’apparato uditivo dell’uomo non riesce a
percepire i suoni di intensità – volume – inferiori a quella del rumore di fondo e, inoltre, che tale
soglia del rumore varia a seconda dell’intensità dei suoni emessi: maggiore è il volume dei suoni,
maggiore è la soglia del rumore; in discoteca, infatti, per comunicare si urla.
In fase di compressione un codec lossy può quindi eliminare tutti i suoni che si trovano al di sotto
della soglia del rumore, senza una apparente perdita di qualità del segnale sonoro. Nello sviluppo di
questa tecnica, il problema più complesso è stato quello di definire dei modelli psicoacustici in
grado di descrivere con precisione l’andamento del livello di rumore udibile in funzione sia della
frequenza sia dell’intensità della pressione sonora. Tale soglia ha valori piuttosto alti per le
frequenze basse e alte, ed è più contenuta per i suoni con frequenza fra 2500 e 5000 Hz, dove
l’orecchio umano mostra una sensibilità molto più spiccata (è infatti lo spettro di frequenze della
voce).
Infine, per ridurre ancora di più il flusso di dati, è possibile codificare come monofonici i segnali
stereo che risultano identici o molto simili su entrambi i canali; questa è un’operazione che permette
di ridurre drasticamente il numero di informazioni.
Quanto fin qui descritto è ovviamente solo un accenno ai principi di Psicoacustica che sono alla
base dello sviluppo dei codec di compressione lossy: la materia è difatti molto complessa e, per di
più, ogni codec sfrutta tali principi a proprio modo. Una cosa è però certa: tutti sfruttano le lacune
percettive del nostro apparato uditivo; minori sono queste lacune, maggiore è la percezione da parte
di chi ascolta della perdita di qualità.

Passiamo quindi a scoprire quali sono i codec lossy più diffusi.

MP3
Il formato MP3 ha provocato un vero pandemonio nel mondo discografico. La ragione è facilmente
comprensibile se si pensa che i file MP3 garantiscono una notevole compressione, pur mantenendo
una qualità equiparabile a quella dei CD audio. Questo consente di mettere in rete o scaricare file in
tempi piuttosto rapidi, se confrontati con quelli che occorrono per un file audio non compresso, e di
ottenere dei risultati qualitativi veramente notevoli. Ora, accanto alle applicazioni nobili, come
quella di consentire a molti musicisti che non avrebbero altri canali per pubblicizzare il loro lavoro
e uscire dall'anonimato, sono comparse quelle meno nobili e meno lecite (usando un eufemismo!):
c'è infatti una quantità incredibile di siti pieni di brani più o meno famosi in formato MP3, in piena

13
violazione del diritto d'autore. È bene ribadire questo concetto: anche se non si fa a scopo di lucro,
rendere di pubblico dominio un brano soggetto a copyright, senza i dovuti permessi, è una
violazione della legge. Simili comportamenti finiscono poi per penalizzare quelli che, e si tratta
della maggior parte degli utenti, fanno un utilizzo pulito di questa tecnologia.
Detto questo, è bene anche sottolineare che la produzione di file MP3 a uso esclusivamente
personale non costituisce reato.
Riguardo la qualità dell’audio compresso in MP3 che come già detto, per molti, è identica alla
qualità di un Cd si ricorda che il codec è lossy e quindi, come abbiamo visto, il processo di
compressione elimina in maniera irreversibile una buona parte di informazioni, ovvero di
frequenze; l’MP3, per di più, anche se è sicuramente il più utilizzato non è neanche il miglior codec
di questo tipo.
Il degrado qualitativo,in ogni caso, non può essere giudicato in modo assoluto - d’altra parte questi
algoritmi traggono le proprie basi proprio dalla Psicoacustica, una scienza indubbiamente
“relativista ”- e l’abbassamento della qualità percepita varia moltissimo da brano a brano:in genere
gli algoritmi funzionano bene su brani con un range dinamico non particolarmente ampio (una
tipica canzone pop con molte sonorità elettroniche) e meno bene là dove la dinamica è più aperta.
La qualità, poi, è fortemente influenzata dalle impostazioni scelte per la compressione, in
particolare dal bitrate.

LAME
Questo codec non è altra cosa dall’MP3, bensì è un “metodo” open source sviluppato proprio per
generare file in questo formato. Il codec LAME è al suo interno molto sofisticato e questo
garantisce ottimi risultati qualitativi nella compressione.

Fraunhofer IIS
È il codec originario da cui è nato lo standard MP3.
Anche se generalmente si crede che sia libero da diritti, in realtà il brevetto è di proprietà
dell’istituto tedesco che riscuote i diritti sull’utilizzo commerciale del codec; gli utenti di file MP3 e
gli sviluppatori di freeware possono comunque stare tranquilli: in questi casi non occorre pagare i
diritti.
Fraunhofer IIS da qualche tempo ha rilasciato un nuovo codec. Si chiama MP3 Surround e, come il
nome lascia chiaramente intendere, permette di comprimere l’audio multicanale dei sistemi
surround. La cosa interessante è che fa questo mantenendo gli stessi bitrate della compressione
stereo.

14
MP3 PRO
È stato presentato già nel 2001 come l’erede e il successore del formato MP3 ma, fino ad oggi, non
sembra che le sue ambizioni si siano concretizzate il formato infatti è usato molto poco. L’mp3PRO
non è stato sviluppato dall’istituto Fraunhofer, ma dalla Coding Technologies, partner della società
francese Thomson. L’obbiettivo del nuovo codec è quello di correggere il principale difetto dei
vecchi MP3, ovvero la scarsa qualità del suono compresso sulle alte frequenze, e dimezzare il
bitrate senza compromettere la qualità; in pratica avere file a 64 Kbps che suonano come quelli a
128 Kbps del precedente formato.

AAC
L’Advanced Audio Coding, per gli amici semplicemente AAC, è il formato di codifica lossy che sta
rapidamente diffondendosi come il miglior metodo di compressione audio fra quelli con perdita di
dati. Lo sviluppo di questo codec è nato dall’esigenza di trovare un metodo di compressione
multicanale in grado di gestire l’audio dei sistemi surround:
in pratica capace di comprimere i tipici cinque canali (due laterali frontali, due posteriori, un
frontale) invece che i due del segnale stereo; il codec è comunque in grado di andare ben oltre
gestendo da 1 a 48 canali (15 riproducibili in contemporanea).
Si tratta, come si può immaginare, di una mole molto più consistente di dati. La ricerca ha portato a
un codec molto più ottimizzato rispetto all’MP3 che si è rivelato utile anche per il normale segnale
stereo: a parità di Kbit al secondo, l’audio in AAC offre una qualità decisamente superiore rispetto
all’MP3; questo vuol dire anche che è possibile utilizzare bitrate più bassi a pari qualità: un AAC a
128 Kbps è equivalente a un MP3 a 192 Kbps, ma il primo pesa ovviamente molto meno.
Il funzionamento del codec è decisamente complesso anche perché utilizza modelli psicoacustici
estremamente accurati.

WMA
Abbiamo già incontrato questo formato quando abbiamo parlato dei codec lossless, ma è più noto e
utilizzato nella sua versione lossy: in pratica è la risposta di Microsoft al dilagare del formato MP3.

OGG VORBIS
Il formato è nato come risposta open source alla registrazione del brevetto MP3. Ogg Vorbis,
insomma, è figlio della più tipica e sana cultura hacker e il codec è in pratica l’MP3 per tutti:
chiunque può contribuire al suo sviluppo e può implementarlo nelle proprie applicazioni.

15
REAL AUDIO
Un brevissimo accenno va anche al formato sviluppato da Real Networks. Non è nato
espressamente per la musica in quanto l’obiettivo del codec è di permettere lo streaming audio via
Web: in pratica ascoltare l’audio mentre viene scaricato dalla rete (è il meccanismo delle radio che
trasmettono su Internet). Per ascoltare un brano in formato Real occorre utilizzare RealPlayer, il
riproduttore software scaricabile gratuitamente dal sito del produttore.

Una caratteristica dei file MP3 e AAC è la possibilità di memorizzare insieme ai dati audio anche
alcune informazioni accessorie: titolo del brano, nome dell’autore, titolo dell’album e l’anno di
pubblicazione. Questi dati sono tutti raccolti in gruppi di byte chiamati TAG che vengono allegati
ai dati audio.

16

Potrebbero piacerti anche