Sei sulla pagina 1di 26

Audio digitale Tutti i formati, i supporti, le tecniche

Francesco DAmbrosio Andrea De Marco

Audio digitale - Tutti i formati, i supporti, le tecniche


Autore: Francesco DAmbrosio Andrea De Marco 2005 Francesco DAmbrosio Andrea De Marco Collana:

Progetto editoriale: Fabrizio Comolli e Maurizio Vedovati Progetto graco: escom - Milano Prima edizione ISBN: 88-8233-419-8

Copyright 2005 Edizioni FAG Milano

Via G. Garibaldi 5 20090 Assago (MI) - www.fag.it Finito di stampare: nel mese di gennaio 2005 da escom - Milano
Nessuna parte del presente libro pu essere riprodotta, memorizzata in un sistema che ne permetta lelaborazione, n trasmessa in qualsivoglia forma e con qualsivoglia mezzo elettronico o meccanico, n pu essere fotocopiata, riprodotta o registrata altrimenti, senza previo consenso scritto delleditore, tranne nel caso di brevi citazioni contenute in articoli di critica o recensioni. La presente pubblicazione contiene le opinioni dellautore e ha lo scopo di fornire informazioni precise e accurate. Lelaborazione dei testi, anche se curata con scrupolosa attenzione, non pu comportare speciche responsabilit in capo allautore e/o alleditore per eventuali errori o inesattezze. Nomi e marchi citati nel testo sono generalmente depositati o registrati dalle rispettive aziende. Lautore detiene i diritti per tutte le fotograe, i testi e le illustrazioni che compongono questo libro.

Sommario
Conoscere ............................................................................. 7 Ascoltare ............................................................................. 47 Creare.................................................................................. 71 Condividere ....................................................................... 109

Audio digitale

I le audio
Un brano musicale codicato in PCM costituito, come abbiamo visto, da una sequenza di informazioni digitali. Cos com, per, non pu essere considerato propriamente un le: non pu in pratica essere gestito direttamente dal computer perch non possiede le informazioni che servono al sistema operativo per identicarlo come tale. Infatti, come vedremo nel capitolo Creare, quando si copia un brano da un Cd sul computer - in gergo si dice che si fa il ripping - le informazioni PCM copiate sullhard disk sono esattamente le stesse delloriginale: la copia identica. Il computer per immagazzina queste informazioni sotto forma di un le che nellintestazione contiene anche altre piccole informazioni come il numero di canali (mono/stereo), la profondit di campionamento e la risoluzione. Queste informazioni servono al sistema operativo per interpretare, e quindi per gestire, il le come contributo audio. Apple stata la prima denire un formato per far interpretare laudio al proprio sistema operativo: il formato si chiama AIFF (Apple Interchange File Format) e su la sua estensione .aif. Lanalogo per Windows si chiama WAV (Windows Audio Video) ed lo standard per la piattaforma Microsoft per laudio non compresso; lestensione .wav. Il contenuto dei dati digitali di entrambi i formati praticamente identico e infatti possono essere riprodotti su tutte e due i sistemi operativi. Esistono poi anche altri formati per laudio non compresso ma sono in genere

Audio digitale

specici di alcune applicazioni di editing audio professionali: uno su tutti Sund Designer II, lo standard della piattaforma ProTools di Digidesign (www.digidesign.com).

Questioni di peso
Un le audio, come qualsiasi altro le, occupa un determinato spazio sul supporto su cui registrato, sia esso un Cd, un hard disk o un nastro DAT (Digital Audio Tape). Quanto pesa dunque laudio? Dipende ovviamente dalle caratteristiche con cui stato codicato ma, avendo chiaro come funziona il processo di digitalizzazione, il calcolo presto fatto. Facciamo lesempio di un brano stereo preso da un Cd Audio, quindi con frequenza di campionamento a 44,1 kHz e risoluzione a 16 bit: 44.100 campioni al secondo x 2 byte (1 byte = 8 bit; 2 byte = 16 bit) x 60 secondi x 2 canali (i canali stereo sono infatti due) = 10.584 byte In sostanza, un minuto di musica occupa circa 10 MB. Se poi si considera che una canzone dura mediamente intorno ai quattro minuti, si capisce bene come un brano di un Cd Audio possa pesare tranquillamente una quarantina di Megabyte. Se la musica invece digitalizzata con valori di campionamento e risoluzione maggiore, le dimensioni di un le musicale crescono in maniera esponenziale. Le dimensioni di un le audio non interessano solo lo spazio sico necessario al suo contenimento su un supporto, ma anche la banda necessaria al suo trasferimento ad esempio via Internet. Ecco perch sono nati, e anzi hanno ormai spopolato (si pensi allMP3), dei particolari algoritmi di compressioni e decompressione chiamati Codec che hanno proprio il compito di ridurre, anche drasticamente (no a dieci volte), le dimensioni di un le audio.

I codec audio
Per ridurre le dimensioni e, soprattutto, per aumentare di conseguenza la velocit di trasferimento di un le audio, sono stati messi a punto diversi codec, ovvero algoritmi per la compressione e la decompressione dellaudio. I codec attualmente disponibili sono tanti e lo sviluppo di nuovi

Audio digitale

algoritmi in continua evoluzione: il settore in effetti molto vivace anche perch software di questo tipo vengono utilizzati in tantissime apparecchiature digitali che in qualche maniera hanno a che fare con un segnale audio; compresi, giusto per fare un esempio, i telefonini cellulari. Indipendentemente dallutilizzo per cui stato sviluppato, qualsiasi codec deve comunque fare i conti con almeno tre fattori principali: il bitrate, ovvero il numero di bit necessari per trasmettere un secondo di informazioni audio (bit/sec); minore questo valore rispetto alloriginale non compresso, maggiore il tasso di compressione. Il calcolo del bitrate per un brano digitalizzato in qualit Cd Audio presto fatto: 44.100 Hz x 16 bit x 2 canali stereo = 1411,2 Kbps (circa 1,4 Mbit/sec) il ritardo di processamento, che in sostanza la somma dei tempi di compressione e decompressione necessari alla codica del segnale; qualsiasi algoritmo richiede infatti un processo di calcolo che pu essere in tempo reale o meno. la qualit del segnale, un parametro che misura leventuale degrado dellaudio dopo il processo di compressione e decompressione; questo fattore misurato sia con criteri soggettivi - ovvero con lascolto - sia con criteri di tipo oggettivo basati sul confronto fra le forme donda. I codec pi complessi possono richiedere lunghi tempi di processamento (quindi la codica e la decodica non avviene in tempo reale) ma arrivano a garantire un alto tasso di compressione e una buona qualit del segnale. Algoritmi pi semplici hanno invece unesecuzione immediata ma, di contro, una buona qualit del segnale pu essere assicurata solo da alti valori di bitrate (come vedremo pi avanti). Senza entrare ulteriormente nei meandri della compressione e decompressione audio, di fondamentale importanza distinguere comunque le due grandi famiglie di codec: quelli senza perdita di informazioni, detti Lossless, e quelli che invece tagliano inesorabilmente alcune informazioni, chiamati Lossy.

Audio digitale

Compressione lossless
I formati di compressione senza perdita di informazioni funzionano un po come quelli delle applicazioni che abitualmente impieghiamo per comprimere i nostri le: ad esempio WinZip o WinRar su Windows, oppure StuffIt su Mac OS. Con queste utility sappiamo bene che possibile ridurre le dimensioni di un le, ad esempio un documento di Word, anche del 90% senza che al momento della successiva decompressione vi sia alcuna perdita di informazioni. Per la natura ben diversa di un suono digitalizzato rispetto a un banale file di testo, queste applicazioni non hanno invece praticamente alcun effetto sui file audio: se si prova a comprimere un file AIFF da una quarantina di Megabyte con lapplicazione DropStuff su Mac, le dimensioni del file si riducono di poco pi di un Megabyte. Per la compressione dei file audio senza perdita di dati esistono quindi dei codec ad hoc che, in ogni caso, non riescono in genere a offrire rapporti di compressione particolarmente spinti: generalmente intorno al 50-60%. Questa limitazione di fatto non ha permesso la diffusione dei formati Lossless come invece avvenuto, ad esempio, per lMP3. Risultano comunque molto utili per fare copie meno ingombranti dei propri Cd Audio e sono lunica alternativa per chi, sulla qualit dellaudio, non disposto a scendere a compromessi. I formati Lossless, inne, non sono standard come altri formati audio. Se utilizzate un determinato codec per comprimere una vostra registrazione e desiderate passarla a qualcunaltro, assicuratevi che anche il computer del destinatario abbia la stessa applicazione che avete utilizzato per la compressione. Alcuni player software sono in grado di riprodurre determinati file Lossless (per esempio Winamp o iTunes); in altri casi, prima di procedere allascolto, necessario decomprimere il file per riportarlo nel suo formato originale. Vediamo dunque i formati Lossless pi diffusi ed efficaci.

Audio digitale

WMA lossless
una declinazione del formato proprietario di Microsoft: lacronimo sta per Windows Media Audio ed il formato tipico di Windows per la compressione di contributi audio. Generalmente la compressione lossy, ovvero con perdita di informazioni come nellMP3, ma il formato permette anche di convertire, direttamente in WMA lossless, un brano da CD Audio senza alcuna perdita di qualit. Lapplicazione per fare ci naturalmente Windows Media Player, di serie in tutte le ultime versioni del sistema operativo di Microsoft. Loperazione semplicissima: basta infatti selezionare alla voce Formato (dentro Strumenti>Opzioni> Copia Musica) lopzione Audio Windows Media senza perdita di informazioni. Dopo aver impostato il codec da utilizzare, si procede allimportazione del brano come vedremo nel capitolo Creare: i le salvati saranno in formato Windows Media Audio lossless. Con questo codec si ottiene al massimo un rapporto di compressione intorno al 60% delloriginale, ma dipende molto dalle caratteristiche musicali del brano; in genere la compressione decisamente minore. Per avere maggiori informazioni, o per scaricare gratuitamente linstaller di Windows Media Player ci si pu collegare allindirizzo www.microsoft.it.

Per utilizzare la funzione di compressione lossless in Media Player, basta selezionare lopzione Audio Windows Media senza perdita di informazioni nel menu Strumenti>Opzioni> Copia Musica.

Audio digitale

Apple Lossless
Anche questo un formato audio senza perdita di qualit ed integrato nel software per la gestione della musica di Apple, ovvero iTunes disponibile sia per Mac OS X, sia per Windows; linstaller, gratuito, scaricabile a partire dallindirizzo www.apple.com/it/itunes. Fra le diverse opzioni di codica offerte da iTunes, infatti, c anche questo formato proprietario sviluppato da Apple proprio per importare le tracce di un CD Audio in modo da occupare meno spazio su disco senza rinunciare alla massima qualit.

Per selezionare il codec lossless in iTunes occorre aprire le Preferenze del programma, cliccare sul tab Importazione, e, alla voce Importa utilizzando, scegliere lopzione Codificatore Apple Lossless.

Per selezionare il codec basta aprire la finestra delle Preferenze, cliccare sul tab Importazione nella barra in alto e, alla voce Importa utilizzando, scegliere lopzione Codificatore Apple Lossless dal menu a discesa: tutti i brani importati in iTunes saranno a questo punto compressi senza perdita di informazioni.

Audio digitale

I brani in formato Apple Lossless possono essere ascoltati direttamente da iTunes (e perno da iPod, il player musicale di Apple) e occupano no al 60% in meno dei le digitali senza alcuna perdita di qualit; anche in questo caso, per, in genere i valori sono decisamente pi bassi.

FLAC
Fra i formati di compressione lossless pi apprezzati dagli scambisti di le musicali in Rete - attivit solitamente illegale ma comunque sempre molto diffusa - spicca sicuramente FLAC, acronimo di Free Lossless Audio Codec. Come il nome lascia chiaramente intendere, questo codec nasce come progetto open source e, quindi, non solo gratuito, ma le sue speciche sono completamente accessibili a tutti. Nello spirito delle licenze open source, infatti, n il formato n i metodi di compressione e decompressione utilizzati da FLAC sono soggette a brevetto e possono liberamente essere rielaborati o implementati in altre applicazioni. Grazie a questo, i software in grado di gestire il formato FLAC sono disponibili praticamente per la totalit dei sistemi operativi: da Windows a Mac OS X, da Linux addirittura ad Amiga, Irix e Solaris; molte applicazioni si possono scaricare direttamente allindirizzo: http://ac.sourceforge.net. La pi nota FLAC 1.1.1 (per tutte le piattaforme) ma c anche una carrellata di software solo per Mac: MacFLAC, FLACer, xACT; questultimo non limitato a FLAC ma, come vedremo pi avanti, gestisce anche altri formati audio. Grazie a questa variet di applicazioni, il codec FLAC diventato in pratica una sorta di standard multipiattaforma: un brano pu essere tranquillamente codificato su Windows e, ad esempio, decodificato su Mac OS X. Lutilizzo di una applicazione come FLAC 1.1.1 davvero minimale: si tratta in sostanza di aprire il file audio da comprimere, impostare il livello di compressione - che influisce solo sui tempi di calcolo non sulla qualit stiamo parlando infatti di un formato lossless - e avviare il processo di encode; in una manciata di secondi viene restituito il file compresso.

Audio digitale

Per decomprimerlo basta poi aprirlo e cliccare sul tasto Decode; la riproduzione diretta dei le FLAC infatti al momento supportata solo da pochissimi player. La percentuale di compressione varia pi in funzione del tipo di brano processato che non del livello di compressione prescelto: in genere i valori sono leggermente pi alti dei codec di cui abbiamo parlato nelle pagine precedenti - quindi i le sono pi piccoli - ma siamo sempre intorno al 50-60%.

Monkeys Audio
Come FLAC, anche questo un compressore open source e pu essere liberamente scaricato da Internet dal sito www.monkeysaudio. com. Pur essendo probabilmente uno dei pi efficienti codec di compressione lossless, la sua diffusione stata fino ad oggi frenata dalla mancata diffusione al di fuori della piattaforma Windows: le versioni per Mac OS X e Linux sono in via di sviluppo e lunica applicazione che permette di convertire sulla piattaforma Apple file con estensione .ape sembra al momento essere la gi citata xACT. Per Windows si pu invece scaricare lapplicazione Monkeys Audio che pesa poco pi di un paio di Megabyte ed completamente gratuita. Lutilizzo semplicissimo e tutti gli strumenti sono racchiusi in ununica finestra: basta selezionare il brano o i brani da comprimere cliccando sul pulsante Add File nella barra in alto, impostare la velocit di calcolo (Fast, Normal, High, Extra High, Insane) che influisce sul grado e tempo di compressione e non sulla qualit, e lanciare il processo cliccando sul tasto Compress. Durante il calcolo vengono visualizzate nella finestra di lavoro diverse informazioni sul processo in corso. Ma attenzione, rispetto a FLAC ad esempio, Monkeys Audio visualizza in modo inverso i rapporti di compressione: valori minori rappresentano una compressione pi spinta. Come in tutti i codec lossless, anche in questo caso il rapporto di compressione varia da brano a brano: siamo intorno al 50-60% o poco pi.

Audio digitale

Shorten
Come il formato WMA, questo codec offre sia la compressione lossy sia quella lossless anche se i le generati hanno sempre la stessa estensione .shn. Qui parliamo naturalmente della compressione senza perdita di dati; pi avanti torneremo su questo formato parlando invece degli algoritmi lossy. Shorten un progetto indipendente di Tony Robinson della software house Softsound: la pagina dedicata al codec sul sito di questa societ ma non direttamente accessibile dalla home page; occorre infatti andare direttamente allindirizzo www.softsound.com/Shorten.html. Da qui possibile scaricare gratuitamente lapplicazione per Windows: per le altre piattaforme bisogna invece contattare la Softsound. Basta per una rapida ricerca sul Web per trovare molte applicazioni in grado di generare o decomprimere le in formato .shn; per Mac OS X ad esempio ci sono due applicazioni freeware che vanno per la maggiore: Shorten X e la gia citata xAct. A differenza di altri formati lossless, Shorten non offre la possibilit di impostare il livello di compressione: il valore dato ed circa del 50%. I le compressi arrivano quindi a pesare circa la met degli originali un risultato non proprio da record. Al momento non ci sono plugin che permettono lesecuzione dei le in formato Shorten direttamente dai player software pi noti: esistono per alcune piccole applicazioni in grado di farlo.

LPAC
Lultimo codec che prendiamo in esame in questa panoramica dei principali algoritmi di compressione lossless LPAC, acronimo di Lossless Predictive Audio Compression. LPAC un progetto dello sviluppatore tedesco Tilman Liebchen che recentemente stato scelto come modello di riferimento per lMPEG-4 Audio Lossless Coding (ALS). Al momento disponibile solo per Windows e, in versione a linea di comando (quindi senza interfaccia), anche per Linux e Solaris. Il software e tutto il relativo materiale informativo pu essere scaricato direttamente dalla home page del sito di Liebchen; lindirizzo : www.nue. tu-berlin.de. Per la solo riproduzione c anche un plug-in per Winamp

Audio digitale

che permette al noto player software di riprodurre direttamente i brani compressi; senza quindi doverli decomprimere. Linterfaccia della versione per Windows di LPAC decisamente spartana ma lutilizzo del programma tutto sommato immediato: si selezionano i brani da comprimere (Add Files), si imposta la modalit di compressione (Encoder Mode) e si clicca sul tasto Encode. Il tipo di compressione in questo caso pu inuenzare in modo decisivo le dimensioni del le compresso: conviene fare qualche prova per capire qual la scelta migliore per un determinato le.

Compressione lossy
A differenza dei codec che abbiamo analizzato n qui, i metodi di compressione lossy, quindi con perdita di dati, tagliano denitivamente una buona parte delle informazioni contenute in un le. Le informazioni eliminate - e in termini quantitativi sono davvero tante se si pensa che un le audio da 40 MB pu diventare tranquillamente da 4 MB - vengono perse per sempre e non sono pi recuperabili in alcuna maniera. Tutti i codec lossy intervengono in modo distruttivo e anche ritrasformando un le in un formato non compresso non si torner mai ad avere la stessa quantit di informazioni del le originale. Immaginate se un metodo di questo tipo fosse applicato a un normale le di dati, ad esempio un documento di Word: ci troveremmo di fronte a un testo con una parola su dieci delloriginale a dir poco inservibile! I metodi lossy possono invece funzionare molto bene con le che contengono informazioni visive e sonore: quindi immagini, audio e video (questultimo in pratica fonde gli altri due, offrendo in contemporanea immagini e suoni). La domanda, come si suol dire, nasce spontanea: perch con questo tipo di contributi funzionano? Perch immagini e suoni sono percepiti dalluomo da organi di senso che non sono perfetti: sia locchio sia lorecchio possono infatti essere ingannati abbastanza facilmente da ci che percepiscono - il primo anche pi del secondo - e in ogni caso esistono, come abbiamo visto per laudio, delle soglie oltre le quali i nostri sensi non vengono pi stimolati.

Audio digitale

Le lacune percettive dellocchio sono sfruttate, ad esempio, dai metodi di compressione delle immagini come il JPEG. I codec lossy per laudio si basano invece sui principi di acustica e psicoacustica a cui abbiamo accennato allinizio di questo capitolo. Come abbiamo visto, infatti, una fondamentale caratteristica dellorecchio umano la sua incapacit di percepire stimoli al di fuori del range di frequenze che va da 20 a 20.000 Hz. Questi sono valori medi che, oltre tutto, variano anche in funzione dellet: se avete pi di 35 anni, rassegnatevi il vostro udito destinato inesorabilmente a peggiorare soprattutto per le frequenze alte. La maggior parte degli esseri umani, tuttavia, dimostra una certa difcolt a percepire i suoni gi con frequenze intorno ai 15.000 Hz, soprattutto se a tali suoni acuti sono sovrapposti suoni di tonalit pi grave; cosa che accade normalmente nei brani musicali. Da questa semplice riessione sulle caratteristiche del nostro apparato uditivo si pu gi intuire quali possono essere le informazioni da eliminare in una compressione lossy: proprio le informazioni relative alle frequenze al di sopra dei 15.000 Hz, in particolare se esse si sovrappongono a frequenze pi basse. Gi cos una bella fetta di informazioni, ma si pu fare di pi: si possono scartare anche altri dati e quindi ridurre ulteriormente le dimensioni di un le. La Psicoacustica, infatti, insegna anche unaltra cosa importantissima sperimentata da tutti uscendo da un concerto: suoni improvvisi e picchi di volume inibiscono il timpano dellorecchio per un tempo - in millisecondi - che proporzionale allintensit del fenomeno; in pratica le sfumature di un glissato di chitarra dopo un colpo di rullante ben picchiato sono impossibili da cogliere anche dallorecchio pi rafnato. Sfruttando questo fenomeno, chiamato mascheramento acustico, i codec lossy riescono a eliminare altre informazioni senza che lorecchio dellascoltatore ne percepisca la mancanza. Gli studi di Psicoacustica hanno inoltre evidenziato che lapparato uditivo delluomo non riesce a percepire i suoni di intensit volume inferiori a quella del rumore di fondo e, inoltre, che tale soglia del rumore varia a seconda dellintensit dei suoni emessi: maggiore il volume dei suoni, maggiore la soglia del rumore; in discoteca, infatti, per comunicare si urla.

Audio digitale

In fase di compressione un codec lossy pu quindi eliminare tutti i suoni che si trovano al di sotto della soglia del rumore, senza una apparente perdita di qualit del segnale sonoro. Nello sviluppo di questa tecnica, il problema pi complesso stato quello di denire dei modelli psicoacustici in grado di descrivere con precisione landamento del livello di rumore udibile in funzione sia della frequenza sia dellintensit della pressione sonora. Tale soglia ha valori piuttosto alti per le frequenze basse e alte, ed pi contenuta per i suoni con frequenza fra 2500 e 5000 Hz, dove lorecchio umano mostra una sensibilit molto pi spiccata ( infatti lo spettro di frequenze della voce). Inne, per ridurre ancora di pi il usso di dati, possibile codicare come monofonici i segnali stereo che risultano identici o molto simili su entrambi i canali; questa unoperazione che permette di ridurre drasticamente il numero di informazioni. Quanto n qui descritto ovviamente solo un accenno ai principi di Psicoacustica che sono alla base dello sviluppo dei codec di compressione lossy: la materia difatti molto complessa e, per di pi, ogni codec sfrutta tali principi a proprio modo. Una cosa per certa: tutti sfruttano le lacune percettive del nostro apparato uditivo; minori sono queste lacune, maggiore la percezione da parte di chi ascolta della perdita di qualit. Passiamo quindi a scoprire quali sono i codec lossy pi diffusi.

MP3 e i suoi fratelli


Per molti, MP3 sinonimo stesso di brano musicale scaricato illegalmente da Internet. In realt non cos, anche se vero che proprio lenorme diffusione in rete di brani in questo formato, ha reso lMP3 una star dei formati di compressione audio. Come ogni fenomeno che diventa cos popolare, ci sono a riguardo almeno due miti subito da sfatare. Il primo che n il formato in quanto tale, n i brani codicati in MP3 sono per forza di cose legati alla pirateria: alcuni negozi di musica on-line utilizzano infatti proprio il formato MP3 per i brani in vendita. dunque assolutamente legale trasformare in MP3 i brani di un Cd Audio che si regolarmente acquistato per trasferire la musica su un lettore portatile o, magari, per masterizzare una compilation da ascol-

Audio digitale

tare su unautoradio compatibile o su un lettore di Dvd (la maggior parte sono ormai in grado di riprodurli); nel capitolo Creare vedremo come si fa. Laltro mito da sfatare riguarda la qualit dellaudio compresso in MP3 che, per molti, identica alla qualit di un Cd. Il codec lossy e quindi, come abbiamo visto, il processo di compressione elimina in maniera irreversibile una buona parte di informazioni, ovvero di frequenze; lMP3, per di pi, anche se sicuramente il pi utilizzato non neanche il miglior codec di questo tipo. Il degrado qualitativo, in ogni caso, non pu essere giudicato in modo assoluto - daltra parte questi algoritmi traggono le proprie basi proprio dalla Psicoacustica, una scienza indubbiamente relativista - e labbassamento della qualit percepita varia moltissimo da brano a brano: in genere gli algoritmi funzionano bene su brani con un range dinamico non particolarmente ampio (una tipica canzone pop con molte sonorit elettroniche) e meno bene l dove la dinamica pi aperta. La qualit, poi, fortemente inuenzata dalle impostazioni scelte per la compressione, in particolare dal bitrate. Per capire come gestire al meglio questo parametro diamo uno sguardo a come funziona il formato MP3.
NOTA: Anche se per comodit si usa spesso il termine formato senza alcuna distinzione, importante sottolineare che il formato di codica audio e il formato le non sono propriamente la stessa cosa. Il primo denisce il modo in cui i dati audio vengono rappresentati; il secondo il modo in cui questi vengono scritti in maniera comprensibile da un computer, ovvero in un le.

MPEG-1 Audio Layer-3


Anche se la sua diffusione di questi ultimi anni, gli studi che hanno portato allo sviluppo di questo codec vengono da lontano: addirittura dal 1987, quando listituto di ricerca Fraunhofer IIS-A di Monaco (www.iis. Fraunhofer.de) ha iniziato ad analizzare la possibilit di mettere in pratica dei metodi di codica basati sulle teorie della Psicoacustica. Il risultato di questi studi, anni dopo, andato a denire le speciche dello standard MPEG-1 Audio Layer-3, conosciuto poi come MP3 (la sigla nasce da qui). LMPEG-1 il primo degli standard denito nellormai lontano 1992 dal

Audio digitale

Moving Picture Experts Group, ente che ha il compito della standardizzazione dei codec per laudio e il video digitale; il successivo MPEG-2, ad esempio, contiene gli standard per la codica video dei normali DVD. Senza entrare troppo nel dettaglio, possiamo dire che il sistema di codica MPEG costituito da tre componenti fondamentali: il formato di codica, contiene le regole denite dagli standard MPEG che specicano come deve essere codicata e strutturata linformazione audio compressa lencoder, il componente software che ha il compito di trasformare un le PCM non compresso (ad esempio WAV o AIFF) in un formato compresso secondo un determinato standard MPEG il decoder, che svolge loperazione inversa del precedente componente occupandosi di riportare un le compresso con un determinato standard MPEG in un formato non compresso; se il codec lossy, come lMP3, il le convertito presenta comunque un minor numero di informazioni
NOTA: Nella definizione del sistema di encoding e decoding, lo standard MPEG prevede che la maggior parte del lavoro di processamento avvenga nella prima di queste due fasi, in modo che la decodifica sia molto pi semplice e veloce; questa la caratteristica che permette di poter ascoltare i brani con compressione lossy in tempo reale.

La fase pi importante del processo di compressione dunque afdata allencoder. Qualunque encoder MPEG Audio in grado di comprimere sfruttando diversi algoritmi: sia per lMPEG-1 sia per lMPEG-2 questi algoritmi possono essere di tre tipi identicati, a loro volta, da altrettanti layer (letteralmente, livello). Ecco dunque svelato il perch del numero che troviamo nella sigla MP3: il codec appartiene al Layer 3 dello standard MPEG-1, quello particolarmente indicato per la compressione musicale in quanto supporta i campionamenti a 44,1 e a 48 kHz. Anche se lalgoritmo non per niente semplice, il funzionamento di un encoder MP3 presto detto. La codica di un le audio PCM si articola sostanzialmente in poche fasi: il segnale di input PCM viene suddiviso in blocchi di 576 campioni

Audio digitale

ciascun singolo campione PCM viene convertito dal dominio del tempo a quello delle frequenze; in pratica vengono individuate le frequenze che potranno essere eliminate viene applicato il modello psicoacustico che determina cosa tenere e cosa no a livello di frequenze; ovvero cosa il nostro orecchio non percepirebbe del segnale audio la risoluzione viene ridotta dai 16 bit del PCM a un valore variabile fra 1 e 15 bit in funzione dellimportanza delle frequenze dei singoli campioni viene applicato un ulteriore algoritmo di compressione lossless (detto di Huffmann) per scartare le informazioni ridondanti nel usso di dati; in pratica una compressione sui dati, non sul suono. Lultima fase quella che elimina pi informazioni riducendo pesantemente le dimensioni del le: in un brano infatti ci sono solitamente molte sequenze di informazioni che si ripetono ciclicamente; in sostanza, pi la musica ripetitiva, pi il le pu essere compresso. Tutto questo meccanismo di compressione resta comunque nascosto quando si utilizza una applicazione per la codica in MP3. Lunico parametro veramente fondamentale per lutente il bitrate: 128 Kbps un po lo standard per il formato MP3; quello utilizzato nella maggior parte dei le in Rete ed anche quello che viene riconosciuto dalla totalit dei player portatili. Valori pi alti - 192 o 256 Kbps - offrono naturalmente una qualit migliore dellaudio ma i le hanno dimensioni proporzionalmente maggiori. A 128 Kbps le dimensioni di un brano si riducono di oltre 10 volte: un le da 40 MB diventa in pratica da 4 MB. I software che codicano in MP3, come vedremo nel capitolo Creare, offrono la possibilit di controllare in modo semplicissimo il bitrate del brano.

LAME
Questo codec non altra cosa dallMP3, bens un metodo open source sviluppato proprio per generare le in questo formato. Il sito di riferimento www.mp3dev.org e da qui possibile scaricare sia la versione compilata sia il codice sorgente. LAME disponibile praticamente per tutte le piattaforme esistenti: Windows, Mac OS, Linux, Amiga, Be OS e persino per DOS e OS/2. Tantissime sono poi le applicazioni che integrano il codec LAME

Audio digitale

direttamente al loro interno: nel capitolo Creare vedremo come utilizzare il software RazorLame. Il codec LAME al suo interno molto sosticato e questo garantisce ottimi risultati qualitativi nella compressione.

Fraunhofer IIS
, come abbiamo visto, il codec originario da cui nato lo standard MP3. Anche se generalmente si crede che sia libero da diritti, in realt il brevetto di propriet dellistituto tedesco che riscuote le royalties sullutilizzo commerciale del codec; gli utenti di le MP3 e gli sviluppatori di freeware possono comunque stare tranquilli: in questi casi non occorre pagare i diritti. Il codec Fraunhofer IIS non viene distribuito direttamente al pubblico come software ma ci sono tantissime applicazioni che lo integrano al loro interno: basta una semplice ricerca on-line o una visita al sito dellistituto per raccogliere informazioni a riguardo. A Monaco non dormono comunque sugli allori: Fraunhofer IIS ha infatti recentemente rilasciato un nuovo codec. Si chiama MP3 Surround e, come il nome lascia chiaramente intendere, permette di comprimere laudio multicanale dei sistemi surround. La cosa interessante che fa questo mantenendo gli stessi bitrate della compressione stereo.

Xing
In questa breve panoramica, un piccolo accenno va anche questo codec sviluppato da XingTechnologies, software house acquistata da un nome storico della compressione audio per lo streaming: Real Networks. Il codec agile e leggero ma non gratuito: quindi viene integrato solo in applicazioni sviluppato da Real e in poche altre: una di queste AudioCatalyst, scaricabile a pagamento dal sito www.real.com.

mp3PRO
stato presentato gi nel 2001 come lerede e il successore del formato MP3 ma, no ad oggi, non sembra che le sue ambizioni si siano concretizzate: altri codec, come lAAC di cui parleremo qui di seguito, stanno dimostrando di avergli rubato lo scettro ancora prima dellincoronazione; il

Audio digitale

formato infatti usato molto poco. Lmp3PRO non stato sviluppato dallistituto Fraunhofer, ma dalla Coding Technologies, partner della societ francese Thomson. Lobbiettivo del nuovo codec quello di correggere il principale difetto dei vecchi MP3, ovvero la scarsa qualit del suono compresso sulle alte frequenze, e dimezzare il bitrate senza compromettere la qualit; in pratica avere le a 64 Kbps che suonano come quelli a 128 Kbps del precedente formato. Per ottenere questi risultati, lencoder mp3PRO impiega la nuova tecnologia SBR (Spectral Band Replication) che divide lo spettro delle frequenze in due blocchi: il primo contiene le basse frequenze che vengono codicate come nel vecchio MP3; il secondo blocco contiene invece le frequenze alte che sono normalmente eliminate dai normali algoritmi lossy. Questa divisione dello spettro in due parti distinte permette ottimizzare il processo di codica e garantisce la compatibilit del nuovo formato anche con i lettori MP3 meno recenti. Nella fase di decodica, il codec mp3PRO processa contemporaneamente i due gruppi di dati e li fonde in un unico usso che risulta avere un renge di frequenze pi ampie. Questa divisione dello spettro in due parti distinte non solo permette ottimizzare il processo di codica ma garantisce anche la compatibilit del nuovo formato con i lettori MP3 meno recenti. Un buon punto di partenza per raccogliere informazioni sul codec lindirizzo: www. mp3prozone.com. Per scaricare unapplicazione in grado di comprimere e riprodurre le in formato mp3PRO, basta andare sul sito della software house allindirizzo: www.codingtechnologies.com.

AAC
LAdvanced Audio Coding, per gli amici semplicemente AAC, il formato di codica lossy che sta rapidamente diffondendosi come il miglior metodo di compressione audio fra quelli con perdita di dati. A garanzia di questo, basti dire che la paternit del codec da far risalire alla collaborazione fra i team di sviluppo di nomi del calibro di Sony, Nokia, limmancabile istituto Fraunhofer, AT&T e Dolby (questultima ne possiede i diritti). Come lMP3, anche lAAC stato riconosciuto gi nel lontano aprile 1997 come standard MPEG: il suo nome per esteso infatti MPEG-2 Advanced Audio Coding. Lo stesso codec poi presente nel nuovo standard

Audio digitale

MPEG-4 che riunisce tutte le speciche per la compressione di contributi multimediali: per cui AAC un formato dellMPEG-4. Lo sviluppo di questo codec nato dallesigenza di trovare un metodo di compressione multicanale in grado di gestire laudio dei sistemi surround: in pratica capace di comprimere i tipici cinque canali (due laterali frontali, due posteriori, un frontale) invece che i due del segnale stereo; il codec comunque in grado di andare ben oltre gestendo da 1 a 48 canali (15 riproducibili in contemporanea). Si tratta, come si pu immaginare, di una mole molto pi consistente di dati. La ricerca ha portato a un codec molto pi ottimizzato rispetto allMP3 che si rivelato utile anche per il normale segnale stereo: a parit di Kbit al secondo, laudio in AAC offre una qualit decisamente superiore rispetto allMP3; questo vuol dire anche che possibile utilizzare bitrate pi bassi a pari qualit: un AAC a 128 Kbps equivalente a un MP3 a 192 Kbps, ma il primo pesa ovviamente molto meno. Il funzionamento del codec decisamente complesso anche perch utilizza modelli psicoacustici estremamente accurati. Rispetto allMP3, una sostanziale differenza nel numero di campioni utilizzati dal codec per scomporre il segnale: nellMP3, come abbiamo visto, sono 576; nellAAC raddoppiano arrivando a un valore di 1.024 campioni. Per la compressione vera e propria, il codec AAC utilizza poi tecnologie molto complesse che hanno eliminato alcune operazioni tipiche dellMP3 (quelle che introducevano alcune imprecisioni nel le compresso) e ne hanno ottimizzato altre. Una novit del codec il Temporal Noise Shaping (TNS), un metodo che si rivela molto efcace soprattutto sulle frequenze della voce umana. Come abbiamo visto per lmp3PRO, anche lAAC impiega la tecnologia SBR (Spectral Band Replication) che divide lo spettro delle frequenze in due blocchi: il primo contiene le basse frequenze e il secondo quelle alte che sono in genere tagliate dai normali algoritmi lossy. Ci ottimizza il processo di codica e garantisce una qualit migliore dei suoni pi acuti. Ma non andiamo oltre con la teoria e passiamo subito allutilizzo pratico del codec AAC. La crescente diffusione di questo formato si deve a Apple che lo ha adottato come standard per la compressione dei brani venduti dal suo iTunes Music Sto-

Audio digitale

re: il servizio di vendita di musica on-line che sta di fatto rivoluzionando la distribuzione della musica stessa; nellultimo capitolo del libro approfondiremo ulteriormente largomento. Tutti i brani scaricabili dalliTunes Music Store sono in questo formato e lAAC completamente supportato dalla piattaforma Apple compreso, ovviamente, dalla famiglia di lettori hardware iPod. Il codec infatti completamente integrato in QuickTime che il motore multimediale di Mac OS X su cui poggia anche iTunes, lapplicazione per la gestione della musica residente sul proprio computer. Linstaller di iTunes liberamente scaricabile sia per Windows sia per Mac allindirizzo www.apple.com/it/itunes, ed il miglior software - almeno dal punto di vista della facilit e praticit di utilizzo - per la codica e la riproduzione di brani AAC. Il programma infatti permette non solo di gestire i brani acquistati dal servizio on-line, ma anche di trasformare la musica importata da un Cd Audio o da altre fonti. Lutilizzo di iTunes, come vedremo meglio nei prossimi capitoli, semplicissimo: per limportazione in AAC basta selezionare il pannello delle Preferenze, fare un clic sulla voce Importazione e, dal menu a discesa Importa utilizzando, selezionare lopzione Codicatore AAC. Tutti i brani importati in iTunes verranno, da questo momento, codicati cos. Lestensione proprietaria dei brani AAC generati da iTunes .m4a e non quella standard .aac ma il contenuto in sostanza uguale. Un altro strumento molto apprezzato per generare le AAC il software PsyTel AACEnc. molto leggero ed efcace ma privo di interfaccia graca, nel senso che si apre in una austera nestra di testo in DOS; ne consigliamo quindi lutilizzo solo agli utenti pi smaliziati (si pu scaricare allindirizzo www.psytel-research.co.yu). In rete, comunque, si pu trovare una lunga lista di applicazioni pi o meno sosticate in grado di gestire le AAC e, ne siamo certi, il numero destinato ad aumentare rapidamente.

WMA
Abbiamo gi incontrato questo formato quando abbiamo parlato dei codec lossless, ma pi noto e utilizzato nella sua versione lossy: in pratica la risposta di Microsoft al dilagare del formato MP3; lacronimo sta per Windows Media Audio. Come ogni standard Windows ovviamente molto diffuso ed gestito direttamente da Windows Media Player (scaricabile a partire dallindirizzo www.microsoft.com/windows/windowsme-

Audio digitale

dia/it/default.aspx) che permette la riproduzione e la codica di brani in questo formato. Praticamente qualsiasi player audio, sia software sia hardware, in grado di interpretare i le WMA. Anche questo codec si basa su sistemi di compressione che applicano un modello psicoacustico per individuare le frequenze che possono essere eliminate senza che lascoltatore percepisca un degrado qualitativo della musica. Rispetto allMP3, ha caratteristiche pi avanzate permettendo di comprimere i brani con un bitrate inferiore; un po come lAAC, insomma. Incorpora inoltre un sistema DRM (Digital Right Management) per proteggere il copyright dei brani: se non si desidera attivarlo quando si converte un le audio, basta tenere deselezionata lapposita funzione nel pannello delle preferenze di Windows Media Player: Opzioni > Copia Musica > Aggiungi protezione contro la copia ai le musicali).

Ogg Vorbis
Il formato nato come risposta open source alla registrazione del brevetto MP3 da parte dellistituto Fraunhofer che, come abbiamo visto, ne detiene i diritti. Lideatore di questo formato di compressione lossy un tale Christopher Montgomery, diplomato in informatica al Massachusetts Institute of Technology e ora sviluppatore software. Il nome del progetto deriva da quello di un personaggio di un romanzo di fantascienza di Terry Pratchett: Vorbis, un bandito; Ogg si riferisce invece a una tattica di videogioco on-line. Ogg Vorbis, insomma, glio della pi tipica e sana cultura hacker e il codec in pratica lMP3 per tutti: chiunque pu contribuire al suo sviluppo e pu implementarlo nelle proprie applicazioni. Intorno al progetto si poi formato un gruppo di sviluppatori che con il nome di Xiphophorus (www.xiph.org) continua a mantenere alta la bandiera del codec audio open source. Da un punto di vista tecnico, gli algoritmi del codec Ogg Vorbis si basano sugli stessi principi di psicoacustica che sono alla base dellMP3 ma il grado di compressione leggermente superiore e la qualit migliore. A differenza degli altri codec Ogg Vorbis non offre una regolazione del bitrate ma utilizza un parametro che va da 1 a 10 e che inuisce direttamente sulla qualit dellaudio. Con un valore 3 si ottiene ad esempio un bitrate medio di 112 Kbps che suona meglio di un MP3 a 128 Kbps; a livelli elevati, con bitrate sopra ai

Audio digitale

160 Kbps, si perde per questo vantaggio. I le con estensione .ogg sono meno diffusi degli altri formati che abbiamo visto, ma c un numero sempre crescente di applicazioni - per tutte le piattaforme - in grado di gestire questo formato. Un buon punto di partenza per trovarle il sito www.vorbis.com.

Real Audio
Un brevissimo accenno va anche al formato sviluppato quasi dieci anni fa da Real Networks, www.realnetworks.com. Non nato espressamente per la musica in quanto lobiettivo del codec di permettere lo streaming audio via Web: in pratica ascoltare laudio mentre viene scaricato dalla rete ( il meccanismo delle radio che trasmettono su Internet). Gli algoritmi erano inizialmente ottimizzati solo per la voce ma negli anni sono stati migliorati per coprire uno spettro pi ampio di frequenze. Lo standard comunque chiuso: lencoder viene dato in licenza a chi deve allestire una stazione di streaming e per ascoltare un brano in formato Real occorre utilizzare RealPlayer, il riproduttore software scaricabile gratuitamente dal sito del produttore.

Questione di bitrate
La grandezza dei le audio compressi , come abbiamo visto, determinata dal cosiddetto bitrate (o datarate, che dir si voglia). Generalmente questo valore rappresenta la quantit di bit che transitano in un dispositivo nellunit di tempo di un secondo: in questo caso esso rappresenta per anche la quantit di informazioni in bit impiegati dallencoder per descrivere ogni secondo del segnale audio. Per immagazzinare un secondo di musica in qualit Cd abbiamo visto che occorrono ben 1.411,2 Kbps. I formati di compressione lossy usano un range di bitrate che va da 64 a 320 Kbps per immagazzinare le informazioni: queste grandezze non sono direttamente riconducibili alla qualit del suono ma solo alle dimensioni del le compresso. Non detto quindi che un le codicato a 192 Kbps suoni per forza di cose meglio di uno a 128 Kbps. La qualit dipende dai metodi di compressione del codec utilizzato e quindi, pi in generale, dal codec stesso. Non tutti i formati sono uguali ed ecco perch ogni codec si presenta con caratteristiche differenti.

Audio digitale

Constant, Average e Variable bitrate


La maggior parte dei codec MP3 utilizzano il cosiddetto metodo CBR, Constant Bit Rate , ovvero a bitrate costante. Se, ad esempio, impostiamo una codifica a 128 Kbps, lencoder utilizza questo valore per ogni secondo, anche l dove magari pu essere superfluo avere un valore massimo. Ci, evidentemente, comporta uno spreco di risorse nei passaggi pi semplici di un brano a scapito invece di quelli pi complessi. Nel metodo CBR il bitrate fisso e, se da un lato questo consente al software di conoscere a priori le dimensioni del file compresso - una funzione che pu risultare molto comoda - dallaltro si sprecano bit inutilmente. L ABR, Average Bit Rate (bitrate medio), stabilisce invece istante per istante il numero di bit da utilizzare per ogni secondo: definendo il coefficiente di qualit del segnale audio e il bitrate medio del file da creare, lencoder sceglie per ogni istante il bitrate migliore. A parit di bitrate lABR garantisce dunque una qualit maggiore del CBR e mantiene il vantaggio di poter determinare le dimensioni del file prima del processo di compressione. Infine, nel VBR, Variable Bit Rate , ogni istante pu avere un valore di bitrate differente in funzione della quantit di bit necessari per codificare quel determinato istante; questo permette di risparmiare bit nei passaggi musicali pi semplici e aumentarli in quelli pi ricchi di informazioni. In questo modo si ottengono file di grandezza uguale rispetto a quella dei file codificati con il medesimo bitrate in CBR o ABR, ma con una qualit sonora decisamente migliore. dunque il metodo che offre la miglior codifica ma non supportato da tanti player e non consente una previsione delle dimensioni del file compresso.

I tag
Una caratteristica dei le MP3 e AAC la possibilit di memorizzare insieme ai dati audio anche alcune informazioni accessorie: titolo del brano, nome dellautore, titolo dellalbum e lanno di pubblicazione. Questi dati sono tutti raccolti in gruppi di byte chiamati tag che vengono allegati ai dati audio. Lo standard MPEG-1 Audio Layer 3 non prevede, di suo, la possibilit di inclu-

Audio digitale

dere informazioni testuali di questo tipo direttamente nel le (gli sviluppatori avevano incluso solo due byte per le informazioni relative al copyright). Con la diffusione del formato e il proliferare di brani in rete, lesigenza di poterli catalogare diventata sempre pi forte. Per questo motivo stato sviluppato lo standard ID3, la cui prima versione, ID3v1, permette di salvare le informazioni negli ultimi 128 byte del le; in modo da evitare incompatibilit con gli encoder che inizialmente non lo supportavano. La struttura dei dati ID3v1 la seguente: titolo della canzone nome dellartista titolo dellalbum anno di pubblicazione genere 30 caratteri 30 caratteri 30 caratteri 4 caratteri 1 byte

Levoluzione di questo standard si chiama naturalmente ID3v2 e permette di immagazzinare molte pi informazioni: ad esempio possibile inserire alcune note biograche dellartista, uno o pi indirizzi web di riferimento, il nome dellencoder utilizzato per la compressione e addirittura il testo della canzone. A differenza del precedente questi dati vengono anteposti allaudio e non sostituiscono le informazioni contenute nellID3v1; i due gruppi di tag sono infatti completamente indipendenti tra loro: si possono inserire entrambi, uno s e uno no, oppure nessuno. La struttura dei dati nel le in questa sequenza: dati ID3v2 (a dimensione variabile) dati di streaming audio MPEG Layer 3 dati ID3v1 (128 byte ssi) I tag ID3v1 sono i pi utilizzati e sono inclusi in molti formati anche diversi dallMP3: ad esempio Ogg Vorbis e WMA. I tag ID3v2 sono tipici dellMPEG. I primi, inne, vengono tranquillamente letti dalla ormai totalit di player sia software sia hardware.