Sei sulla pagina 1di 12

Supporti digitali!

!
I calcolatori esprimono i dati di qualunque tipo a partire da impulsi elettrici (on/off) con i quali
codificano e decodificano tutte le informazioni che devono recepire o trasmettere.!
L’unità di misura dell’informazione digitale è il bit (b). Il bit esprime i due valori possibili del sistema
binario, cioè 0 e 1.!
Un Byte (contrazione di binary term) è una sequenza di bit, per convenzione negli ultimi anni lo si
intende formato da 8 bit, ed è pertanto in grado di assumere (28) 256 possibili valori.!
Le unità superiori sono l’espressione di 210 , cioè di 1024 unità precedenti. !
1024 byte formano un kiloByte (kB).!
!
Il SI (abbreviazione inglese del Système International des mesures) ha formalmente vietato questa
definizione, seppure essa circola nella stragrande maggioranza dei manuali e dei software, in
quanto il prefisso kilo nel Sistema Internazionale dei Pesi e delle Misure intende il formato Kilo
come l’espressione della potenza di 103 . Si è proposto l’utilizzo del prefisso Kibi (Kibibyte), il quale
piano piano entra nella nomenclatura dei software e nel lessico degli utenti.!
!
1024 kB formano un MegaByte (MB), corrispondente a 1.048.576 bit;!
1024 MB formano un GigaByte (GB), corrispondente a 1.073.741.824 bit;!
1024 GB formano un TeraByte (TB), corrispondente a 1.099.511.627.776 bit;!
poi: PetaByte, ExaByte, ZettaByte, YottaByte.!
!
!
Cd audio!
!
un cd audio è un disco ottico in policarbonato che permette lo stoccaggio di dati da rileggere
tramite un decodificatore laser. I cd attuali possono contenere al massimo 800 MB (10 anni fa il
formato più usuale permetteva lo stoccaggio al massimo di 740 MB), per un totale di 74 minuti di
audio.!
Esistono quattro formati standard nella produzione dei CD:!
• RED BOOK, per il solo audio CD (CD - A);!
• YELLOW BOOK, per i soli dati (CD ROM);!
• BLUE BOOK, per CD musicali enhanced (estesi), chiamati CD extra o CD + - contengono audio
e dati;!
• ISO 9660: formato per i file dati; può scrivere e leggere dai da e su CD di tutte le piattaforme.!
!
DAT!
!
Il Digital Audio Tape è un formato oramai in disuso ma celeberrimo nell’audio professionale degli
anni ’80 e ’90; la sua codifica è PCM 48, con frequenza di campionamento a 16 o 24 bit.!
!
Digital Multitrack.!
!
Registra sempre su nastro magnetico ma permette la registrazione fino a 8 tracce, con SR a
44.100 o 48 KHz e con risoluzione di 16/20/24 bit.!
!
DVD!
!
Il DVD è un disco in titanio mono o multi strato, il quale contiene dati audio, video o dati fino a 4,7
GB nel formato single layer, fino a 9,6 GB nel formato dual layer.!
Esistono nella produzione industriale 6 tipi di DVD:!
! •! DVD-1, detto più comunemente Mini DVD: 1,4 GB Lato unico e singolo strato, con
diametro minore di 120 mm
• DVD-3: 2,8 GB Double layer Lato unico e doppio strato, con diametro minore di 120 mm
• DVD-5: 4,7 GB Lato unico e singolo strato
• DVD-9: 8,5 GB Lato unico e doppio strato
• DVD-10: 9,4 GB Due lati e singolo strato
• DVD-18: 17 GB Due lati e doppio strato
I DVD-Video comuni sono supporti digitali in grado di contenere fino a 240 minuti di materiale
video in formato MPEG-2. L'audio può essere in formato non compresso PCM (Pulse Code
Modulation, da 1 a 8 canali), in formato Dolby Digital AC3 (che prevede da 1 a 6 canali), in formato
DTS (fino a 8 canali) o in formato MPEG.!
Il PCM è un audio lineare (cioè non compresso) usato soprattutto nei DVD musicali e stereo, cioè
con al massimo 2 canali. Sebbene tecnicamente questo formato permette la registrazione con
frequenza di campionamento fino a 96 KHz con profondità a 24 bit, il formato più in uso è quello a
48 kHz a 16 bit.!
Il formato DTS e Dolby Digital sono altri formati audio in genere usati nella codifica audio dei film.!
!
Super Audio CD (SACD)!
!
Questo formato, riservato a un uso strettamente professionale o a diffusione di contenuti audio non
commerciali, non è mai decollato come supporto popolare, sebbene permetta registrazioni di
qualità maggiore rispetto i CD. !
La codifica audio non è PCM ma DSD (direct stream digital).!
Opera con una frequenza di campionamento di 2, 820 o 5, 640 MHz e risoluzione a 1 bit.!
La maggior parte dei SACD reperibili sono ibridi, cioè permettono anche la registrazione standard
dei CD audio a SR 44.100/16 bit.!
Il SACD è un valido antidoto alla pirateria in quanto il formato non permette registrazioni per terze
parti e non esistono attualmente in commercio masterizzatori per uso domestico.!
!
!
Formati audio!
!
Il suono è un segnale continuo, analogico, per essere memorizzato deve essere campionato
ottenendo così un segnale digitale.
I vecchi Lp o 33 giri registravano un suono in modo analogico, ossia registravano tutto il suono in
modo continuo, dall'inizio alla fine. Il "file" ottenuto non era molto grande perché, in ogni caso, la
qualità era abbastanza scarsa. Con la digitalizzazione non si registra tutto il suono, dall'inizio alla
file, ma solo alcune parti, solo - appunto - alcuni campioni. Tre sono i parametri che caratterizzano
il campionamento (cioè la registrazione del suono in forma digitale) e che influenzano sia lo spazio
occupato sia la qualità del suono finale:
1. Il numero di canali
Esistono due modi di ripartizione dei canali audio: Mono e Stereo. La modalità Mono ha un solo
canale mentre quella Stereo ha due canali separati (sinistro e destro). Nella modalità stereo si
ascoltano alcuni suoni o voce su un canale e altri suoni sull'altro canale. Nella modalità esce lo
stesso suono da tutte le casse. Ovviamente un segnale Stereo occuperà, in termini di spazio, il
doppio di uno segnale Mono. Nelle applicazioni più recenti il numero di canali è notevolmente
aumentato, si pensi al surround, ma come sempre nell'informatica il problema sorge nel
passaggio da uno a molti, e non interessa se questi molti siano due, dieci o più.
2.La frequenza di campionamento
È il numero di campioni (di pezzi di onda sonora) che vengono registrati in ogni secondo da un file
audio. La frequenza può cambiare da 8.000 campioni al secondo, a 48.000 campioni. La
frequenza si misura in Hertz. Abbiamo quindi una frequenza di 11 kHz (11.025 Hertz) adatta alla
registrazione della voce, a 22 kHz (22.050 Hertz) adatta alla registrazione di un nastro musicale, e
44 kHz (44.100 Hertz) per una registrazione di qualità cd. Questo parametro merita una maggiore
attenzione rispetto ai precedenti infatti, la grandezza di un file dipende infatti moltissimo proprio
da questo parametro; inoltre, segnali analogici diversi possono dare luogo allo stesso segnale
campionato.
Per questo motivo è possibile che si verifichi che segnali analogici diversi che, una volta
campionati con una frequenza troppo grande, danno luogo alla stesso audio digitale.
!
3. La risoluzione
Rappresenta il numero di bit utilizzati per rappresentare i campioni: per ogni singolo campione
salvato, possiamo immagazzinare diversi valori (per esempio l'intensità della voce, il timbro,
ecc...); per fare questo si utilizzano 8 o 16 bit per campione: nel primo caso si hanno 256 valori
possibili (cioé 28, essendo 2 byte formati da 8 bit ciascuno), relativamente pochi, infatti offrono
una qualità del suono inferiore a quella di un nastro; nel caso si utilizzino 16 bit, si hanno circa
65.000 valori (ossia 216).
Detto questo, quanto spazio (cioè quanti byte) occorre per registrare un file musicale? Questo,
ormai è chiaro, dipende dal numero dei canali mono o stereo (quindi 1 oppure 2), dal numero di
byte (1 nel caso di 8 bit, 2 nel caso di 16 bit), dalla frequenza di campionamento (da 8000 a
48000 hertz), dal tempo di registrazione (espresso in secondi).
Possiamo calcolare lo spazio utilizzato da una registrazione, in questo modo.
Immaginiamo di registrare un suono mono (quindi 1 canale), a 8 bit (quindi 1 byte), a 8000 Hertz, e
della durata di 1 minuto (quindi 60 secondi), dobbiamo applicare la seguente formula:
canali x risoluzione x frequenza x tempo
quindi, nel nostro caso avremo:
1 x 1 x 8000 x 60 = 480.000 byte

se dividiamo 480.000 per mille avremo lo spazio occupato dal file espresso in kilobyte (in questo
caso 480 kb); se invece dividiamo 480.000 per 1 milione, avremo lo spazio occupato espresso in
Megabyte (in questo caso 0,48 Mb; teniamo presente che su un dischetto - floppy disk - si
possono registrare al massimo 1,44 Mb). Lo stesso suono di prima, registrato con una frequenza
migliore, per esempio a 44.100 Hertz, occuperà questo spazio:
!
Il bitrate
!Il bitrate è il valore che indica quanti bit vengono usati per codificare un secondo di musica (per
entrambi i canali destro e sinistro).
Si esprime in kilobit per secondo (in sigla kbps oppure kbit/s) e in LAME (si tratta di un encoder,
un "programma" di trasformazione in Mp3) varia da 32kbit/s (il minimo) a 320kbit/s (il massimo).
Evidentemente, maggiore sarà la quantità di bit utilizzati migliore sarà la resa perché l'encoder
avrà a sua disposizione più spazio per rappresentare digitalmente i dati musicali.
Quindi normalmente, la qualità in ascolto è proporzionale al bitrate, dunque bitrate sempre più alti
(uniti a qualche altro accorgimento) garantiscono sicuramente qualità superiore.
In media il valore più utilizzato nel mondo per i file Mp3 128kbps ( un tempo ritenuto qualità-cd...),
che garantisce un grosso tasso di compressione del file e qualità accettabile, anche se
fortunatamente da qualche anno la tendenza è di usare, se possibile, bitrate superiori (160, 192,
256 e più) privilegiando la qualità.
La valutazione del bitrate migliore e delle altre modalità per creare un Mp3 dipende da vari fattori
(dimensioni file, tipo di musica, tipo di brano, standard di qualità che si vuole raggiungere etc.)
Per un suono registrato con qualità Cd (44.100 Hz, 16 bit, stereo), il bit rate è di 176,4 kb/s (cioè
1,41 kbit/s), in un file mp3 questo bit rate si abbassa a 16 kbyte/s (ossia 128 kbit/s) - non
dimentichiamo che l'mp3 è una compressione di un file musicale, tale compressione permette di
far scendere i circa 10,6 Mb di spazio occorrente per 1 minuto di registrazione di qualità cd ad
appena 1 solo Mb!
Per ottenere il bitrate si utilizza questa formula:
(frequenza di campionamento x risoluzione in bit x canali) : 1.000.000
Nel caso di un suono registrato ad una frequenza di 44,1 Khz, stereo, 16 bit (cioè 2 byte) avremo
un bitrate così calcolato:
(44.100 x 16 x 2) : 1.000.000 = 1,41 Kbit al secondo (kbit/s)
(N.B. se usiamo la frequenza in KiloHertz (kHz) allora dovremmo dividere solo per 1.000 e non per
1.000.000).
!!
!!
!!
!!
!!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
Formati Audio
!Il rapido sviluppo dell'audio digitale ha originato anche una babele di formati per la creazione di
file sonori, spesso fra loro incompatibili. Una recente ricerca ne ha contati più di un centinaio.
L'introduzione dell'audio sui personal computer, infatti, è avvenuta senza una preventiva
programmazione, né poteva essere altrimenti: il nostro modello di sviluppo industriale è basato
sulla competizione ed è, quindi, nemico della cooperazione e della condivisione della conoscenza.
Per queste ragioni, quando si sviluppa qualcosa di completamente nuovo che non deve
preservare il materiale già installato, si assiste sempre all'apparizione di una serie di formati
proprietari, alcuni dei quali durano lo spazio di un mattino, mentre altri riescono ad imporsi in
funzione non tanto della loro intelligenza e completezza, quanto della potenza commerciale del
produttore.
Solo quando il mercato si è relativamente stabilizzato si arriva ad una generalizzazione dei formati
adottando (a) il formato del vincitore, per quanto stupido possa essere, oppure, (b) se appare
chiaro che nessuno ha vinto, si nomina una commissione il cui scopo è quello di mediare le
esigenze dei produttori rimasti.
!
1. Caratteristiche
Che cos'è un formato? Semplicemente un modo di disporre i dati e, per estensione, di codificarli.
Qualsiasi tipo di file scritto su disco è caratterizzato da due cose:
• il modo in cui i dati sono codificati (detrminato dal cosiddetto codec, cioè l’algoritmo di
codifica);
• la scatola che li contiene, cioè il formato.
Volendo essere rigorosi, quindi, il formato è soltanto il modo in cui i dati sono organizzati e
disposti, NON il modo in cui sono codificati.
Per esempio, il ben noto WAV specifica che i campioni audio devono essere raggruppati in
blocchi (detti chunks), in genere di uguale lunghezza. Questo è il formato: un file wav, quindi, è
formato da piccoli blocchi di campioni disposti in sequenza come i vagoni di un treno. Di
conseguenza, un programma che legge un wav non legge il singolo campione, ma carica un
blocco alla volta.
All'interno di questi blocchi, poi, i campioni possono essere codificati in vari modi: PCM o
ADPCM, a 8 o 16 bit, con varie frequenze di campionamento eccetera. Se, infatti, si controlla la
lista dei formati gestiti da un software di elaborazione audio professionale, come CoolEdit (che
ormai è diventato Adobe Audition), noterete che, scegliendo 'Save As' e aprendo la lista dei
formati, trovate diversi tipi di wav: il formato è lo stesso, ma cambia il codec.
Inoltre, un formato, di solito, definisce anche una serie di informazioni che riguardano il contenuto
del file. Il punto è che non è pratico memorizzare i campioni sonori su disco senza alcun dato di
contorno. Per poter suonare correttamente un file, infatti, i player devono conoscere almeno l'SR,
il formato dei campioni e il numero di canali. Di conseguenza, ai campioni veri e propri viene
anteposto un header (testata) che contiene questi valori e a volte, molti altri dati, compreso titolo,
autore e copyright.
!Esistono almeno 3 tipologie di formato:
!
• Formati che contengono effettivamente l'audio sotto forma di onda sonora campionata che viene
riprodotta mediante un convertitore DAC e un semplice programma in grado di inviare i campioni
al convertitore. La qualità della riproduzione, quindi, dipende solo dal sistema di conversione.
Questi file possono essere compressi o meno e sono sia mono che multicanale. In quest'ultimo
caso, i vari canali sono interlacciati (interleaved): abbiamo, cioè, un piccolo blocco di campioni
del canale 1 seguito da uno di uguale lunghezza del canale 2 e così via. (Es.: file WAV, AU,
AIFF). !
!
• Formati che non contengono l'audio, ma solo i dati di controllo per crearlo. Il suono vero e
proprio viene, poi, creato in locale da un sintetizzatore esterno o residente sulla scheda audio,
oppure da un sistetizzatore virtuale (emulato via software). Di questa categoria fanno parte,
ormai, solo i MIDI file. Nonostante il MIDI preveda la standardizzazione dei timbri strumentali
(standard GS/GM), la qualità della riproduzione dipende strettamente dal sintetizzatore utilizzato.
Lo standard GS/GM, infatti, indica solo il tipo di suono da utilizzare (es.: pianoforte), non la sua
qualità. Che quest'ultimo sia buono o meno, poi, dipende solo dal sintetizzatore locale. Così
come una partitura può sembrare più o meno bella in base agli esecutori, un file di questo tipo,
da bellissimo può diventare orrendo se viene sintetizzato con suoni pessimi. !
!
• La terza categoria incorpora alcune caratteristiche di entrambe le precedenti ed è quella dei
formati che contengono sia i campioni sonori che i dati di controlli per utilizzarli. L'esempio tipico
è quello dei file MOD. Essi contengono un set di strumenti sotto forma di campioni che vengono
richiamati secondo pattern e ordini preordinati tramite script (cioè tramite algoritmo). !
!!
2. Formati
!Formati audio di 1a categoria lineari (non compressi)
!
u-law Estensioni: AU, SND
!Il formato u-law (pronunciato mu law in quanto la ‘u' iniziale altro non è che una semplificazione
del nome originale con l'iniziale greca µ-law) è originario dei sistemi Sun e NeXT per cui è noto
anche come NeXT/Sun format ed è uno dei tipi di file più frequentemente utilizzati su Internet
(generalmente con estensione .AU perché .SND è ambigua) in quanto su tutte le piattaforme
esistono ormai piccoli programmi che riproducono questo formato.
La qualità di questi campioni è però piuttosto bassa: nonostante il formato supporti un SR anche
di 22050 e 44100, di solito si utilizza 8K che equivale alla banda di una buona linea telefonica. In
compenso, i file hanno dimensioni decisamente ridotte rispetto agli equivalenti con SR più alto e
quindi si scaricano più facilmente via rete. Proprio per questa ragione alcuni archivi sonori
dispongono di file in due formati: il formato AU è usato per un download veloce, magari per
effettuare un pre-ascolto, prima di lanciarsi in un lungo download del file equivalente ma ad alta
qualità in un altro formato. Qui trovate le specifiche tecniche del formato AU.
Audio Interchange File Format Estensioni: AIF, AIFF
L'Audio Interchange File Format è di origine Apple (1985) e consente la memorizzazione di
campioni mono o multicanale a 8 o 16 bit e varie frequenze di campionamento. Trattandosi di un
formato elaborato per essere portabile, può essere anche facilmente convertito (come vedremo, il
RIFF Microsoft è simile) e quindi viene utilizzato spesso.
RIFF WAVE Estensioni: WAV
Elaborato da Microsoft e IBM nel 1992, il RIFF WAVE (il cui nome completo è Resource
Interchange File Format Waveform Audio Format) segue le specifiche del più generale Rich
Information File Format. É stato introdotto a partire da Windows 3.1 ed è diventato in breve il
formato più diffuso per le applicazioni su PC. I file WAV supportano varie tipologie di
campionamento: sono mono o multicanale, 8 o 16 bit a diversi sampling rate con vari sistemi di
codifica anche se i più diffusi sono il PCM e l'ADPCM. Qui trovate le specifiche tecniche del
formato WAV.
!
Creative Voice Estensioni: VOC
!Il VOC è il formato proprietario della Creative Lab, produttore della Sound Blaster. Questo formato
supporta solo 8 bit mono con SR fino a 44.1 kHz e stereo con SR fino a 22 kHz.
Amiga Interchange File Format Estensioni: IFF
IFF/8SVX è il formato standard dei computer Amiga. È simile all'AIFF, ma supporta solo campioni
a 8 bit. Raramente usato fuori dal mondo Amiga. Amiga è scomparso, ma sono rimasti i file.
Macintosh SND Estensioni: SND
Questa estensione è ambigua in quanto viene utilizza anche dai già visti file di formato u law. SND
è in realtà l'estensione dei file di sistema Macintosh, ma anche alcuni vecchi software per PC la
usano. I file del vecchio Mac, comunque, potevano avere vari SR, da 5.5 a 22 kHz, anche se il più
usato era 11 kHz. Questi file sono del tipi AIFF o AIFC e venivano riprodotti direttamente
dall'hardware sonoro del computer con il System 7 (sono di tipi SFIL, per sound file, nel resource
fork). Raramente usati fuori dal mondo Mac.
RAW pcm Estensioni: PCM, SND
File di campioni con semplice codifica PCM senza header. Raramente usati se non come file
temporanei o per specifiche applicazioni.
!
!
!
Formati audio di 2a categoria
!MIDI file Estensioni: MID, MIDI
Come già accennato, i MIDI file non contengono audio, ma solo dati di controllo che istruiscono
un sintetizzatore MIDI locale, interno o esterno, ad eseguire determinate azioni tipo “suona una
certa nota”, “ferma una nota”, “applica un vibrato”, ecc. Lo standard MIDI file è stato creato nel
1983 dalla MIDI Manufacturer Association, un gruppo di costruttori di strumenti musicali
elettronici, che è anche responsabile del suo aggiornamento.
Questi file sono largamente disponibili su Internet e tutte le piattaforme sono ormai in grado di
riprodurli senza munirsi di software aggiuntivo, a patto, ovviamente, di possedere un sintetizzatore
MIDI virtuale oppure reale su scheda o esterno.
Qui trovate un approfondimento e le specifiche tecniche. Questo invece è il sito ufficiale della
MMA.
!
Formati audio di 3a categoria
!Moduli Estensioni: MOD (Protracker), XM (Fasttracker), IT (Impulse Tracker), S3M (ScreamTracker)
e altri
I file MOD possono essere considerati come un formato di incrocio fra la 1a e la 2a categoria. Il
loro formato è simile a quello dei MIDI file (sono cioè composti di dati di controllo e non di audio
vero e proprio), con la differenza che contengono anche i timbri strumentali con cui effettuare
l'esecuzione sotto forma di un banco di suoni campionati. I dati di controllo, poi, pilotano
l'esecuzione che deve essere effettuata con questi timbri. Nella prima versione i campioni erano a
8 bit.
I file MOD sono originari dell'Amiga, ma hanno avuto una certa diffusione grazie soprattutto alle
dimensioni contenute rispetto a un file audio totalmente campionato e al fatto che l'esecuzione
viene sempre effettuata con i timbri originali ovviando, così, ai problemi di differenze timbriche dei
MIDI file. Sono nati, così, vari formati che riprendono e sviluppano l'idea dei MOD.
!!
3. Compressione
!Le compressioni sono sistemi per ridurre la dimensione di un file mediante l'applicazione di vari
tipi di algoritmi e/o codifiche.
Si distinguono due tipi di compressione: loseless (senza perdita) in cui il file viene compresso
senza eliminare nessuna informazione e la sua decompressione permette, quindi, di riavere
esattamente l'originale e lossy (con perdita) in cui la compressione elimina parti considerate
ridondanti o ininfluenti e la decompressione non riporta all'originale.
Chiaramente, il primo sistema preserva l'integrità dell'originale, ma comprime meno, mentre il
secondo comporta una perdita di qualità ma comprime molto di più, proporzionalmente al livello
di perdita che si è disposti ad accettare. Vediamo qualche esempio.
Compressione loseless
Le compressioni loseless si basano sulla riduzione della ridondanza tipica delle produzioni umane.
Per esempio, in un libro dedicato alla musica sperimentale, la locuzione "musica sperimentale",
lunga 19 caratteri, sarà ripetuta molte volte. A questo punto, basta sostituirla con un simbolo che
normalmente non si trova in un testo, come per es. '#1#', per ridurre un termine di 19 caratteri a
uno di 3, risparmiando 16 caratteri per ogni occorrenza. In realtà bisogna dire "per ogni occorenza
oltre la prima", perchè, per poter poi decomprimere il testo, bisogna costruire anche un indice
delle sostituzioni in cui, in questo caso, sarà scritto
#1#="musica sperimentale".
Ovviamente, nel libro, anche molte altre parole o insiemi di esse saranno ripetute più volte, e
ognuno di essi potrà essere sostituito da un simbolo come #2#, #3#, ... , #n#, dove n è un numero
progressivo, ottenendo alla fine un risparmio notevole.
Un sistema analogo è utilizzato dall'algoritmo di Lempel-Ziv (LZ) i cui derivati sono alla base di
molti dei moderni programmi di compressione loseless, compreso il notissimo ZIP.
In realtà l'antenato di molti codificatori loseless è la cosiddetta Codifica di Huffman. Si tratta di un
sistema di eliminazione della ridondanza sviluppato nel 1952 dal ricercatore omonimo, allora
studente al MIT. Il suo algoritmo risolve il problema di codificare una serie di stringhe (stringa = un
qualsiasi insieme di caratteri) nel modo più compatto possibile, tenendo conto anche della
frequenza con cui le stringhe si presentano: a quella più frequente viene assegnato il simbolo più
breve in modo da massimizzare la compressione. Qui trovate un buon esempio che
approfondisce le problematiche legate alla Codifica di Huffman.
!Un altro tipo di compressione loseless, basato sempre sulla riduzione della ridondanza, è il
cosiddetto Run Length Encoding (RLE) che funziona in modo molto semplice. Supponiamo di
avere la seguente stringa di 20 caratteri
ABBBBBBBBBCDEEEEFGGG
Applicando la RLE, diventa
A*9BCD*4EF*3G
per un totale di 13 caratteri, con un risparmio del 35%.
In pratica, al posto dei caratteri ripetuti è stato inserito un codice formato dal carattere e dal
numero delle ripetizioni. L'asterisco serve a indicare che quello che segue è il numero delle
ripetizioni e non fa parte della stringa (naturalmente questo è il principio base; i particolari della
codifica possono variare).
Chiaramente questo sistema non è produttivo con i testi, ma lo è nel caso delle immagini in cui
lunghe striscie di pixel con lo stesso colore sono abbastanza frequenti.
Compressione lossy
La compressione lossy si basa sull'eliminazione di quelle componenti dell'informazione ritenute
più o meno ininfluenti in base al livello di compressione richiesto. A bassi livelli di compressione
verranno eliminati solo i particolari realmente ininfluenti, mentre a livelli più alti cambieranno anche
particolari sensibili.
Un esempio non audio è la codifica delle immagini JPEG che elimina le sfumature dando a gruppi
di pixel vicini lo stesso colore se la loro differenza è inferiore a un valore proporzionale al livello di
compressione. In questa pagina potete osservare l'effetto di riduzione delle dimensioni e la
corrispondente perdita di qualità a livelli di compressione via via crescenti.
Maggiori particolari sulle compressioni possono essere trovati sulla Wikipedia (enciclopedia free
creata dalla community), qui in inglese. Wikipedia esiste anche in italiano, ma il contenuto è più
ridotto.
!
Formati audio di 1a categoria compressi
Lossless (senza perdita)
Questi formati lavorano in modo analogo allo zip. Comprimono il contenuto senza eliminare nulla.
Al momento dell'ascolto bisogna effettuare una decompressione ritornando all'originale in uno dei
formati lineari già visti.
Trattandosi di compressione lossless, il confronto fra questi codec non si fa sulla qualità (tutti
restituiscono l'originale), ma sul livello di compressione e sulla velocità di codifica/decodifica.
I risultati mostrano che le due cose sono inversamente proporzionali.
!
APE (Monkey Audio)
Permette di ridurre di circa il 50% lo spazio occupato dal suono (in certi casi anche di più).
!
FLAC
Formato Open Source, di grande popolarità. Una volta era estremamente diffuso (soprattutto tra i
puristi), ma sta perdendo via via terreno con l'affermarsi del formato ape di MonkeyAudio che
comprime un po' di più, per quanto FLAC abbia dalla sua una velocità di codifica e soprattutto
decodifica decisamente maggiori.
!
LA (Lossless Audio)
Il formato lossless che comprime di più. La conversione in questo formato è lentissima, però
ottiene la migliore compressione in assoluto. E' poco diffuso, dato che qualche Mb guadagnato
non vale le lunghe attese in più (e un minor supporto da programmi terzi).
!Test fatti con 10 CD che spaziano dal jazz al metal (NON però con musica classica), mostrano
che, fatto 100 il totale da comprimere, si ottengono i seguenti risultati:
LA comprime a 55.5 con velocità 2.5,
APE in modalità extra-high comprime a 56.4 con velocità 8.8
APE in modalità normale comprime a 57.3 con velocità circa 17
FLAC comprime a 59.8 con velocità 20 in codifica e ben 44 in decodifica.
Qui trovate i test dettagliati.
Lossy (con perdita)
Come già detto, nella compressione lossy alcuni particolari vengono eliminati. Al momento della
decompressione, quindi, non si ottiene più il file originale e non c'è alcun modo per recuperarlo.
Il primo termine di giudizio, quindi, è la qualità acustica. Il problema di ogni valutazione è che,
tranne casi eclatanti ad alti livelli di compressione, non ci sono modi numerici per decidere chi è il
migliore, ma, dato che le differenze possono essere minime, bisogna fare i conti almeno con:
• il genere musicale
• la cultura dell'ascoltatore
• le preferenze dell'ascoltatore
• le modalità di ascolto
• la qualità dell'impianto di ascolto
Per fare un esempio estremo, è chiaro che se il mio fruitore-tipo è quello che ascolta heavy metal
in macchina, posso permettermi di più rispetto a un ascoltatore di musica classica in sala
insonorizzata.
!
AIFF Compresso Estensioni: AIFC
Già molti anni fa Apple ha introdotto il formato AIFC che è la versione compressa del già citato
AIFF. Il rapporto di compressione raggiunge 6:1, ma a prezzo di perdita di qualità sensibile del
segnale. Rapporti come 2:1 o al limite 3:1 danno buoni risultati anche su suoni complessi. La
maggior parte delle applicazioni che leggono gli AIFF sono usabili anche per gli AIFC.
MPEG Estensioni: MPEG, MPG, MP1, MP2, MP3
La codifica MPEG è, in verità, più nota per i file video, ma poiché ai video di solito si accompagna
un audio, il Moving Picture Expert Group (MPEG, appunto) cha fa parte dell'ISO/IEC (International
Standards Organization/International Electrotechnical Commission, una organizzazione
internazione che promuove standard in vari campi industriali) ha definito le specifiche di uno dei
più popolari sistemi di memorizzazione e compressione dell'audio fra quelli utilizzati in Internet
attualmente.
In realtà, le ricerche per un algoritmo di compressione audio con prestazioni elevate e alta qualità
erano iniziate già nel 1987 al Fraunhofer Institut in Germania, con il nome in codice EUREKA
project EU147, Digital Audio Broadcasting (DAB).
Nel 1988 si insedia l'MPEG come sottogruppo dell'ISO dedicato agli standard audio/video. In
questa sede, l'italiano Leonardo Chiariglione inizia la definizione di uno standard di compressione
audio. Le istanze dell'ISO e le realizzazioni Fraunhofer, che nel frattempo aveva brevettato il
proprio algoritmo, si incontrano e nel 1992 queste ultime vengono integrate nelle specifiche
dell'MPEG-1 che esce nel 1993.
I file audio MPEG possono essere di tre tipi diversi ognuno dei quali ha le proprie specifiche. I
livelli più elevati impiegano un tempo di codifica/decodifica maggiore, ma comprimono di più
senza sacrificare la qualità audio.
Ogni standard può avere diversi layers (chiamati impropriamente "livelli") che rappresentano
ciascuno una famiglia di algoritmi di codifica, contrassegnati da un numero romano: Layer I, Layer
II, Layer III. Quelli maggiormente utilizzati per l'audio sono stati sviluppati nell'ambito del
protocollo MPEG 1 e sono comunemente noti com MP1, 2 o 3 (in realtà il loro nome è MP1 layer I,
II o III).
La compressione è basata su modelli psico-acustici che operano in modo simile al ben più noto
JPEG sviluppato per le immagini. Il livello MPEG 2 comprime oltre 5:1 e può arrivare a 12:1 senza
perdere qualità in modo apprezzabile anche se, come nel caso del JPEG, il risultato dipende dalla
complessità del file di partenza (da notare che questi risultati non sono eccezionali se comparati a
quelli video dove si arriva a 26:1).
Gli impieghi dell'MPEG, comunque, vanno oltre Internet: Philips lo utilizza per il video CD ed è
usato anche in numerose radio digitali. I lettori sono stati sviluppati per tutte le piattaforme e sono
gli stessi che leggono i file video.
Qui le caratteristiche dei 3 formati:
!Layer I
Compressione 1:4
Bitrate 384 Kb/s
Usato nei Philips DCC e nei sistemi digitali professionali. Adotta esclusivamente il metodo di
eliminazione delle frequenze mascherate derivato dagli studi di psicoacustica. Ciò significa che
elimina quelle frequenze che vengono nascoste dietro ad altre più presenti (masking).
!Layer II
Compressione da 1:6 a 1:8
Adotta metodi di filtraggio del segnale audio molto più spinti rispetto al primo modello. E' stato
migliorato il metodo della scelta e della eliminazione delle frequenze non necessarie. Codificando
a 160 Kb/s si ottiene un buona qualità di suono; a 192 Kb/s si arriva vicini all'originale; a 256 Kb/s
risulta difficile notare la differenza dall'originale.
!Layer III
Compressione da 1:10 a 1:13
È il più complesso fra i modelli MPEG per l'audio. Non solo adotta filtraggi più massicci rispetto al
Layer II, ma utilizza anche un coder estremamente complesso (Huffmann). Codificando il segnale
a 128 Kb/s si ottiene un suono sufficientemente buono; a 160 Kb/s si è molto vicini all'originale; a
192 Kb/s e oltre, è difficile percepire differenze con l'originale.
!La pagina web ufficiale pubblica i sequenti tassi di compressione per l’MPEG-1 Layer 1,2 e 3.
• Layer 1: 384 kbit/s, compressione 4:1
• Layer 2: 192...256 kbit/s, compressione 6:1...8:1
• Layer 3: 112...128 kbit/s, compressione 10:1...12:1
Questi sono valori piuttosto aleatori in quanto:
• La qualità dipende non solo dal formato di codifica del file, ma anche dalla qualità psico
acustica del codificatore. Il codificatore tipico layer 1 usa un modello psicoacustico molto
elementare che finisce per richiedere molti più bit per un risultato soddisfacente.
• La codifica Layer 1 a 384 kbit/s è migliore della codifica Layer 2 a 192 … 256 kbit/s.
• La codifica Layer 3 a 112 … 128kbit/s è peggiore del Layer 2 a 192 … 256 kbit/s
Un modo più realistico per considerare il bitrate è:
• Layer 1: eccellente a 384 kbit/s
• Layer 2: eccellente a 256...320 kbit/s, molto buono a 224...256 kbit/s, buono a 192...224
kbit/s, non si dovrebbe usare sotto i 160 kbit/s
• Layer 3: eccellente a 224...256 kbit/s, molto buono a 192...224 kbit/s, buono a 160...192
kbit/s, non si dovrebbe usare sotto i 128 kbit/s
!
MP3
!Attualmente l'MP3 del Fraunhofer Institute è il sistema di compressione più utilizzato al mondo. Il
suo scopo è quello di ridurre il bitrate di un flusso di dati audio. In effetti è stato realizzato proprio
per trasmettere il suono via rete. La riduzione delle dimensioni del segnale memorizzato su disco
è un ovvio effetto collaterale.
Il bitrate è il numero di bit trasmessi per ogni secondo di suono. Nel caso di un segnale non
compresso (es.: WAV), abbiamo già imparato a calcolare il numero di bytes per ogni secondo di
suono. Per passare al bitrate, basta ricordare che ogni byte è formato da 8 bit, quindi è sufficiente
moltiplicare per 8.
Considerando che un segnale stereo, SR 44100, 16 bit produce 2 * 44100 * 2 = 176400 bytes al
secondo, il suo bitrate sarà di 176400 * 8 = 1411200 bit al secondo, cioè circa 1411 Kbit.
Scopo dell'MP3 è ridurre tale valore a livelli che vanno da un massimo di circa 384 Kbit
(compressione 1:4) in giù. Ovviamente, per ottenere questo risultato, qualcosa dovrà essere tolto
dal segnale originale. Lo schema della codifica, che si basa sia su considerazioni psico-acustiche
che algoritmiche.
!
MP3Pro
!MP3Pro, di Thomson Multimedia, è in realtà una combinazione di MP3 e SBR (spectral band
replication, vedi SBR Explained - Coding technologies).
Questa tecnologia codifica a parte (cioè in flussi diversi) le componenti a bassa e ad alta
frequenza del segnale che viene, così, suddiviso in due parti prima del trattamento. In tal modo
ognuna delle due parti viene codificata in modo adeguato ottenendo una qualità migliore, ma
anche file leggermente più grossi.
!
MusePack (MPC noto anche come MP+)
!Formato di altissimi risultati (secondo il produttore), soprattutto a bitrate alti (oltre 192 kbps e
oltre). Effettivamente, su alcuni brani i risultati sono migliori (più cristallini) dell'mp3 a bitrate
costante, soprattutto a bitrate medio/alti (192 kbps).
Sono in molti a considerarlo il miglior formato audio lossy, ma in effetti MPC ha risultati migliori
perché utilizza il bitrate variabile (VBR) che lui chiama CVD (crystal voice detection) quindi è ovvio
che vinca facilmente se confrontato all'MP3 con bitrate fisso. In realtà si dovrebbero fare test per
confrontarlo con un MP3 a bitrate variabile.
!
OGG VORBIS
!Prende questo nome perché incapsula il codec Vorbis nel formato Ogg. Sia Vorbis che Ogg sono
open source e sono stati creati dalla Xiph.Org Foundation nel 1998 quando sembrava che
Fraunhofer Gesellschaft volesse imporre il pagamento dei deritti per l'uso dell'MP3.
Xiph.Org Foundation è una organizzazione non profit che si dedica allo sviluppo di formati
multimediali di pubblico dominio, per evitare che l'applicazione dei diritti derivanti dai copyright
sui formati possa soffocare la condivisione della conoscenza.
Ogg Vorbis è un ottimo codec open source. Riesce a dare risultati migliori dell'mp3 soprattutto a
bitrate bassi (maggior qualità in minor spazio), cioè inferiori a 128 kbps. Proprio per questa
ragione la tecnologia Vorbis viene impiegata anche da parecchi grandi produttori di videogames al
posto dell'MP3 per evitare eventuali richieste di diritti da parte di Fraunhofer Gesellschaft.
WMA
Formato windows media audio, compresso e molto simile a un mp3. Formato di compressione
audio proprietario Microsoft.
I file compressi in questo formato sono di circa il 20 % più piccoli degli Mp3 con qualità
generalmente inferiore. Il codec WMA è incapsulato in un ASF, per cui l'estensione può anche
essere quest'ultima. In genere si usa WMA quando il contenuto è solo audio.
!
AAC
!L'Advanced Audio Coding (AAC) usato nell'Apple I-Pod è uno schema di compressione che fa
parte delle specifiche del MP4 le cui specifiche a livello progettuale sono uscite in ottobre 2004.
Ecco le sue caratteristiche come dichiarate dal produttore:
• Sample frequencies from 8 kHz to 96 kHz (official MP3: 16 to 48 kHz)
• Up to 48 channels
• Higher coding efficiency for stationary signals (blocksize: 576 -> 1024 samples)
• Higher coding efficiency for transient signals (blocksize: 192 -> 128 samples)
• Much better handling of frequencies above 16 kHz
• More flexible joint stereo (separate for every scale band)
!
!
Streaming audio
RAM, RM, ASF, ASX
!Lo streaming è la trasmissione in rete dei dati audiovisivi in tempo reale; tutto questo senza tempi
di attesa derivanti dal download completo del file sull’hard disk del computer. Con lo streaming,
infatti, non viene scaricato l’intero file audio prima di consentirne l’ascolto, ma la riproduzione
inizia per ogni blocco di due secondi di ascolto; nel frattempo viene scaricato il successivo. Si
possono verificare momentanee interruzioni nella riproduzione, nel caso in cui il traffico nella rete
risulti congestionato.
Questo sistema di trasmissione è possibile con modem da 28.8 kbit/sec in su. In base alle
capacità di collegamento dell’utente, è possibile selezionare le diverse qualità di suono.
Le due principali tecnologie di audio streaming utilizzate sono Real (attraverso il plugin real
player), e Windows Media (Windows Media player).
Real Technologies ha iniziato a promuovere tecnologie di streaming audio (e successivamente
video), per mezzo di piccoli files con estensione ram o rm con banda di trasmissione che arriva
fino a 56Kbit/sec. Windows Media (Microsoft) utilizza una soluzione per lo streaming basata sui
file Asf e Asx con una banda abbastanza ristretta (15-25 kbit/sec) e qualità inferiore.
La tecnologia dello streaming audio ha permesso alle principali emittenti radiofoniche di
presentare sui propri siti web i loro programmi trasmessi via etere, cosicché chiunque sul globo
terrestre potesse ricevere una trasmissione “radio” dal pc. Nascono anche le radio “web only”,
non presenti via etere, ma solo sul web.
Studieremo nei particolari lo streaming e le tecnologie audio web in un esame del II° anno.
DAB: Digital Audio Broadcasting
è un sistema di trasmissione di segnali radio digitali via etere. Il DAB si bassa su un algoritmo di
compressione audio simile a MP3 ma evoluto per la trasmissione di bouquet di pacchetti che
permettono all’emittente di presentare più di una versione dei suoi programmi. La qualità della
trasmissione è variabile a seconda della banda occupata. Durante la trasmissione vengono usati i
codici CRC per correggere errori e mantenere la trasmissione a un elevato livello qualitativo anche
in condizione di ricezioni non ottimali.
!!

Potrebbero piacerti anche