Sei sulla pagina 1di 20

TECNOLOGIE

Tecnologie di codifica audio e video in ambiente fisso e mobile

GIOVANNI CORDARA ROSARIO DROGO DE IACOVO GUIDO FRANCESCHINI MAURO QUAGLIA

Larticolo descrive i pi importanti standard esistenti nel campo delle codifiche audio/video ed illustra i principi alla base del funzionamento degli algoritmi di compressione, con un approfondimento sulle tecniche di codifica audio/video allo stato dellarte. Vengono inoltre descritte le modalit di adozione delle tecniche di codifica nei differenti contesti applicativi ed infine viene riportata una breve panoramica sulle tecnologie in fase di sviluppo che, in futuro, potranno permettere la realizzazione di scenari applicativi innovativi.

1. Introduzione
Attualmente, esistono numerosi servizi di nuova generazione che sfruttano architetture distribuite per erogare contenuti digitali compressi su reti e terminali eterogenei. In tale contesto operano numerosi enti di standardizzazione, che regolano gli aspetti tecnologici relativi agli algoritmi di codifica e trasmissione dei segnali audio e video, per ciascuno degli scenari applicativi identificati. Gli algoritmi di compressione definiti dagli standard sono molteplici, volti al soddisfacimento di differenti requisiti: tuttavia, essi si basano su principi analoghi. Dopo una descrizione dei pi importanti standard esistenti, larticolo analizza i principi alla base del funzionamento degli algoritmi di compressione, con un approfondimento sulle tecniche di codifica audio/video allo stato dellarte. Nel seguito si descrivono le modalit di adozione delle tecniche di codifica nei differenti contesti di servizio. Infine si riporta una breve panoramica sulle tecnologie in fase di sviluppo, che potranno introdurre, in futuro, nuove funzionalit e permettere la progettazione di scenari applicativi innovativi.

2. Gli standard di codifica audio e video


Il bisogno di uno standard risponde ad una esigenza essenziale per tutte le applicazioni che si fondano sulla comunicazione tra pi peer: linteroperabilit . Linteroperabilit il requisito che esprime la necessit di scambiare qualunque tipo di informazioni senza barriere tecnologiche, interfacciando e rendendo interlavoranti sistemi prodotti da differenti manifatturiere. Gli standard specificano i tool necessari a garantire interoperabilit e ne governamo levoluzione funzionale e prestazionale definendo roadmap di evoluzione che consentano ladozione dei pi recenti progressi tecnologici. Loggetto della standardizzazione rappresenta il minimo indispensabile per assicurare interoperabilit, ma salvaguarda la libert di azione delle industrie, mantenendo aperta la possibilit di implementare aree non-normative e stimolando, cos, la competizione e linnovazione. Assecondando questi principi fondanti gli standard nel campo della codifica audio e video descrivono: la sintassi di un bit stream codificato, cio la

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

97

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

sequenza dei valori binari che rendono un flusso di dati conforme); la semantica degli elementi sintattici, cio il loro significato; il processo di decodifica. Gli standard non specificano invece larchitettura ed il funzionamento degli encoder, che costituiscono indubbiamente la parte pi critica del processo di compressione. Questo approccio sprona lindustria a ricercare soluzioni innovative che incrementino le prestazioni, consentendo la creazione di valore aggiunto sui prodotti e assicurando allo standard una evoluzione genetica pur nellambito della conformit alla norma. Lesistenza di uno standard ha importanti implicazioni economiche per le realt che vi partecipano, in quanto permette la suddivisione dei costi e investimenti e laccelerazione del processo di industrializzazione. Esistono due tipi di standard: gli standard de facto e gli standard de jure. Uno standard de facto tipicamente originato dalla sua capillare diffusione e popolarit: in alcuni casi, un certo prodotto o modello pu essere tanto diffuso e imitato da diventare uno standard. In altri casi, invece, sia in campo manifatturiero che commerciale, esistono specifiche studiate a priori che regolano lutilizzo e la produzione di sistemi. A volte questi standard sono obbligatori per legge e imposti dagli stati, a volte sono fissati da accordi fra imprese o da associazioni di consumatori ma non vincolanti per i produttori, che possono scegliere se conformare ad essi i loro prodotti o meno. Questi si dicono standard de jure. MPEG (Moving Picture Export Group) ed ITU (International Telecommunication Union) sono i principali enti di normativa che standardizzano tecnologie di codifica audio e video: costituiscono un riferimento per altri enti come DVB (Digital Video Broadcasting), ISMA (Internet Streaming Media Alliance) e 3GPP, che utilizzano queste tecnologie e le integrano con altri elementi per definire profili di servizio per specifici contesti applicativi. Da un lato quindi sono definiti standard di riferimento, spesso comprensivi di un ampio insieme di tool ed opzioni, che coprono un ampio spettro di esigenze; dallaltro vengono definiti scenari di servizio pi verticali, soddisfatti combinando e profilando in modo opportuno le tecnologie disponibili, ivi incluse gli standard di codifica. Nel corso dellarticolo sar descritto lo stato dellarte degli standard MPEG, storicamente il punto di riferimento tecnologico per il mondo della codifica. Ladozione delle tecnologie di codifica nei diversi ambiti applicativi, oggetto di attivit degli enti sopra citati, sar oggetto di un capitolo a s.

2. 1 Il principale standard di riferimento: MPEG


MPEG (Moving Picture Experts Group) un gruppo di lavoro che opera allinter no dellInternational Organisation for Standardization (ISO) e dell Inter national Electrotechnical Commission (IEC). Formalmente, rappresenta il

gruppo 11 del Subcommittee 29 del Joint Technical Committee 1: il suo titolo ufficiale, pertanto ISO/IEC JTC1/SC29/WG11. Nato nel 1988, MPEG ha prodotto molteplici standard: MPEG-1 (1993) ed MPEG-2 (1995), costituiscono i primi standard di successo per la codifica audio e video. Grazie alla loro diffusione ed al vasto utilizzo in prodotti commerciali e servizi, come Video-CD, DVD, televisione digitale, DAB (Digital Audio Broadcasting), player e registratori MP3 questi standard hanno promosso e consentito il passaggio dai sistemi analogici a quelli digitali. Sulla base di tali successi, stato realizzato MPEG-4 (1998), nato con lobiettivo di migliorare le prestazioni dei codificatori audio e video per poter soddisfare requisiti di servizio innovativi e pi sfidanti, come quelli di videocomunicazione e trasmissione su reti a banda limitata. MPEG-4 introduce alcune novit, in grado di allargare il contesto applicativo rispetto agli standard precedenti: permette di inserire in flussi video contenuti sintetici e sottotitoli, creare scene multimediali contenenti pi di un video o pi di un audio, codificare video non rettangolari, segmentare oggetti allinterno di una ripresa video. Nel 2001 stato pubblicato un nuovo standard, MPEG-7, che modifica lorientamento del lavoro del gruppo. Lobiettivo primario, conseguenza del proliferare di contenuti multimediali digitali, non pi quello di specificare algoritmi di codifica, ma permettere la gestione efficace di tali contenuti: MPEG-4 definisce come rappresentare il contenuto, MPEG-7 come descriverlo. MPEG-7 facilita lutilizzo dei milioni di contenuti digitali esistenti (di qualunque tipo: audio, video, immagini, naturali e sintetici, contenuti misti), la loro catalogazione, che pu disporre di un formato di descrizione comune, e la ricerca degli argomenti di interesse. MPEG-7 ufficialmente denominato Multimedia Content Description Interface. Questa attenzione ai contesti di utilizzo ed alle problematiche di integrazione dei media digitali stata riaffermata nel charter del pi recente standard, MPEG-21, tuttora in fase di definizione. MPEG-21, Multimedia framework , non si focalizza esclusivamente sui contenuti, ma analizza la catena di distribuzione nella sua interezza, per standardizzare lintero processo che regola il ciclo di vita e di diffusione del contenuto digitale. MPEG-21 descrive gli elementi chiave di un framework in grado di permettere la descrizione e lidentificazione del contenuto, la sua protezione, la sua distribuzione in reti eterogenee. MPEG uno standard aperto ad esperti accreditati da appositi National Standard Body. I documenti sono disponibili per gli enti appartenenti alla comunit. Come standard di riferimento, MPEG guidato da alcuni principi cardine: Data la vastit degli argomenti trattati, gli standard MPEG generalmente operano producendo toolbox , insiemi di algoritmi specifici che permettono di soddisfare requisiti variegati. Tale approccio permette alle industrie di utilizzare il sottoinsieme dei tool di base che permettono di

98

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

rispondere alle proprie esigenze. Per garantire la variet, ed al tempo stesso linteroperabilit tra tutti i sottoinsiemi utilizzati, MPEG utilizza il meccanismo dei profili, combinazioni di tool , anchesse decise dalla comunit e specificate in fase normativa, appositamente studiate per essere utilizzate in particolari contesti applicativi. Standardizzazione a priori: MPEG identifica le tecnologie per la standardizzazione prima della richiesta da parte delle industrie. Questo approccio permette ad MPEG di produrre standard prettamente tecnologici, esclusi da qualunque interesse commerciale; Specifica del minimo per garantire interoperabilit, approccio generale per gli standard de jure; Esecuzione, in fase normativa, di test di conformit e verifica delle prestazioni di ogni nuovo standard. Il processo di standardizzazione seguito dal Moving Picture Experts Group (MPEG) rappresentato nel riquadro omonimo.

3. I principi della codifica audiovisiva


La teoria dellinformazione distingue due tipologie di codifica, utilizzate in un sistema di telecomunicazioni: codifica di sorgente; codifica di canale. Con il termine sorgente sintende linformazione nella sua forma originale da trasmettere: la sua codifica, pertanto, consiste in una conversione e manipolazione dei dati in ingresso per esprimerli in modo pi efficace, utilizzando un numero inferiore di bit; quando linformazione viene trasferita tramite un

mezzo trasmissivo, la codifica di sorgente seguita dalla codifica di canale, volta a garantire che i bit giungano a destinazione proteggendoli da eventuali errori di trasmissione. Nel seguito si tratter diffusamente della codifica di sorgente [1] [2] rimandando ad un'altra occasione lapprofondimento delle tecniche di codifica di canale. I segnali audio e video presentano caratteristiche significativamente differenti tra loro, a partire dalle dimensioni: alla natura monodimensionale dellaudio si contrappone la bidimensionalit dellimmagine visiva. Di conseguenza, anche i codificatori, studiati in modo specifico per comprimere efficacemente i due tipi di segnali, eseguono operazioni differenti. A livello algoritmico, tuttavia, si pu riscontrare un approccio analogo per il processo di codifica, che in entrambi i casi esegue la stessa sequenza di operazioni: le differenze si concretizzano nei tool adottati per compiere i singoli passi. Ogni codificatore, infatti, cerca di rappresentare in modo efficiente linformazione contenuta nel segnale audiovisivo: per raggiungere questo scopo inizialmente calcola un modello del segnale sorgente per identificare le componenti predominanti ed eliminando le informazioni ridondanti o ininfluenti; successivamente cerca di rappresentare in modo efficiente linformazione in uscita di tale modello, e provvede alla creazione del bitstream, il flusso di dati che costituisce il segnale codificato, che pu essere memorizzato in un file o trasmesso. Questi obiettivi si concretizzano in una precisa sequenza di blocchi funzionali, che eseguono operazioni distinte tra loro, utilizzando come input il risultato ottenuto nel blocco precedente: Analisi del segnale: questa prima fase consiste nello studio di porzioni di segnale limitate nel tempo, con lobiettivo di analizzarne le caratte-

Il processo di standardizzazione MPEG


MPEG segue un processo di standardizzazione formale, che origina una serie di documenti ufficiali. Il percorso si articola in alcune fasi: Analisi dei requisiti: il lavoro di definizione di un nuovo standard nasce in seguito allidentificazione di applicazioni che necessitano di nuove tecnologie ed alla definizione di requisiti; Fase competitiva: successivamente inizia la prima fase operativa del processo di standardzzazione, che prevede: Call for Proposal: un bando che richiede a tutte le parti interes-

sate di presentare proposte tecnologiche in grado di soddisfare i requisiti identificati; Evaluation: le proposte sono valutate con un processo adeguato ed imparziale, che comprende test soggettivi, comparazioni numeriche e valutazioni di esperti; Fase cooperativa: una volta individuate una o pi tecnologie promettenti, inizia un lavoro cooperativo per migliorarne gli aspetti algoritmici e definire una prima versione dello standard (Working Draft). Si eseguono Core Experiments mirati che permettono di verificare, confrontare e introdurre ulteriori miglioramenti incrementando le prestazioni del modello di riferimento. Ogni modifica allo standard validata da opportuni Verification Tests.

Al termine della fase cooperativa, si giunge ad uno stadio di maturit tale da permettere la pubblicazione dello standard. Anche in questa circostanza sono prodotti alcuni documenti ufficiali: Commitee Draft: la prima versione dello standard, contenente le tecnologie consolidate oggetto della standardizzazione; International Standard (IS): documento che contiene le specifiche tecniche dello standard; Amendments: documenti che contengono aggiunte o modifiche tecniche ad uno standard esistente, prodotte successivamente alla pubblicazione; Corrigenda: documenti prodotti per correggere errori presenti in standard gi pubblicati.

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

99

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

ristiche. In base allapp ro c c i o u t i l i z z a t o g l i TrasformaCodifica Frame Quantizzatione + zione entropica Buffer scopi delloperazione -possono essere molteQuantizzazione plici: la costruzione di un inversa Retroazione modello del segnale corTrasformazione rente costruito a partire inversa dalle somiglianze e dalle Rate Creazione del d i ff e re n z e r i s p e t t o a + Buffer bitstream campioni passati e memorizzati, leliminaForward Frame Buffer Motozione di porzioni non compensazione percepibili, la definizione Backward Frame Buffer di parametri in grado di Stima fornire una descrizione del moto Codifica sommaria delle compoentropica Vettori di moto nenti principali. Trasformazione-quantizzazione: la seconda fase prevede la rappresenta- FIGURA 1 La struttura di base di un codificatore video. zione dellinformazione in un dominio trasformato, in grado di fornire una descrizione compatta ed Il decodificatore esegue le operazioni inverse, efficiente della correlazione insita nel segnale, nellordine opposto, rispetto al codificatore. cos da consentire una riduzione drastica della 3.1 Lanalisi del segnale ridondanza presente. Essa seguita dalla quantizzazione, ovvero loperazione di decimazione, La fase di analisi (blocchi verdi nelle figure 1 e che elimina le componenti meno significative 2) del segnale rappresenta loperazione in cui codipresenti nel dominio trasformato per massimizfica video ed audio presentano le differenze pi zare il fattore di compressione. significative. I modelli analitici utilizzati, infatti, Codifica entropica: lultima fase rappresenta in sono studiati ed ottimizzati per sfruttare la natura modo efficace i simboli in uscita dalla fase di del segnale su cui sono applicati; per tale motivo quantizzazione, generando lo stream codificato. saranno analizzati separatamente. Lanalisi del segnale strettamente legata alle caratteristiche del segnale in input; la codifica 3.1.1 Il video: la stima del moto entropica, al contrario, fornisce una compressione statistica basata su concetti generici, validi per I fotogrammi adiacenti di una ripresa video preogni tipo di informazione. sentano notevoli somiglianze ed una forte correlaLa maggioranza degli standard esistenti esegue zione. la catena di operazioni sopra descritta. Il processo La fase di analisi del segnale video sfrutta tale di codifica, pertanto, composto da un insieme caratteristica per diminuire la quantit di energia, e variegaro di algoritmi, utilizzati in modo sequenquindi di informazione, necessaria ad una descriziale per migliorare le prestazioni: a tecniche appozione esauriente del contenuto. Lobiettivo di tale sitamente studiate per analizzare levolvere del operazione consiste nella stima del fotogramma segnale nel tempo (la predizione del moto per il corrente, effettuata calcolando la differenza video, il modello psicoacustico per laudio) si unirispetto ai frame ad esso adiacenti (fotogrammi di scono algoritmi importati dallanalisi dei segnali riferimento), precedenti e successivi. La stima (trasformazioni) e operazioni proprie dalla teoria eseguita suddividendo limmagine in macroblocchi dellinformazione (codifica entropica); per tale (tipicamente di 16x16 pixel), che possono essere motivo, tali catene di operazioni sono identificate col nome di codificatori ibridi. Le figure 1 e 2 mostrano lo schema di funzionamento dei codificatori audio e Frame Banco filtri Codifica video. A livello di architetQuantizzatione Trasformazione Buffer di analisi entropica tura si pu notare come la differenza principale, a parte Modello lidentit dei blocchi, consipercettivo sta nellanello di retroazione con decodifica applicato ai codificatori video. Lutilit di tale processo sar illustrata FIGURA 2 La struttura di base di un codificatore audio. nel paragrafo successivo.

100

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

ulteriormente scomposti in blocchetti di dimensione minore. Per ogni blocco, lalgoritmo ricerca allinterno di una porzione del fotogramma di riferimento linsieme di campioni di medesime dimensioni che pi gli assomiglia. Il blocco pi somigliante quello che minimizza la differenza, in termini di errore quadratico medio. Larea di ricerca centrata intorno alla posizione del blocco analizzato, poich solitamente il contenuto di fotogrammi adiacenti presenta una correlazione che tende a diminuire in base alla distanza tra le aree analizzate. Tale tecnica conosciuta col nome di Block Matching [3]. Ad ogni blocco associato un valore (vettore di moto) che rappresenta la differenza di posizione, in pixel, tra il blocco analizzato ed il suo accoppiamento sul fotogramma di riferimento. La fase di stima del moto seguita dalla moto-compensazione, operazione nella quale lintero frame, stimato tramite block matching, sottratto alloriginale; si codifica esclusivamente la differenza (residuo), per minimizzare lenergia dellinformazione, ottimizzando il fattore di compressione. Durante il processo di codifica, ogni fotogramma di riferimento, oltre ad essere codificato ed inserito nel bit stream anche decodificato: in questo modo, la stima del moto calcolata utilizzando lo stesso riferimento, sia in fase di codifica che in fase di decodifica. Utilizzando in codifica limmagine originale, infatti, si creerebbe una discordanza tra il riferimento del codificatore e quello del decodificatore che produrrebbe un errore di ricostruzione. Iterando la fase di stima del moto a pi fotogrammi (prassi normalmente utilizzata nei codificatori) si originerebbe un fastidioso errore di deriva (drifting) con conseguente limitazione delle prestazioni. In base al tipo di stima del moto, i fotogrammi sono classificati in tre categorie: Frame I (Intra): su di essi non eseguita la stima del moto. Sono codificati interamente, a meno di predizioni spaziali che avvengono allinterno del frame stesso tra blocchi adiacenti; Frame P (Predicted): frame nei quali si effettua stima del moto uni-direzionale; Frame B (Bidirectional): frame nei quali si effettua stima del moto bidirezionale. Il residuo calcolato sottraendo al blocco corrente la media del blocchi di riferimento individuati. Per effettuare la stima del moto necessario memorizzare un gruppo di fotogrammi, con conseguente elevata occupazione di memoria ed introduzione di ritardo di codifica, che pu divenire critico in caso di codifica real time. Generalmente, il numero di fotogrammi coinvolti nel processo di stima del moto rappresenta un compromesso tra il tempo di ritardo e lefficienza di codifica, efficienza che tende ad aumentare al crescere del numero di fotogrammi stimati. La tipica sequenza allinterno di un gruppo di immagini di tipo: IBBBBBBBP. La stima del moto pu essere eseguita con precisione superiore al pixel, interpolando il fotogramma di riferimento e utilizzando anche i campioni interpolati per la ricerca dellaccoppiamento migliore.

3.1.2 Laudio: il modello psicoacustico

Un metodo di compressione di dati audio non ha come obiettivo la riproduzione senza perdite della forma donda sonora, ma la massimizzazione, a parit di informazioni fornite, della qualit percepita dallascoltatore; , pertanto, inutile riprodurre accuratamente ogni caratteristica della forma donda dei suoni codificati. Pu essere, invece, molto efficace eseguire lanalisi delle componenti del segnale acustico per identificare quelle che maggiormente influenzano la percezione dellascoltatore. Questa la teoria alla base del perceptual coding (codifica percettiva) che, sfruttando le conoscenze di acustica relative alle modalit di percezione dellorecchio umano, analizza le componenti in frequenza di ogni suono in input, misurandone il livello di udibilit. Per eseguire questo compito, si utilizza come riferimento un opportuno modello: il modello psicoacustico. Per capire come lavora il modello psicoacustico, necessario considerare due concetti importanti per laudio digitale e la codifica percettiva: la ridondanza e lirrilevanza. La prima rappresenta linformazione ininfluente, che pu essere rappresentata pi efficacemente utilizzando un numero inferiore di bit senza alterare la qualit del segnale; lirrilevanza, invece, riguarda il meccanismo di udibilit. La teoria psicoacustica ammette che, date le particolarit della percezione umana, certe propriet di una data forma donda siano effettivamente insignificanti per un ascoltatore (ad esempio le frequenze al di fuori della soglia di udibilit, 20 Hz 20 kHz [2]). La codifica percettiva prevede, in riferimento al modello psicoacustico, di memorizzare esclusivamente i dati percepibili dallorecchio umano. In questo modo, possibile ottenere drastiche riduzioni delle dimensioni del codificato, semplicemente scartando limpercepibile. In particolare, la codifica percettiva opera eseguendo una serie di mascheramenti, eliminando alcune componenti. In particolare, tre sono i tipi di mascheramento effettuati: Frequency masking: se un suono forte ed uno debole di frequenze analoghe competono, il segnale pi debole non pu essere udito, pertanto non necessario codificarlo; inoltre possibile eliminare le componenti appartenenti a zone non udibili dello spettro di frequenza. Temporal masking: dopo un suono forte, occorre un certo lasso di tempo prima di riuscire a percepire un suono debole; Ridondanza stereo: non pu essere distinta la provenienza di un suono a bassa frequenza1. Come mostrato in precedenza, lanalisi del segnale acustico non pu prescindere dalla conoscenza delle componenti in frequenza che compongono il segnale stesso. Pertanto, il segnale in ingresso sottoposto ad unanalisi tempo-frequenza: linput suddiviso in una serie di frame
(1)

Questo fenomeno spiega il motivo della presenza di una sola cassa di risonanza per basse frequenze (Subwoofer) in impianti 5+1.

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

101

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

temporali disgiunti, e ad ognuno di essi applicata una trasformata di Fourier, che li scompone in 32 sottobande, analizzate separatamente. In alcuni standard, in particolar modo quelli dedicati alla voce (G.729), il modello psicoacustico sopra descritto sostituito, o affiancato, da una modellizzazione parametrica del segnale o da una predizione lineare che sfrutta le conoscenze relative alla natura dei suoni emessi dalla voce umana: lalgoritmo pi conosciuto ed utilizzato denominato CELP (Codebook Excited Linear Prediction).

meno significativi di ciascun campione. Lapplicazione della quantizzazione al segnale trasformato, tuttavia, limita la perdita di informazione grazie allalto numero di campioni nulli o poco significativi presenti nella rappresentazione nel dominio DCT.

3.3 Codifica entropica


Lultima fase della catena di codifica costituita dalla codifica entropica (blocchi gialli nelle figure 1 e 2). In uscita dagli stadi precedenti, prodotta una variet di coefficienti appartenenti a differenti categorie: campioni quantizzati nel dominio trasformato, side information (header, informazioni di sincronizzazzione) ed elementi per lanalisi del segnale (vettori di moto, parametri della codifica psicoacustica). Ciascuno di essi pu essere rappresentato efficacemente in formato binario, riducendo ulteriormente il numero di bit necessari per la descrizione dellinterno flusso. Un codificatore entropico mappa i simboli in input in uno stream di dati, che rappresentano il formato di uscita. La compressione pu essere ottenuta sfruttando la ridondanza relativa al numero di occorrenze di determinati simboli nello stream codificato: generalmente si esegue una codifica dei simboli su lunghezza variabile VLC (Variable Length Coding) [3], associando ai simboli pi frequenti lunghezza minore. I due algoritmi pi utilizzati sono: Huffmann Coding: ogni simbolo rappresentato con una sequenza di bit di dimensione variabile, in base alla frequenza di occorrenza; Codifica Aritmetica: mappa ogni simbolo in input in un numero frazionale di bit. Si ottiene un migliore fattore di compressione rispetto allalgoritmo di Huffmann.

3.2 Trasformazione-quantizzazione
Lapplicazione di trasformate (blocchi blu nelle figure 1 e 2) rappresenta una delle operazioni pi efficaci effettuate dalla maggior parte dei codificatori ad oggi standardizzati. I dati nel dominio originale (spaziale per il video, temporale per laudio) sono trasformati in una rappresentazione differente, il cosiddetto dominio trasformato. Il motivo alla base di tale operazione si pu individuare in una maggiore compressione: campioni adiacenti presentano alta correlazione e lenergia tende ad essere uniformemente distribuita tra essi, rendendone difficile leliminazione o la riduzione di alcuni, senza compromettere la qualit del segnale decodificato. Con una scelta adeguata delle operazioni di trasformazione, possibile eliminare la correlazione esistente tra campioni adiacenti raggruppando la maggior parte dellenergia, e quindi dellinformazione utile, in un numero limitato di campioni nel dominio trasformato: in questo modo, leliminazione degli elementi meno significativi ha impatto minimo sulla qualit globale del segnale ricostruito. La tecnica maggiormente utilizzata nellanalisi dei segnali la DCT (Discrete Cosine Transform) [3], che opera su insiemi di campioni limitati: nel caso del video, ad esempio, la DCT bidimensionale applicata su blocchi di 8x8 campioni. Questa caratteristica, unita alla bassa potenza computazionale richiesta, alla possibilit di parallelizzazione delle operazioni, ed alle buone prestazioni fornite alla base del successo che tale trasformata ha avuto in molti standard di codifica. Per la codifica audio, la DCT non applicata al segnale in ingresso, ma alle singole sottobande calcolate dallanalizzatore tempo-frequenza, per sfruttare lalta correlazione presente tra campioni di ciascuna sottobanda; si utilizza una versione differente della DCT, denominata Modified DCT (MDCT) che lavora su finestre applicative parzialmente sovrapposte, in modo che la seconda met di un blocco di campioni coincida con la prima met del blocco successivo. Questa operazione effettuata per eliminare gli artefatti originati dalle discontinuit prodotte sui confini dei blocchi, non mascherabili alla percezione uditiva. La fase di trasformazione seguita dalla quantizzazione (blocchi rosa nelle figure 1 e 2), ovvero la riduzione del numero di bit impiegati per la descrizione dei campioni. Tale operazione quella che introduce la perdita di qualit, eliminando i bit

4. Lo stato dellarte della codifica video


H.264/AVC (Advanced Video Coding), sinonimo della parte 10 dello standard MPEG-4 [4] con cui viene abitualmente indicato, il pi recente standard internazionale di codifica video. stato sviluppato congiuntamente da ITU-T 2 e da MPEG. Costituisce lo stato dellarte per la codifica video, fornendo alta efficienza di codifica in vari contesti applicativi: videotelefonia, videoconferenza, TV, storage (DVD e hard disk), streaming video. H.264/AVC stato sviluppato in un periodo di quattro anni a seguito di una Call for Proposals cui VCEG3 ha contribuito in modo sostanziale.
(2)

ITU-T coordina il lavoro di standardizzazione per le telecomunicazioni nellambito dellInternational Telecommunication Union (ITU).
(3)

Il gruppo che si occupa di codifica video in ITU-T (sottogruppo 16) denominato Video Coding Experts Group ed stato responsabile di standard nati per supportare i servizi di videocomunicazione: il primo H.261 stato seguito dal pi efficiente H.263, a sua volta aggiornato in H.263+ e H.263++. Lultimo tentativo di standardizzazione stato H.26L, confluito in H.264.

102

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

I risultati della Call portarono MPEG alle seguenti conclusioni: H.261 le strutture tradizionali H.263 H.263++ ITU-T dei codificatori non necessitavano di stravolH.263+ H.263L gimenti, ma di semplici ottimizzazioni dei tool di H.264/AVC base; MPEG1 MPEG4 alcuni tool esclusi dagli ISO standard precedenti per MPEG2 la loro complessit potevano essere riammessi nel nuovo standard, grazie alle maggiori capacit 1990 1992 1994 1996 1998 2000 2002 2003 computazionali dei termin a l i di n u ova ge ne ra zione; per permettere la massima libert ed efficienza, FIGURA 3 La storia della codifica video. H.264/AVC non sarebbe stato retro-compatibile in grado, dopo la pubblicazione di FRExt, di codificon gli standard precedenti; care video ad alta qualit, per applicazioni HDTV o la tecnologia proposta da VCEG era in assoluto cinematografiche a bit rate elevato. la pi premettente. Gli elementi innovativi introdotti dallo standard Come conseguenza, per facilitare il processo di coinvolgono tutti i blocchi basilari della catena di avanzamento, ITU-T ed MPEG decisero di unire le codifica descritta precedentemente. loro forze, costituendo il Joint Video Team (JVT). Lo standard H.264/AVC [4] stato prodotto e Lanalisi del segnale pubblicato nel 2003. A luglio 2004 stata pubbli Stima del moto: gli algoritmi di stima del moto cata la seconda versione dello standard, che prepresenti in AVC presentano alcune differenze senta una serie di profili aggiuntivi, denominati rispetto ai codificatori precedenti. Cos come FRExt (Fidelity Range EXTensions) [5]. per H.263 e MPEG-4, limmagine originale La figura3 fornisce una visione complessiva dei suddivisa in macroblocchi di 16x16 campioni. principali standard di codifica video prodotti da stata, tuttavia, introdotta, grazie alle magITU-T ed MPEG e confluiti nel lavoro congiunto di giori potenze dei processori odierni, la possibiJVT. lit di iterare la fase di splitting sino allotteni4.1 Caratteristiche tecniche mento di blocchi 4x4. Nella figura 4 sono mostrati i possibili blocchi contemplati. La H.264/AVC mantiene la struttura di base dei stima del moto ha precisione maggiore: 1/4 o codificatori video, ma presenta notevoli differenze 1/8 di pixel. Unaltra importante novit rispetto agli standard precedenti: grazie alle magriguarda la stima del moto per i blocchi di tipo giori capacit di calcolo dei terminali di nuova P: H.264 supporta i Multiple Refer ence generazione e a miglioramenti algoritmici, alcuni Frames , ovvero la ricerca del matching ottimo tool sono stati ottimizzati (tabella 1). AVC inoltre eseguita su pi fotogrammi di riferimento

Caratteristiche Dati supportati Numero di profili Efficienza di codifica

MPEG-4 Visual H.263

16x16 H.264/AVC M types

16x8 0

8x16 0 0 1 2

8x8 1 3

Oggetti di qualsiasi Video frame rettangolari forma, texture 19 7 Media Alta 4x4 S 1/4 o 1/8 pixel 4x4

0 1

Dimensione dei blocchi minima 8x8 per la motocompensazione Supporto a blocchi rettangolari No Precisione della stima di moto Dimensione blocchi DCT 1/2 o 1/4 pixel 8x8

8x8 8x8 types

8x4 0

4x8 0 0 1 2

4x4 1 3

0 1

DCT = Discrete Cosine Transform

TABELLA 1 Confronto tra H.264/AVC e gli standard precedenti.

FIGURA 4 Schema delle possibili modalit di stima block based.

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

103

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

(figura 5). Sia l encoder che il decoder , pertanto, conservano in memoria una serie di frame di riferimento durante la fase di codifica di unimmagine. Anche la stima del moto di tipo B, pu usufruire di tale caratteristica: la differenza tra le due modalit, consiste nella possibilit, da parte dei blocchi B, di adottare medie pesate dei matching distribuiti su frame differenti.

ristiche della DCT, in termini di compattazione dellenergia ed eliminazione della ridondanza. La trasformata applicata su blocchi 4x4; in alcuni profili c la possibilit di adattare la dimensione dei blocchi effettuando una scelta tra 8x8 e 4x4. Codifica Entropica Sono stati introdotti due algoritmi innovativi; CAVLC (Context Adaptive Variable Length Coding), e CABAC (Context Adaptive Binary Arithmetic Coding). Il primo rappresenta un tradizionale codificatore di tipo VLC (Variable Length Coding), che presenta la caratteristica di adattare le tabelle di quantizzazione al contesto applicativo, migliorandone le prestazioni. Lefficienza ulteriormente migliorata dallutilizzo di CABAC, il secondo metodo previsto, un codificatore aritmetico che trae anchesso notevoli vantaggi dallutilizzo della conoscenza del contesto. CABAC in grado di aumentare del 10-15% lefficienza di codifica rispetto a CAVLC. Alcune innovazioni introdotte riguardano, invece, la struttura generale del codificato ed i meccanismi di error resilience, pensati per la trasmissione efficiente su reti a pacchetto: Network Abstraction Layer (NAL) : fornisce le informazioni per rappresentare unit indipendenti allinterno dello stream che possono essere utilizzate efficacemente in fase di trasmissione su reti a pacchetto; Meccanismi di protezione: per fornire protezione efficace in caso di errori trasmissivi si adotta il Flexible Macroblock Ordering (FMO) , che suddivide i macroblocchi di un fotogramma in pacchetti differenti, trasmessi separatamente. In caso di perdita di un pacchetto, limmagine ricostruita utilizzando i macroblocchi ricevuti correttamente come predittori dei blocchi corrotti.

=1

=4

=2

Four prior-decoded pictures as reference

Current picture

FIGURA 5 Stima del moto per un blocco di tipo P che utilizza

multiple reference frames.

Esistono, infine, nuove possibili identificazioni per i blocchi: Skip: il blocco presenta caratteristiche di moto analoghe ai blocchi adiacenti. Nessun vettore di moto codificato, ad esso assegnato quello calcolato dai blocchi aventi lo stesso orientamento; Direct: utilizzato quando si identifica un movimento lineare di un blocco di tipo B allinterno della scena codificata. assegnato il medesimo vettore per la stima del moto in entrambe le direzioni; Intra: eliminazione della stima del moto, nei casi in cui la stima non risulti affidabile o possibile. Intra prediction: i blocchi classificati Intra possono usufruire di un tipo di predizione analogo al block matching. Il blocco di riferimento non ricercato tra i fotogrammi adiacenti, ma tra i blocchi dello stesso fotogramma che si trovano nellintorno di quello analizzato. Trasformazione-quantizzazione La trasformazione applicata, per la prima volta in uno standard, una trasformata ad interi, piuttosto che una rappresentazione basata su approssimazioni di funzioni trigonometriche (quale la DCT tradizionale). Un vantaggio significativo di tale operazione consiste nellimpossibilit di discordanze, dovute ad approssimazioni, tra i risultati ottenuti nell encoder e nel decoder . La trasformata ad interi stata comunque progettata per mantenere le caratte-

4.2 Profili e livelli


La maggior parte delle applicazioni richiede esclusivamente un sottoinsieme limitato dellampio range di funzionalit e tool supportati da uno standard ampio come AVC; per favorire linteroperabilit su un insieme variegato di applicazioni (ad esempio, video-conferencing o digital TV) gli standard MPEG identificano una serie di profili e livelli. Essi rappresentano delle raccomandazioni relative ai tool ed ai parametri di utilizzo necessari per supportare determinate funzionalit. Gli enti di normativa come ISMA o 3GPP, che supportano il mondo industriale per la regolamentazione di opportuni contesti applicativi, generalmente utilizzano tali profili e livelli per garantire interoperabilit allinterno del dato contesto. Profili e livelli si differenziano in base al tipo di specifica che forniscono: un Profilo definisce le caratteristiche algoritmiche: specifica pertanto il subset di tool necessari per fornire le funzionalit di interesse.

104

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

I profili incidono sulla sintassi del bit stream codificato; un Livello specifica il set di limiti estrinseci allalgoritmo di codifica entro i quali opera il codificatore. Ciascun profilo, per un determinato livello, opera nelle medesime condizioni. I livelli generalmente specificano le modalit di carico e memoria del decoder, bit rate, frame rate e risoluzione spaziale del bitrate codificato. H.264/AVC identifica 7 profili Baseline: progettato per minimizzare la complessit e privilegiare la robustezza trasmissiva in contesti di distribuzione su reti eterogenee. Per tale motivo supporta tutti i tool descritti precedentemente ad eccezione dei blocchi di tipo B e limpiego del tool CABAC; Main: progettato per ottenere alti fattore di compressione: supporta blocchi di tipo B e lutilizzo della codifica aritmetica CABAC ma non FMO; X(eXtendend): cerca di unire la robustezza del Baseline con lefficienza del Main, aggiungendo, inoltre, alcuni tool addizionali. Supporta tutti i tool descritti precedentemente ad eccezione di CABAC; High Profiles: rappresentano quattro distinti profili di servizio ad alta qualit, progettati per applicazioni di tipo HDTV o editing professionale di sequenze video, che prevedono un campionamento su 8, 10 e 12 bit/campione, supportano codifica lossless e la conversione al formato RGB. Per ciascun profilo sono stati identificati differenti livelli (17 in totale); si rimanda a [3] [4] per una dettagliata descrizione.

4.3 Prestazioni
Le figure 6 e 7 mostrano alcuni esempi relativi alle prestazioni (in termini di rapporto segnalerumore - PSNR) ottenute dai codificatori AVC rispetto a standard precedenti: i profili analizzati sono ASP (Advanced Simple Profile) per MPEG-4 (ricerca esaustiva, 1/4 di pixel di precisione per la stima del moto, filtro di deblocking ), HLP (High Latency Profile) per H.263 (analogo ad MPEG-4 ASP), e Main Profile (5 reference frame) per H.264/AVC. Per tutti i codificatori lo schema utilizzato del tipo: IBBPBBP. H.263 ed MPEG-4 forniscono prestazioni analoghe; H.264, invece, in grado di raggiungere fattori di compressione nettamente superiori. In particolare, si pu notare come, a bassi bit rate, utilizzando H.263 o MPEG-4 occorra allincirca raddoppiare la banda per eguagliare le prestazioni fornite da AVC. Ovviamente, laumento in termini di fattore di compressione compensato da una richiesta di maggiore sforzo computazionale, che tuttavia supportato dai terminali di ultima generazione. La tabella 2 riassume le prestazioni e la potenza computazionale richiesta per i differenti profili, in relazione ad MPEG-2. Il significativo divario, in termini di compressione, tra AVC e gli altri standard non deriva dallutilizzo di un tool particolare, ma piuttosto ad una serie di ottimizzazioni degli algoritmi comuni a tutti i codificatori ibridi, in particolare nella fase di stima del moto e di codifica entropica. Il miglioramento di efficienza raggiunto da H.264/AVC, unito alla definizione di profili per alta qualit, ha reso praticabile la progettazione di nuovi scenari applicativi nel contesto wireless e wired .

Foreman QCIF 10 Hz 39 38 37 36 35 34 Quality Y-PSNR (dB) 33 32 31 30 29 28 27 0 50 100 150 38 37 36 35 34 33 32 Quality 31 Y-PSNR (dB) 30 29 28 27 26 25 0 500

Tempete CIF 30 Hz

JVT/H.264/AVC MPEG-4 MPEG-2 H.263

JVT/H.264/AVC MPEG-4 MPEG-2 H.263

200

250

1000 1500 2000 2500 3000 3500 Bit rate (kbit/s)

Bit rate (kbit/s) AVC = Advanced Video Coding

AVC = Advanced Video Coding

FIGURA 6 Prestazioni di H.264, H.263, MPEG-4 e MPEG-2 su una

FIGURA 7 Prestazioni di H.264, H.263, MPEG-4 e MPEG-2 su una

sequenza QCIF (176x144 pixel) [7].

sequenza CIF (352x288 pixel) [7].

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

105

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

Profilo

Applicazioni previste

Aumento della Stima preliminare complessit del miglioramento stimata per il in efficienza decodificatore rispetto a MPEG-2

Applicazioni a abasso 2,5 volte Baseline ritardo, videotelefono, Circa pi complesso mobile, ...

circa 1,5 volte

esso tuttavia si stanno affermando alcune tecnologie di codifica proprietarie, in grado di affermarsi in altri enti di standardizzazione. La pi nota di tali tecnologie, Windows Media Video sviluppata da Microsoft, descritta nel riquadro La Tecnologia Windows Media Video.

3,5 volte eXtended Mobile, streaming, ... Circa pi complesso circa 1,75 volte Distribuzione del segnale video interlacciato, ... Circa 4 volte pi complesso

5. Lo stato dellarte della codifica audio


Le tecnologie di codifica audio sono oggetto di studio MPEG (parte 3 di MPEG-4 - ISO/IEC 14496-3) [9] e gli algoritmi standardizzati costituiscono un toolbox, comprendente tecnologie variegate, denominato Advanced Audio Coding (AAC). Il processo di standardizzazione ha subito un andamento differente rispetto a quello compiuto dalle tecnologie di codifica video: durante gli ultimi anni, con il consolidamento degli algoritmi e la specializzazione dei tool in base al differente utilizzo (codifica di voce, musica, lossless, ...), non si assistito alla definizione di un nuovo standard di codifica, ma allallargamento del toolset MPEG-4 AAC; i nuovi tool si inseriscono in unarchitettura tradizionale, e introducono miglioramenti per particolari applicazioni e bitrate. Come conseguenza, pertanto, si assistito alla definizione di nuovi profili: HE-AAC (High Efficiency Advanced Audio Coding) focalizzato al raggiungimento di un elevato fattore di compressione, in grado di permettere la distribuzione di parlato e musica su mezzi

Main

circa 2 volte

TABELLA 2 Prestazioni di H.264/AVC e MPEG-2 [8].

Utilizzando la modulazione 8- PSK (Phase-ShiftKeying) e turbo codici, infatti possibile triplicare, a parit di banda, i canali disponibili rispetto al sistema DVB-S, ad oggi in uso, che si appoggia ad MPEG-2 [6]. Grazie agli High Profiles , inoltre, un segnale HD pu essere compresso a circa 8 Mbit/s, bit rate che ne cosente lo storage su DVD [6]. Di conseguenza, H.264/AVC ampiamente adottato da parte degli enti normativi di settore, come si vedr nei capitoli seguenti. In termini prestazionali AVC rappresenta lo stato dellarte per la codifica video, parallelamente ad

La tecnologia Windows Media Video


Windows Media Video [15] rappresenta la soluzione per la codifica video inserita allinterno dellultima generazione di tecnologie digitali multimediali sviluppate da Microsoft. Lo scenario applicativo nel quale trova spazio questa tecnologia rappresentato dalla distribuzione in streaming di flussi audio/video verso device eterogenei, fissi o mobili. Larchitettura stata studiata per ottenere alta efficienza computazionale e bassa complessit mantenendo un elevato fattore di compressione. La tecnologia di base parte integrante del codec Microsoft noto come VC-1, di recente proposto per la ratifica come standard presso SMPTE (Society of Motion Picture and Television Engineer), organismo tecnico USA che opera a livello mondiale per l'industria dell immagine in movimento.

Aspetti algoritmici VC-1 adotta unarchitettura molto simile a quella attualmente utilizzata da AVC. Rappresenta anchesso un codificatore ibrido con stima del moto di tipo block matching, in grado di utilizzare frame I, P e B. La trasformazione spaziale effettuata utilizzando la DCT e la codifica entropica si basa sugli stessi principi algoritmici di quella VLC adottata in tutti gli standard MPEG. Esistono, tuttavia, alcune differenze che non rappresentano modifiche sostanziali dellapproccio algoritmico, ma semplici configurazioni dei singolo tool: la DCT utilizzata in VC-1 applicata adattativamente su blocchi di dimensione variabile: in base al contesto pu essere applicata su blocchi 4x4, 8x8 o rettangolari 4x8; la trasformata su blocchi di dimensione maggiore pi adatta alla compressione di texture ripetitive che coprono ampie zone. I blocchi di dimensione minore, invece, si applicano sulle zone di dettaglio;

VC-1 include un tool per il riconoscimento del cambio di illuminazione prima di eseguire la stima del moto, in modo da compensare gli effetti negativi che esso causa sulla stima del moto block matching; I blocchi su cui VC-1 effettua la stima del moto hanno dimensione minima 8x8, al contrario dei 4x4 adottati in AVC e non sono utilzzati frame multipli di riferimento: la scelta di escludere tali tool da VC-1 stata dettata dal desiderio di limitare la complessit computazionale dellencoder a scapito di una sensibile perdita prestazionale.

Profili e prestazioni Sono stati predisposti tre profili per VC-1: Simple, Main e Advanced, analogi, come tool e target al Baseline, Main e Extended di AVC. In base ad alcuni test effettuati da Tandberg Television [16], le prestazioni di VC-1 risultano paragonabili a quelle ottenibili da AVC bench non siano riportati i dettagli del confronto.

106

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

trasmissivi a banda limitata (Internet), LC-AAC (Low Complexity Advanced Audio Coding) , a bassa complessit e AAC-SSR (Scalable Sample Rate Advanced Audio Coding), in grado di fornire scalabilit. Lo stato dellarte rappresentato da HE-AAC, che ingloba alcuni tool innovativi, che si aggiungono al tool set MPEG-4 AAC: SBR (Spectral Band Replication) e PS (Parametric Stereo). Essi saranno descritti di seguito.

5.1 Spectral Band Replication


Un tipico svantaggio introdotto dalla codifica audio che utilizza trasformate la riduzione della banda riprodotta al diminuire del bit rate. SBR si propone di limitare tale effetto, riproducendo le alte frequenze, grazie ad una loro parametrizzazione calcolata sulla base delle componenti di bassa frequenza: all encoder calcolata una descrizione della forma dei toni alti emessi dalla voce umana, inserita come side information nello stream codificato. Il decoder ricostruisce la parte alta dello spettro utilizzando queste informazioni, il modello di parametrizzazione e la parte bassa dello spettro codificata in modo tradizionale. Solitamente, linformazione SBR occupa una porzione di banda limitata, dellordine di 1,5 kbit/s su un contenuto codificato ad esempio a 24 kbit/s. Linformazione relativa alla replica dello spettro costituisce uno stream aggiuntivo che si sovrappone ad un codificato tradizionale: in questo modo, scartando i bit relativi ad SBR possibile decodificare un contenuto mantenendo la compatibilit con uno standard precedente ad HE-AAC. Grazie alle sue caratteristiche, SBR raggiunge la massima efficienza per la codifica di segnale vocale a basso bitrate.

zione di profili e livelli. In precedenza sono gi stati nominati i profili innovativi: HE-AAC (in due versioni, dette AACPlus-v1 e AACplus-v2 o Enhanced AACplus ), LC-AAC, AAC-SBR. Essi si aggiungono allinsieme dei profili previsto dalla prima versione di MPEG-4 audio: 1 Speech Audio Profile: studiato per la codifica voce, include CELP; 2 Synthetic Audio Profile: per la generazione di audio sintetico; 3 Scalable Audio Profile: allarga le funzionalit dello Speech profile garantendo scalabilit e permettendo la codifica di contenuti musicali; 4 Main Audio Profile: raggruppa i tool presenti nei tre profili precedentemente descritti; 5 High Quality Audio Profile: per applicazioni di tipo Hi-Fi: include tool di error resilience; 6 Low Delay Audio Profile: profilo studiato per minimizzare complessit computazionale e ritardo di codifica; 7 Natural Audio Profile: contiene tutti i tool presenti in MPEG-4 per la codifica di contenuti naturali; 8 Mobile Audio Internetworking Profile: comprende i tool per low delay e scalabilit, ed predisposto per essere integrato con tool di codifica non inclusi in MPEG; 9 AAC Profile: loriginale AAC. La definizione e associazione dei livelli ai diversi profili definita in [9].

5.4 Prestazioni
Nella figura 8 riportato un confronto fra le prestazioni (dati forniti da Coding Technologies) ottenibili con i diversi codec della famiglia AAC. I test sono stati effettuati utilizzando una modalit di test denominata MUSHRA 4 (MUlti Stimulus test with Hidden Reference and Anchors).

5.2 Parametric Stereo


Analogamente alle alte frequenze, le componenti stereofoniche di un segnale audio sono spesso trascurate per codifiche a basso bit rate, che trattano esclusivamente segnali monofonici. Unalternativa a tale limite stata definita in MPEG-4, ed denominata Parametric Stereo (PS): si propone di trasmettere una descrizione parametrica del segnale stereofonico, utilizzando come supporto una sua versione mono. In questo modo possibile rappresentare una versione stereofonica del segnale originale con pochi kbit/s aggiuntivi rispetto al segnale di partenza. Grazie al PS possibile rappresentare segnali stereo a bit rate inferiori a 16 kbit/s. Questa tecnologia consente la codifica a basso bitrate di segnali musicali.
MUSHRA scores relative to 7 kHz anchor, stereo Delta MUSHRA score 40 30 20 10 0 -10 -20 -30 -40 18 24 32 48 Bit rate (kbit/s) AAC-LC AACPlus v1 AACPlus v2

AAC = Advanced Audio Coding

5.3 Profili e livelli


Come descritto nel paragrafo 4.2, MPEG specifica differenti modalit di funzionamento degli standard in base al contesto di utilizzo, differenziando le funzionalit garantite e le condizioni di applicazione. Tale operazione si concretizza nella defini-

FIGURA 8 Confronto tra la famiglia AAC (fonte: Coding Technologies).

(4)

Il MUSHRA una modalit di test che, sulla base del gradimento di un campione variegato di utenti, stima la qualit di un file audio in confronto ad uno stream di riferimento.

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

107

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

Il codec AACPlus v2 rappresenta un superset di AACPlus v1 come, a sua volta, AACPlus v1 un superset di AAC. AACPlus v1 la combinazione di AAC e SBR (Spectral Band Replication) ed standardizzato come High-Efficiency profile in MPEG-4 part 10 (HE AAC). AACPlus v2 costruito su AACPlus v1 con laggiunta di tool specifici come Parametric Stereo che permette di raggiungere unalta efficienza di codifica con segnali stereofonici, come detto in precedenza. Si noti anche che, nella terminologia 3GPP, il codec AACPlus v2 corrisponde al codec Enhanced AACPlus, come sar descritto nel seguito. In sintesi, i risultati riportati in figura 8 indicano come il codec AACPlus v2 (Enhanced AACPlus) fornisca una qualit migliore rispetto ad AACPlus v1. Tale guadagno si riduce man mano che il bit rate cresce, fino ad annullarsi per bit rate attorno a 48 kbit/s.

6. Ladozione delle tecnologie di codifica A/V nei diversi contesti 6.1 Le tecnologie di trasporto dei media
La definizione di un sistema completo per la fornitura di uno specifico servizio richiede lintegrazione di numerose tecnologie: enti quali DVB, 3GPP o ISMA si occupano di selezionare e profilare opportunamente le tecnologie di base, integrandole se necessario con tool ad hoc , per costruire profili di servizio nei contesti applicativi di loro pertinenza, garantendo cos linteroperabilit tra sistemi. Come gi illustrato, ITU ed MPEG forniscono i bacini tecnologici cui attingere per gli standard di codifica audio e video. A questi occorre aggiungere diversi altri contributi, i pi evidenti dei quali sono legati al trasporto ed allo storage dei dati. In questi settori gli enti di normativa di riferimento sono IETF (Internet Engineering Task Force) ed ancora MPEG. Relativamente alle tecnologie di trasporto, MPEG ha definito un tool estremamente importante, lMPEG-2 Transport Stream , per il multiplexing dei flussi audio e video nonch di tutta una serie di informazioni aggiuntive essenziali per il servizio televisivo, quali ad esempio le informazioni sui palinsesti e soprattutto quelle relative ai s i s t e m i d i p ro t e z i o n e ( c i f r a t u r a ) . L M P E G - 2 Transport Stream permette di multiplare alcune migliaia di flussi distinti, utilizzando pacchetti di lunghezza fissa che sono assegnati alluno o a allaltro flusso. Oltre ai segnali audio e video vengono multiplati flussi contenenti specifiche tabelle (ad esempio per rappresentare linsieme dei programmi disponibili nel multiplex) ed altri per il trasporto generico di dati, tipicamente inviati secondo un meccanismo di carousel (un p come il televideo). IETF costituisce invece il riferimento per tutte le applicazioni relative al mondo IP. In questo caso il protocol stack di riferimento per i flussi audio e

video RTP/UDP/IP: l IP (Internet Protocol) il substrato comune a qualunque tipologia di traffico su rete IP, l UDP (User Datagram Protocol) un protocollo che permette la trasmissione (passibile di fallimento in quanto privo di meccanismo di ritrasmissione) di pacchetti di lunghezza stabilita dal livello superiore, l RTP (Real Time Protocol) permette di associare alcune metainformazioni al payload del pacchetto ( sequence number, time stamp, ) in modo da rendere possibile al ricevitore la corretta identificazione di dati mancanti e la riproduzione sincronizzata. Associato ad RTP si ha anche un canale di controllo bidirezionale RTCP (Real Time Control Protocol) tramite cui trasmettitore e ricevitore si scambiano informazioni statistiche che, ad esempio, in uno scenario conversazionale, possono essere sfruttate dal terminale trasmettitore per modificare i propri parametri di codifica adattandoli in tempo reale alle fluttuazioni nella capacit del canale trasmissivo. Il payload trasportato da RTP definito dallo specifico RTP Payload Format associato al particolare media audio o video: le regole definite dai diversi payload format indirizzano tipicamente il requisito di ridurre leffetto degli errori di trasmissione. Per esempio stabilendo regole su come spezzare in pi pacchetti frame video particolarmente grandi, o su come effettuare interleaving tra frame audio. IETF specifica anche alcuni protocolli di segnalazione largamente adottati: RTSP (Real Time Streaming Protocol) dedicato allo scenario retrieval, e rende disponibili le funzionalit di un normale riproduttore ( pause, resume, seeking, ); SIP (Session Initiation Protocol) invece rivolto agli scenari conversazionali. Entrambi i protocolli utilizzano infine una sintassi comune per rappresentare i media coinvolti nella negoziazione della sessione: SDP (Session Description Protocol), sempre specificato da IETF. MPEG ha coperto infine il settore del file format per i contenuti multimedia, sia per le specifiche pi moderne (lISO File Format , derivato da QuickTime, parte del progetto MPEG-4) sia per quelle precedenti, dallo storage di MPEG-1 (che ha originato i video CD, grande successo nei Paesi asiatici, pressoch sconosciuti da noi) al Program Stream di MPEG-2 usato nei ben pi noti DVD.

6.2 Il mondo televisivo: DVB


Il Digital Video Broadcasting (DVB) Project un consorzio di broadcaster, manifatturiere, operatori di telecomunicazione, enti regolatori, nato nei primi anni Novanta per iniziativa dell European Launching Group (ELG), con lobiettivo iniziale di i n t ro d u r re l a T V d i g i t a l e i n E u ro p a . Successivamente il progetto ha allargato i propri orizzonti sia geograficamente, superando il limite dellambito europeo, che tecnologicamente, occupandosi anche di TV interattiva e mobile. Oggi il progetto DVB conta 270 membri provenenti da 35 Paesi le cui specifiche sono adottate in tutto il mondo.

108

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

Una fondamentale decisione del progetto DVB fu la selezione dello standard MPEG-2 per la compressione ed il multiplexing dei segnali audio e video; questa specifica forma la base comune su cui si basano le ulteriori normative definite da DVB: da un lato le tecniche di modulazione del segnale sui link dedicati del satellite (DVB-S), del cavo (DVB-C), e pi recentemente delle onde radio terrestri (DVB-T), e dallaltro le informazioni accessorie che devono essere trasportate per completare il servizio offerto (ad esempio i palinsesti). Il profilo MPEG-2 selezionato da DVB per la TV digitale a definizione standard (DTV) il Main Profile @ Main Level per il video, e il Layer I e Layer II per laudio (non il Layer III, meglio noto come MP3). Successivamente sono stati integrati in DVB altri profili, che coprono esigenze diverse come la contribuzione o la trasmissione in formati ad alta definizione (HDTV). Le recenti specifiche DVB-H, dedicate agli handheld devices (dispositivi mobili), definiscono un settore completamente nuovo di dispositivi in grado di ricevere segnali audiovisivi digitali trasmessi in modalit broadcast su canale terrestre; pertanto in questo caso stato possibile introdurre lutilizzo di codec pi moderni rispetto allMPEG2, in particolare AVC/H.264 per il video (con VC-1 Scenario opzionale) ed HE-AAC v2 per laudio (con AMR WB+ opzionale). Standard Definition TV La tabella 3 riporta le principali caratteristiche dei codec considerati da DVB.

In ambito 3GPP questa problematica stata affrontata in due modalit differenti: facendo riferimento a codec sviluppati da altri organismi internazionali (come ITU-T o ISO) utilizzando opportuni profili oppure sviluppando delle tecnologie di compressione specifiche per le esigenze del mondo wireless . Storicamente stata seguita maggiormente la prima strada per la codifica video mentre stata seguita maggiormente la seconda per la codifica audio. Per questo motivo, mentre per i codec video ci si potr imbattere, a seconda del particolare servizio mobile, in H.264/AVC Baseline Profile , ISO MPEG-4 Visual Simple Profile o ITU-T H.263 Profile 0, per i codec audio, accanto ad alcuni profili del codec ISO/MPEG4 AAC, sono stati definiti due codec di ultima generazione: Enhanced aacPlus; Extended AMR (Adaptive Multi-Rate) Wideband. Enhanced aacPlus (paragrafo 5) un codec di derivazione MPEG, mentre Extended AMR Wideband stato completamente sviluppato per il 3GPP e si basa sulla tecnologia AMR che ha fatto la sua prima apparizione nel mondo GSM come codec AMR Narrowband, usato solamente per segnale vocale. Scopo del sistema AMR quello di

Audio codec ISO/IEC 11172-3 (MPEG-1 Audio): - Layer I o II - bitrate <= 448 Kbit/s ISO/IEC 13818-3 (MPEG-2 Audio): - Layer II - bitrate <= 682 Kbit/s ISO/IEC 11172-3 (MPEG-1 Audio): - Layer I o II - bitrate <= 448 Kbit/s ISO/IEC 13818-3 (MPEG-2 Audio): - Layer II - bitrate <= 682 Kbit/s

Video codec ISO/IEC 13818-2 (MPEG-2 Video): - Main Profile @ Main Level ISO/IEC 14446-10 (AVC/H.264): - Main Profile @ Level 3

6.3 Il mondo del mobile: 3GPP

High Definition TV

ISO/IEC 13818-2 (MPEG-2 Video): - Main Profile @ High Level ISO/IEC 14446-10 (AVC/H.264): - High Profile @ Level 4

Dal 1998, gli enti di standardizzazione hanno deciso ISO/IEC 14446-3 (MPEG-4 Audio): ISO/IEC 14446-10 (AVC/H.264) - HE-AAC Profile @ Level 2 DVB-H VC-1 (optional) di cooperare per la produAMR WB+ (optional) zione di un set completo di specifiche tecniche relative AAC = Advanced Audio Coding alle reti mobili di terza geneAMR = Adaptive Multi Rate DVB-H = Digital Video Broadcasting Hendheld r a z i o n e . I n p a r t i c o l a re , 3GPP regola gli aspetti relativi alla distribuzione di contenuti video su terminali 3G TABELLA 3 I codec adottati nel video digitale terrestre. per applicazioni di streaming, videoconferencing, VoD (Video on Demand). variare dinamicamente lallocazione di bit rate tra Uno degli aspetti cruciali per assicurare unalta source codec e channel codec cercando di fornire QoS allutente di un servizio mobile luso di la migliore qualit possibile in funzione di una adeguati codec audio-video e meccanismi di prostima della qualit del canale. Il sistema AMR tezione dagli errori di canali. Se poi si considera quindi costituito da un set di speech codec mode che in ambito mobile, accanto ai servizi di tipo cio di bit rate con la possibilit di switching tra i punto-punto, si potranno sviluppare anche servizi diversi modi in funzione delle condizioni di propadi tipo punto-multipunto (broadcast/multicast) gazione. dove non possibile utilizzare tutte le usuali tecPoich la tecnologia non ancora matura per un niche a livello radio per mitigare gli errori di codec audio universale, cio in grado di essere canale, limportanza di codec di sorgente adevantaggiosamente usato per ogni tipologia di guati e relativi meccanismi di protezione risulta banda e contenuto, il 3GPP ha standardizzato uno ancora pi evidente. o pi codec audio per ogni tipologia di servizio.

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

109

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

La tabella 4 mostra tale allocazione per i servizi wireless a pacchetto nella Release 6 del 3GPP. Per aiutare loperatore mobile nel non sempre facile compito di scegliere un codec adatto al servizio che intende offrire, le specifiche tecniche 3GPP mettono a disposizione delle linee guida per stabilire quale codec usare in funzione delle caratteristiche del servizio offerto (tipologia di contenuti, banda disponibile, modalit di delivery, ...). A titolo di esempio, le linee guida fornite per servizi wireless 3G relativamente ai codificatori audio Enhanced aacPlus ed Extended AMR Wideband, possono essere sintetizzate come segue: Extended AMR Wideband offre prestazioni migliori a velocit medio-basse (inferiori a 24 kbit/s) e con contenuti solo vocali o intervallati con musica; Enhanced aacPlus, invece, offre prestazioni migliori a velocit tendenzialmente pi alte e con contenuti prevalentemente musicali.

Tipologia di servizio Packet switched conversational

Codec audio (3GPP Release 6) - AMR Narrowband (mandatory) - AMR Wideband AMR Narrowband AMR Wideband Enhanced aacPlus Extended AMR Wideband MPEG-4 AAC Low Complexity MPEG-4 AAC Long Term Prediction AMR Narrowband AMR Wideband Enhanced aacPlus Extended AMR Wideband MPEG-4 AAC Low Complexity MPEG-4 AAC Long Term Prediction AMR Narrowband AMR Wideband Enhanced aacPlus Extended AMR Wideband

MMS (Multimedia Messaging Service)

PSS (Packet switched Streaming Service)

MBMS (Multimedia Broadcast/Multicast Service)

AAC = Advanced Audio Coding AMR = Adaptive Multi Rate

TABELLA 4 I codec adottati in 3GPP.

6.4 Il mondo wireline: ISMA


adottate le specifiche IETF del settore, ovvero LInternet Streaming Media Alliance (ISMA) un RTSP ed SDP per la segnalazione, RTP ed i ente no profit nato originariamente (fine del 2000) Payload format appropriati per il trasporto. allo scopo di fornire un riferimento per i servizi di Nella specifica successiva (ISMA2.0, finalizzata streaming su IP. Era il periodo in cui si stava afferdi recente) larchitettura non cambia, ma si definimando la codifica MPEG-4 Video, e con essa gli scono profili aggiuntivi e si selezionano i nuovi oggi popolarissimi DIVX, e si riteneva incombente codec video H.264 ed audio AAC-HE, puntando una domanda del mercato per affiancare alla fruisui servizi audiovisivi ad alta qualit, con bit rate zione locale dei DIVX anche una fruizione in fino a 15 Mbit/s. La tabella 5 riassume le caratteristreaming. Le soluzioni di streaming pi popolari stiche essenziali dei diversi profili definiti da ISMA. allepoca (ma il quadro, bisogna dire, non si granch modificato) erano quelle proprietarie di Real Networks e di Microsoft. Lo sforzo di ISMA era Profile Audio codec Video Codec dunque rivolto principal ISO/IEC 14446-3 (MPEG-4 Audio): ISO/IEC 14446-2 (MPEG-4 Video): - High Quality Profile @ Level 2 mente a contrastare questo Profile 0 (ISMA1.0): - Simple Profile @ Level 1 - numero canali <= 2 - bitrate <= 1.5 Mbit/s status quo, promuovendo - sampling rate <= 48000 Hz luso di tecnologie standard, ISO/IEC 14446-3 (MPEG-4 Audio): ISO/IEC 14446-2 (MPEG-4 Video): Profile 1 (ISMA1.0): - High Quality Profile @ Level 2 aperte ed interoperabili. - Advanced Simple Profile @ Level 3 - bitrate <= 1.5 Mbit/s - numero canali <= 2 - bitrate <= 64 Kbit/s Nella prima specifica - sampling rate <= 48000 Hz (ISMA1.0 di fine 2000) sono ISO/IEC 14446-3 (MPEG-4 Audio): ISO/IEC 14446-10 (AVC/H.264): stati selezionati il codec - HE-AAC Profile @ Level 2 - Baseline&Main* Profile @ Level 2 Profile 2 (ISMA2.0): numero canali <= 2 - bitrate <= 1 Mbit/s bitrate <= 1,2 Mbit/s video MPEG-4 nonch il - sampling rate <= 48000 Hz * sottoinsieme comune ai 2 profili codec audio AAC (che a sua ISO/IEC 14446-3 (MPEG-4 Audio): ISO/IEC 14446-10 (AVC/H.264): volta ha iniziato a diffondersi - AAC Profile @ Level 4 Profile 3 (ISMA2.0): - Main Profile @ Level 3 - numero canali <= 5+1 - bitrate <= 3,7 Mbit/s nei DIVX come alternativa ad - bitrate <= 3 Mbit/s - sampling rate <= 48000 Hz MP3), sostanzialmente ISO/IEC 14446-3 (MPEG-4 Audio): quello che rappresentava lo ISO/IEC 14446-10 (AVC/H.264): - AAC Profile @ Level 4 Profile 4 (ISMA2.0): - High Profile @ Level 4 stato dellarte per gli stan- numero canali <= 5+1 - bitrate <= 15 Mbit/s - bitrate <= 15 Mbit/s - sampling rate <= 48000 Hz dard di codifica audio e video: i due profili definiti AAC = Advanced Audio Coding miravano luno ad una quaAVC = Audio Video Coding ISMA = Internet Streaming Media Alliance lit entry level, a basso bitrate, laltro a servizi di qualit superiore per bande TABELLA 5 I profili adottati in ISMA. fino a 1,5 Mbit/s A livello trasporto si sono

110

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

7. Tecnologie emergenti
Le tecnologie analizzate sino ad ora permettono di migliorare il rapporto di compressione ottenibile, ottimizzando la struttura tradizionale dei codificatori. Attualmente, per, gli enti di standardizzazione di riferimento hanno intrapreso alcuni studi preliminari, con lobiettivo di introdurre nuove funzionalit, che estendono il contesto applicativo e permetteranno di realizzare servizi innovativi. Grazie alla disponibilit crescente di banda e di capacit di memorizzazione e con lavvento di nuove tecnologie di trasporto (ad esempio le reti 4G) si delinea uno scenario in cui i codec audio e video sono chiamati a soddisfare nuovi e pi sfidanti requisiti applicativi, tra questi citiamo: Applicazioni in scenari di convergenza fisso/mobile; Adattamento alle caratteristiche trasmissive di reti a capacit variabile e mezzi sensibili a mutazioni del contesto ambientale; Supporto HD (High Definition) e SHD (Super High Definition) , sino a giungere a qualit cinematografica; Eliminazione di storage multipli di contenuti codificati a differenti qualit, privilegiando un paradigma di distribuzione in grado di estrapolare la qualit desiderata da un flusso codificato unico. In questo paragrafo analizziamo alcune di tali sperimentazioni, attualmente in fase di studio in MPEG: codifica lossless, codifica scalabile, 3DAV (3D Audio Video), distributed coding, per quanto riguarda la codifica video, MPEG Surround e audio sintetico per la codifica audio.

7.1 La codifica lossless


Grazie al contesto evolutivo descritto precedentemente, la codifica senza perdite sta suscitando interesse in ambito MPEG; sono infatti stati prodotti due standard (Amendment di MPEG-4 Audio [8]) relativi allaudio: ALS (Audio Lossless Coding) e SLS (Scalable Lossless Coding). Essi utilizzano i tool compresi in MPEG-4 audio, appositamente ottimizzati per la compressione senza perdite; si differenziano in base alle loro prospettive di utilizzo: SLS fornisce scalabilit, e pu essere quindi utilizzato per i servizi che erogano qualit differenti. ALS, al contrario, stato studiato appositamente per applicazioni musicali ad altissima definizione. Nel caso video la compressione lossless supportata dagli High Profiles di H.264/AVC. In base ai test riportati in [10], grazie ad MPEG-4 ALS, possibile codificare senza perdite un segnale audio con un rapporto di compressione che varia in base alla sequenza ed alla frequenza di campionamento: il codificato presenta dimensioni che variano da 2/3 sino ad 1/5 delloriginale.

digitali si rapidamente evoluto e si assistito alla proliferazione di terminali eterogenei (telefoni mobili, PC, palmari, ), che sfruttano apparati di rete con differenti capacit di banda e QoS (Wireless, LAN, ). Ciascun utente accede agli stessi server di distribuzione per fruire dei medesimi contenuti, erogati a differenti qualit. Lo scenario di riferimento pertanto tende alladozione di tecniche di codifica in grado di fornire contenuti intrinsecamente in grado di adattarsi alle caratteristiche dellapparato di fruizione, richiedendo la memorizzazione sui server di una sola versione del contenuto codificato (anzich di pi versioni a differenti bit rate , come accade comunemente). Queste soluzioni consentiranno ottimizzazioni sullintera filiera di distribuzione riducendo le problematiche di transcodifica e pi in generale di content repurposing , sia in contesti offline che real time. Questo il concetto di codifica video scalabile (SVC), oggetto di studio in ambito MPEG [11]. Dopo alcuni tentativi, inseriti in standard precedenti, in fase di sviluppo il primo standard di codifica video appositamente studiato per fornire scalabilit: diverr un Amendment di MPEG-4 parte 10, AVC, e sar pubblicato a luglio 2006. Lo standard SVC si appoggia sullo stato dellarte per la codifica non scalabile, ovvero il gi descritto AVC; prevede la suddivisione dellinformazione in una serie di livelli qualitativi: si parte da un livello base (base layer), conforme ad AVC non scalabile (per mantenere la compatibilit con terminali che utilizzano decoder AVC non scalabili), e ad esso si aggiungono una serie di enhancement layer (figura 9), che contengono le informazioni necessarie ad aumentare la qualit del video fruito. Un flusso video scalabile permette lestrazione di un substream contenente il base layer e qualunque numero di enhancement layer , sino alla qualit richiesta. Un decoder pu ricevere e decodificare linformazione contenuta nel base layer , per ottenere video a bassa risoluzione, oppure utilizzare alcuni dei livelli aggiuntivi 5, che permettono di fruire di una migliore qualit. La qualit di decodifica pu essere imposta da una serie di vincoli o dal contesto applicativo: le capacit di banda e del terminale, la QoS assegnata, la rumorosit del mezzo di distribuzione. Esistono differenti tipologie di scalabilit supportate: Scalabilit spaziale: il codificatore deve essere in grado di erogare contenuti video a diverse risoluzioni; Scalabilit temporale: il codificatore deve essere in grado di erogare contenuti video a frame rate differenti; Scalabilit qualitativa: il codificatore deve essere
(5)

7.2 La codifica scalabile


Nel corso degli ultimi anni, il contesto applicativo relativo alla distribuzione di contenuti video

I livelli sono normalmente indicati con numeri crescenti, dal base layer sino al livello di qualit maggiore. Un livello definito superiore, pertanto, in grado di fornire un video a qualit e bit rate superiori rispetto al livello a cui esso comparato.

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

111

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

opera su blocchi di campioni (solitamente 8x8, o 4x4) che trasforma in un Enhancement Layer 3 Enhancement Layer 4 insieme di componenti di Enh. Layer 2 Enhancement Layer 3 frequenza. La trasformata Enh. Layer 1 Enh. Layer 2 wavelet opera con lo stesso Base Layer Enh. Layer 1 fine, ma agisce sullintera Base Layer immagine, senza scomposizioni in blocchetti. La trasformazione wavelet consiste in un filtraggio su due Enh. Layer 2 dimensioni che isola le comEnh. Layer 1 ponenti di bassa frequenza Base Layer (creando una rappresentazione grezza dellimmagine contenente la media locale dei campioni originali, Base Layer in alto a sinistra nel fotogramma trasformato di figura 10) dalle componenti di alta frequenza, che rappresentano i dettagli dei contor ni, rispettivamente FIGURA 9 Inserimento di un codificatore video scalabile in uno scenario di distribuzione su reti e terminali per componenti orizzontali, verticali e diagonali. poseterogenei. sibile iterare il procedimento di scomposizione, come in grado di erogare video a bit rate differenti; mostrato in figura, creando una piramide multi Scalabilit di complessit: i differenti layer risoluzione che rappresenta componenti di freaggiungono complessit, in fase di decodifica; il quenze crescenti, spostandosi in basso a destra. A decodificatore, pertanto, pu scegliere il livello livello prestazionale, la compressione wavelet in per fornire la massima qualit in proporzione grado di superare quella ottenuta dalla DCT. Per alle proprie capacit. tale motivo, stata scelta come algoritmo alla Questi concetti di scalabilit non devono essere base di JPEG2000, il nuovo standard di compresinterpretati in modo alternativo: un codificatore sione di immagini fisse, successivo al noto JPEG. deve essere in grado di scalare un contenuto video Le tecniche di codifica video wavelet possono in tutte le modalit previste contemporaneamente. essere applicate al campo della codifica scalabile: Lobiettivo dei codificatori descritti quello di forlapplicabilit della trasformata alle immagini nella nire Fine Grained Scalability, ovvero di rendere il loro interezza, si presta naturalmente a fornire scaflusso codificato scalabile con granularit fine. labilit con granularit fine, in quanto pu essere I livelli di enhancement sono generati a partire associata a particolari codifiche entropiche dette a dal residuo ottenuto sottraendo il segnale ricobit plane, in grado di creare uno stream di bit che struito ai livelli inferiori a quello originale e riapplipu essere troncato in posizione arbitraria, elimicando ad esso la sequenza di operazioni necessanando i bit meno significativi di tutti i campioni preria per la codifica (trasformata, quantizzazione, senti nellimmagine. Questa caratteristica permette codifica entropica): la stima del moto raffinata di superare i limiti architetturali dello standard SVC, per ogni livello di risoluzione spaziale considerato. che vincolato ad un numero limitato di livelli di In aggiunta a questo, applicata unoperazione, scalabilit; in futuro, pertanto, i codificatori wavelet denominata MCTF (Motion Compensated Temporal potranno essere utilizzati in contesti applicativi che Filtering) , che prevede un filtraggio specifico necessitano di molteplici livelli di scalabilit: ad (wavelet) nella direzione temporale, per incremenesempio, streaming su reti a prestazioni/capacit tare le prestazioni del codificatore in presenza di variabile (per esempio nelle WiFi). scalabilit temporale. Grazie ad MCTF si effettua, Attualmente le prestazioni dello standard SVC infatti, una media su differenti fotogrammi che, in risultano superiori a quelle dei codificatori wavelet, caso di scalamento temporale, permette ugualgrazie allutilizzo di algoritmi maturi e consolidati: mente di conservare la componente predominante le wavelet, tuttavia, si propongono come una soludel movimento avvenuto. zione promettente per il futuro. Attualmente si sta affermando un nuovo algoLa problematica del video scalabile non si esauritmo di codifica video scalabile, che affianca il risce allinterno della codifica video stessa, ma nascente standard ma si differenzia in modo impatta anche sulle tecniche di trasporto e segnasostanziale in quanto adotta nativamente le wavelazione/negoziazione delle capabilities. indubbio let [12]. che per beneficiare appieno della scalabilit Come si visto in precedenza la trasformata occorra garantire al meglio il trasporto del livello DCT bidimensionale utilizzata in codifica video base, con eventualmente tolleranze via via pi
Enhancement Layer 4 Encoder

112

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

ampie nei confronti dei livelli superiori, senza peraltro discriminare i diversi flussi in termini di ritardo. Si tratta di una problematica similare a quella gi attuale (in scenari di comunicazione) riguardo la discriminazione in termini di QoS tra trasmissione audio e video, ove la QoS per laudio deve privilegiare il basso ritardo mentre quella per il video il basso tasso di errore. Se dunque i diversi livelli del video devono poter essere gestiti con QoS diverse, e quindi essere trasportati separatamente, a livello dei protocolli di segnalazione occorre rappresentare le dipendenze e correlazioni tra i vari flussi: non si tratta di problemi particolarmente complessi, se non per la verbosit delle soluzioni. Lutilizzo del video scalabile permette di semplificare significativamente le architetture di rete preposte alla fornitura di servizi verso terminali eterogenei, perlomeno in teoria, giacch nella pratica le problematiche di legacy possono vanificare in parte i vantaggi dellintroduzione di questa tecnica. La rete di contribuzione potrebbe infatti produrre il video con la massima qualit, ma suddiviso nei diversi layer, e tali layer potrebbero essere distribuiti (tutti o solo alcuni) fino ai diversi terminali, senza dover ricorrere a funzionalit di transcoding o transrating in rete.

7.3 3DAV : Il video in tre dimensioni


Con laumento prestazionale degli standard di codifica e la maggiore disponibilit di banda sulle reti di nuova generazione, diventa possibile utilizzare molteplici sorgenti audio e video per realizzare servizi innovativi. Unattivit MPEG denominata 3DAV (3D audio/video) si sta occupando di tali argomenti, relativamente alla codifica video: lobiettivo quello di permettere la sintesi di punti di vista arbitari (viste virtuali) in riprese ottenute con pi telecamere posizionate in punti differenti. Applicazioni di questo tipo permetteranno, ad esempio, allutente di scegliere il punto di vista durante la visione di un filmato televisivo, consentendo una nuova user experience denominata Free Viewpoint Television. Il lavoro del gruppo 3DAV giunto alla fase preliminare, relativa alla standardizzazione di algoritmi per la codifica di flussi multipli. Successivamente, sar indetta la Call for Proposals in merito agli algoritmi di sintesi di punti di vista intermedi.

7.4 Distributed coding


Le architetture di codifica video digitale sono state storicamente guidate dal modello downlink

Dettagli orizzontali

Dettagli verticali
FIGURA 10 Scomposizione su due livelli.

Dettagli diagonali

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

113

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

che caratterizza i servizi broadcast: il tipico paradigma architetturale prevede un encoder complesso ed una moltitudine di decoder dalle capacit limitate. Tuttavia la situazione sta mutando per il proliferare di terminali video che dispongono di potenza di calcolo ridotta, come le fotocamere digitali, le reti di sensori video a bassa potenza, le webcam ed i cellulari con equipaggiamenti multimediali: lo scenario evolve verso la trasmissione su reti rumorose a banda limitata di molteplici flussi in ingresso, spediti verso centri di calcolo o ricevitori di analoga potenza. Questa nuova generazione di applicazioni uplink, presenta requisiti nuovi e sfidanti: encoder a bassa potenza computazionale; alto fattore di compressione; robustezza trasmissiva. La tecnologia DSC (Distributed Source Coding) stata ideata per rispondere alle esigenze sopra citate: in grado di facilitare, infatti, la codifica congiunta di pi sorgenti video correlate6 [13]: la conoscenza della correlazione statistica tra i flussi codificati (inviata come side infomation) pu essere sfruttata in fase di decodifica; in particolare, un flusso video pu essere codificato in modo tradizionale, con qualunque tecnica, mentre il secondo pu avvalersi della somiglianza rispetto al primo per raggiungere diversi obiettivi: 1 Light encoding: la complessit dellencoder pu essere significativamente ridotta, eliminando la fase di stima del moto, generalmente la pi dispendiosa in termini computazionali. Inviando la correlazione statistica di ogni singolo blocco con il suo corrispondente relativo alla sorgente video adiacente, il codificatore esegue esclusivamente le operazioni di trasformazione, quantizzazione (guidata dalla side information ) e codifica entropica, generalmente a bassa complessit. Un overhead imposto al decodificatore, che esegue una ricerca analoga alla stima del moto per individuare il blocco appartenente al video adiacente che presenta correlazione statistica uguale, o pi vicina possibile, a quella inviata come side information; in questa accezione, il Distributed Coding trova applicazione in contesti di reti di sensori a bassa complessit, o in scenari che presentano nodi intermedi di alta capacit, e necessitano di bassa complessit sia in codifica che in decodifica; 2 Robustezza trasmissiva: grazie ad una quantit molto limitata di side information (i dettagli sulle correlazioni statistiche) possibile fornire unalternativa per la stima di moto nel caso di perdita di pacchetti: in tal modo possibile limitale il fenomeno di drift che incorre quando sono persi i pacchetti contenenti i vettori di moto; 3 Compressione di flussi multicamera, con predizione del comportamento di alcune camere a partire dalla loro correlazione con sorgenti adiacenti.
(6)

28

Football (352x240, 15 fps, 900 kbit/s)

26 PSNR (dB)

24

22

20

FEC only DSC data + FEC H.263+ 2 4 6 Errore (%) 8 10

18

DSC = Distributed Source Coding FEC = Forward Error Correction

FIGURA 11 Prestazioni del Distributed Coding, utilizzato come canale di

protezione in aggiunta al FEC su un flusso codificato H.263+.

Le prime promettenti applicazioni di tale tecnologia si riscontrano nellambito della protezione dagli errori trasmessivi, i primi risultati sperimentali presentati in figura 11 illustrano il miglioramento prestazionale (rapporto segnale/rumore rispetto il tasso di errore nel flusso di dati) in caso di utilizzo di un canale di protezione in aggiunta al tradizionale FEC (Forward Error Correction). Bench si registrino i primi positivi risultati, va notato che al momento le applicazioni di codifica distribuita movono i primi passi, saranno necessari significativi miglioramenti tecnologici perch possano trovare applicazione in campo.

7.5 Levoluzione dellaudio


La codifica audio a basso bit rate trova applicazione in molteplici scenari applicativi multimediali, monofonici e stereofonici. Da molto tempo, il mondo della codifica ha riconosciuto limportanza di una codifica efficiente di segnali stereo: sono pertanto note, ed inserite negli standard descritti in precedenza, tecniche di joint stereo coding , che sfruttano le caratteristiche del segnale stereofonico per massimizzare il fattore di compressione. Recentemente, tuttavia, le nuove capacit dei dispositivi permettono di utilizzare pi di due segnali audio: , pertanto, possibile ricercare servizi innovativi che aumentino la qualit dellesperienza dellutente, e sfruttino la disposizione spaziale di molteplici sorgenti audio per fornire sensazioni immersive: il caso di applicazioni di audio surround, come ad esempio lhome theatre. nato, pertanto, un apposito gruppo di lavoro, allintermo di MPEG, che studia rappresentazioni efficienti di segnali audio provenienti da N sorgenti distinte (tipicamente 5+1). Lo standard sar denominato MPEG Surround [14]. Lalgoritmo in fase di studio prevede laggiunta di un overhead, tipicamente molto ridotto (minore di 5 Kbit/s), che costituisce side information rispetto al segnale stereo e riesce a descrivere efficacemente le componenti aggiuntive in funzione

Con il termine Correlazione si intende la sua accezione statistica: due variabili casuali (in questo caso due segnali) si dicono correlate se a ciascun valore della prima variabile corrisponde con una certa regolarit un valore della seconda.

114

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

della loro posizione. Questo strato indipendente dal codificato stereo, per mantenere la compatibilit con codec stereofonici tradizionali, che possono ignorare le informazioni spaziali. MPEG Surround pu essere visto come una generalizzazione del Parametric Stereo descritto precedentemente. La tecnica costituisce unestensione delle tradizionali tecniche esistenti (per esempio, Dolby Surround/Prologic, Logic 7, Circle Surround) in quanto non richiede differenze di fase tra canali per la codifica dellinformazione spaziale. pertanto possibile trasmettere un flusso MPEG surround su un unico canale. Il mondo MPEG sta affrontando un altro aspetto innovativo: laudio sintetico. Il toolset MEPG-4 audio comprende, infatti, alcuni tool ed interfacce dedicati allaudio sintetico, in particolare: Synthetic speech: MPEG-4 permette di generare suoni in base ad input strutturati. Un input testuale pu essere convertito in voce tramite la TTSI (Text to Speech Interface), che rappresenta uninterfaccia standard per le operazioni Text to Speech . Oggetto della standardizzazione la stessa interfaccia, piuttosto che un vero sintetizzatore, dipendente dallhardware e dal software del terminale che esegue la sintesi. Synthetic Music: pu essere generata a partire da un bit stream a bassissimo bitrate una sintesi del suono prodotto da unorchestra o da un generico gruppo di strumentisti: il tool Structured Audio , anchesso parte del toolset MPEG-4, decodifica dati in input per produrre suoni in output. Uno speciale linguaggio, denominato SAOL (Structured Audio Orchestra Language) definisce il suono di una orchestra creando e processando dati contenenti le informazioni musicali collegate al timbro di ciascuno strumento, che consiste in una primitiva di signal processing che emula suoni specifici. Nuovamente, MPEG-4 non standardizza un metodo di sintesi, ma piuttosto un metodo di descrizione. Lo standard MPEG pi recente supera il concetto di sintesi musicale accoppiandolo a sistemi di rappresentazione della notazione musicale (in formato standard MPEG-4): il suo nome Symbolic Music Representation (SMR) e permette la visualizzazione di spartiti, immagini o tablature sincronizzati al rendering di file musicali sintetici, o naturali. SMR pu essere adottato in applicazioni didattiche o ricreative.

In questo contesto nascono nuove esigenze, come la necessit di creare e/o modificare, catalogare e ricercare volumi sempre crescenti di contenuti audiovisivi in ambiti applicativi diversificati. La soluzione di tali problemi, procede parallelamente allo sviluppo di nuove tecnologie di codifica e rappresentazione dellaudiovisivo, che continuano a rivestire un ruolo di importanza assoluta. Nuove sfide si aprono allorizzonte, come quelle della codifica multirisoluzione, una soluzione a prova di futuro perch sapr adattarsi alle diverse esigenze applicative, e si affiancano alla mai sopita ambizione di superare le attuali prestazioni di compressione, per adeguarsi allevolvere dei paradigmi di distribuzione che prevedono lutilizzo di reti e terminali eterogenei, e permettere nuove user experience, come quella del 3DAV. Il futuro della codifica, pertanto, promette di essere ancora denso di novit ed al centro dellinteresse delle comunit di ricerca e degli enti di standardizzazione.

[1] [2] [3] [4] [5]

BIBLIOGRAFIA

[6] [7] [8]

[9] [10] [11]

[12] [13]

8. Conclusioni
La pervasivit dei contenuti digitali nei servizi di comunicazione e nella vita quotidiana un fenomeno in continua crescita. Le modalit di fruizione e di reperimento di tali contenuti continuano ad evolvere grazie allutilizzo di reti e terminali di nuova generazione, con un impatto significativo sulla vita quotidiana. I servizi multimediali si stanno arricchendo di funzionalit sempre nuove, contribuendo allaumento della domanda e della produzione di contenuti digitali, per uso personale, commerciale e professionale.

[14] [15]

[16]

E. G. Richardson: Video Codec Design. C. Drioli, N. Orio: Elementi di acustica e psicoacustica; 1999. E. G. Richardson: H.264 and MPEG4 Video Compression; 2003. ISO/IEC JTC1/SC29/WG11/W6540: Text of ISO/IEC 14496 10 Advanced Video Coding 3rd Edition; 2004. ISO/IEC JTC1/SC29/WG11/W6539: Text of ISO/IEC 14496 10/FDAM1 AVC Fidelity Range Extensions; luglio 2004. R. Schfer, T. Wiegand, H. Schwarz: The emerging H.264/AVC Standard, EBU technical review; 1/2003. T. Wiegand: H.264/AVC H.264/AVC in Multimedia Internet Streaming; 2003. M. Barbero e N. Shpuza: Advanced Video Coding (AVC - H.264): Il prossimo futuro, Elettronica E Telecomunicazioni; agosto 2003. ISO/IEC JTC1/SC29/WG11/W7129: ISO/IEC-3 (Audio 3rd Edition); aprile 2005. T. Liebchen: An Introduction To Mpeg-4 Audio Lossless Coding, ICASSP; 2004. ISO/IEC JTC1/SC29/WG11/W7310: Working Draft 3 of ISO/IEC 14496-10:200x/AMD1 Scalable Video Coding; luglio 2005. G. Strang, T. Nguyen: Wavelet and filter banks; 1996 R. Puri, K. Ramchandran: PRISM: A video coding architecture based on distributed compression principles. Technical Report No. UCB/ERL M03/6, ERL, UC Berkeley; marzo. 2003. ISO/IEC JTC1/SC29/WG11/W7387: WD 2 for MPEG Surround; luglio 2005. S.Srinivasan, P. Hsu, T. Holcomb, K. Mukerjee, S. L. Regunathan, B. Lin, J. Liang, M.Lee, J. Ribas-Corbera, Windows Media Video 9: overview and applications, EURASIP Signal Processing Image Communication, 2004. M. Goldman: A comparison of MPEG-2 video, MPEG4 AVC and SMPTE VC-1, Tandberg report.

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

115

CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

ABBREVIAZIONI

3GPP AAC AMR AVC: ASP CABC CAVLC DCT DSC DVB FEC FMO HD HLP ISMA IETF IP ITU JVT MCTF MPEG MUSHRA PS PSK RTCP RTSP RTP SBR SDP SHD SIP SMPTE SMR UDP VLC VOD

3rd Generation Mobile System Advanced Audio Coding Adaptive Multi Rate Advanced Video Coding Advanced Simple Profile Context Adaptive Binary Arithmetic Coding Context Adaptive Variable Length Coding Discrete Cosine Transform Distributed Source Coding Digital Video Broadcasting Forward Error Correction Flexible Macroblock Ordering High Definition High Latency Profile Internet Streaming Media Alliance Internet Engineering Task Force Internet Protocol International Telecommunication Union Joint Video Team Motion Compensated Temporal Filtering Moving Picture Experts Group MUlti Stimulus test with Hidden Reference and Anchors Parametric Stereo Phase-Shift-Keying Real Time Control Protocol Reat Time Stream Protocol Real Time Protocol Spectral Band Replication Session Description Protocol Super High Definition Session Initiation Protocol Society of Motion Picture and Television Engineers Symbolic Music Representation User Datagram Protocol Variable Length Coding Video On Demand

G i o v a n n i C o r d a r a si laureato in Ingegneria delle Telecomunicazioni presso il Politecnico di Torino nel 2000. Nel 2001 entrato in TILAB, area Multimedia, nella quale tuttora impegnato. Dal 2001al 2002 si occupato della progettazione di sistemi multimediali basati sullo standard MPEG-4: in particolare, ha contribuito alla realizzazione di una piattaforma di e-learning e di un prototipo di televisione interattiva. Nel 2003 si occupato di DRM (Digital Rights Management), ovvero di tecnologie volte a regolamentare la fruizione di contenuti digitali tramite lutilizzo di algoritmi di encryption e meccanismi di distribuzione di licenze: ha contribuito alla realizzazione di un prototipo di piattaforma per la distribuzione di contenuti protetti su terminali fissi e mobili. Dalla seconda met del 2003 si occupa di ricerca nell'ambito di tecnologie innovative di codifica audio e video: codifica wavelet, codifica video scalabile, sintesi di viste intermedie in sistemi multicamera, distributed coding, archiviazione e catalogazione di contenuti digitali. Dal 2003 paretcipa attivamente all'attivit di standardizzazione di MPEG, dove riveste il ruolo di Head of Delegation della delegazione italiana.

Rosario Drogo De Iacovo si laureato in Ingegneria Elettronica presso il Politecnico di Torino nel 1986 e nello stesso a n n o e n t r a t o i n C S E LT ( o g g i T I L A B ) , dipartimento Servizi e Applicazioni dutente. La sua attivit si inizialmente concentrata nei campi della codifica audiovisiva, con particolare riferimento alla definizione della codifica audio per i sistemi mobili e della valutazione oggettiva e soggettiva della qualit nei servizi di telefonia. Dal 1987 al 1991, ha partecipato alla progettazione e definizione dei sistemi di codifica GSM Full-Rate e Half-Rate. detentore di brevetti internazionali nel campo della codifica audio e coautore del libro Speech And Audio Coding For Wireless And Network Applications , Kluwer Academic Publishers, USA, 1993. Successivamente ha ricoperto la carica di Rapporteur in ITU-T Study Group 16 per la tematica Audio and wideband coding ed attualmente delegato Telecom Italia in 3GPP SA4 (Codec).

Guido Franceschini si laureato in Ingegneria Elettronica presso il Politecnico di Torino nell'Ottobre 1989. Nel 1990 entrato in CSELT (oggi TILAB), dove si occupato prevalentemente di tematiche legate al trasporto dei flussi media. E attualmente parte di un team che sviluppa software per diverse tipologie di terminali e applicazioni multimediali. Ha partecipato a diversi organi di normativa, contribuendo in particolare ai lavori di MPEG per le parti MPEG-4 Systems ed MPEG-4 DMIF. Ultimamente ha seguito i lavori di ISMA, partecipando attivamente ai test di interoperabilit.

Mauro Quaglia si laureato in Scienze dellInformazione allUniversit degli studi di Torino nel 1987. Dal 1987 in CSELT (oggi TILAB), si occupato dello sviluppo delle tecnologie di codifica e rappresentazione dellaudiovisivo, contribuendo alle attivit di standardizzazione internazionale di settore ISO/IEC MPEG. Ha seguito e coordinato progetti di collaborazione internazionale negli ambiti dei ser vizi e delle applicazioni Multimediali. Attualmente responsabile dellArea di Ricerca Multimedia nellambito della Funzione Cross Program Technology.

116

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

Potrebbero piacerti anche