Sei sulla pagina 1di 20

NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n.

2 - Dicembre 2005 97
Tecnologie di codifica audio e video
in ambiente fisso e mobile
GIOVANNI CORDARA
ROSARIO DROGO DE IACOVO
GUIDO FRANCESCHINI
MAURO QUAGLIA
Larticolo descrive i pi importanti standard esistenti nel campo delle
codifiche audio/video ed illustra i principi alla base del funzionamento
degli algoritmi di compressione, con un approfondimento sulle tecniche
di codifica audio/video allo stato dellarte. Vengono inoltre descritte le
modalit di adozione delle tecniche di codifica nei differenti contesti
applicativi ed infine viene riportata una breve panoramica sulle tecnologie
in fase di sviluppo che, in futuro, potranno permettere la realizzazione di
scenari applicativi innovativi.
1. Introduzione
Attualmente, esistono numerosi servizi di nuova
generazione che sfruttano architetture distribuite
per erogare contenuti digitali compressi su reti e
termi nal i eterogenei . In tal e contesto operano
numerosi enti di standardizzazione, che regolano
gli aspetti tecnologici relativi agli algoritmi di codi-
fica e trasmissione dei segnali audio e video, per
ciascuno degli scenari applicativi identificati.
Gli algoritmi di compressione definiti dagli stan-
dard sono molteplici, volti al soddisfacimento di
differenti requisiti: tuttavia, essi si basano su prin-
cipi analoghi. Dopo una descrizione dei pi impor-
tanti standard esistenti, larticolo analizza i principi
alla base del funzionamento degli algoritmi di com-
pressione, con un approfondimento sulle tecniche
di codifica audio/video allo stato dellarte. Nel
seguito si descrivono le modalit di adozione delle
tecniche di codifica nei differenti contesti di servi-
zio. Infine si riporta una breve panoramica sulle
tecnologie in fase di sviluppo, che potranno intro-
durre, in futuro, nuove funzionalit e permettere la
progettazione di scenari applicativi innovativi.
2. Gli standard di codifica audio e video
Il bisogno di uno standard risponde ad una esi-
genza essenziale per tutte le applicazioni che si
fondano sulla comunicazione tra pi peer: lintero-
perabi l i t. Li nteroperabi l i t i l requi si to che
esprime la necessit di scambiare qualunque tipo
di informazioni senza barriere tecnologiche, inter-
facciando e rendendo interlavoranti sistemi prodotti
da differenti manifatturiere. Gli standard specifi-
cano i tool necessari a garantire interoperabilit e
ne governamo levoluzione funzionale e prestazio-
nale definendo roadmap di evoluzione che consen-
tano ladozione dei pi recenti progressi tecnolo-
gici. Loggetto della standardizzazione rappresenta
il minimo indispensabile per assicurare interopera-
bilit, ma salvaguarda la libert di azione delle
i ndustri e, mantenendo aperta l a possi bi l i t di
implementare aree non-normative e stimolando,
cos, la competizione e linnovazione.
Assecondando questi principi fondanti gli stan-
dard nel campo del l a codi f i ca audi o e vi deo
descrivono:
la sintassi di un bit stream codificato, cio la
TECNOLOGIE
QUAGLIA OK 13-01-2006 16:41 Pagina 97
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
98 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
sequenza dei val ori bi nari che rendono un
flusso di dati conforme);
la semantica degli elementi sintattici, cio il loro
significato;
il processo di decodifica.
Gli standard non specificano invece larchitet-
tura ed il funzionamento degli encoder, che costi-
tuiscono indubbiamente la parte pi critica del pro-
cesso di compressione. Questo approccio sprona
lindustria a ricercare soluzioni innovative che
incrementino le prestazioni, consentendo la crea-
zione di valore aggiunto sui prodotti e assicurando
allo standard una evoluzione genetica pur nellam-
bito della conformit alla norma.
Lesistenza di uno standard ha importanti impli-
cazioni economiche per le realt che vi parteci-
pano, in quanto permette la suddivisione dei costi
e investimenti e laccelerazione del processo di
industrializzazione.
Esistono due tipi di standard: gli standard de
facto e gli standard de jure. Uno standard de facto
tipicamente originato dalla sua capillare diffu-
sione e popolarit: in alcuni casi, un certo prodotto
o modello pu essere tanto diffuso e imitato da
diventare uno standard. In altri casi, invece, sia in
campo manifatturiero che commerciale, esistono
specifiche studiate a priori che regolano lutilizzo e
la produzione di sistemi. A volte questi standard
sono obbligatori per legge e imposti dagli stati, a
volte sono fissati da accordi fra imprese o da asso-
ciazioni di consumatori ma non vincolanti per i pro-
duttori, che possono scegliere se conformare ad
essi i loro prodotti o meno. Questi si dicono stan-
dard de jure.
MPEG (Moving Picture Export Group) ed ITU
(International Telecommunication Union) sono i
principali enti di normativa che standardizzano tec-
nologie di codifica audio e video: costituiscono un
riferimento per altri enti come DVB (Digital Video
Broadcasting), ISMA (Internet Streaming Media
Alliance) e 3GPP, che utilizzano queste tecnologie
e le integrano con altri elementi per definire profili
di servizio per specifici contesti applicativi.
Da un lato quindi sono definiti standard di riferi-
mento, spesso comprensivi di un ampio insieme di
tool ed opzioni, che coprono un ampio spettro di
esigenze; dallaltro vengono definiti scenari di ser-
vizio pi verticali, soddisfatti combinando e profi-
lando in modo opportuno le tecnologie disponibili,
ivi incluse gli standard di codifica.
Nel corso dellarticolo sar descritto lo stato
dellarte degli standard MPEG, storicamente il
punto di riferimento tecnologico per il mondo della
codifica. Ladozione delle tecnologie di codifica nei
diversi ambiti applicativi, oggetto di attivit degli
enti sopra citati, sar oggetto di un capitolo a s.
2. 1 Il principale standard di riferimento: MPEG
MPEG (Moving Picture Experts Group) un
gr uppo di l avoro che oper a al l i nt er no
dellInternational Organisation for Standardization
( I SO) e del l I nt er nat i onal El ect r ot echni cal
Commission (IEC). Formalmente, rappresenta il
gr uppo 11 del Subcommi t t ee 29 del Joi nt
Technical Committee 1: il suo titolo ufficiale, per-
tanto ISO/IEC JTC1/SC29/WG11.
Nato nel 1988, MPEG ha prodotto molteplici
standard: MPEG-1 (1993) ed MPEG-2 (1995), costi-
tuiscono i primi standard di successo per la codi-
fica audio e video. Grazie alla loro diffusione ed al
vasto utilizzo in prodotti commerciali e servizi,
come Video-CD, DVD, televisione digitale, DAB
(Digital Audio Broadcasting), player e registratori
MP3 questi standard hanno promosso e consentito
il passaggio dai sistemi analogici a quelli digitali.
Sul l a base di tal i successi , stato real i zzato
MPEG-4 (1998), nato con lobiettivo di migliorare le
prestazioni dei codificatori audio e video per poter
soddisfare requisiti di servizio innovativi e pi sfi-
danti, come quelli di videocomunicazione e tra-
smissione su reti a banda limitata. MPEG-4 intro-
duce alcune novit, in grado di allargare il contesto
applicativo rispetto agli standard precedenti: per-
mette di inserire in flussi video contenuti sintetici e
sottotitoli, creare scene multimediali contenenti pi
di un video o pi di un audio, codificare video non
rettangolari, segmentare oggetti allinterno di una
ripresa video.
Nel 2001 stato pubblicato un nuovo standard,
MPEG-7, che modifica lorientamento del lavoro
del gruppo. Lobiettivo primario, conseguenza del
proliferare di contenuti multimediali digitali, non
pi quello di specificare algoritmi di codifica, ma
permettere la gestione efficace di tali contenuti:
MPEG-4 definisce come rappresentare il conte-
nuto, MPEG-7 come descriverlo. MPEG-7 facilita
lutilizzo dei milioni di contenuti digitali esistenti (di
qualunque tipo: audio, video, immagini, naturali e
sintetici, contenuti misti), la loro catalogazione, che
pu disporre di un formato di descrizione comune,
e la ricerca degli argomenti di interesse. MPEG-7
uffi ci al mente denomi nato Mul ti medi a Content
Description Interface. Questa attenzione ai contesti
di utilizzo ed alle problematiche di integrazione dei
media digitali stata riaffermata nel charter del pi
recente standard, MPEG-21, tuttora in fase di defi-
nizione. MPEG-21, Multimedia framework, non si
focalizza esclusivamente sui contenuti, ma analizza
la catena di distribuzione nella sua interezza, per
standardizzare lintero processo che regola il ciclo
di vi ta e di di ffusi one del contenuto di gi tal e.
MPEG-21 descrive gli elementi chiave di un fra-
mework in grado di permettere la descrizione e li-
dentificazione del contenuto, la sua protezione, la
sua distribuzione in reti eterogenee.
MPEG uno standard aperto ad esperti accre-
ditati da appositi National Standard Body. I docu-
menti sono disponibili per gli enti appartenenti alla
comunit.
Come standard di riferimento, MPEG guidato
da alcuni principi cardine:
Data la vastit degli argomenti trattati, gli stan-
dard MPEG generalmente operano producendo
toolbox, insiemi di algoritmi specifici che per-
mettono di soddisfare requisiti variegati. Tale
approccio permette alle industrie di utilizzare il
sottoinsieme dei tool di base che permettono di
QUAGLIA OK 13-01-2006 16:41 Pagina 98
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 99
rispondere alle proprie esigenze. Per garantire
la variet, ed al tempo stesso linteroperabilit
tra tutti i sottoinsiemi utilizzati, MPEG utilizza il
meccanismo dei profili, combinazioni di tool,
anchesse decise dalla comunit e specificate
in fase normativa, appositamente studiate per
essere utilizzate in particolari contesti applica-
tivi.
Standardizzazione a priori: MPEG identifica le
tecnologie per la standardizzazione prima della
ri chi est a da part e del l e i ndust ri e. Quest o
approccio permette ad MPEG di produrre stan-
dard prettamente tecnologici, esclusi da qua-
lunque interesse commerciale;
Specifica del minimo per garantire interoperabi-
lit, approccio generale per gli standard de jure;
Esecuzione, in fase normativa, di test di confor-
mit e verifica delle prestazioni di ogni nuovo
standard.
Il processo di standardizzazione seguito dal
Moving Picture Experts Group (MPEG) rappre-
sentato nel riquadro omonimo.
3. I principi della codifica audiovisiva
La teoria dellinformazione distingue due tipolo-
gie di codifica, utilizzate in un sistema di telecomu-
nicazioni:
codifica di sorgente;
codifica di canale.
Con il termine sorgente sintende linforma-
zione nella sua forma originale da trasmettere: la
sua codifica, pertanto, consiste in una conversione
e manipolazione dei dati in ingresso per esprimerli in
modo pi efficace, utilizzando un numero inferiore di
bit; quando linformazione viene trasferita tramite un
mezzo trasmissivo, la codifica di sorgente seguita
dalla codifica di canale, volta a garantire che i bit
giungano a destinazione proteggendoli da eventuali
errori di trasmissione. Nel seguito si tratter diffusa-
mente della codifica di sorgente [1] [2] rimandando
ad un'altra occasione lapprofondimento delle tecni-
che di codifica di canale.
I segnali audio e video presentano caratteristi-
che significativamente differenti tra loro, a partire
dalle dimensioni: alla natura monodimensionale
dellaudio si contrappone la bidimensionalit del-
limmagine visiva. Di conseguenza, anche i codifi-
catori, studiati in modo specifico per comprimere
efficacemente i due tipi di segnali, eseguono ope-
razioni differenti. A livello algoritmico, tuttavia, si
pu riscontrare un approccio analogo per il pro-
cesso di codifica, che in entrambi i casi esegue la
stessa sequenza di operazioni: le differenze si con-
cretizzano nei tool adottati per compiere i singoli
passi. Ogni codificatore, infatti, cerca di rappresen-
tare in modo efficiente linformazione contenuta nel
segnale audiovisivo: per raggiungere questo scopo
inizialmente calcola un modello del segnale sor-
gente per identificare le componenti predominanti
ed eliminando le informazioni ridondanti o inin-
fluenti; successivamente cerca di rappresentare in
modo efficiente linformazione in uscita di tale
modello, e provvede alla creazione del bitstream, il
flusso di dati che costituisce il segnale codificato,
che pu essere memorizzato in un file o trasmesso.
Questi obiettivi si concretizzano in una precisa
sequenza di blocchi funzionali, che eseguono ope-
razioni distinte tra loro, utilizzando come input il
risultato ottenuto nel blocco precedente:
Analisi del segnale: questa prima fase consiste
nello studio di porzioni di segnale limitate nel
tempo, con lobiettivo di analizzarne le caratte-
Il processo di
standardizzazione
MPEG
MPEG segue un processo di standar-
dizzazione formale, che origina una
serie di documenti ufficiali. Il percorso
si articola in alcune fasi:
Analisi dei requisiti: il lavoro di
definizione di un nuovo standard
nasce in seguito allidentificazione
di applicazioni che necessitano di
nuove tecnologie ed alla defini-
zione di requisiti;
Fase competi ti va: successi va-
mente inizia la prima fase opera-
tiva del processo di standardzza-
zione, che prevede:
Call for Proposal: un bando che
richiede a tutte le parti interes-
sate di presentare proposte tec-
nologiche in grado di soddisfare
i requisiti identificati;
Evaluation: le proposte sono
valutate con un processo ade-
guato ed imparziale, che com-
prende test soggettivi, compa-
razioni numeriche e valutazioni
di esperti;
Fase cooperativa: una volta indivi-
duate una o pi tecnologie pro-
mettenti, inizia un lavoro coopera-
ti vo per mi gl i orarne gl i aspetti
algoritmici e definire una prima
versione dello standard (Working
Draft) . Si eseguono Core
Experiments mirati che permet-
tono di verificare, confrontare e
introdurre ulteriori miglioramenti
incrementando le prestazioni del
modello di riferimento. Ogni modi-
fica allo standard validata da
opportuni Verification Tests.
Al termine della fase cooperativa, si
giunge ad uno stadio di maturit tale
da permettere la pubblicazione dello
standard. Anche in questa circostanza
sono prodotti alcuni documenti uffi-
ciali:
Commitee Draft: la prima versione
dello standard, contenente le tec-
nologie consolidate oggetto della
standardizzazione;
International Standard (IS): docu-
mento che contiene le specifiche
tecniche dello standard;
Amendments: documenti che con-
tengono aggiunte o modifiche tec-
niche ad uno standard esistente,
prodotte successi vamente al l a
pubblicazione;
Corrigenda: documenti prodotti
per correggere errori presenti in
standard gi pubblicati.
QUAGLIA OK 13-01-2006 16:41 Pagina 99
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
100 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
ristiche. In base allap-
procci o ut i l i zzat o gl i
scopi del l oper azi one
possono essere mol te-
plici: la costruzione di un
modello del segnale cor-
rente costruito a partire
dalle somiglianze e dalle
di ff erenze r i spet t o a
campi oni passat i e
memori zzati , l el i mi na-
zi one di por zi oni non
percepibili, la definizione
di parametri in grado di
forni re una descri zi one
sommaria delle compo-
nenti principali.
Trasformazione-quantiz-
zazione: la seconda fase
prevede la rappresenta-
zione dellinformazione in
un dominio trasformato,
in grado di fornire una descrizione compatta ed
efficiente della correlazione insita nel segnale,
cos da consentire una riduzione drastica della
ridondanza presente. Essa seguita dalla quan-
tizzazione, ovvero loperazione di decimazione,
che elimina le componenti meno significative
presenti nel dominio trasformato per massimiz-
zare il fattore di compressione.
Codifica entropica: lultima fase rappresenta in
modo efficace i simboli in uscita dalla fase di
quantizzazione, generando lo stream codificato.
Lanalisi del segnale strettamente legata alle
caratteristiche del segnale in input; la codifica
entropica, al contrario, fornisce una compressione
statistica basata su concetti generici, validi per
ogni tipo di informazione.
La maggioranza degli standard esistenti esegue
la catena di operazioni sopra descritta. Il processo
di codifica, pertanto, composto da un insieme
variegaro di algoritmi, utilizzati in modo sequen-
ziale per migliorare le prestazioni: a tecniche appo-
sitamente studiate per analizzare levolvere del
segnale nel tempo (la predizione del moto per il
video, il modello psicoacustico per laudio) si uni-
scono algoritmi importati dallanalisi dei segnali
(trasformazioni) e operazioni proprie dalla teoria
dellinformazione (codifica entropica); per tale
motivo, tali catene di operazioni sono identificate
col nome di codi f i cat ori
ibridi.
Le figure 1 e 2 mostrano
lo schema di funzionamento
dei codi f i cat or i audi o e
video. A livello di architet-
tura si pu notare come la
differenza principale, a parte
lidentit dei blocchi, consi-
sta nellanello di retroazione
con decodifica applicato ai
codificatori video. Lutilit di
tale processo sar illustrata
nel paragrafo successivo.
Il decodificatore esegue le operazioni inverse,
nellordine opposto, rispetto al codificatore.
3.1 Lanalisi del segnale
La fase di analisi (blocchi verdi nelle figure 1 e
2) del segnale rappresenta loperazione in cui codi-
fica video ed audio presentano le differenze pi
significative. I modelli analitici utilizzati, infatti,
sono studiati ed ottimizzati per sfruttare la natura
del segnale su cui sono applicati; per tale motivo
saranno analizzati separatamente.
3.1.1 Il video: la stima del moto
I fotogrammi adiacenti di una ripresa video pre-
sentano notevoli somiglianze ed una forte correla-
zione.
La fase di analisi del segnale video sfrutta tale
caratteristica per diminuire la quantit di energia, e
quindi di informazione, necessaria ad una descri-
zione esauriente del contenuto. Lobiettivo di tale
operazione consiste nella stima del fotogramma
corrent e, eff et t uat a cal col ando l a di ff erenza
rispetto ai frame ad esso adiacenti (fotogrammi di
riferimento), precedenti e successivi. La stima
eseguita suddividendo limmagine in macroblocchi
(tipicamente di 16x16 pixel), che possono essere
+
Frame
Buffer
Creazione del
bitstream
Forward Frame
Buffer
Backward Frame
Buffer
Moto-
compensazione
Stima
del moto
Codifica
entropica
Vettori di moto
Rate
Buffer
Quantizzatione +
--
Trasforma-
zione
Codifica
entropica
Quantizzazione
inversa
Retroazione
Trasformazione
inversa
FIGURA 1 La struttura di base di un codificatore video.
Frame
Buffer
Banco filtri
di analisi
Modello
percettivo
Quantizzatione Trasformazione
Codifica
entropica
FIGURA 2 La struttura di base di un codificatore audio.
QUAGLIA OK 13-01-2006 16:41 Pagina 100
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 101
ulteriormente scomposti in blocchetti di dimen-
sione minore. Per ogni blocco, lalgoritmo ricerca
allinterno di una porzione del fotogramma di riferi-
mento linsieme di campioni di medesime dimen-
sioni che pi gli assomiglia. Il blocco pi somi-
gliante quello che minimizza la differenza, in ter-
mini di errore quadratico medio. Larea di ricerca
centrata intorno alla posizione del blocco analiz-
zato, poi ch sol i tamente i l contenuto di foto-
grammi adiacenti presenta una correlazione che
tende a diminuire in base alla distanza tra le aree
analizzate.
Tale tecnica conosciuta col nome di Block
Matching [3]. Ad ogni blocco associato un valore
(vettore di moto) che rappresenta la differenza di
posizione, in pixel, tra il blocco analizzato ed il suo
accoppiamento sul fotogramma di riferimento. La
fase di stima del moto seguita dalla moto-com-
pensazione, operazione nella quale lintero frame,
stimato tramite block matching, sottratto allorigi-
nale; si codifica esclusivamente la differenza (resi-
duo), per minimizzare lenergia dellinformazione,
ottimizzando il fattore di compressione. Durante il
processo di codifica, ogni fotogramma di riferi-
mento, oltre ad essere codificato ed inserito nel bit
stream anche decodificato: in questo modo, la
stima del moto calcolata utilizzando lo stesso
riferimento, sia in fase di codifica che in fase di
decodifica. Utilizzando in codifica limmagine origi-
nale, infatti, si creerebbe una discordanza tra il rife-
rimento del codificatore e quello del decodificatore
che produrrebbe un errore di ri cost ruzi one.
Iterando la fase di stima del moto a pi fotogrammi
(prassi normalmente utilizzata nei codificatori) si
originerebbe un fastidioso errore di deriva (drifting)
con conseguente limitazione delle prestazioni.
In base al tipo di stima del moto, i fotogrammi
sono classificati in tre categorie:
Frame I (Intra): su di essi non eseguita la stima
del moto. Sono codificati interamente, a meno di
predizioni spaziali che avvengono allinterno del
frame stesso tra blocchi adiacenti;
Frame P (Predicted): frame nei quali si effettua
stima del moto uni-direzionale;
Frame B (Bidirectional): frame nei quali si effet-
tua stima del moto bidirezionale. Il residuo
cal col ato sottraendo al bl occo corrente l a
media del blocchi di riferimento individuati.
Per effettuare la stima del moto necessario
memorizzare un gruppo di fotogrammi, con conse-
guente elevata occupazione di memoria ed intro-
duzione di ritardo di codifica, che pu divenire cri-
tico in caso di codifica real time. Generalmente, il
numero di fotogrammi coinvolti nel processo di
stima del moto rappresenta un compromesso tra il
tempo di ritardo e lefficienza di codifica, efficienza
che tende ad aumentare al crescere del numero di
fotogrammi stimati. La tipica sequenza allinterno
di un gruppo di immagini di tipo: IBBBBBBBP.
La stima del moto pu essere eseguita con pre-
cisione superiore al pixel, interpolando il foto-
gramma di riferimento e utilizzando anche i cam-
pioni interpolati per la ricerca dellaccoppiamento
migliore.
3.1.2 Laudio: il modello psicoacustico
Un metodo di compressione di dati audio non
ha come obiettivo la riproduzione senza perdite
della forma donda sonora, ma la massimizzazione,
a parit di informazioni fornite, della qualit perce-
pita dallascoltatore; , pertanto, inutile riprodurre
accuratamente ogni caratteri sti ca del l a forma
donda dei suoni codificati. Pu essere, invece,
molto efficace eseguire lanalisi delle componenti
del segnale acustico per identificare quelle che
maggiormente influenzano la percezione dellascol-
tatore. Questa la teoria alla base del perceptual
codi ng (codi fi ca percetti va) che, sfruttando l e
conoscenze di acustica relative alle modalit di
percezione dellorecchio umano, analizza le com-
ponenti in frequenza di ogni suono in input, misu-
randone il livello di udibilit. Per eseguire questo
compito, si utilizza come riferimento un opportuno
modello: il modello psicoacustico. Per capire
come lavora il modello psicoacustico, necessario
considerare due concetti importanti per laudio
digitale e la codifica percettiva: la ridondanza e lir-
rilevanza. La prima rappresenta linformazione inin-
fluente, che pu essere rappresentata pi efficace-
mente utilizzando un numero inferiore di bit senza
alterare la qualit del segnale; lirrilevanza, invece,
riguarda il meccanismo di udibilit. La teoria psi-
coacustica ammette che, date le particolarit della
percezione umana, certe propriet di una data
forma donda siano effettivamente insignificanti per
un ascoltatore (ad esempio le frequenze al di fuori
della soglia di udibilit, 20 Hz 20 kHz [2]). La
codi fi ca percetti va prevede, i n ri feri mento al
modello psicoacustico, di memorizzare esclusiva-
mente i dati percepibili dallorecchio umano. In
questo modo, possibile ottenere drastiche ridu-
zioni delle dimensioni del codificato, semplice-
mente scartando limpercepibile.
In particolare, la codifica percettiva opera ese-
guendo una serie di mascheramenti, eliminando
alcune componenti. In particolare, tre sono i tipi di
mascheramento effettuati:
Frequency masking: se un suono forte ed uno
debole di frequenze analoghe competono, il
segnale pi debole non pu essere udito, per-
tanto non necessario codificarlo; inoltre
possibile eliminare le componenti appartenenti
a zone non udibili dello spettro di frequenza.
Temporal maski ng: dopo un suono f or t e,
occorre un certo lasso di tempo prima di riu-
scire a percepire un suono debole;
Ridondanza stereo: non pu essere distinta la
provenienza di un suono a bassa frequenza
1
.
Come mostrato i n precedenza, l anal i si del
segnale acustico non pu prescindere dalla cono-
scenza delle componenti in frequenza che com-
pongono il segnale stesso. Pertanto, il segnale in
ingresso sottoposto ad unanalisi tempo-fre-
quenza: linput suddiviso in una serie di frame
(1)
Questo fenomeno spiega il motivo della presenza di una sola cassa di riso-
nanza per basse frequenze (Subwoofer) in impianti 5+1.
QUAGLIA OK 13-01-2006 16:41 Pagina 101
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
102 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
temporali disgiunti, e ad ognuno di essi applicata
una trasformata di Fourier, che li scompone in 32
sottobande, analizzate separatamente.
In alcuni standard, in particolar modo quelli
dedicati alla voce (G.729), il modello psicoacustico
sopra descritto sostituito, o affiancato, da una
modellizzazione parametrica del segnale o da una
predizione lineare che sfrutta le conoscenze rela-
tive alla natura dei suoni emessi dalla voce umana:
lalgoritmo pi conosciuto ed utilizzato denomi-
nato CELP (Codebook Excited Linear Prediction).
3.2 Trasformazione-quantizzazione
Lapplicazione di trasformate (blocchi blu nelle
figure 1 e 2) rappresenta una delle operazioni pi
efficaci effettuate dalla maggior parte dei codifica-
tori ad oggi standardizzati. I dati nel dominio origi-
nale (spaziale per il video, temporale per laudio)
sono trasformati in una rappresentazione diffe-
rente, il cosiddetto dominio trasformato. Il motivo
alla base di tale operazione si pu individuare in
una maggiore compressione: campioni adiacenti
presentano alta correlazione e lenergia tende ad
essere uniformemente distribuita tra essi, renden-
done difficile leliminazione o la riduzione di alcuni,
senza compromettere la qualit del segnale deco-
dificato. Con una scelta adeguata delle operazioni
di trasformazione, possibile eliminare la correla-
zione esistente tra campioni adiacenti raggrup-
pando la maggior parte dellenergia, e quindi del-
linformazione utile, in un numero limitato di cam-
pioni nel dominio trasformato: in questo modo, le-
liminazione degli elementi meno significativi ha
impatto minimo sulla qualit globale del segnale
ricostruito.
La tecnica maggiormente utilizzata nellanalisi
dei segnali la DCT (Discrete Cosine Transform)
[3], che opera su insiemi di campioni limitati: nel
caso del video, ad esempio, la DCT bidimensionale
applicata su blocchi di 8x8 campioni. Questa
caratteristica, unita alla bassa potenza computa-
zionale richiesta, alla possibilit di parallelizzazione
delle operazioni, ed alle buone prestazioni fornite
alla base del successo che tale trasformata ha
avuto in molti standard di codifica.
Per la codifica audio, la DCT non applicata al
segnale in ingresso, ma alle singole sottobande
calcolate dallanalizzatore tempo-frequenza, per
sfruttare lalta correlazione presente tra campioni
di ciascuna sottobanda; si utilizza una versione dif-
ferente del l a DCT, denomi nata Modi fi ed DCT
(MDCT) che lavora su finestre applicative parzial-
mente sovrapposte, in modo che la seconda met
di un blocco di campioni coincida con la prima
met del blocco successivo. Questa operazione
effettuata per eliminare gli artefatti originati dalle
discontinuit prodotte sui confini dei blocchi, non
mascherabili alla percezione uditiva.
La fase di trasformazione seguita dalla quan-
tizzazione (blocchi rosa nelle figure 1 e 2), ovvero la
riduzione del numero di bit impiegati per la descri-
zione dei campioni. Tale operazione quella che
introduce la perdita di qualit, eliminando i bit
meno si gni f i cat i vi di ci ascun campi one.
Lapplicazione della quantizzazione al segnale tra-
sformato, tuttavia, limita la perdita di informazione
grazie allalto numero di campioni nulli o poco
significativi presenti nella rappresentazione nel
dominio DCT.
3.3 Codifica entropica
Lultima fase della catena di codifica costituita
dalla codifica entropica (blocchi gialli nelle figure 1
e 2). In uscita dagli stadi precedenti, prodotta
una variet di coefficienti appartenenti a differenti
categorie: campioni quantizzati nel dominio tra-
sformato, side information (header, informazioni di
sincronizzazzione) ed elementi per lanalisi del
segnale (vettori di moto, parametri della codifica
psicoacustica). Ciascuno di essi pu essere rap-
presentato efficacemente in formato binario, ridu-
cendo ulteriormente il numero di bit necessari per
la descrizione dellinterno flusso. Un codificatore
entropico mappa i simboli in input in uno stream di
dati, che rappresentano il formato di uscita. La
compressione pu essere ottenuta sfruttando la
ridondanza relativa al numero di occorrenze di
determinati simboli nello stream codificato: gene-
ralmente si esegue una codifica dei simboli su lun-
ghezza variabile VLC (Variable Length Coding) [3],
associ ando ai si mbol i pi frequenti l unghezza
minore. I due algoritmi pi utilizzati sono:
Huffmann Coding: ogni simbolo rappresentato
con una sequenza di bit di dimensione variabile,
in base alla frequenza di occorrenza;
Codifica Aritmetica: mappa ogni simbolo in
input in un numero frazionale di bit. Si ottiene
un migliore fattore di compressione rispetto
allalgoritmo di Huffmann.
4. Lo stato dellarte della codifica video
H.264/AVC (Advanced Video Coding), sinonimo
della parte 10 dello standard MPEG-4 [4] con cui
viene abitualmente indicato, il pi recente stan-
dard internazionale di codifica video. stato svi-
luppato congiuntamente da ITU-T
2
e da MPEG.
Costituisce lo stato dellarte per la codifica video,
fornendo alta efficienza di codifica in vari contesti
applicativi: videotelefonia, videoconferenza, TV,
storage (DVD e hard disk), streaming video.
H.264/AVC stato sviluppato in un periodo di
quattro anni a seguito di una Call for Proposals cui
VCEG
3
ha contribuito in modo sostanziale.
(2)
ITU-T coordina il lavoro di standardizzazione per le telecomunicazioni nel-
lambito dellInternational Telecommunication Union (ITU).
(3)
Il gruppo che si occupa di codifica video in ITU-T (sottogruppo 16) deno-
minato Video Coding Experts Group ed stato responsabile di standard nati
per supportare i servizi di videocomunicazione: il primo H.261 stato segui-
to dal pi efficiente H.263, a sua volta aggiornato in H.263+ e H.263++.
Lultimo tentativo di standardizzazione stato H.26L, confluito in H.264.
QUAGLIA OK 13-01-2006 16:41 Pagina 102
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 103
I risultati della Call porta-
rono MPEG al l e seguent i
conclusioni:
l e strutture tradi zi onal i
dei codi f i cat or i non
necessitavano di stravol-
gimenti, ma di semplici
ottimizzazioni dei tool di
base;
alcuni tool esclusi dagli
standard precedenti per
la loro complessit pote-
vano essere ri ammessi
nel nuovo standard, gra-
zie alle maggiori capacit
computazionali dei termi-
nal i di nuova gener a-
zione;
per permettere la mas-
sima libert ed efficienza,
H.264/AVC non sarebbe
stato retro-compati bi l e
con gli standard precedenti;
la tecnologia proposta da VCEG era in assoluto
la pi premettente.
Come conseguenza, per facilitare il processo di
avanzamento, ITU-T ed MPEG decisero di unire le
loro forze, costituendo il Joint Video Team (JVT).
Lo standard H.264/AVC [4] stato prodotto e
pubblicato nel 2003. A luglio 2004 stata pubbli-
cata la seconda versione dello standard, che pre-
senta una serie di profili aggiuntivi, denominati
FRExt (Fidelity Range EXTensions) [5].
La figura3 fornisce una visione complessiva dei
principali standard di codifica video prodotti da
ITU-T ed MPEG e confluiti nel lavoro congiunto di
JVT.
4.1 Caratteristiche tecniche
H.264/AVC mantiene la struttura di base dei
codificatori video, ma presenta notevoli differenze
rispetto agli standard precedenti: grazie alle mag-
giori capacit di calcolo dei terminali di nuova
generazione e a miglioramenti algoritmici, alcuni
tool sono stati ottimizzati (tabella 1). AVC inoltre
in grado, dopo la pubblicazione di FRExt, di codifi-
care video ad alta qualit, per applicazioni HDTV o
cinematografiche a bit rate elevato.
Gli elementi innovativi introdotti dallo standard
coinvolgono tutti i blocchi basilari della catena di
codifica descritta precedentemente.
Lanalisi del segnale
Stima del moto: gli algoritmi di stima del moto
presenti in AVC presentano alcune differenze
rispetto ai codificatori precedenti. Cos come
per H.263 e MPEG-4, limmagine originale
suddivisa in macroblocchi di 16x16 campioni.
stata, tuttavia, introdotta, grazie alle mag-
giori potenze dei processori odierni, la possibi-
lit di iterare la fase di splitting sino allotteni-
mento di bl occhi 4x4. Nel l a fi gura 4 sono
mostrati i possi bi l i bl occhi contempl ati . La
stima del moto ha precisione maggiore: 1/4 o
1/ 8 di pi xel . Un al t r a i mpor t ant e novi t
riguarda la stima del moto per i blocchi di tipo
P: H. 264 support a i Mul t i pl e Ref er ence
Frames, ovvero la ricerca del matching ottimo
esegui ta su pi f otogrammi di ri f eri mento
ITU-T
ISO
H.261
H.263 H.263++
H.263+ H.263L
H.264/AVC
MPEG4
MPEG2
1990 1992 1994 1996 1998 2000 2002 2003
MPEG1
FIGURA 3 La storia della codifica video.
Caratteristiche
MPEG-4
Visual H.263
Dati supportati
Numero di profili
Efficienza di codifica
Dimensione dei blocchi minima
per la motocompensazione
Supporto a blocchi rettangolari
Precisione della stima di moto
Dimensione blocchi DCT
Oggetti di qualsiasi
forma, texture
19
Media
8x8
No
1/2 o 1/4 pixel
8x8
H.264/AVC
Video frame
rettangolari
7
Alta
4x4
S
1/4 o 1/8 pixel
4x4
DCT = Discrete Cosine Transform
TABELLA 1 Confronto tra H.264/AVC e gli standard precedenti.
16x16
M
types
8x8
types
0
16x8
0
0
0 1
2 3
1
1
0
0
0
0 1
2 3
1
1
8x16 8x8
8x8 8x4 4x8 4x4
FIGURA 4 Schema delle possibili modalit di stima block based.
QUAGLIA OK 13-01-2006 16:41 Pagina 103
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
104 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
(figura 5). Sia lencoder che il decoder, per-
tanto, conservano i n memori a una seri e di
frame di riferimento durante la fase di codifica
di unimmagine. Anche la stima del moto di tipo
B, pu usufruire di tale caratteristica: la diffe-
renza tra le due modalit, consiste nella possi-
bilit, da parte dei blocchi B, di adottare
medie pesate dei matching distribuiti su frame
differenti.
Esistono, infine, nuove possibili identificazioni
per i blocchi:
- Ski p: i l bl occo presenta caratteri sti che di
moto analoghe ai blocchi adiacenti. Nessun
vettore di moto codificato, ad esso asse-
gnato quello calcolato dai blocchi aventi lo
stesso orientamento;
- Direct: utilizzato quando si identifica un
movimento lineare di un blocco di tipo B
allinterno della scena codificata. assegnato
il medesimo vettore per la stima del moto in
entrambe le direzioni;
- Intra: eliminazione della stima del moto, nei
casi in cui la stima non risulti affidabile o pos-
sibile.
Intra prediction: i blocchi classificati Intra
possono usufruire di un tipo di predizione ana-
logo al block matching. Il blocco di riferimento
non ricercato tra i fotogrammi adiacenti, ma
tra i blocchi dello stesso fotogramma che si tro-
vano nellintorno di quello analizzato.
Trasformazione-quantizzazione
La trasformazione applicata, per la prima volta
in uno standard, una trasformata ad interi,
piuttosto che una rappresentazione basata su
approssimazioni di funzioni trigonometriche
(quale la DCT tradizionale). Un vantaggio signifi-
cativo di tale operazione consiste nellimpossi-
bilit di discordanze, dovute ad approssima-
zioni, tra i risultati ottenuti nellencoder e nel
decoder. La t r asf or mat a ad i nt er i st at a
comunque progettata per mantenere le caratte-
ristiche della DCT, in termini di compattazione
dellenergia ed eliminazione della ridondanza.
La trasformata applicata su blocchi 4x4; in
alcuni profili c la possibilit di adattare la
dimensione dei blocchi effettuando una scelta
tra 8x8 e 4x4.
Codifica Entropica
Sono stati introdotti due algoritmi innovativi;
CAVLC ( Context Adapti ve Vari abl e Length
Coding), e CABAC (Context Adaptive Binary
Arithmetic Coding). Il primo rappresenta un
tradizionale codificatore di tipo VLC (Variable
Length Coding), che presenta la caratteristica
di adattare le tabelle di quantizzazione al con-
testo appl i cati vo, mi gl i orandone l e presta-
zioni. Lefficienza ulteriormente migliorata
dallutilizzo di CABAC, il secondo metodo pre-
vi st o, un codi f i cat ore ari t met i co che t rae
anchesso notevoli vantaggi dallutilizzo della
conoscenza del contesto. CABAC in grado
di aumentare del 10-15% lefficienza di codi-
fica rispetto a CAVLC.
Al cune i nnovazi oni i nt rodot t e ri guardano,
invece, la struttura generale del codificato ed i
meccanismi di error resilience, pensati per la tra-
smissione efficiente su reti a pacchetto:
Network Abstraction Layer (NAL): fornisce le
informazioni per rappresentare unit indipen-
denti al l i nterno del l o stream che possono
essere utilizzate efficacemente in fase di tra-
smissione su reti a pacchetto;
Meccanismi di protezione: per fornire prote-
zione efficace in caso di errori trasmissivi si
adotta il Flexible Macroblock Ordering (FMO),
che suddivide i macroblocchi di un fotogramma
i n pacchetti di fferenti , trasmessi separata-
mente. In caso di perdita di un pacchetto, lim-
magine ricostruita utilizzando i macroblocchi
ricevuti correttamente come predittori dei bloc-
chi corrotti.
4.2 Profili e livelli
La maggior parte delle applicazioni richiede
esclusivamente un sottoinsieme limitato dellampio
range di funzionalit e tool supportati da uno stan-
dard ampio come AVC; per favorire linteroperabi-
lit su un insieme variegato di applicazioni (ad
esempio, video-conferencing o digital TV) gli stan-
dard MPEG identificano una serie di profili e livelli.
Essi rappresentano delle raccomandazioni relative
ai tool ed ai parametri di utilizzo necessari per sup-
portare determinate funzionalit. Gli enti di norma-
tiva come ISMA o 3GPP, che supportano il mondo
industriale per la regolamentazione di opportuni
contesti applicativi, generalmente utilizzano tali
profili e livelli per garantire interoperabilit allin-
terno del dato contesto.
Profili e livelli si differenziano in base al tipo di
specifica che forniscono:
un Profilo definisce le caratteristiche algoritmi-
che: specifica pertanto il subset di tool neces-
sari per fornire le funzionalit di interesse.
= 4
= 2
= 1
Four prior-decoded pictures
as reference
Current
picture
FIGURA 5 Stima del moto per un blocco di tipo P che utilizza
multiple reference frames.
QUAGLIA OK 13-01-2006 16:41 Pagina 104
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 105
I profili incidono sulla sintassi del bit stream
codificato;
un Livello specifica il set di limiti estrinseci
allalgoritmo di codifica entro i quali opera il
codificatore. Ciascun profilo, per un determi-
nato livello, opera nelle medesime condizioni. I
livelli generalmente specificano le modalit di
carico e memoria del decoder, bit rate, frame
rate e risoluzione spaziale del bitrate codificato.
H.264/AVC identifica 7 profili
Baseline: progettato per minimizzare la com-
plessit e privilegiare la robustezza trasmis-
siva in contesti di distribuzione su reti etero-
genee. Per tale motivo supporta tutti i tool
descritti precedentemente ad eccezione dei
bl occhi di t i po B e l i mpi ego del t ool
CABAC;
Main: progettato per ottenere alti fattore di
compressione: supporta blocchi di tipo B e lu-
tilizzo della codifica aritmetica CABAC ma non
FMO;
X(eXtendend): cerca di unire la robustezza del
Baseline con lefficienza del Main, aggiungendo,
inoltre, alcuni tool addizionali. Supporta tutti i
tool descritti precedentemente ad eccezione di
CABAC;
High Profiles: rappresentano quattro distinti
profili di servizio ad alta qualit, progettati per
applicazioni di tipo HDTV o editing professio-
nale di sequenze video, che prevedono un cam-
pionamento su 8, 10 e 12 bit/campione, sup-
portano codifica lossless e la conversione al
formato RGB.
Per ciascun profilo sono stati identificati diffe-
renti livelli (17 in totale); si rimanda a [3] [4] per una
dettagliata descrizione.
4.3 Prestazioni
Le figure 6 e 7 mostrano alcuni esempi relativi
alle prestazioni (in termini di rapporto segnale-
rumore - PSNR) ottenute dai codi fi catori AVC
rispetto a standard precedenti: i profili analizzati
sono ASP (Advanced Simple Profile) per MPEG-4
(ricerca esaustiva, 1/4 di pixel di precisione per la
stima del moto, filtro di deblocking), HLP (High
Latency Profile) per H.263 (analogo ad MPEG-4
ASP) , e Mai n Prof i l e ( 5 ref erence f rame) per
H.264/AVC.
Per tutti i codificatori lo schema utilizzato del
tipo: IBBPBBP.
H.263 ed MPEG-4 forniscono prestazioni analo-
ghe; H.264, invece, in grado di raggiungere fat-
tori di compressione nettamente superiori. In parti-
colare, si pu notare come, a bassi bit rate, utiliz-
zando H.263 o MPEG-4 occorra allincirca raddop-
piare la banda per eguagliare le prestazioni fornite
da AVC. Ovviamente, laumento in termini di fattore
di compressione compensato da una richiesta di
maggiore sforzo computazionale, che tuttavia
supportato dai terminali di ultima generazione. La
tabella 2 riassume le prestazioni e la potenza com-
putazionale richiesta per i differenti profili, in rela-
zione ad MPEG-2.
Il significativo divario, in termini di compres-
sione, tra AVC e gli altri standard non deriva dallu-
tilizzo di un tool particolare, ma piuttosto ad una
serie di ottimizzazioni degli algoritmi comuni a tutti
i codificatori ibridi, in particolare nella fase di stima
del moto e di codifica entropica.
I l mi gl i oramento di effi ci enza raggi unto da
H.264/AVC, unito alla definizione di profili per alta
qualit, ha reso praticabile la progettazione di nuovi
scenari applicativi nel contesto wireless e wired.
Quality
Y-PSNR (dB)
39
38
37
36
35
34
33
32
31
30
29
28
27
0 50 100 150 200 250
JVT/H.264/AVC
Foreman QCIF 10 Hz
Bit rate (kbit/s)
MPEG-4
MPEG-2
H.263
AVC = Advanced Video Coding
FIGURA 6 Prestazioni di H.264, H.263, MPEG-4 e MPEG-2 su una
sequenza QCIF (176x144 pixel) [7].
Quality
Y-PSNR (dB)
38
37
36
35
34
33
32
31
30
29
28
27
26
25
0 500 1000 1500 2000 2500 3000 3500
Tempete CIF 30 Hz
Bit rate (kbit/s)
JVT/H.264/AVC
MPEG-4
MPEG-2
H.263
AVC = Advanced Video Coding
FIGURA 7 Prestazioni di H.264, H.263, MPEG-4 e MPEG-2 su una
sequenza CIF (352x288 pixel) [7].
QUAGLIA OK 13-01-2006 16:41 Pagina 105
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
106 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
Utilizzando la modulazione 8-PSK (Phase-Shift-
Keying) e turbo codici, infatti possibile triplicare,
a parit di banda, i canali disponibili rispetto al
sistema DVB-S, ad oggi in uso, che si appoggia ad
MPEG-2 [6]. Grazie agli High Profiles, inoltre, un
segnal e HD pu essere compresso a ci rca 8
Mbit/s, bit rate che ne cosente lo storage su DVD
[6]. Di conseguenza, H.264/AVC ampiamente
adottato da parte degli enti normativi di settore,
come si vedr nei capitoli seguenti.
In termini prestazionali AVC rappresenta lo stato
dellarte per la codifica video, parallelamente ad
esso tuttavia si stanno affermando alcune tecnolo-
gie di codifica proprietarie, in grado di affermarsi in
altri enti di standardizzazione. La pi nota di tali
tecnologie, Windows Media Video sviluppata da
Microsoft, descritta nel riquadro La Tecnologia
Windows Media Video.
5. Lo stato dellarte della codifica audio
Le tecnologie di codifica audio sono oggetto di
st udi o MPEG ( par t e 3 di MPEG-4 - I SO/ I EC
14496-3) [9] e gli algoritmi standardizzati costitui-
scono un toolbox, comprendente tecnologie varie-
gate, denominato Advanced Audio Coding (AAC).
Il processo di standardi zzazi one ha subi to un
andamento differente rispetto a quello compiuto
dalle tecnologie di codifica video: durante gli ultimi
anni, con il consolidamento degli algoritmi e la
specializzazione dei tool in base al differente uti-
lizzo (codifica di voce, musica, lossless, ...), non si
assistito alla definizione di un nuovo standard di
codifica, ma allallargamento del toolset MPEG-4
AAC; i nuovi tool si inseriscono in unarchitettura
tradizionale, e introducono miglioramenti per parti-
colari applicazioni e bitrate. Come conseguenza,
pertanto, si assistito alla definizione di nuovi
profili: HE-AAC (High Efficiency Advanced Audio
Coding) focalizzato al raggiungimento di un ele-
vato fattore di compressione, in grado di permet-
tere la distribuzione di parlato e musica su mezzi
Profilo
Applicazioni
previste
Aumento della
complessit
stimata per il
decodificatore
Stima preliminare
del miglioramento
in efficienza
rispetto a MPEG-2
Baseline
Applicazioni a abasso
ritardo, videotelefono,
mobile, ...
Circa 2,5 volte
pi complesso
circa 1,5 volte
eXtended Mobile, streaming, ...
Circa 3,5 volte
pi complesso
circa 1,75 volte
Main
Distribuzione del
segnale
video interlacciato, ...
Circa 4 volte
pi complesso
circa 2 volte
TABELLA 2 Prestazioni di H.264/AVC e MPEG-2 [8].
La tecnologia
Windows Media Video
Windows Media Video [15] rappre-
senta l a sol uzi one per l a codi fi ca
video inserita allinterno dellultima
generazi one di tecnol ogi e di gi tal i
multimediali sviluppate da Microsoft.
Lo scenari o appl i cati vo nel qual e
trova spazio questa tecnologia rap-
present at o dal l a di st ri buzi one i n
streaming di flussi audio/video verso
devi ce eterogenei , f i ssi o mobi l i .
Larchi tettura stata studi ata per
ottenere alta efficienza computazio-
nal e e bassa compl essi t mante-
nendo un elevato fattore di compres-
sione. La tecnologia di base parte
integrante del codec Microsoft noto
come VC-1, di recente proposto per
l a rat i f i ca come st andard presso
SMPTE (Soci ety of Moti on Pi cture
and Television Engineer), organismo
tecnico USA che opera a livello mon-
diale per l'industria dellimmagine in
movimento.
Aspetti algoritmici
VC-1 adotta un archi tettura mol to
simile a quella attualmente utilizzata
da AVC. Rappresenta anchesso un
codificatore ibrido con stima del moto
di tipo block matching, in grado di uti-
lizzare frame I, P e B. La trasforma-
zione spaziale effettuata utilizzando
la DCT e la codifica entropica si basa
sugl i stessi pri nci pi al gori tmi ci di
quella VLC adottata in tutti gli stan-
dard MPEG.
Esistono, tuttavia, alcune differenze
che non rappresentano modi fi che
sostanziali dellapproccio algoritmico,
ma semplici configurazioni dei singolo
tool:
la DCT utilizzata in VC-1 appli-
cata adattativamente su blocchi di
dimensione variabile: in base al
contesto pu essere applicata su
bl occhi 4x4, 8x8 o rettangol ari
4x8; la trasformata su blocchi di
dimensione maggiore pi adatta
alla compressione di texture ripe-
titive che coprono ampie zone. I
bl occhi di di mensi one mi nore,
invece, si applicano sulle zone di
dettaglio;
VC-1 include un tool per il ricono-
scimento del cambio di illumina-
zione prima di eseguire la stima
del moto, in modo da compensare
gli effetti negativi che esso causa
sulla stima del moto block mat-
ching;
I blocchi su cui VC-1 effettua la
stima del moto hanno dimensione
minima 8x8, al contrario dei 4x4
adottati in AVC e non sono utilz-
zati frame multipli di riferimento:
la scelta di escludere tali tool da
VC-1 stata dettata dal desiderio
di limitare la complessit compu-
tazionale dellencoder a scapito di
una sensibile perdita prestazio-
nale.
Profili e prestazioni
Sono stati predisposti tre profili per
VC-1: Simple, Main e Advanced, ana-
logi, come tool e target al Baseline,
Main e Extended di AVC. In base ad
al cuni test effettuati da Tandberg
Television [16], le prestazioni di VC-1
risultano paragonabili a quelle otteni-
bili da AVC bench non siano riportati
i dettagli del confronto.
QUAGLIA OK 13-01-2006 16:41 Pagina 106
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 107
trasmissivi a banda limitata (Internet), LC-AAC
( Low Compl exi ty Advanced Audi o Codi ng) , a
bassa complessit e AAC-SSR (Scalable Sample
Rate Advanced Audio Coding), in grado di fornire
scalabilit.
Lo stato dellarte rappresentato da HE-AAC,
che ingloba alcuni tool innovativi, che si aggiun-
gono al tool set MPEG-4 AAC: SBR (Spectral Band
Replication) e PS (Parametric Stereo). Essi saranno
descritti di seguito.
5.1 Spectral Band Replication
Un tipico svantaggio introdotto dalla codifica
audio che utilizza trasformate la riduzione della
banda riprodotta al diminuire del bit rate. SBR si
propone di limitare tale effetto, riproducendo le alte
frequenze, grazie ad una loro parametrizzazione
calcolata sulla base delle componenti di bassa fre-
quenza: allencoder calcolata una descrizione
della forma dei toni alti emessi dalla voce umana,
inserita come side information nello stream codifi-
cato. Il decoder ricostruisce la parte alta dello
spettro utilizzando queste informazioni, il modello
di parametrizzazione e la parte bassa dello spettro
codi fi cata i n modo tradi zi onal e. Sol i tamente,
linformazione SBR occupa una porzione di banda
limitata, dellordine di 1,5 kbit/s su un contenuto
codificato ad esempio a 24 kbit/s.
Linformazione relativa alla replica dello spettro
costituisce uno stream aggiuntivo che si sovrap-
pone ad un codi fi cato tradi zi onal e: i n questo
modo, scartando i bit relativi ad SBR possibile
decodificare un contenuto mantenendo la compati-
bilit con uno standard precedente ad HE-AAC.
Grazie alle sue caratteristiche, SBR raggiunge
la massima efficienza per la codifica di segnale
vocale a basso bitrate.
5.2 Parametric Stereo
Analogamente alle alte frequenze, le compo-
nenti stereofoni che di un segnal e audi o sono
spesso trascurate per codifiche a basso bit rate,
che trattano esclusivamente segnali monofonici.
Unalternativa a tale limite stata definita in
MPEG-4, ed denominata Parametric Stereo (PS):
si propone di trasmettere una descrizione parame-
trica del segnale stereofonico, utilizzando come
supporto una sua versione mono. In questo modo
possibile rappresentare una versione stereofo-
nica del segnale originale con pochi kbit/s aggiun-
tivi rispetto al segnale di partenza. Grazie al PS
possibile rappresentare segnali stereo a bit rate
inferiori a 16 kbit/s. Questa tecnologia consente la
codifica a basso bitrate di segnali musicali.
5.3 Profili e livelli
Come descritto nel paragrafo 4.2, MPEG speci-
fica differenti modalit di funzionamento degli stan-
dard in base al contesto di utilizzo, differenziando
le funzionalit garantite e le condizioni di applica-
zione. Tale operazione si concretizza nella defini-
zione di profili e livelli. In precedenza sono gi stati
nominati i profili innovativi: HE-AAC (in due ver-
sioni, dette AACPlus-v1 e AACplus-v2 o Enhanced
AACplus ), LC-AAC, AAC-SBR.
Essi si aggiungono allinsieme dei profili previ-
sto dalla prima versione di MPEG-4 audio:
1 Speech Audio Profile: studiato per la codifica
voce, include CELP;
2 Synthetic Audio Profile: per la generazione di
audio sintetico;
3 Scalable Audio Profile: allarga le funzionalit
dello Speech profile garantendo scalabilit e
permettendo la codifica di contenuti musicali;
4 Main Audio Profile: raggruppa i tool presenti nei
tre profili precedentemente descritti;
5 High Quality Audio Profile: per applicazioni di
tipo Hi-Fi: include tool di error resilience;
6 Low Delay Audio Profile: profilo studiato per
mi ni mi zzare compl essi t computazi onal e e
ritardo di codifica;
7 Natural Audio Profile: contiene tutti i tool pre-
senti in MPEG-4 per la codifica di contenuti
naturali;
8 Mobi l e Audi o Internetworki ng Profi l e: com-
prende i tool per low delay e scalabilit, ed
predisposto per essere integrato con tool di
codifica non inclusi in MPEG;
9 AAC Profile: loriginale AAC.
La definizione e associazione dei livelli ai diversi
profili definita in [9].
5.4 Prestazioni
Nella figura 8 riportato un confronto fra le pre-
stazioni (dati forniti da Coding Technologies) otte-
nibili con i diversi codec della famiglia AAC. I test
sono stati effettuati utilizzando una modalit di test
denominata MUSHRA
4
(MUlti Stimulus test with
Hidden Reference and Anchors).
AACPlus v2
AACPlus v1
AAC-LC
40
30
20
10
0
-10
-20
-30
-40
18 24 32
MUSHRA scores relative to 7 kHz anchor, stereo
Bit rate (kbit/s)
D
e
l
t
a

M
U
S
H
R
A

s
c
o
r
e
48
AAC = Advanced Audio Coding
FIGURA 8 Confronto tra la famiglia AAC (fonte: Coding Technologies).
(4)
Il MUSHRA una modalit di test che, sulla base del gradimento di un cam-
pione variegato di utenti, stima la qualit di un file audio in confronto ad uno
stream di riferimento.
QUAGLIA OK 13-01-2006 16:41 Pagina 107
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
108 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
Il codec AACPlus v2 rappresenta un superset di
AACPlus v1 come, a sua volta, AACPlus v1 un
superset di AAC. AACPlus v1 la combinazione di
AAC e SBR (Spectral Band Replication) ed stan-
dardizzato come High-Efficiency profile in MPEG-4
part 10 ( HE AAC) . AACPl us v2 costrui to su
AACPlus v1 con laggiunta di tool specifici come
Parametric Stereo che permette di raggiungere
unalta efficienza di codifica con segnali stereofo-
nici, come detto in precedenza. Si noti anche che,
nella terminologia 3GPP, il codec AACPlus v2 corri-
sponde al codec Enhanced AACPlus, come sar
descritto nel seguito.
In sintesi, i risultati riportati in figura 8 indicano
come il codec AACPlus v2 (Enhanced AACPlus)
fornisca una qualit migliore rispetto ad AACPlus
v1. Tale guadagno si riduce man mano che il bit
rate cresce, fino ad annullarsi per bit rate attorno a
48 kbit/s.
6. Ladozione delle tecnologie di codifica A/V nei
diversi contesti
6.1 Le tecnologie di trasporto dei media
La definizione di un sistema completo per la
fornitura di uno specifico servizio richiede lintegra-
zi one di numerose tecnol ogi e: enti qual i DVB,
3GPP o ISMA si occupano di selezionare e profi-
lare opportunamente le tecnologie di base, inte-
grandol e se necessari o con tool ad hoc, per
costruire profili di servizio nei contesti applicativi di
loro pertinenza, garantendo cos linteroperabilit
tra sistemi.
Come gi illustrato, ITU ed MPEG forniscono i
bacini tecnologici cui attingere per gli standard di
codifica audio e video. A questi occorre aggiun-
gere diversi altri contributi, i pi evidenti dei quali
sono legati al trasporto ed allo storage dei dati. In
questi settori gli enti di normativa di riferimento
sono IETF (Internet Engineering Task Force) ed
ancora MPEG.
Rel ati vamente al l e tecnol ogi e di trasporto,
MPEG ha definito un tool estremamente impor-
tante, lMPEG-2 Transport Stream, per il multi-
plexing dei flussi audio e video nonch di tutta una
serie di informazioni aggiuntive essenziali per il
servizio televisivo, quali ad esempio le informa-
zioni sui palinsesti e soprattutto quelle relative ai
si st emi di prot ezi one ( ci f r at ur a) . L MPEG-2
Transport Stream permette di multiplare alcune
migliaia di flussi distinti, utilizzando pacchetti di
lunghezza fissa che sono assegnati alluno o a
allaltro flusso. Oltre ai segnali audio e video ven-
gono multiplati flussi contenenti specifiche tabelle
(ad esempio per rappresentare linsieme dei pro-
grammi disponibili nel multiplex) ed altri per il tra-
spor t o gener i co di dat i , t i pi cament e i nvi at i
secondo un meccanismo di carousel (un p come
il televideo).
IETF costituisce invece il riferimento per tutte le
applicazioni relative al mondo IP. In questo caso il
protocol stack di riferimento per i flussi audio e
video RTP/UDP/IP: lIP (Internet Protocol) il
substrato comune a qualunque tipologia di traffico
su rete IP, lUDP (User Datagram Protocol) un
protocollo che permette la trasmissione (passibile
di fallimento in quanto privo di meccanismo di
ritrasmissione) di pacchetti di lunghezza stabilita
dal livello superiore, lRTP (Real Time Protocol)
permette di associare alcune metainformazioni al
payload del pacchetto (sequence number, time
stamp, ) in modo da rendere possibile al ricevi-
tore la corretta identificazione di dati mancanti e la
riproduzione sincronizzata. Associato ad RTP si ha
anche un canale di controllo bidirezionale RTCP
(Real Time Control Protocol) tramite cui trasmetti-
tore e ricevitore si scambiano informazioni statisti-
che che, ad esempio, in uno scenario conversa-
zionale, possono essere sfruttate dal terminale tra-
smettitore per modificare i propri parametri di
codifica adattandoli in tempo reale alle fluttuazioni
nella capacit del canale trasmissivo. Il payload
trasportato da RTP definito dallo specifico RTP
Payload Format associato al particolare media
audio o video: le regole definite dai diversi payload
format indirizzano tipicamente il requisito di ridurre
leffetto degli errori di trasmissione. Per esempio
stabilendo regole su come spezzare in pi pac-
chetti frame video particolarmente grandi, o su
come effettuare interleaving tra frame audio.
IETF specifica anche alcuni protocolli di segna-
l azi one l argamente adottati : RTSP (Real Ti me
Streaming Protocol) dedicato allo scenario retrie-
val, e rende disponibili le funzionalit di un normale
ri produttore (pause, resume, seeki ng, ); SIP
(Session Initiation Protocol) invece rivolto agli
scenari conversazionali. Entrambi i protocolli utiliz-
zano infine una sintassi comune per rappresentare
i media coinvolti nella negoziazione della sessione:
SDP (Session Description Protocol), sempre speci-
ficato da IETF.
MPEG ha coperto infine il settore del file for-
mat per i contenuti multimedia, sia per le specifi-
che pi moderne (lISO File Format, derivato da
QuickTime, parte del progetto MPEG-4) sia per
quelle precedenti, dallo storage di MPEG-1 (che
ha ori gi nato i vi deo CD, grande successo nei
Paesi asiatici, pressoch sconosciuti da noi) al
Program Stream di MPEG-2 usato nei ben pi
noti DVD.
6.2 Il mondo televisivo: DVB
Il Digital Video Broadcasting (DVB) Project un
consorzio di broadcaster, manifatturiere, operatori
di telecomunicazione, enti regolatori, nato nei
primi anni Novanta per iniziativa dellEuropean
Launching Group (ELG), con lobiettivo iniziale di
i nt rodur re l a TV di gi t al e i n Europa.
Successivamente il progetto ha allargato i propri
orizzonti sia geograficamente, superando il limite
dellambito europeo, che tecnologicamente, occu-
pandosi anche di TV interattiva e mobile. Oggi il
progetto DVB conta 270 membri provenenti da 35
Paesi le cui specifiche sono adottate in tutto il
mondo.
QUAGLIA OK 13-01-2006 16:41 Pagina 108
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 109
Una fondamentale decisione del progetto DVB
fu l a sel ezi one del l o standard MPEG-2 per l a
compressione ed il multiplexing dei segnali audio
e video; questa specifica forma la base comune
su cui si basano le ulteriori normative definite da
DVB: da un lato le tecniche di modulazione del
segnale sui link dedicati del satellite (DVB-S), del
cavo (DVB-C), e pi recentemente del l e onde
radio terrestri (DVB-T), e dallaltro le informazioni
accessorie che devono essere trasportate per
completare il servizio offerto (ad esempio i palin-
sesti).
Il profilo MPEG-2 selezionato da DVB per la TV
di gi tal e a defi ni zi one standard (DTV) i l Mai n
Profile @ Main Level per il video, e il Layer I e Layer
II per laudio (non il Layer III, meglio noto come
MP3). Successivamente sono stati integrati in DVB
altri profili, che coprono esigenze diverse come la
contribuzione o la trasmissione in formati ad alta
definizione (HDTV).
Le recenti speci fi che DVB-H, dedi cate agl i
handheld devices (dispositivi mobili), definiscono
un settore completamente nuovo di dispositivi in
grado di ricevere segnali audiovisivi digitali tra-
smessi in modalit broadcast su canale terrestre;
pertanto in questo caso stato possibile intro-
durre lutilizzo di codec pi
moderni rispetto allMPEG-
2, in particolare AVC/H.264
per i l vi deo ( con VC-1
opzi onal e) ed HE-AAC v2
per laudio (con AMR WB+
opzionale).
La t abel l a 3 ri port a l e
principali caratteristiche dei
codec considerati da DVB.
6.3 Il mondo del mobile: 3GPP
Dal 1998, gli enti di stan-
dardizzazione hanno deciso
di cooperare per la produ-
zione di un set completo di
specifiche tecniche relative
alle reti mobili di terza gene-
r azi one. I n par t i col are,
3GPP regola gli aspetti rela-
tivi alla distribuzione di con-
tenuti video su terminali 3G
per appl i cazi oni di strea-
mi ng, vi deoconferenci ng,
VoD (Video on Demand).
Uno degli aspetti cruciali per assicurare unalta
QoS allutente di un servizio mobile luso di
adeguati codec audio-video e meccanismi di pro-
tezione dagli errori di canali. Se poi si considera
che in ambito mobile, accanto ai servizi di tipo
punto-punto, si potranno sviluppare anche servizi
di ti po punto-mul ti punto (broadcast/mul ti cast)
dove non possibile utilizzare tutte le usuali tec-
ni che a l i vel l o radi o per mi ti gare gl i errori di
canale, limportanza di codec di sorgente ade-
guati e relativi meccanismi di protezione risulta
ancora pi evidente.
In ambito 3GPP questa problematica stata
affrontata in due modalit differenti: facendo riferi-
mento a codec sviluppati da altri organismi interna-
zionali (come ITU-T o ISO) utilizzando opportuni
profili oppure sviluppando delle tecnologie di com-
pressione specifiche per le esigenze del mondo
wireless. Storicamente stata seguita maggior-
mente la prima strada per la codifica video mentre
stata seguita maggiormente la seconda per la
codifica audio.
Per questo motivo, mentre per i codec video ci
si potr imbattere, a seconda del particolare servi-
zio mobile, in H.264/AVC Baseline Profile, ISO
MPEG-4 Visual Simple Profile o ITU-T H.263 Profile
0, per i codec audio, accanto ad alcuni profili del
codec ISO/MPEG4 AAC, sono stati definiti due
codec di ultima generazione:
Enhanced aacPlus;
Extended AMR (Adaptive Multi-Rate) Wideband.
Enhanced aacPlus (paragrafo 5) un codec di
der i vazi one MPEG, ment re Ext ended AMR
Wideband stato completamente sviluppato per il
3GPP e si basa sulla tecnologia AMR che ha fatto
la sua prima apparizione nel mondo GSM come
codec AMR Narrowband, usato solamente per
segnale vocale. Scopo del sistema AMR quello di
variare dinamicamente lallocazione di bit rate tra
source codec e channel codec cercando di fornire
la migliore qualit possibile in funzione di una
stima della qualit del canale. Il sistema AMR
quindi costituito da un set di speech codec mode
cio di bit rate con la possibilit di switching tra i
diversi modi in funzione delle condizioni di propa-
gazione.
Poich la tecnologia non ancora matura per un
codec audio universale, cio in grado di essere
vantaggi osamente usato per ogni ti pol ogi a di
banda e contenuto, il 3GPP ha standardizzato uno
o pi codec audio per ogni tipologia di servizio.
Scenario
Standard Definition TV
High Definition TV
DVB-H
Audio codec
ISO/IEC 11172-3 (MPEG-1 Audio):
- Layer I o II
- bitrate <= 448 Kbit/s
ISO/IEC 13818-3 (MPEG-2 Audio):
- Layer II
- bitrate <= 682 Kbit/s
ISO/IEC 11172-3 (MPEG-1 Audio):
- Layer I o II
- bitrate <= 448 Kbit/s
ISO/IEC 13818-3 (MPEG-2 Audio):
- Layer II
- bitrate <= 682 Kbit/s
ISO/IEC 14446-3 (MPEG-4 Audio):
- HE-AAC Profile @ Level 2
AMR WB+ (optional)
Video codec
ISO/IEC 13818-2 (MPEG-2 Video):
- Main Profile @ Main Level
ISO/IEC 14446-10 (AVC/H.264):
- Main Profile @ Level 3
ISO/IEC 13818-2 (MPEG-2 Video):
- Main Profile @ High Level
ISO/IEC 14446-10 (AVC/H.264):
- High Profile @ Level 4
ISO/IEC 14446-10 (AVC/H.264)
VC-1 (optional)
AAC
AMR
DVB-H
=
=
=
Advanced Audio Coding
Adaptive Multi Rate
Digital Video Broadcasting Hendheld
TABELLA 3 I codec adottati nel video digitale terrestre.
QUAGLIA OK 13-01-2006 16:41 Pagina 109
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
110 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
La tabella 4 mostra tale allocazione per i
servizi wireless a pacchetto nella Release
6 del 3GPP.
Per aiutare loperatore mobile nel non
sempre facile compito di scegliere un
codec adatto al servi zi o che i ntende
offrire, le specifiche tecniche 3GPP met-
tono a disposizione delle linee guida per
stabilire quale codec usare in funzione
delle caratteristiche del servizio offerto
(tipologia di contenuti, banda disponibile,
modalit di delivery, ...). A titolo di esem-
pio, le linee guida fornite per servizi wire-
less 3G relativamente ai codificatori audio
Enhanced aacPl us ed Extended AMR
Wideband, possono essere sintetizzate
come segue: Extended AMR Wideband
off re prest azi oni mi gl i ori a vel oci t
medio-basse (inferiori a 24 kbit/s) e con
contenuti solo vocali o intervallati con
musica; Enhanced aacPlus, invece, offre
prestazioni migliori a velocit tendenzial-
mente pi alte e con contenuti prevalen-
temente musicali.
6.4 Il mondo wireline: ISMA
LInternet Streaming Media Alliance (ISMA) un
ente no profit nato originariamente (fine del 2000)
allo scopo di fornire un riferimento per i servizi di
streaming su IP. Era il periodo in cui si stava affer-
mando la codifica MPEG-4 Video, e con essa gli
oggi popolarissimi DIVX, e si riteneva incombente
una domanda del mercato per affiancare alla frui-
zione locale dei DIVX anche una fruizione in
streaming. Le soluzioni di streaming pi popolari
allepoca (ma il quadro, bisogna dire, non si
granch modificato) erano
quelle proprietarie di Real
Networks e di Microsoft.
Lo sf orzo di I SMA era
dunque ri vol t o pri nci pal -
mente a contrastare questo
status quo, promuovendo
luso di tecnologie standard,
aperte ed interoperabili.
Nel l a pr i ma speci f i ca
(ISMA1.0 di fine 2000) sono
st at i sel ezi onat i i l codec
vi deo MPEG-4 nonch i l
codec audio AAC (che a sua
volta ha iniziato a diffondersi
nei DIVX come alternativa ad
MP3) , sost anzi al ment e
quello che rappresentava lo
stato dellarte per gli stan-
dard di codi f i ca audi o e
video: i due profili definiti
miravano luno ad una qua-
l i t entry l evel , a basso
bi trate, l al tro a servi zi di
qualit superiore per bande
fino a 1,5 Mbit/s
A livello trasporto si sono
adottate le specifiche IETF del settore, ovvero
RTSP ed SDP per l a segnal azi one, RTP ed i
Payload format appropriati per il trasporto.
Nella specifica successiva (ISMA2.0, finalizzata
di recente) larchitettura non cambia, ma si defini-
scono profili aggiuntivi e si selezionano i nuovi
codec video H.264 ed audio AAC-HE, puntando
sui servizi audiovisivi ad alta qualit, con bit rate
fino a 15 Mbit/s. La tabella 5 riassume le caratteri-
stiche essenziali dei diversi profili definiti da ISMA.
Tipologia di servizio Codec audio (3GPP Release 6)
Packet switched conversational
MMS
(Multimedia Messaging Service)
PSS
(Packet switched Streaming Service)
MBMS
(Multimedia Broadcast/Multicast Service)
- AMR Narrowband (mandatory)
- AMR Wideband
- AMR Narrowband
- AMR Wideband
- Enhanced aacPlus
- Extended AMR Wideband
- MPEG-4 AAC Low Complexity
- MPEG-4 AAC Long Term Prediction
- AMR Narrowband
- AMR Wideband
- Enhanced aacPlus
- Extended AMR Wideband
- MPEG-4 AAC Low Complexity
- MPEG-4 AAC Long Term Prediction
- AMR Narrowband
- AMR Wideband
- Enhanced aacPlus
- Extended AMR Wideband
AAC
AMR
=
=
Advanced Audio Coding
Adaptive Multi Rate
TABELLA 4 I codec adottati in 3GPP.
Profile
Profile 0 (ISMA1.0):
Profile 1 (ISMA1.0):
- bitrate <= 1.5 Mbit/s
Profile 2 (ISMA2.0):
- bitrate <= 1,2 Mbit/s
Profile 3 (ISMA2.0):
- bitrate <= 3,7 Mbit/s
Profile 4 (ISMA2.0):
- bitrate <= 15 Mbit/s
Audio codec
ISO/IEC 14446-3 (MPEG-4 Audio):
- High Quality Profile @ Level 2
- numero canali <= 2
- sampling rate <= 48000 Hz
ISO/IEC 14446-3 (MPEG-4 Audio):
- High Quality Profile @ Level 2
- numero canali <= 2
- sampling rate <= 48000 Hz
ISO/IEC 14446-3 (MPEG-4 Audio):
- HE-AAC Profile @ Level 2
- numero canali <= 2
- sampling rate <= 48000 Hz
ISO/IEC 14446-3 (MPEG-4 Audio):
- AAC Profile @ Level 4
- numero canali <= 5+1
- sampling rate <= 48000 Hz
ISO/IEC 14446-3 (MPEG-4 Audio):
- AAC Profile @ Level 4
- numero canali <= 5+1
- sampling rate <= 48000 Hz
Video Codec
ISO/IEC 14446-2 (MPEG-4 Video):
- Simple Profile @ Level 1
- bitrate <= 1.5 Mbit/s
ISO/IEC 14446-2 (MPEG-4 Video):
- Advanced Simple Profile @ Level 3
- bitrate <= 64 Kbit/s
ISO/IEC 14446-10 (AVC/H.264):
- Baseline&Main* Profile @ Level 2
- bitrate <= 1 Mbit/s
* sottoinsieme comune ai 2 profili
ISO/IEC 14446-10 (AVC/H.264):
- Main Profile @ Level 3
- bitrate <= 3 Mbit/s
ISO/IEC 14446-10 (AVC/H.264):
- High Profile @ Level 4
- bitrate <= 15 Mbit/s
AAC
AVC
ISMA
=
=
=
Advanced Audio Coding
Audio Video Coding
Internet Streaming Media Alliance
TABELLA 5 I profili adottati in ISMA.
QUAGLIA OK 13-01-2006 16:41 Pagina 110
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 111
7. Tecnologie emergenti
Le tecnologie analizzate sino ad ora permettono
di migliorare il rapporto di compressione ottenibile,
ottimizzando la struttura tradizionale dei codifica-
tori. Attualmente, per, gli enti di standardizzazione
di riferimento hanno intrapreso alcuni studi prelimi-
nari, con lobiettivo di introdurre nuove funzionalit,
che estendono il contesto applicativo e permette-
ranno di realizzare servizi innovativi. Grazie alla
disponibilit crescente di banda e di capacit di
memorizzazione e con lavvento di nuove tecnolo-
gie di trasporto (ad esempio le reti 4G) si delinea
uno scenario in cui i codec audio e video sono
chiamati a soddisfare nuovi e pi sfidanti requisiti
applicativi, tra questi citiamo:
Appl i cazi oni i n scenar i di convergenza
fisso/mobile;
Adattamento alle caratteristiche trasmissive di
reti a capaci t vari abi l e e mezzi sensi bi l i a
mutazioni del contesto ambientale;
Supporto HD (High Definition) e SHD (Super
High Definition) , sino a giungere a qualit cine-
matografica;
Eliminazione di storage multipli di contenuti
codificati a differenti qualit, privilegiando un
paradigma di distribuzione in grado di estrapo-
lare la qualit desiderata da un flusso codificato
unico.
In questo paragrafo analizziamo alcune di tali
sperimentazioni, attualmente in fase di studio in
MPEG: codifica lossless, codifica scalabile, 3DAV
(3D Audio Video), distributed coding, per quanto
riguarda la codifica video, MPEG Surround e audio
sintetico per la codifica audio.
7.1 La codifica lossless
Grazie al contesto evolutivo descritto preceden-
temente, la codifica senza perdite sta suscitando
interesse in ambito MPEG; sono infatti stati pro-
dotti due standard (Amendment di MPEG-4 Audio
[8]) relativi allaudio: ALS (Audio Lossless Coding) e
SLS (Scalable Lossless Coding). Essi utilizzano i
tool compresi in MPEG-4 audio, appositamente
ottimizzati per la compressione senza perdite; si
differenziano in base alle loro prospettive di uti-
lizzo: SLS fornisce scalabilit, e pu essere quindi
utilizzato per i servizi che erogano qualit differenti.
ALS, al contrario, stato studiato appositamente
per applicazioni musicali ad altissima definizione.
Nel caso video la compressione lossless suppor-
tata dagli High Profiles di H.264/AVC. In base ai
test riportati in [10], grazie ad MPEG-4 ALS, pos-
sibile codificare senza perdite un segnale audio
con un rapporto di compressione che varia in base
alla sequenza ed alla frequenza di campionamento:
il codificato presenta dimensioni che variano da
2/3 sino ad 1/5 delloriginale.
7.2 La codifica scalabile
Nel corso degli ultimi anni, il contesto applica-
tivo relativo alla distribuzione di contenuti video
digitali si rapidamente evoluto e si assistito alla
prol i ferazi one di termi nal i eterogenei (tel efoni
mobili, PC, palmari, ), che sfruttano apparati di
ret e con di ff erent i capaci t di banda e QoS
(Wireless, LAN, ). Ciascun utente accede agli
stessi server di distribuzione per fruire dei mede-
simi contenuti, erogati a differenti qualit. Lo sce-
nario di riferimento pertanto tende alladozione di
tecniche di codifica in grado di fornire contenuti
intrinsecamente in grado di adattarsi alle caratteri-
stiche dellapparato di fruizione, richiedendo la
memorizzazione sui server di una sola versione del
contenuto codificato (anzich di pi versioni a dif-
ferenti bi t rate, come accade comunemente) .
Queste soluzioni consentiranno ottimizzazioni sul-
lintera filiera di distribuzione riducendo le proble-
matiche di transcodifica e pi in generale di con-
tent repurposing, sia in contesti offline che real
time.
Questo il concetto di codifica video scalabile
(SVC), oggetto di studio in ambito MPEG [11].
Dopo alcuni tentativi, inseriti in standard prece-
denti, in fase di sviluppo il primo standard di
codifica video appositamente studiato per fornire
scalabilit: diverr un Amendment di MPEG-4 parte
10, AVC, e sar pubblicato a luglio 2006. Lo stan-
dard SVC si appoggia sullo stato dellarte per la
codifica non scalabile, ovvero il gi descritto AVC;
prevede la suddivisione dellinformazione in una
serie di livelli qualitativi: si parte da un livello base
(base layer), conforme ad AVC non scalabile (per
mantenere la compatibilit con terminali che utiliz-
zano decoder AVC non scalabili), e ad esso si
aggiungono una serie di enhancement layer (figura
9), che contengono le informazioni necessarie ad
aumentare la qualit del video fruito. Un flusso
video scalabile permette lestrazione di un sub-
stream contenente i l base l ayer e qual unque
numero di enhancement layer, sino alla qualit
richiesta.
Un decoder pu ricevere e decodificare linfor-
mazione contenuta nel base layer, per ottenere
video a bassa risoluzione, oppure utilizzare alcuni
dei livelli aggiuntivi
5
, che permettono di fruire di
una migliore qualit. La qualit di decodifica pu
essere imposta da una serie di vincoli o dal conte-
sto applicativo: le capacit di banda e del termi-
nale, la QoS assegnata, la rumorosit del mezzo di
distribuzione.
Esistono differenti tipologie di scalabilit sup-
portate:
Scalabilit spaziale: il codificatore deve essere
in grado di erogare contenuti video a diverse
risoluzioni;
Scal abi l i t temporal e: i l codi fi catore deve
essere in grado di erogare contenuti video a
frame rate differenti;
Scalabilit qualitativa: il codificatore deve essere
(5)
I livelli sono normalmente indicati con numeri crescenti, dal base layer sino
al livello di qualit maggiore. Un livello definito superiore, pertanto, in
grado di fornire un video a qualit e bit rate superiori rispetto al livello a cui
esso comparato.
QUAGLIA OK 13-01-2006 16:41 Pagina 111
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
112 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
in grado di erogare video a bit rate differenti;
Scal abi l i t di compl essi t: i di fferenti l ayer
aggiungono complessit, in fase di decodifica; il
decodificatore, pertanto, pu scegliere il livello
per fornire la massima qualit in proporzione
alle proprie capacit.
Questi concetti di scalabilit non devono essere
interpretati in modo alternativo: un codificatore
deve essere in grado di scalare un contenuto video
in tutte le modalit previste contemporaneamente.
Lobiettivo dei codificatori descritti quello di for-
nire Fine Grained Scalability, ovvero di rendere il
flusso codificato scalabile con granularit fine.
I livelli di enhancement sono generati a partire
dal residuo ottenuto sottraendo il segnale rico-
struito ai livelli inferiori a quello originale e riappli-
cando ad esso la sequenza di operazioni necessa-
ria per la codifica (trasformata, quantizzazione,
codifica entropica): la stima del moto raffinata
per ogni livello di risoluzione spaziale considerato.
In aggiunta a questo, applicata unoperazione,
denominata MCTF (Motion Compensated Temporal
Fi l teri ng), che prevede un fi l traggi o speci fi co
(wavelet) nella direzione temporale, per incremen-
tare le prestazioni del codificatore in presenza di
scalabilit temporale. Grazie ad MCTF si effettua,
infatti, una media su differenti fotogrammi che, in
caso di scalamento temporale, permette ugual-
mente di conservare la componente predominante
del movimento avvenuto.
Attualmente si sta affermando un nuovo algo-
ritmo di codifica video scalabile, che affianca il
nascente standard ma si di fferenzi a i n modo
sostanziale in quanto adotta nativamente le wave-
let [12].
Come si visto in precedenza la trasformata
DCT bidimensionale utilizzata in codifica video
opera su bl occhi di cam-
pi oni ( sol i tamente 8x8, o
4x4) che t rasf orma i n un
i nsi eme di componenti di
frequenza. La trasformata
wavelet opera con lo stesso
fine, ma agisce sullintera
immagine, senza scomposi-
zioni in blocchetti. La tra-
sformazione wavelet consi-
ste in un filtraggio su due
dimensioni che isola le com-
ponenti di bassa frequenza
(creando una rappresenta-
zi one grezza del l i mma-
gi ne contenente l a medi a
locale dei campioni originali,
in alto a sinistra nel foto-
gr amma t r asf or mat o di
figura 10) dalle componenti
di alta frequenza, che rap-
present ano i det t agl i dei
contor ni , ri spetti vamente
per componenti orizzontali,
verticali e diagonali. pos-
sibile iterare il procedimento
di scomposi zi one, come
mostrato in figura, creando una piramide multi-
risoluzione che rappresenta componenti di fre-
quenze crescenti, spostandosi in basso a destra. A
livello prestazionale, la compressione wavelet in
grado di superare quella ottenuta dalla DCT. Per
tale motivo, stata scelta come algoritmo alla
base di JPEG2000, il nuovo standard di compres-
sione di immagini fisse, successivo al noto JPEG.
Le tecniche di codifica video wavelet possono
essere applicate al campo della codifica scalabile:
lapplicabilit della trasformata alle immagini nella
loro interezza, si presta naturalmente a fornire sca-
labilit con granularit fine, in quanto pu essere
associata a particolari codifiche entropiche dette a
bit plane, in grado di creare uno stream di bit che
pu essere troncato in posizione arbitraria, elimi-
nando i bit meno significativi di tutti i campioni pre-
senti nellimmagine. Questa caratteristica permette
di superare i limiti architetturali dello standard SVC,
che vincolato ad un numero limitato di livelli di
scalabilit; in futuro, pertanto, i codificatori wavelet
potranno essere utilizzati in contesti applicativi che
necessitano di molteplici livelli di scalabilit: ad
esempio, streaming su reti a prestazioni/capacit
variabile (per esempio nelle WiFi).
Attualmente le prestazioni dello standard SVC
risultano superiori a quelle dei codificatori wavelet,
grazie allutilizzo di algoritmi maturi e consolidati:
le wavelet, tuttavia, si propongono come una solu-
zione promettente per il futuro.
La problematica del video scalabile non si esau-
risce allinterno della codifica video stessa, ma
impatta anche sulle tecniche di trasporto e segna-
lazione/negoziazione delle capabilities. indubbio
che per benefi ci are appi eno del l a scal abi l i t
occorra garantire al meglio il trasporto del livello
base, con eventualmente tolleranze via via pi
Base Layer
Enh. Layer 1
Enh. Layer 2
Enhancement Layer 3
Enhancement Layer 4
E
n
c
o
d
e
r
Base Layer
Enh. Layer 1
Enh. Layer 2
Base Layer
Base Layer
Enh. Layer 1
Enh. Layer 2
Enhancement Layer 3
Enhancement Layer 4
FIGURA 9 Inserimento di un codificatore video scalabile in uno scenario di distribuzione su reti e terminali
eterogenei.
QUAGLIA OK 13-01-2006 16:41 Pagina 112
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 113
ampie nei confronti dei livelli superiori, senza peral-
tro discriminare i diversi flussi in termini di ritardo.
Si tratta di una problematica similare a quella gi
attuale (in scenari di comunicazione) riguardo la
discriminazione in termini di QoS tra trasmissione
audio e video, ove la QoS per laudio deve privile-
giare il basso ritardo mentre quella per il video il
basso tasso di errore.
Se dunque i diversi livelli del video devono
poter essere gestiti con QoS diverse, e quindi
essere trasportati separatamente, a livello dei pro-
tocolli di segnalazione occorre rappresentare le
dipendenze e correlazioni tra i vari flussi: non si
tratta di problemi particolarmente complessi, se
non per la verbosit delle soluzioni.
Lutilizzo del video scalabile permette di sempli-
ficare significativamente le architetture di rete pre-
poste alla fornitura di servizi verso terminali etero-
genei, perlomeno in teoria, giacch nella pratica le
probl emati che di l egacy possono vani fi care i n
parte i vantaggi dellintroduzione di questa tecnica.
La rete di contribuzione potrebbe infatti produrre il
video con la massima qualit, ma suddiviso nei
diversi layer, e tali layer potrebbero essere distri-
buiti (tutti o solo alcuni) fino ai diversi terminali,
senza dover ricorrere a funzionalit di transcoding
o transrating in rete.
7.3 3DAV : Il video in tre dimensioni
Con laumento prestazionale degli standard di
codifica e la maggiore disponibilit di banda sulle
reti di nuova generazione, diventa possibile utiliz-
zare molteplici sorgenti audio e video per realizzare
servizi innovativi. Unattivit MPEG denominata
3DAV (3D audio/video) si sta occupando di tali
argomenti, relativamente alla codifica video: lo-
biettivo quello di permettere la sintesi di punti di
vista arbitari (viste virtuali) in riprese ottenute con
pi tel ecamere posi zi onate i n punti di fferenti .
Appl i cazi oni di questo ti po permetteranno, ad
esempio, allutente di scegliere il punto di vista
durante la visione di un filmato televisivo, consen-
tendo una nuova user experience denominata Free
Viewpoint Television.
Il lavoro del gruppo 3DAV giunto alla fase pre-
liminare, relativa alla standardizzazione di algoritmi
per la codifica di flussi multipli. Successivamente,
sar indetta la Call for Proposals in merito agli
algoritmi di sintesi di punti di vista intermedi.
7.4 Distributed coding
Le architetture di codifica video digitale sono
state storicamente guidate dal modello downlink
Dettagli orizzontali
Dettagli verticali Dettagli diagonali
FIGURA 10 Scomposizione su due livelli.
QUAGLIA OK 13-01-2006 16:41 Pagina 113
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
114 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
che caratterizza i servizi broadcast: il tipico para-
digma architetturale prevede un encoder complesso
ed una moltitudine di decoder dalle capacit limi-
tate. Tuttavia la situazione sta mutando per il prolife-
rare di terminali video che dispongono di potenza di
calcolo ridotta, come le fotocamere digitali, le reti di
sensori video a bassa potenza, le webcam ed i cel-
lulari con equipaggiamenti multimediali: lo scenario
evolve verso la trasmissione su reti rumorose a
banda limitata di molteplici flussi in ingresso, spediti
verso centri di cal col o o ri cevi tori di anal oga
potenza. Questa nuova generazione di applicazioni
uplink, presenta requisiti nuovi e sfidanti:
encoder a bassa potenza computazionale;
alto fattore di compressione;
robustezza trasmissiva.
La tecnologia DSC (Distributed Source Coding)
stata ideata per rispondere alle esigenze sopra
citate: in grado di facilitare, infatti, la codifica
congiunta di pi sorgenti video correlate
6
[13]: la
conoscenza della correlazione statistica tra i flussi
codificati (inviata come side infomation) pu essere
sfruttata in fase di decodifica; in particolare, un
flusso video pu essere codificato in modo tradi-
zionale, con qualunque tecnica, mentre il secondo
pu avvalersi della somiglianza rispetto al primo
per raggiungere diversi obiettivi:
1 Light encoding: la complessit dellencoder pu
essere significativamente ridotta, eliminando la
fase di stima del moto, generalmente la pi
dispendiosa in termini computazionali. Inviando
la correlazione statistica di ogni singolo blocco
con il suo corrispondente relativo alla sorgente
video adiacente, il codificatore esegue esclusi-
vamente le operazioni di trasformazione, quan-
tizzazione (guidata dalla side information) e
codifica entropica, generalmente a bassa com-
plessit. Un overhead imposto al decodifica-
tore, che esegue una ricerca analoga alla stima
del moto per individuare il blocco appartenente
al video adiacente che presenta correlazione
statistica uguale, o pi vicina possibile, a quella
inviata come side information; in questa acce-
zione, il Distributed Coding trova applicazione
in contesti di reti di sensori a bassa comples-
sit, o in scenari che presentano nodi intermedi
di alta capacit, e necessitano di bassa com-
plessit sia in codifica che in decodifica;
2 Robustezza trasmissiva: grazie ad una quantit
molto limitata di side information (i dettagli sulle
correlazioni statistiche) possibile fornire unal-
ternativa per la stima di moto nel caso di per-
dita di pacchetti: in tal modo possibile limitale
il fenomeno di drift che incorre quando sono
persi i pacchetti contenenti i vettori di moto;
3 Compressione di flussi multicamera, con predi-
zione del comportamento di alcune camere a par-
tire dalla loro correlazione con sorgenti adiacenti.
Le prime promettenti applicazioni di tale tecno-
logia si riscontrano nellambito della protezione
dagli errori trasmessivi, i primi risultati sperimentali
presentati in figura 11 illustrano il miglioramento
prestazionale (rapporto segnale/rumore rispetto il
tasso di errore nel flusso di dati) in caso di utilizzo
di un canale di protezione in aggiunta al tradizio-
nale FEC (Forward Error Correction).
Bench si registrino i primi positivi risultati, va
notato che al momento le applicazioni di codifica
distribuita movono i primi passi, saranno necessari
significativi miglioramenti tecnologici perch pos-
sano trovare applicazione in campo.
7.5 Levoluzione dellaudio
La codifica audio a basso bit rate trova applica-
zione in molteplici scenari applicativi multimediali,
monofoni ci e stereofoni ci . Da mol to tempo, i l
mondo della codifica ha riconosciuto limportanza
di una codifica efficiente di segnali stereo: sono
pertanto note, ed inserite negli standard descritti in
precedenza, tecniche di joint stereo coding, che
sfruttano le caratteristiche del segnale stereofonico
per massi mi zzare i l fattore di compressi one.
Recentemente, tuttavia, le nuove capacit dei
di sposi ti vi permettono di uti l i zzare pi di due
segnali audio: , pertanto, possibile ricercare ser-
vizi innovativi che aumentino la qualit dellespe-
rienza dellutente, e sfruttino la disposizione spa-
ziale di molteplici sorgenti audio per fornire sensa-
zioni immersive: il caso di applicazioni di audio
surround, come ad esempio lhome theatre.
nato, pertanto, un apposito gruppo di lavoro,
allintermo di MPEG, che studia rappresentazioni
efficienti di segnali audio provenienti da N sorgenti
distinte (tipicamente 5+1). Lo standard sar deno-
minato MPEG Surround [14].
Lalgoritmo in fase di studio prevede laggiunta
di un overhead, tipicamente molto ridotto (minore
di 5 Kbi t/s) , che costi tui sce si de i nformati on
rispetto al segnale stereo e riesce a descrivere effi-
cacemente le componenti aggiuntive in funzione
Football (352x240, 15 fps, 900 kbit/s)
Errore (%)
P
S
N
R

(
d
B
)
FEC only
DSC data + FEC
H.263+
28
2 4 6 8 10
26
24
22
20
18
DSC
FEC
=
=
Distributed Source Coding
Forward Error Correction
FIGURA 11 Prestazioni del Distributed Coding, utilizzato come canale di
protezione in aggiunta al FEC su un flusso codificato H.263+.
(6)
Con il termine Correlazione si intende la sua accezione statistica: due varia-
bili casuali (in questo caso due segnali) si dicono correlate se a ciascun
valore della prima variabile corrisponde con una certa regolarit un valore
della seconda.
QUAGLIA OK 13-01-2006 16:41 Pagina 114
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005 115
della loro posizione. Questo strato indipendente
dal codificato stereo, per mantenere la compatibi-
lit con codec stereofonici tradizionali, che pos-
sono ignorare le informazioni spaziali.
MPEG Surround pu essere visto come una
generalizzazione del Parametric Stereo descritto
precedentemente. La tecnica costituisce unesten-
si one del l e tradi zi onal i tecni che esi stenti (per
esempio, Dolby Surround/Prologic, Logic 7, Circle
Surround) in quanto non richiede differenze di fase
tra canali per la codifica dellinformazione spaziale.
pertanto possibile trasmettere un flusso MPEG
surround su un unico canale.
Il mondo MPEG sta affrontando un altro aspetto
innovativo: laudio sintetico. Il toolset MEPG-4
audio comprende, infatti, alcuni tool ed interfacce
dedicati allaudio sintetico, in particolare:
Synthetic speech: MPEG-4 permette di generare
suoni i n base ad i nput strutturati . Un i nput
testuale pu essere convertito in voce tramite la
TTSI (Text to Speech Interface), che rappresenta
uninterfaccia standard per le operazioni Text to
Speech. Oggetto della standardizzazione la
stessa interfaccia, piuttosto che un vero sintetiz-
zatore, dipendente dallhardware e dal software
del terminale che esegue la sintesi.
Synthetic Music: pu essere generata a partire
da un bit stream a bassissimo bitrate una sintesi
del suono prodotto da unorchestra o da un
generico gruppo di strumentisti: il tool Structured
Audio, anchesso parte del toolset MPEG-4,
decodifica dati in input per produrre suoni in out-
put. Uno speciale linguaggio, denominato SAOL
(Structured Audio Orchestra Language) definisce
il suono di una orchestra creando e proces-
sando dati contenenti le informazioni musicali
collegate al timbro di ciascuno strumento, che
consiste in una primitiva di signal processing che
emula suoni specifici. Nuovamente, MPEG-4 non
standardizza un metodo di sintesi, ma piuttosto
un metodo di descrizione. Lo standard MPEG pi
recente supera il concetto di sintesi musicale
accoppiandolo a sistemi di rappresentazione
della notazione musicale (in formato standard
MPEG-4) : i l suo nome Symbol i c Musi c
Representation (SMR) e permette la visualizza-
zione di spartiti, immagini o tablature sincroniz-
zati al rendering di file musicali sintetici, o natu-
rali. SMR pu essere adottato in applicazioni
didattiche o ricreative.
8. Conclusioni
La pervasivit dei contenuti digitali nei servizi di
comunicazione e nella vita quotidiana un fenomeno
in continua crescita. Le modalit di fruizione e di
reperimento di tali contenuti continuano ad evolvere
grazie allutilizzo di reti e terminali di nuova genera-
zione, con un impatto significativo sulla vita quoti-
diana. I servizi multimediali si stanno arricchendo di
funzionalit sempre nuove, contribuendo allaumento
della domanda e della produzione di contenuti digi-
tali, per uso personale, commerciale e professionale.
In questo contesto nascono nuove esigenze, come
la necessit di creare e/o modificare, catalogare e
ricercare volumi sempre crescenti di contenuti audio-
visivi in ambiti applicativi diversificati.
La soluzione di tali problemi, procede parallela-
mente allo sviluppo di nuove tecnologie di codifica
e rappresentazione dellaudiovisivo, che continuano
a rivestire un ruolo di importanza assoluta. Nuove
sfide si aprono allorizzonte, come quelle della codi-
fica multirisoluzione, una soluzione a prova di
futuro perch sapr adattarsi alle diverse esigenze
applicative, e si affiancano alla mai sopita ambi-
zione di superare le attuali prestazioni di compres-
sione, per adeguarsi allevolvere dei paradigmi di
distribuzione che prevedono lutilizzo di reti e termi-
nal i et erogenei , e permet t ere nuove user
experience, come quella del 3DAV. Il futuro della
codifica, pertanto, promette di essere ancora denso
di novit ed al centro dellinteresse delle comunit
di ricerca e degli enti di standardizzazione.
[1] E. G. Richardson: Video Codec Design.
[2] C. Drioli, N. Orio: Elementi di acustica e psicoacustica;
1999.
[3] E. G. Richardson: H.264 and MPEG4 Video
Compression; 2003.
[4] ISO/IEC JTC1/SC29/WG11/W6540: Text of ISO/IEC
14496 10 Advanced Video Coding 3
rd
Edition; 2004.
[5] ISO/IEC JTC1/SC29/WG11/W6539: Text of ISO/IEC
14496 10/FDAM1 AVC Fidelity Range Extensions;
luglio 2004.
[6] R. Schfer, T. Wiegand, H. Schwarz: The emerging
H.264/AVC Standard, EBU technical review; 1/2003.
[7] T. Wiegand: H.264/AVC H.264/AVC in Multimedia
Internet Streaming; 2003.
[8] M. Barbero e N. Shpuza: Advanced Video Coding
(AVC - H.264): Il prossimo futuro, Elettronica E
Telecomunicazioni; agosto 2003.
[9] ISO/IEC JTC1/SC29/WG11/W7129: ISO/IEC-3 (Audio
3
rd
Edition); aprile 2005.
[10] T. Liebchen: An Introduction To Mpeg-4 Audio
Lossless Coding, ICASSP; 2004.
[11] ISO/IEC JTC1/SC29/WG11/W7310: Working Draft 3
of ISO/IEC 14496-10:200x/AMD1 Scalable Video
Coding; luglio 2005.
[12] G. Strang, T. Nguyen: Wavelet and filter banks; 1996
[13] R. Puri, K. Ramchandran: PRISM: A video coding
architecture based on distributed compression princi-
ples. Technical Report No. UCB/ERL M03/6, ERL, UC
Berkeley; marzo. 2003.
[14] ISO/IEC JTC1/SC29/WG11/W7387: WD 2 for MPEG
Surround; luglio 2005.
[15] S.Srinivasan, P. Hsu, T. Holcomb, K. Mukerjee, S. L.
Regunathan, B. Lin, J. Liang, M.Lee, J. Ribas-Corbera,
Windows Media Video 9: overview and applications,
EURASIP Signal Processing Image Communication,
2004.
[16] M. Goldman: A comparison of MPEG-2 video, MPEG-
4 AVC and SMPTE VC-1, Tandberg report.
BIBLIOGRAFIA
QUAGLIA OK 13-01-2006 16:41 Pagina 115
CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile
116 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005
3GPP 3
rd
Generation Mobile System
AAC Advanced Audio Coding
AMR Adaptive Multi Rate
AVC: Advanced Video Coding
ASP Advanced Simple Profile
CABC Context Adaptive Binary Arithmetic Coding
CAVLC Context Adaptive Variable Length Coding
DCT Discrete Cosine Transform
DSC Distributed Source Coding
DVB Digital Video Broadcasting
FEC Forward Error Correction
FMO Flexible Macroblock Ordering
HD High Definition
HLP High Latency Profile
ISMA Internet Streaming Media Alliance
IETF Internet Engineering Task Force
IP Internet Protocol
ITU International Telecommunication Union
JVT Joint Video Team
MCTF Motion Compensated Temporal Filtering
MPEG Moving Picture Experts Group
MUSHRA MUlti Stimulus test with Hidden Reference
and Anchors
PS Parametric Stereo
PSK Phase-Shift-Keying
RTCP Real Time Control Protocol
RTSP Reat Time Stream Protocol
RTP Real Time Protocol
SBR Spectral Band Replication
SDP Session Description Protocol
SHD Super High Definition
SIP Session Initiation Protocol
SMPTE Society of Motion Picture and Television
Engineers
SMR Symbolic Music Representation
UDP User Datagram Protocol
VLC Variable Length Coding
VOD Video On Demand
ABBREVIAZIONI
Gui do Franceschi ni si l aureato i n
Ingegneria Elettronica presso il Politecnico di
Torino nell'Ottobre 1989. Nel 1990 entrato
in CSELT (oggi TILAB), dove si occupato
pr eval ent ement e di t emat i che l egat e al
trasporto dei fl ussi medi a. E attual mente
parte di un team che sviluppa software per
di verse ti pol ogi e di termi nal i e appl i cazi oni
multimediali. Ha partecipato a diversi organi di
normativa, contribuendo in particolare ai lavori
di MPEG per l e parti MPEG-4 Systems ed MPEG-4 DMI F.
Ul t i mament e ha segui t o i l avor i di I SMA, par t eci pando
attivamente ai test di interoperabilit.
Rosar i o Dr ogo De I acovo si
l aureato i n I ngegneri a El ettroni ca presso i l
Politecnico di Torino nel 1986 e nello stesso
anno ent r at o i n CSELT ( oggi TI LAB) ,
dipartimento Servizi e Applicazioni dutente.
La sua attivit si inizialmente concentrata nei
campi del l a codi f i ca audi ovi si va, con
parti col are ri feri mento al l a defi ni zi one del l a
codi fi ca audi o per i si stemi mobi l i e del l a
valutazione oggettiva e soggettiva della qualit
nei servizi di telefonia. Dal 1987 al 1991, ha partecipato alla
progettazione e definizione dei sistemi di codifica GSM Full-Rate
e Half-Rate. detentore di brevetti internazionali nel campo della
codifica audio e coautore del libro Speech And Audio Coding
For Wi rel ess And Network Appl i cati ons, Kl uwer Academi c
Publishers, USA, 1993. Successivamente ha ricoperto la carica
di Rapporteur in ITU-T Study Group 16 per la tematica Audio
and wideband coding ed attualmente delegato Telecom Italia
in 3GPP SA4 (Codec).
Gi ovanni Cor dar a si l aur eat o i n
Ingegneria delle Telecomunicazioni presso il
Politecnico di Torino nel 2000. Nel 2001
entrato in TILAB, area Multimedia, nella quale
t ut t or a i mpegnat o. Dal 2001al 2002 si
occupat o del l a pr oget t azi one di si st emi
multimediali basati sullo standard MPEG-4: in
particolare, ha contribuito alla realizzazione di
una piattaforma di e-learning e di un prototipo di
televisione interattiva. Nel 2003 si occupato di
DRM (Digital Rights Management), ovvero di tecnologie volte a
regolamentare la fruizione di contenuti digitali tramite lutilizzo di
algoritmi di encryption e meccanismi di distribuzione di licenze: ha
contribuito alla realizzazione di un prototipo di piattaforma per la
distribuzione di contenuti protetti su terminali fissi e mobili. Dalla
seconda met del 2003 si occupa di ri cer ca nel l ' ambi to di
tecnologie innovative di codifica audio e video: codifica wavelet,
codifica video scalabile, sintesi di viste intermedie in sistemi multi-
camera, di stri buted codi ng, archi vi azi one e catal ogazi one di
contenuti digitali. Dal 2003 paretcipa attivamente all'attivit di
standardi zzazi one di MPEG, dove ri veste i l ruol o di Head of
Delegation della delegazione italiana.
Mauro Quaglia si laureato in Scienze
dellInformazione allUniversit degli studi di
Tori no nel 1987. Dal 1987 i n CSELT (oggi
TI LAB), si occupato del l o svi l uppo del l e
tecnol ogi e di codi fi ca e rappresentazi one
dellaudiovisivo, contribuendo alle attivit di
standardi zzazi one i nternazi onal e di settore
I SO/I EC MPEG. Ha segui to e coordi nato
progetti di collaborazione internazionale negli
ambi t i dei ser vi zi e del l e appl i cazi oni
Multimediali. Attualmente responsabile dellArea di Ricerca
Multimedia nellambito della Funzione Cross Program Technology.
QUAGLIA OK 13-01-2006 16:41 Pagina 116