Sei sulla pagina 1di 23

BREVI NOTE SU VARI ASPETTI DELLE TELECOMUNICAZIONI

WIRELESS
A cura di Giulio Trichilo.
Si ringraziano per i loro appunti i colleghi Lofino S., Pallante A., Saccucci J.
DISCLAIMER: Questi appunti prendono grandemente spunto dalle dispense del corso Fondamenti di Telecomunicazioni,
presso lUniversit degli Studi Roma Tre, a cura del Prof. F. Benedetto, corso tenuto dal Medesimo, e da svariate fonti in Internet.
Tutti i diritti riservati ai rispettivi proprietari.
PREMESSA: Tale dispensa fornita a scopo puramente RIASSUNTIVO. Non pu e non deve essere considerata materiale
sufficiente per uno studio approfondito della materia, quindi da considerare materiale di supporto da utilizzare insieme ad altre
fonti pi complete.

BREVI NOTE SULLA TEORIA DELLINFORMAZIONE


Data una sorgente di informazioni utili ad un certo destinatario, di forma totalmente generica, la teoria
dellInformazione ci d qualche dritta su come quantificare limportanza delle informazioni provenienti
dalla suddetta sorgente. Questa teoria si basa su TRE concetti:
1) Poter misurare in maniera quanto pi possibile univoca il contenuto informativo di una sorgente.
2) La capacit con la quale il canale nel cui tale informazione transita riesce a trasferire
linformazione.
3) La definizione pi generale di codifica, ovvero un modo di sfruttare al meglio la capacit del canale
per trasferire al meglio linformazione.
Messe insieme, queste danno luogo al Teorema di Shannon:
HYP: Se il contenuto informativo che si deve trasmettere NON ECCEDE la capacit di canale
TH: Esiste una codifica tale che linformazione possa essere trasferita sul canale con probabilit di errore
piccola a piacere. Indipendentemente dal rumore.
Per caratterizzare il contenuto informativo di un messaggio, lecito definirlo in maniera matematica come
funzione della probabilit che linformazione ricevuta sia effettivamente utile o meno. Meno il messaggio
e importante, pi e probabile che venga ricevuto, e vice versa. Il logaritmo si presta bene a modellare tale
comportamento quindi si introduce la funzione misura dellinformazione:
= log 2( ( ))
Se x e y sono due VA statisticamente indipendenti:
= log 2 (()) = log 2 (()()) = +
Se a questo punto dico che linformazione equivale ad una sorgente codificata con un certo numero di bit
a simbolo, quant il minimo numero medio di bit a simbolo
codificabili, con ipotesi che il contenuto informativo del messaggio
dopo tale codifica non ecceda la capacit di canale? La risposta a tale
domanda la funzione entropia di sorgente. Se ho una sorgente X,
emettente N simboli diversi:

() = = log 2( ); () [0, log 2 ()]


=1

=1

E opportuno notare che si pu definire lEntropia anche come valore atteso (discreto) del contenuto
informativo. H(X) = E(I). Per simboli equiprobabili, mi riconduco alla codifica naturale: () = log 2 (),
pi lentropia tende a zero, pi efficace sar la codifica: () < log 2 ().
Posso inoltre misurare lefficienza della codifica introducendo proprio la quantit efficienza di codifica:
=

Nel caso di dizionario binario, ovvero tale che tutti i simboli sono composti dai soli 0 e 1, La lunghezza
minima proprio H(X), mentre =
=1 . In sostanza:

()

=1

Si distingue tra codifiche entropiche e non entropiche, ovvero LOSSLESS vs LOSSY. Le codifiche lossless,
o entropiche, (Huffman, Gray, ZIP) sono quelle che permettono una maggiore efficienza di compressione
rispetto ad una codifica naturale, ma con il vincolo che non eliminano nessuna informazione originale, sono
dunque completamente reversibili mediante un apposito decompressore. Le codifiche lossy, ovvero non
entropiche, permettono prestazioni di solito anche notevolmente superiori a quelle di una codifica entropica
(scendendo sotto i valori minimi dellentropia), ci dovuto al fatto che in un certo stadio del processo di
compressione una certa parte del contenuto informativo, considerato ridondante, viene completamente
eliminato. E dunque possibile ricostruire soltanto una copia accettabile del file originale, mediante un
processo di interpolazione, che non sar mai in grado di ricostruire il contenuto informativo del file
originale. Esempi di questo sono gli standard di compressione JPEG ed MPEG, in tutte le loro varianti.

BREVI NOTE SULLA CODIFICA DI LINEA


Dato un segnale con un certo contenuto informativo, la sua codifica di linea rappresenta il modo con il
quale stato scelto di organizzare linformazione contenuta nel segnale in modo tale da essere
efficientemente trasmessa su un opportuno canale di comunicazione. Si possono effettuare codifiche di
linea in Banda Base o Banda Passante (la forma donda viene traslata ad alte frequenze mediante
unopportuna modulazione). Una buona codifica di linea soddisfa il meglio possibile i seguenti requisiti:
1)
2)
3)
4)

Mantenimento del sincronismo


Assenza della componente in continua
Minima occupazione in banda
Possibilit di decodificare in maniera univoca

Vi sono due tipi di codifica principali: a livelli e a transizione.


Codici a livelli
Linformazione viene inserita nel livello energetico del segnale (tensione). Esiste in versione NRZ: il livello
di tensione corrispondente ad un determinato simbolo rimane costante per tutto il tempo di simbolo (o
periodo di clock); ed in versione RZ: il livello di tensione occupa solo una durata parziale del tempo di
simbolo, per poi ritornare sempre a tensione nulla.
Per i codici unipolari, assegnato un valore di tensione costante A per il bit 1, e nessun livello di tensione
per il bit 0. La codifica NRZ tende a perdere sincronismo ove presenti lunghe stringhe di bit uguali, inoltre
presenta componente continua, (delta a frequenza zero, di ampiezza A/2). Con codifica RZ, siccome il
segnale deve tornare a zero alla fine di ogni tempo di simbolo, la componente continua, si riduce ad A/4,
siccome entrambe queste codifiche sono a valor medio nullo, la componente in continua presente.

Per entrambe le codifiche di linea, oltre alla componente in continua e opportuno andare ad analizzare lo
spettro di ciascuna di esse per rendersi conto almeno del sincronismo in entrambi i casi. Allinterno di un
periodo di clock (o tempo di bit) la densit spettrale di potenza e una di tipo 2 (), siccome () =
[ ()] dove () = () () = ().

A sinistra si ha lo spettro della forma donda codificata con NRZ, per = 0 si vede che la densit spettrale
di potenza nulla, quindi la frequenza di clock non sar mai trasmessa. Con la RZ, siccome per stringere
nel tempo ho allargato in frequenza, anche se richiedo pi banda, per multipli (almeno dispari) di 0 ho un
contenuto informativo diverso da zero, quindi il ricevitore potr avere informazioni riguardo a quale sia la
frequenza di clock, e mantenere sincronismo.
Codici a Transizione
Risolto il problema del sincronismo mediante codifica RZ, resta ancora il problema di eliminare la
componente continua in frequenza. Ci si appoggia ad un nuovo tipo di codifica, nel caso della Manchester
bipolare, dove il livello di tensione del segnale varia allinterno di un periodo di clock. Si assegna una
semionda positiva per met del periodo di clock, e la semionda di ampiezza uguale e opposta al laltra met
del periodo di clock al bit 1, e si invertono le ampiezze per il bit 0.

Lo spettro di tale segnale avr quindi il seguente andamento:

La componente in continua non pi presente, e la densit spettrale di potenza diversa da zero per multipli
interi della frequenza di clock. Lo svantaggio che avendo aumentato il numero di transizioni del livello
energetico del segnale ulteriormente anche rispetto alla RZ, il bit rate e quindi symbol rate aumentano, di
conseguenza richiesta una larghezza di banda maggiore per tale codifica.
Codifiche Multilivello

Se anzich associare ad un bit un singolo livello di tensione si fa uso del concetto di simbolo, ovvero di
avere livelli di tensione corrispondenti a sequenze univoche di bit (o parole binarie), si possono introdurre
codifiche multilivello che hanno il vantaggio di richiedere meno banda. Si mappa ogni parola ad l bit, scelti
fra uno dei 2 livelli. Il tempo di bit nei due casi uguale.

La differenza sta nel bit rate, R. Dati D, la velocit di simbolo, ed L in numero di livelli, si ha che:
= Dlog 2 ()
Quindi la banda di un segnale multi livello B, rispetto alla banda richiesta dal segnale codificato binario
sarebbe pari a:
=

log 2 ()

Siccome la velocit di simbolo del segnale multilivello si riduce di un fattore l rispetto alla codifica binaria.
(Se ho il simbolo 1001, se richiedo una banda di 4kHz in codifica binaria, mi serviranno
4/log 2(16) = 1kHz per una codifica a 16 livelli.) Si noti per che allaumentare del rumore, diventa man
mano pi difficile distinguere tra livelli diversi di tensione, in quanto meno differenza esiste fra due livelli
adiacenti, pi tale differenza diventa equiparabile alla potenza del segnale rumoroso introdotto dal canale.

Brevi Note sul Filtro Ottimo e Filtro Adatto in ambito di Telecomunicazioni


Per trasmettere in maniera efficiente un segnale su un canale di comunicazioni (wireless) e necessario fare
attenzione a due aspetti che potrebbero causare errori in ricezione: in primo luogo linterferenza intersimbolica, dovuta al fatto che per trasmettere senza errori un segnale tempo-limitato sarebbe necessaria una
banda infinita, non realizzabile con filtri reali a disposizione, e in secondo, i contributi di rumore dovuti al
canale di comunicazione. Tutte le ipotesi sono fatte in condizioni di LTI (Linearit Tempo Invarianza).

Per ridurre al minimo lISI (intersymbolic interference) e necessario lutilizzo di un filtro sagomatore
dellimpulso. Si consideri unonda PAM (pulse amplitude modulation), dove i valori dei campioni
rappresentano il valore del segnale analogico originale in quegli istanti, e un filtro passa basso (LPF) con
risposta impulsiva simile a quella in Fig. 2. Il filtro deve soddisfare TRE propriet: 1) Per t=0, deve valere
1, 2) Deve valere 0 per multipli interi del tempo di bit (o di simbolo) e 3) deve essere banda-limitato. Un
filtro reale che soddisfa queste propriet e il filtro a coseno rialzato, che con roll-off pari a zero (non fattibile
fisicamente) avrebbe laspetto di una Rect.

A questo punto, il segnale filtrato con tale filtro s(t), ovvero con minima ISI (idealmente nulla), mentre
transita nel canale viene parzialmente coperto da un rumore di tipo additivo, di cui non si conosce
lespressione analitica. Avremo allora nel canale un generico y(t) = s(t)+n(t), dove n(t) e il rumore. In
ricezione, dobbiamo progettare un filtro h(t) tale che c(t) = y(t)*h(t) massimizzi il rapporto segnale rumore
(SNR). Quindi
c(t) = s(t) h(t) + n(t) h(t) = +
Se chiamo c(t) = A + N, il rapporto segnale rumore e definito come rapporto dellenergia del segnale e
quella del rumore ovvero:
=

che avr un massimo in un certo . Dal teorema di Rayleigh si ha che:


+

+
2

= |()| = |()|2

Siccome N nel tempo una convoluzione, in frequenza un prodotto, quindi la sua energia sar lintegrale
del suo modulo quadro, ovvero:
+

= |()|2 |()|2

Per A invece, bisogna seguire un procedimento diverso. Siccome A = s(t)*h(t), per ricondurlo a un integrale
mi serve esprimerlo come antitrasformata di Fourier della sua trasformata (ovvero banalmente il segnale
stesso ma serve il trucco per riportarlo ad una forma simile a ). Quindi:
+

= ()() +2

Di conseguenza si ottiene che, riscrivendo il modulo quadro di N(f) come densit spettrale di energia, e
ricordando che () = () (filtro sagomatore):
+

| ()() +2 |2
+

()|()|2

Il filtro ottimo adesso va cercato ricavando H(f) da questa equazione. Per farlo bisogna ricorrere alla
Disuguaglianza di Schwartz.
()

(0) (0)

Se per ipotesi metto il massimo della Cross-Correlazione in zero, che spostando la radice dallaltra parte
otterrei effettivamente lespressione per lenergia, e siccome la trasformata della cross correlazione:
[() ()] = ()() mi da proprio la densita spettrale di energia, potrei riscrivere | (0)|2
come:
+

()() 2

| |()| |()|2

| ()() |2
+
|()|2

|()|2

A questo punto e opportuno notare che:


|()|2 = ()|()|2 => () = ()()
()() = () ()()

E che:
() ()() = ()() +2
() =

() 2
()

Lultimo passaggio e quello di dire che la Disuguaglianza di Schwartz massima quando le autocorrelazioni
di X e Y sono fra loro proporzionali (tali da annullare la radice). Quindi ponendo Y(f) = kX(f) si ottiene:
()() =

() 2
()

Per arrivare infine al risultato, ovvero:


() =

() 2
()

In sostanza, dato un segnale come quello nella


figura a destra, tutte le considerazioni fatte fino ad
ora ci portano a dire che se il ricevitore riceve il
segnale denominato noisy signal, ed il profilo di
rumore appunto noise, mediante la funzione di
filtro ottimo si pu risalire dal noisy signal al
clean signal.

Dal Filtro Ottimo al Filtro Adatto


A questo punto, se si sapesse che il rumore un
processo gaussiano bianco (AWGN, additive white
gaussian noise), si pu ricondurre il filtro ottimo al
filtro adatto tenendo presente che lautocorrelazione
del segnale rumoroso di forma impulsiva, in
generale 0 (), quindi la sua trasformata e costante, di valore 0 . A questo punto ci si riconduce alla
formula della funzione di trasferimento del filtro adatto:
=


() 2
0

Con risposta impulsiva, ovvero lantitrasformata:


=


( + )
0

Filtro Equalizzatore
Se consideriamo un canale ideale che non introduce rumore, ma introduce solamente ritardo temporale
(perch il segnale deve viaggiare per un certo tempo) e unattenuazione di ampiezza (dovuta al mezzo
fisico) allora se in ingresso abbiamo un generico x(t), si otterr un generico segnale di uscita della forma:

() = ( )
Il filtro equalizzatore ideale deve quindi riscalare in ampiezza ed eliminare il ritardo, la sua funzione di
trasferimento sar quindi pari a:
() =

() () 2
=
= 2
()
()

Nota la funzione di trasferimento del canale (), si ottiene poi la forma finale della funzione di
trasferimento del filtro equalizzatore:
() =

2
()

Brevi Note sulle Modulazioni Numeriche


Per modulazione si intende traslare lo spettro di un segnale a frequenze maggiori rispetto alla banda base.
La forma donda coseno, nel tempo, si presta bene a tale proposito, siccome moltiplicare nel tempo un
segnale per una cosinusoide significa in frequenza svolgere una convoluzione tra lo spettro del segnale e
due delta di Dirac, ovvero traslare appunto il segnale ad alte (e basse) frequenze. Per modulazione numerica
si intende modulare forme donda digitali, con codifica di linea binaria (bipolare o unipolare che sia) con
un bit a simbolo. Vi sono TRE tipi di modulazioni:
1) Amplitude Shift Keying (ASK): modulazione di ampiezza
2) Phase Shift Keying (PSK): modulazione di fase
3) Frequency Shift Keying (FSK): modulazione di frequenza
Modulare serve perch lantenna che deve ricevere un dato segnale deve essere di lunghezza proporzionale
alla lunghezza donda del segnale (il suo periodo). A basse frequenze la lunghezza donda appunto molto
lunga, modulando, le frequenze si alzano facendo diminuire cos la lunghezza donda in modo tale che
unantenna, ad esempio di un cellulare, sia di lunghezza comparabile a tale lunghezza donda, e possa quindi
captare il segnale.

Modulazione ASK
Nella modulazione dampiezza si associa ad ogni simbolo unampiezza diversa, che il ricevitore pu poi
decodificare. Per codifica di linea unipolare (0,1) si utilizza la OOK (on-off keying), il suo funzionamento
illustrato nella figura di destra. Anche se questa codifica di semplice implementazione, il problema
nasce dal fatto che, come nella codifica di linea NRZ, si perdono informazioni sul sincronismo. La banda
richiesta per questo tipo di modulazione, se si indica con R il bitrate e il roll-off, e con M il numero di
livelli, si ha che:
=

(1 + )
log 2()

In una trasmissione ideale B=R. Il termine al denominatore


sta ad indicare che, come nelle codifiche multilivello, siccome
sono associati pi livelli di tensione corrispondenti a diversi
simboli nellambito dello stesso tempo di bit richiesto in
codifica binaria, la banda si riduce appunto di quel fattore.
Anche qui esiste il problema che se i livelli diventano troppi,
la potenza di rumore diventa comparabile alla differenza di

livelli di codifica adiacenti. Siccome ci si muove (in ampiezza) su unasse reale, il diagramma delle
costellazioni sar caratterizzato da regioni di decisione corrispondenti a bande verticali negli intorni degli
M punti costituenti i livelli della modulazione.

Modulazione PSK
Partendo dalla pi semplice, la modulazione di fase binaria (BPSK) si opera scegliendo due fasi con le quali
sfasare il segnale in base al simbolo, pari a 0 e 180 gradi. Ovvero in questo caso particolare moltiplicare
lampiezza dellonda per +1 e -1 rispettivamente (quindi con risultati identici ad una modulazione ASK a
2 livelli). Loccupazione in banda uguale al caso precedente, tenendo presente che siccome lampiezza
costante ed la fase a cambiare il diagramma di costellazione della modulazione sar lintorno di tutti i
numeri complessi distanti A dallorigine, ovvero tutti i fasori di modulo A. Le regioni di decisione sono a
questo punto fette del piano distanti una certa soglia dalle coordinate prestabilite per ogni simbolo.

La modulazione PSK preferibile alla ASK in quanto pi facile che il canale introduca distorsioni di
ampiezza (attenuazione) pi tosto che di fase (eventuali collisioni del segnale).
Modulazione FSK
Le modulazioni di frequenza si operano traslando il
segnale di originale a portanti diverse (ortogonali fra
loro), in numero uguali a quanti sono i livelli con i
quali si intende operare la modulazione. Siccome in
banda bisogna allocare uno spazio maggiore, pari
alla differenza in frequenza tra la massima e la
minima portante, la nuova banda diventa quindi:
= (1 + ) +
E importante notare come qui, allaumentare il
numero di livelli la banda aumenta. Negli altri due
casi, allaumentare dei livelli, la banda diminuisce. Il
vantaggio per, che se si ha a disposizione tutta la banda richiesta, non mi dovr preoccupare pi di tanto
dei contributi di rumore, perch ad N livelli corrispondono N portanti, quindi non ho pi il problema che
la potenza di rumore diventa comparabile alla differenza di livello tra due tensioni rappresentanti simboli
diversi. In altre parole, in ASK e PSK sto partizionando un piano od un cerchio a dimensione finita in tanti
segmenti man mano pi piccoli quindi la probabilit di errore aumenta, mentre in FSK aggiungo portanti

quanti sono il numero di livelli, quindi non devo partizionare nulla,


eliminando lindecisione lato ricevitore, ma soltanto richiedere una
banda progressivamente maggiore. Si parla di MSK quando si
vuole descrivere una FSK binaria con il minimo spaziamento
possibile, ovvero R/2.
Modulazione QAM
Utilizzata in ambito ADSL, la Quadrature Amplitude Modulation
un misto fra ASK e PSK. Ad ununica frequenza, si sfasano due
portanti a 90 gradi (ortogonali), che vengono poi modulate in
ampiezza. Pi sono i livelli da modulare, pi le regioni di decisione
aumentano, si applica tutto ci che stato detto sulle modulazione
ASK e PSK.

Regioni di indecisione di una 16-QAM

Costellazione di Modulazione FSK a 3


portanti. (8 livelli) il diagramma diventa Ndimensionale per N portanti, siccome ogni
asse rappresenta una portante. Il numero
di portanti rappresenta quindi una base
ortogonale di un sottospazio vettoriale
discreto, dove tutte le possibili
combinazioni lineari di tale base, elementi
del sottospazio, rappresentano i possibili
livelli.

BREVI NOTE SULLE TECNICHE DI ACCESSO AL MEZZO IN AMBITO DI


TELECOMUNICAZIONI
Per tecniche di accesso al mezzo si intendono quei metodi che permettono ad un numero elevato di utenti
di connettersi ad un sistema di telecomunicazioni, per usufruire al massimo del servizio senza interferire
con gli altri utenti. Sia tempo che frequenza sono considerate come risorse del sistema. Vi sono tre tipi di
tecniche di accesso al mezzo:
1) FDMA (Frequency Division Multiple Access)
2) TDMA (Time Division Multiple Access)
3) CDMA (Code Division Multiple Access)
FDMA e TDMA (EDGE)
Sia questa tecnica che la TDMA sono note come tecniche
di prima generazione, sono infatti le pi basilari. La FDMA
assegna ad ogni utente una sottobanda in frequenza
(centrata ad una certa portante), per un tempo illimitato.
Anche se lutente gode quindi di un tempo di servizio
senza vincoli, essendo ristretta la sottobanda ad egli
assegnata, la velocit di navigazione consentita da questa
tecnica non ottimale. In parallelo a questa fu
sviluppata la TDMA, che garantiva lintera banda a
FDMA e TDMA per un Sistema a DUE utenti
ciascun utente (velocit di navigazione elevata) ma solo
a tratti, di conseguenza lutente veniva disconnesso e
riconnesso al servizio, che per quanto riguardava lesperienza utente non era di certo un vantaggio.
F/TDMA (GSM/GPRS)
Combinando entrambe le tecniche si arriva alla seconda generazione, 2G, di comunicazioni radiomobili si
potevano ora assegnare utenti in maggior numero a blocchi tempo-frequenziali, e non pi a soltanto uno
dei due.

CDMA (UMTS)
Laccesso multiplo a divisione di codice, che necessit di rifare in gran parte lhardware presente nei
moderni sistemi di TLC, costituisce la terza generazione di sistema radiomobile, 3G. In CDMA il segnale
x(t) viene moltiplicato con un altro segnale, c(t), detto codice. Il codice formato da chip che possono
assumere i valori +1, e -1, essi sono tipicamente impulsi rettangolari che durano una frazione prestabilita
del tempo di bit (e quindi di simbolo di x(t)).

Ad ogni utente assegnato un codice che viene inviato assieme al segnale, il ricevitore, noto a priori il
codice, va poi a svolgere la cross-correlazione di c(t)x(t)=s(t) con lo stesso c(t). Se gli c(t) combaciano
viene restituito x(t), altrimenti il risultato pari a zero, siccome i codici sono tra loro mutualmente
ortogonali. In questo modo si
distinguono gli utenti.
Siccome il tempo di chip minore del
tempo di bit, richieder maggiore
banda in frequenza per s(t) rispetto ad
x(t), di un coefficiente pari alla
lunghezza del codice scelto.
() =

Ma = (tempo di chip),
quindi:
() =

(Dall altro verso il basso) x(t), c(t), s(t)

1
1

=
=

Si nota immediatamente che siccome le


frequenze per s(t) sono pi alte rispetto ad x(t),
mi servir una banda B = lB, per trasmettere
s(t). Il vantaggio per sta nel fatto che, lato
ricevitore, quando vado a decodificare x(t)
riporto il segnale dalla banda pi larga alla
banda base (quindi comprimo in frequenza),
Generazione del segnale s(t)
siccome ricever s(t)+n(t), dove n il rumore,
andando a riportare il tutto in banda base anche i contributi di rumore introdotti dal canale verranno ridotti.

Come Ie tre tecniche suddividono il piano tempo-frequenza.

BREVI NOTE SULLADSL

LADSL, ovvero Asymmetric Digital Subscriber Line, parte del pi generico protocollo DSL, una classe
di tecnologie che permettono accesso sia ad internet che alla comunicazione vocale, per via del doppino
telefonico. LADSL funziona mediante FDM (frequency division multiplexing), ovvero la suddivisione
della banda offerta dal doppino telefonico. (1.1 MHz). Il range 0-4 kHz riservato alle comunicazioni
vocali, poi presente unampia banda di guardia che separa traffico voce dal traffico Internet, dai 25kHz in
su. Si parla di asymmetric in quanto esiste unulteriore suddivisione nella banda 25k-1MHz: le frequenze
dai 25 ai 138kHz sono riservate
alluplink, ovvero linvio di dati
dallutente verso la rete, il resto invece
allocato
al
downlink,
ovvero
lacquisizione di pacchetti dalla rete. Le
due sottobande di up e downlink sono poi
a loro volta suddivise in 32 sottobande per
luplink e 224 per il downlink (totale
256). Le sottobande al centro dei due
sottoblocchi principali sono modulate
mediante QAM (Quadrature Amplitude
QAM a pi livelli in corrispondenza delle sottobande centrali BLU rispetto alle
Modulation) ad un elevato numero di
sottobande laterali BLU.
livelli, siccome agli estremi dei due
sottoblocchi le sottobande sono pi suscettibili a maggiori contributi di rumore, esse sono modulate sempre
in QAM, ma con meno livelli.

BREVI NOTE SULLO STANDARD MPEG PER CODIFICA AUDIO


Il segnale audio, che per quanto ci riguarda verr trattato come segnale elettrico poi trasdotto su
unapparecchiatura poi in grado di riprodurre il suo contenuto auditivo, come per tutti i segnali, va
campionato e poi ad esso apportate determinate modifiche, per usufruirne in digitale. Dobbiamo distinguere
fra due gruppi di segnali acustici, ovvero vocali e musicali, ricordando che nel primo caso, la banda richiesta
dalla voce umana in media 4Khz, e siccome varia lentamente, per Nyquist possiamo tranquillamente
campionare ad 8KHz; nel secondo, siccome potrebbero essere presenti variazioni veloci del contenuto
energetico del segnale analogico, opportuno introdurre una banda di guardia pari a 0.1Khz, ottenendo cos
una frequenza di campionamento pari a 44.1Khz. Questo ci che avviene nello standard di codifica CD,
dove il bitrate, R, se vi sono presenti N livelli, si ottiene come:
= = log 2() = (2 + ) log 2()
Per il CD quindi, siccome codificato a 16 bit, e inoltre sono presenti 2 canali, R = 44.1k*16*2 = 176.4
Kbps.
Una volta digitalizzato il segnale audio, opportuno andare poi a codificarlo con codec lossless (entropiche)
per la voce (siccome il contenuto informativo assai ridotto) e codifiche lossy (non entropiche) per audio
musicale.
Codifiche Vocali Entropiche: Codifica Temporale
Come si pu dedurre dal nome, tale codifica opera solamente sui campioni digitali nel tempo, quindi non
va a modificare lo spettro in frequenza. La codifica principalmente usata la DPCM (Differential Pulse
Code Modulation). Dato il lento variare dei campioni del segnale vocale si trasmette la differenza tra un
campione e il precedente. Il decodificatore va poi ad interpolare tale differenza. Esempio: se lampiezza
della delta rappresentante il campione numero n 100, il campione n+1 sar compresa tra 99 e 101. Viene
trasmesso quindi +1 o -1 al posto di un nuovo campione, che sar poi ricostruito in decodifica. Un codec
pi complesso il ADPCM (adaptive), dove si cerca di interpolare su lunghe sequenze di campioni, cos
da doverne trasmettere ancora meno.
Codifiche non Entropiche: Codifica per Modelli (Telefonia Cellulare)
La codifica per modelli una tecnica di codifica dove si va a ricostruire da zero, lato ricevitore, la forma
donda del segnale vocale, mediante luso di determinate caratteristiche presenti nella voce umana. Le
codifiche in questione sono LPC (Linear Predictive Coding) e CELP (Code Excited Linear Predictor).
LLPC in codifica segnale vocale si appoggia su determinate perceptual features ovvero determinate
caratteristiche tipiche della voce umana. Le principali sono 4:
1)
2)
3)
4)

Timbro di voce (pitch) la frquenza del segnale. Lorecchio un passa banda fra i 2 e 5 kHz.
Periodo (durata del segnale)
Volume (contenuto energetico)
Suoni VOICED (corde vocali vibrano) / UNVOICED (corde non vibrano)

Anzich inviare il segnale,


sono
trasmesse
queste
features, che in ricezione sono
poi decodificate e ricostruite. Il
vantaggio di questa tecnica
che si pu scendere ad un
quantitativo in bit molto basso,
il segnale quindi di facile
trasmissione.

Codifiche non Entropiche: Codifiche in Frequenza (Segnale Musicale)


In questi casi, si va a lavorare sullo spettro del segnale per cercare di isolare le frequenze caratteristiche di
vari strumenti musicali che compongono poi il segnale. Siccome lorecchio umano funziona da passabanda, per eliminare il contenuto informativo ridondante del segnale, si sceglie di troncare
(irreversibilmente) tutte le frequenze al di fuori di ci che lorecchio riesce a sentire. Un suono forte (con
maggiore pressione acustica) copre in frequenza tutti gli altri suoni meno forti nellintorno di quella
frequenza, si possono quindi troncare, si parla in questo caso di mascheramento audio o sonoro (in
frequenza). Siccome anche nel
tempo un suono molto forte
coprir gli altri suoni per un
breve periodo, al suo interno,
tali suoni possono essere
eliminati
(mascheramento
temporale).

Mascheramento Tempo-Frequenza

Lo Standard MPEG
Questo standard di codifica esiste in tre versioni o layer, dove i layer successivi al primo rappresentano
versioni pi avanzate della codifica.
1) Layer I: Fornisce fattori di compressione di circa 1 a 4.
2) Layer II: superiore per complessit al primo adatto per bitrate intorno a 128 kbit/s per canale. I
fattori compressione da 1 a 8.

3) Layer III (MP3): il pi complesso dei tre ed offre ottime prestazioni con bitrate di circa 64 kbit/s
per canale. Riesce a ridurre la dimensione fino a 12 volte.
Funzionamento del Codificatore:
Il segnale viene campionato poi portato in
frequenza, si divide in 32 sottobande ognuna
con una sua soglia di mascheramento tempofrequenza stabilita a priori. Le componenti
spettrali sotto la soglia vengono scartate per
ogni sottobanda (ES: se la banda 6 ha alta
potenza di segnale, e la 5 e la 7 parecchio di
meno, esse vengono eliminate). I campioni di
ampiezza non standard vengono arrotondati e
poi codificati con un certo numero di bit.
Questa operazione introduce rumore quindi per
troppi livelli le probabilit di codificare in maniera errata
aumentano, Si aggiungono poi nel file informazioni riguardo
alla decodifica (bitstream).
Standard MPEG-2 (AAC)
Con laumentare degli standard audio, stato necessario
introdurre una codifica a 5 canali:
destro, sinistro, centrale, e surround
destro e sinistro. Questa codifica si
basa sul codec MP3 ma
ulteriormente ottimizzata per segnali
audio multi-canale.
Standard MPEG-4
LMPEG-4 fa invece uso di oggetti
software riferite a componenti audio
del segnale acustico. Ogni oggetto
pu quindi essere codificato con un
numero di bit proporzionale al suo
contributo informativo.

FUNZIONAMENTO EFFETTIVO DEL CODIFICATORE MPEG

BREVI NOTE SULLO STANDARD MPEG PER CODIFICA DI IMMAGINI E VIDEO


JPEG
JPEG uno standard di compressione per immagini ed stato progettato per comprimere sia immagini a colore
che immagini in bianco e nero. JPEG una codifica lossy (non entropica), scarta infatti delle informazioni
poco visibili allocchio umano e comprime le rimanenti.
Lo standard JPEG deve soddisfare le seguenti indicazioni:
-

Deve ottenere elevati rapporti di compressione;


Deve potere essere parametrizzato in modo da lasciare allapplicazione la possibilit di definire al
meglio il rapporto di compressione e la fedelt dellimmagine ricostruita;
Lalgoritmo non deve dipendere dalla complessit della scena rappresentata;
La sua complessit computazione deve permettere sia unimplementazione software sia
unimplementazione hardware.

La compressione JPEG prevede i seguenti passaggi:


Lettura del File Sorgente
I dati letti sono organizzati nello Spazio Colore RGB, di generiche dimensioni MxN. Ogni matrice sar divisa
in blocchi 8x8 (64 pixel), quindi se M o N non sono multipli di 8 sono aggiunte delle copie dellultima
riga/colonna alloriginale sino a che la matrice non diventi un multiplo di 8 (nella decodifica queste aggiunte
saranno tolte).

Trasformazione dello Spazio di Colore e Sottocampionamento


Si passa dallo spazio colore RGB allo spazio colore YUV, dove Y detta luminanza (bianco e nero) e
contiene il 70% dellinformazione, mentre U e V sono componenti di crominanza e contengono il restante
30% essendo locchio pi sensibili alle variazioni di luminosit piuttosto che a quelle cromatiche. Viene poi
operato un sottocampionamento relativamente basso per la componente di luminanza, e poi di nuovo, ma in
maniera pi sostanziale, alle componenti di crominanza.
Trasformata DCT
Ad ogni blocco viene applicata la trasformata
DCT (coseno rialzato) per rappresentare ogni
blocco nel dominio delle frequenze e per
distribuire in alto a sinistra i dati relativi alle
basse frequenze ed energeticamente pi
importanti. la DCT invertibile senza perdita
di informazione, a parte di eventuali errori
di arrotondamento.
La DCT preferibile alla DFT in quanto sposta
il contenuto energetico a frequenze meglio
percepibili dallocchio umano, si possono
quindi scartare pi componenti dellimmagine
rispetto a quanto si possa fare trasformando
mediante DFT.

Contenuto energetico a basse frequenze con la DCT

Quantizzazione
Prima operazione LOSSY visto che lalgoritmo applica delle divisioni e degli arrotondamenti in modo da
rendere pi valori possibili uguali a 0 tramite una tabella di quantizzazione, sempre di dimensione 8x8 (ogni
casella contiene il fattore della divisione, in alto a sinistra valori molti piccoli che crescono scendendo verso
langolo destro).
Codifica
Questa la fase finale del processo di compressione in cui vengono riordinati i coefficienti dei blocchi 8x8 in
modo che lelemento (0,0) rappresenti la componente in continua dellonda; la generica componente AC viene
scansionata tramite una lettura del blocco a zigzag che rende, il pi possibile, i componenti uguali a 0 adiacenti.
A questo punto inizia la codifica RLE, Run Length Encoding, una semplice tecnica di compressione che crea
un vettore tramite coppie (skip, value) dove skip indica il numero di valori uguali a 0, value il successivo valore
diverso da 0 e la coppia (0, 0) il segnale di fine sequenza. Su DC viene applicata la tecnica DPCM che modifica
il valore di DC in un valore relativo al DC del blocco precedente. Infine si opera la classica codifica a lunghezza
di codice variabile.
N.B. Essendo questa compressione totalmente invertibile noi possiamo decomprimere limmagine e per fare
ci si opera il percorso a ritroso passando per la decompressione Huffman.
Riassunto
1) LETTURA DEL FILE SORGENTE: dati organizzati nello spazio colore RGB, di dimensione MxN.
2) TRASFORMAZIONE DELLO SPAZIO COLORE: da RGB a YUV, il contenuto informativo
viene spostato sulla luminanza, la crominanza pu poi essere sottocampionata.
3) TRASFORMATA DCT: per passare nel dominio delle frequenze e dividere contenuti ad alto livello
energetico, basse frequenze, dai contenuti meno importanti);
4) QUANTIZZAZIONE: prima operazione lossy, divisioni e arrotondamenti tramite tabella di
quantizzazione;
5) CODIFICA: ordinamento dei coefficienti dei singoli blocchi 8x8, codifica RLE (Run Length
Encoding), Huffmann.

La codifica MPEG per Videosequenze


Un segnale televisivo PAL (Phase Alternating Line), segnale a tutti gli effetti digitale, codificato a 65536
livelli. La banda richiesta dal canale televisivo pari a 6MHz. Il bitrate R, quindi:
= log 2 () = (2 + ) log 2 () = 192 1
Per un intervallo temporale 60 secondi loccupazione in memoria senza compressione quindi:
= = 192 60 = 1.44
MPEG-2 (Codifica Alta Qualit)
Frame di Interpolazione e sequenze GOP
In MPEG-2 lobbiettivo quello di comprimere un
file video in modo tale da renderlo di dimensioni
accettabili, senza sacrificarne la qualit. Si utilizza
una tecnica di interpolazione di frame, ovvero
immagini codificate JPEG, per non dover trasmettere
tante immagini JPEG quante sarebbero richieste
senza compressione. Il frame I codificato JPEG. I
frame P sono a singola interpolazione, mentre i frame
B sono a doppia interpolazione. Essi sono creati a
partire dalla variazione pixel tra un frame e il successivo, mediante luso dei motion vector, a discrezione del
software.
Il flusso video MPEG2 organizzato con una sintassi stratificata:
-

Una struttura gerarchica in cui la video sequenza partizionata il GOPs, gruppi di immagini, che
rappresentano degli insiemi di video nellordine di trasmissione;
Uno strato costituito da una trama singola, composta da pi porzioni (ogni porzione contiene uno o
pi macroblocchi, composti da 4 blocchi di luminanza e due blocchi di crominanza; BLOCCO = unit
di base di codifica di dimensione 8x8 pixel).

Eliminazione della Ridondanza Spaziotemporale


Per ottenere un alto rapporto di
compressione bisogna servirsi sia delle
ridondanze spaziali sia di quelle
temporali. Le prime sono ridotte
dallutilizzo di un sottocampionamento
delle componenti di crominanza e
successivamente viene applicata la DCT
sui blocchi Y, U e V; i coefficienti DCT vengono quantizzati e codificati con un codice a lunghezza variabile.
Le ridondanze temporali sono ridotte per mezzo di una predizione temporale di alcune trame derivate da altre
moto-compensate.

Riassunto
1)
2)
3)
4)
5)
6)
7)

Selezione Frame I da usare come riferimento


Interpolazione con Frame P e B
Creazione GOP
Rimozione Ridondanza Spaziale e Temporale
Sottocampionamento YUV dei macroblocchi
DCT
Quantizzazione

MPEG-4
Lo standard mpeg4 offre una rappresentazione video
basata sulloggetto. La combinazione fra oggetti di sintesi
ed oggetti live un elemento importante per limitare la
quantit di banda richiesta. La codifica della struttura
basata sugli stessi principi usati per MPEG2 e adattata a
oggetti di forma arbitraria. Negli standard MPEG2/4 sono
usati tre tipi di trame, ma in MPEG2 si parla di trame
mentre in MPEG4 si parla di VOPs, ci si riferisce dunque
al piano video oggetti:
-

I trama: codificati senza nessun riferimento alle


altre trame;
P trama: codificati riferendosi al precedente I o
P;
B trama: codificati riferendosi sia alla trame precedenti sia a quelle successive.

Decodifica MPEG-4 basta su oggetti video piu tosto che gruppi di immagini interpolate.

Vantaggi e svantaggi tra MPEG-2 ed MPEG-4


MPEG2 lo standard utilizzato per comprimere video di alta qualit, usato ad esempio per i DVD, mentre
MPEG4 stato sviluppato per facilitare la diffusione di video e contenuti multimediali sui dispositivi portatili
come smartphone e tablet.
MPEG2 ha una qualit molto superiore rispetto a quella dello standard MPEG4, a discapito di un utilizzo molto
maggiore in banda; infatti la banda necessaria per MPEG4 molto minore ed per questo che il suddetto
standard privilegiato per i dispositivi portatili.
Tempi di download molto ridotti per MPEG4.
Qualit
Banda (Costo)
Tempi di download
Paradigma Point & Click

MPEG2
Alta
Molta (stendere banda costoso)
Alti
No

MPEG4
Media (anche bassa)
Molto meno rispetto a MPEG2
Ridotti di molto
Si