Sei sulla pagina 1di 14

3 PRIMO TEOREMA DI SHANNON

Il problema di determinare la lunghezza media minima per un codice compatto

istantaneo si risolve quando la probabilit dei simboli del tipo Pi r , dove


i

i intero.

Ma se i log r (1 / Pi ) non intero, allora si pu porre la congettura che la


miglior lunghezza media sia lintero maggiorante pi vicino a i .
Sia quindi

log r

1
1
l i log r
1
Pi
Pi

(3.1)

In effetti vediamo subito che tale li verifica la diseguaglianza di Kraft.


Infatti riscriviamo lespressione di sinistra come

log r

1
log r Pi l i
Pi

e poich per le propriet dei logaritmi

log 2 Pi

log r Pi
log r 2

allora
log 2 Pi log r 2 l i

ma ancora per la stessa propriet log 2 r

log r r
log r 2

allora

log 2 Pi

log r r
li
log 2 r

da cui

l i log 2 r log 2 Pi

e lespressione al secondo membro minore di zero: quindi


l i log 2 r 0

ossia

r li 1

che riporta immediatamente alla disuguaglianza di Kraft.


Inoltre, se moltiplichiamo i membri della (3.1) per Pi ed introduciamo la
sommatoria per i che va da 1 a q, otteniamo
H r (S ) L H r (S ) 1

(3.2)

Va osservato che mentre la disuguaglianza (2.3) L H ( S ) / log r H r ( S ) ha un


limite inferiore valido per ogni codice istantaneo, la (3.2) per essere valida
richiede la condizione (2.4) log r Pi l i .
Siccome la sorgente S una qualunque sorgente senza memoria, la (3.2) pu
essere applicata alla sua estensione n-esima Sn: poich si ha

H r (S n ) H r (S ) n

si avr

H r ( S n ) Ln H r ( S n ) 1

dove Ln rappresenta la lunghezza media delle parole del codice dei simboli
dellestensione n-ma, e Ln/n

rappresenta il numero medio di simboli

dellalfabeto di codice usati per ogni simboli di sorgente S.


In definitiva si ha

H r (S )

Ln
1
H r (S )
n
n

(3.3)

In questo modo il numero medio di simboli di codice usati per ogni simbolo di S
viene reso vicino quanto si vuole ad H r (S ) con la codifica di Sn anzich di S. I
simboli di S vengono codificati in blocchi di n e non uno alla volta.
La (3.3) viene espressa in modo equivalente nellenunciato del
PRIMO TEOREMA DI SHANNON o TEOREMA DELLA CODIFICA DELLA
SORGENTE:

Ln
H r (S )
n n
lim

Il

(3.4)

numero medio di simboli di codice usato per ogni simbolo di

sorgente senza memoria pu essere reso piccolo a piacere, purch non


inferiore al valore dellentropia della sorgente S misurata in unit r.
Esiste quindi un limite inferiore alla possibilit di compressione dei messaggi
della sorgente senza perdere informazione.
Poich

H r (S n ) H r (S ) n ,

per

giungere

al

miglior

risultato

necessario

aumentare la complessit della codifica, a causa della crescita esponenziale dei


simboli dellestensione n-ma della sorgente, che sono pari a q n.
Il primo teorema di Shannon pu essere esteso alle sorgenti di Markov.

CODICI DI HUFFMAN
Nel 1952 Huffman ha affrontato il problema di costruire codici compatti a
partire da un alfabeto di codice di r simboli.
La procedura consiste nel passare da una sorgente con q simboli e probabilit
assegnate a sorgenti pi semplici con rispettivamente q-1, q-2,,2 simboli di
alfabeto.
La sorgente binaria di arrivo intesa essere quella con alfabeto 0,1 .
Partiamo da una sorgente S con simboli s1,s2,,sq ordinati in modo che le
probabilit di emissione siano non crescenti: p1 p 2 ... p q

Considerando gli ultimi due simboli di S, si definisca la sorgente ridotta S1 a q1 simboli in cui gli ultimi due simboli di S siano ridotti ad un solo simbolo, con
probabilit pari alla somma delle probabilit dei due simboli considerati.
Procediamo allo stesso modo riducendo ad un simbolo man mano i due simboli
meno probabili, fino ad arrivare alla sorgente binaria 0,1 .
Facciamo un esempio con sorgente originaria S a 6 simboli:
S

Codice

S1

S2

s1

0.4

0.4

0.4

0.4

0.4

s2

0.3

00

0.3

00

0.3

00

0.3

00

.0.6

s3

0.1

011

0.1

011

0.1

011

s4

0.1

0100

0.1

0100

s5

0.06

01010

s6

0.04

01011

0.1

0.2

S3

0.3

S4
1
0

01

010

0101

Il codice della terza colonna ottenuto procedendo da destra verso sinistra


aggiungendo uno 0 e un 1 ai due simboli accorpati, e cos via.

Poich il codice della sorgente binaria finale istantaneo e compatto,


intuitivo che anche i codici

ottenuto aggiungendo uno 0 ed un 1 fino ad

ottenere la sorgente originaria sono istantanei e compatti.


Va osservato che esiste una molteplicit di codici compatti, visto che
lassegnazione di 0 ed 1 alle varie parole arbitraria.
Lesempio proposto si riferisce al caso r=2, ma si pu generalizzare ad un
qualunque numero finito di simboli

di codice. Nel caso binario abbiamo

accorpato in un solo simbolo i due simboli di sorgente meno probabili. Nel caso
di r

qualsiasi, si combinano r simboli per volta in un solo simbolo della

successiva sorgente ridotta, per cui se la sorgente originaria ha q simboli, la


successiva ne avr q-r+1, e poi q-2r+2: in generale la s-esima sorgente ne
avr q-s(r-1).
Lultima sorgente a destra avr r simboli se si verifica q=r+s(r-1), visto che la
sorgente s-esima ha r simboli se r=q-s(r-1).
Anche nel caso generale possibile dimostrare che i codici cos costruiti sono
istantanei e compatti. La dimostrazione procede dimostrando che se il codice di
una sorgente ridotta istantaneo e compatto, lo anche il codice della
sorgente precedente verso sinistra, ottenuto aggiungendo ad ogni parola delle
r meno probabili uno degli r simboli del codice; e cos via.

EFFICIENZA E RIDONDANZA DI UN CODICE


Il primo teorema di Shannon fornisce un metodo di misura delle sorgenti di
informazione. Infatti ogni simbolo dellalfabeto di sorgente S vale in media
H(S) bit o almeno Hr(S) bit in unit r di un alfabeto ad r simboli. Possiamo dire
che questo il numero di bit necessario in media a rappresentare un simbolo
della sorgente.

Sia L la lunghezza media di un codice ad r simboli di alfabeto relativo alla


sorgente S. Siccome L non pu essere inferiore allentropia Hr(S), definiamo
efficienza del codice la quantit

H r (S )
1
L

H r (S) /L per la quale vale:

1
e nlim

Definiremo allora come ridondanza del codice

per la (3.3).

la misura di quanto

dista dallefficienza massima.


In Figura 3.1 si vede che lefficienza cresce al diminuire di r ed massima
per valori di r pari a 2 ed a 4 . Infatti in questo caso le probabilit dei simboli
sono del tipo

1
e
2

1
, e si visto che esistono codici compatti con lunghezza
4

media coincidente con lentropia e quindi con efficienza uguale ad 1: L=Hr(S)


per li=i .

Figura 3.1

TEORIA DELLA DISTORSIONE


Si visto che lentropia H della sorgente rappresenta il valor medio minimo del
tasso di bit/messaggio necessario alla rappresentazione della sorgente senza
perdere informazione: non pu esistere una compressione ulteriore dei
messaggi.
Tuttavia Shannon svilupp una teoria della distorsione

che giunge a questa

affermazione:
se nella rappresentazione della sorgente si pu tollerare una certa distorsione
D (ossia una certa perdita di informazione), detto R la bit rate bit/messaggio
(in binario bit/binit), allora possibile utilizzare un tasso R(D) bit/messaggio
inferiore ad H. Vediamo come ottenere formalmente queste grandezze.
Sia X la sequenza binaria che rappresenta S con un tasso di informazione di
H() bit/messaggio e Xd la sequenza distorta che la rappresenta con un tasso
inferiore.
Una misura della distorsione fornita utilizzando la distanza di Hamming:

se

x xd

d H ( x, x d )

(3.5)
se

x xd

n
Quindi la distorsione fra due sequenze x n e x d di n digit di X e Xd sar

misurata in base alla distanza

d ( x n , x dn )

1
n

(3.5a)

( xi , x di )

Che ci d la media della distorsione calcolata digit a digit.


Definiamo quindi distorsione
D P ( x n ) d ( x n , x dn )

la misura del valore atteso (media) della distorsione rispetto alla probabilit di
quella n-pla, in cui la somma estesa a tutte le n-ple.
Con queste premesse, definiamo funzione di distorsione R(D) il minimo dei
tassi di informazione in grado di conseguire la assegnata distorsione D.
Nel caso di sorgente binaria, il tipico andamento di R(D) riportato in Figura
3.2. Data una certa D sono possibili valori di R inferiori ad H() nella regione
sopra la curva. Il loro valore minimo rappresentato da R(D), che giace sulla
curva e si annulla per D .
Per una sorgente binaria, con 1 / 2 , si trova
H ( ) H ( D )

per

per

R( D)

(3.6)

Figura 3.2

Nota.
Lespressione di H in (2.1), ossia
H (S )

P(s

) log[1 / P( si )]

P( s ) I (s
i

),

i 1,2,..., q.

dovuta a Shannon, ma non nata con il nome di entropia. Fu J. von


Neumann a consigliare a Shannon questo nome, perch aveva le stesse
caratteristiche globali dellentropia termodinamica.
In effetti il teorema di Boltzmann (1872) dimostrava che lentropia S di un gas
costituito da n molecole in un volume V a pressione P e temperatura T pu
essere espressa come
S=kH
dove k=1.3810-23 joule/K la costante di Boltzmann, mentre H espressa
come la (2.1). anche se in logaritmi naturali. In questo caso

Pi

ni
n

rappresenta la probabilit di trovare una molecola nella i-esima delle t celle


(aventi le pi piccole dimensioni rilevabili sperimentalmente) in cui si pu
suddividere il volume V. Si trova che il numero dei microstati che possono dare
origine allo stato definito da (P,V,T)

n!
.
n1! n 2 !...nt !

Quindi lo stato pi probabile quello cui corrispondono il maggior numero di


microstati, e ci avviene quando ni costante e pari a n/t, ossia quando si ha
la massima uniformit della densit del gas con tutte le celle occupane dallo
stesso numero di molecole. In questo caso S, che proporzionale a ln N
attraverso H, assume valore massimo.
Dunque questo stato in equilibrio termodinamico corrisponde al valore di
massima entropia.
Dal punto di vista informativo, H rappresenta linformazione media ricevuta
quando si conosce in quale cella sta la molecola, ossia lincertezza media a
priori su quale cella ospiti una molecola: quando la densit uniforme S ed H
sono massime, e linformazione media relativa alla cella in cui c la molecola
sarebbe massima.
Se viceversa tutte le n molecole stessero in una cella, lentropia sarebbe nulla
(tutte le Pi=0 tranne una che vale 1), e conoscendo la localizzazione di una
molecola non si avrebbe nessuna informazione e nessuna incertezza a priori,
dato che gi sappiamo che una cella contiene tutte le molecole e le altre celle
sono vuote.
In questo senso il sistema termodinamico pu essere visto come sorgente di
informazione.
Daltra parte un sistema isolato non in equilibrio evolver verso lo stato pi
probabile, che quello dellequilibrio termodinamico con tutte le celle occupate
dallo stesso numero di molecole.
Sia allora S lentropia dello stato ed SM quella massima dello stato di equilibrio.
Chiamiamo neghentropia N la quantit (sempre positiva) N=SM - S .

Se si misura la neghentropia con la stessa unit dellinformazione I del sistema


isolato, si trova che
(v.

H (S )

P(s

) I ( si )

dove I lg P( s )
i

I N S

che interpretabile come enunciato del secondo principio della termodinamica.


Il segno uguale vale nel caso la trasformazione sia reversibile.
La formula si legge dicendo che ogni volta che, ogni volta che si ricava
informazione dal sistema isolato, si produce un incremento della sua entropia
fino a che questa, allequilibrio termodinamico, raggiunge il suo valore
massimo. A questo punto non si pu ricavare altra informazione dal sistema.
Quindi linformazione ha come prezzo linnalzamento dellentropia del sistema
e la quantit N si dice entropia negativa perch rappresenta il limite superiore
dellinformazione ricavabile dal sistema.
Daltra parte se I negativa, ossia se introduciamo informazione nel sistema,
anche S
negativa cio diminuisce la sua entropia.
Se passiamo in base 2 ed esprimiamo quindi H in bit, vediamo che quando
H=1 bit si ha
S k ln 2 2.2 10 24 cal / K

entropia termodinamica corrispondente ad 1 bit di informazione.


In altri termini, ogni volta che otteniamo 1 bit di informazione da un sistema
paghiamo un costo degradandone lenergia di questa quantit, mentre ogni
volta che introduciamo nel sistema 1 bit di informazione dallesterno la
rigradiamo della stessa quantit.

UN ESEMPIO: GENERAZIONE DI SORGENTI DISCRETE CON LA MONETA


PERFETTA
E possibile generare sorgenti discrete S s1 ,..., s q in cui i messaggi sono
emessi con probabilit P P1 ,..., Pq mediante la sorgente binaria (moneta
perfetta) in cui P (0) P (1) 1 / 2 .
Dal punto di vista matematico ciascuna Pi pu essere espressa in una serie
geometrica di ragione

1
(*)
2k

Ad esempio, applichiamo la formula della somma di una serie geometrica di


ragione 1/4 con k=2:

q
k

1 q n 1
1 q

Ma se | q | 1

(1 q ) q k 1 q n 1

si ha

Quindi se abbiamo q

1
,
4

1
-1
1 q

1k 1 1
1
1
(
)

...

k q 4 16
1
3
.
1
4

Quindi la probabilit 1/3 pu essere generata come somma di probabilit di


eventi legati ai lanci della moneta non truccata, 1/4, 1/16, 1/64,.
Lo stesso varr per qualsiasi probabilit 1/k.
___________
(*)
Una v.a. discreta X segue la distribuzione geometrica se P ( X r ) (1 p ) r 1 p
(es. se X=2, P(X=2)=(1-p)p ) , caso di due possibili risultati, prove indipendenti).

X il numero di prove necessarie per avere il primo successo.

Si tratta di infiniti eventi la cui somma di probabilit 1/k, ma la cui scelta non
univoca.
Siccome ciascun lancio di moneta perfetto porta H(1/2)=1 bit di informazione,
ci corrisponde a misurare in bit linformazione condotta dal messaggio.
In particolare, se H(S) lentropia della sorgente da generare, ovvero
linformazione media condotta da ciascun messaggio e misurata in bit,
intuitivo che occorreranno almeno H(S) lanci della moneta per generare S.

ESEMPIO.
Generiamo la sorgente S a, b, c con P(a)=1/2, P(b)=1/3, P(c)=1/6 con una
moneta perfetta e rappresentiamo la generazione con una struttura ad albero.
Soluzione. Come abbiamo visto, gli eventi si possono rappresentare con una
struttura ad albero come quella riprodotta in figura. La struttura non univoca.
Cosniste in un albero con due rami, il primo dei quali coincide con lunica foglia
corrispondente alluscita dello zero al primo lancio e rappresenta levento a con
probabilit 1/2.
Se al primo lancio esce 1, bisogna lanciare nuovamente la moneta: se esce 0
avremo una foglia rappresentante b , corrispondente alla coppia 01 di
probabilit 1/4 appartenente alla serie di somma 1/3, probabilit assegnata a
b.
Se esce 1 si arriva al secondo nodo: si potr avere luscita successiva 0, con
terna 110 di probabilit 1/8, appartenente alla serie con somma 1/6
terminante con una foglia che rappresenta levento c.
E cos via fino al completamente dellalbero.