Sei sulla pagina 1di 20

U NIVERSIT A` DEGLI S TUDI

DI

S ALERNO

Esercizi di: Teoria e Tecnica delle Telecomunicazioni


Prof. Stefano Marano
- ottobre 2015 -

E SERCIZIO 1 Si consideri un canale DMC, con probabilit`a di transizione ingresso-uscita rappresentata dalla matrice
0
1
0.1 0.5 0.4
P = @ 0.5 0.4 0.1 A
0.4 0.1 0.5

con linterpretazione che gli alfabeti di ingresso e di uscita coincidono, X = Y = {1, 2, 3}, e che lelemento di posto (i, j)
rappresenta la probabilit`a di osservare in uscita Y = j dato che lingresso e` X = i (con i, j = 1, 2, 3). Calcolare la capacit`a
del canale e stabilire qual e` la distribuzione degli ingressi che rende massima la mutua informazione I(X, Y ).

E SERCIZIO 2 Si considerino due sorgenti di informazione S1 e S2 , indipendenti tra loro. La sorgente S1 emette simboli Xi
iid in accordo alla pmf PX (n) = pn (1 p)1 n , con n = 0, 1. Similmente, la sorgente S2 produce simboli Yi iid in accordo
alla pmf PY (n) = p(1 p)n , n = 0, 1, 2, . . . . Si assuma 0 < p < 1. Il flusso totale di informazione prodotto dalle due sorgenti
deve essere trasmesso su un canale discreto, binario, simmetrico e senza memoria, la cui probabilit`a di errore vale .
a) Determinare quale delle due sorgenti produce una maggiore quantit`a di informazione.
b) Stabilire le relazioni (anche solo in forma implicita) che devono sussistere tra p ed affinch`e sia possibile progettare il
sistema di trasmissione con probabilit`a di errore piccola a piacere.

E SERCIZIO 3 Siano X e Y due variabili aleatorie con alfabeti, rispettivamente, X = {x1 , x2 , . . . , xN } e Y = {y1 , y2 , . . . , yM }.
Sia, inoltre, Z = X + Y .
a. Mostrare che H(Z|X) = H(Y |X).
b. Nellipotesi che X e Y siano indipendenti, mostrare che H(Y ) H(Z) e H(X) H(Z).
c. Fornire un esempio in cui H(Z) = H(X) + H(Y ).
S OLUZIONE
a. H(Z|X = xi ) = H(Y |X = xi ), i = 1, . . . , N ) H(Z|X) = H(Y |X).
b. H(Z) H(Z|X) = H(Y |X) = H(Y ), e similmente si ottiene H(Z) H(X).
c. Siano X e Y indipendenti e si consideri il seguente esempio: N = |X | = M = |Y| = 2, con x1 = 0, x2 = 1, y1 = 2, y2 = 4.
In questo caso, sapere che Z = 2 implica che X = 0, Y = 2; similmente Z = 4 ) X = 0, Y = 4; Z = 3 ) X = 1, Y = 4;
Z = 5 ) X = 1, Y = 4. In questo caso, lincertezza su Z equivale alla somma delle incertezze su X e Y , e ci`o accade
ogniqualvolta ogni valore di Z si ottiene in uno e un sol modo dai valori di X e di Y , quindi svelare il valore di Z equivale
a svelare sia il valore di X che il valore di Y .

E SERCIZIO 4
a.
Si definisca la divergenza D (P1 ||P0 ) tra le due pmf P1 e P0 ;
b.
si dimostri che D (P1 ||P0 ) 0, e che D (P1 ||P0 ) = 0 se e solo se P1 P0 ;
c.
si definisca la divergenza D (f1 ||f0 ) tra due le pdf f1 e f0 ;
d.
la divergenza D (f1 ||f0 ) gode della medesima interpretazione fisica che si attribuisce a D (P1 ||P0 )?
e.
si calcoli D (f1 ||f0 ) nel caso in cui f1 N (, 2 ) e f0 N (0, 2 ).

E SERCIZIO 5
a.
Si calcoli linformazione mutua I(X, Y ) assumendo X N (0,
dal coefficiente di correlazione = E[XY ]/ 2 .

) e Y N (0,

), evidenziandone la dipendenza

b.

Si calcoli la divergenza D(X||Y ) assumendo X N (,


rapporto = / .

) e Y N (0,

), evidenziandone la dipendenza dal

S OLUZIONE Si ricordi lespressione della pdf congiunta di due variabili aleatorie gaussiane (in generale, non indipendenti):

1
1
(x x )2
(x x )(y y ) (y y )2
p
fXY (x, y) =
exp
2
+
2
2
2(1 2 )
x y
2 x y 1 2
x
y

La soluzione richiede poi solo calcolo, agevolato dal riconoscere la definizione di varie medie statistiche.

E SERCIZIO 6 Una sorgente di informazione S emette i simboli 0 e 1 in accordo alla pmf P (n) = pn (1 p)1 n , con n = 0, 1.
Detta sorgente deve essere trasmessa sul canale C rappresentato in figura.
a. Calcolare lentropia di S, in funzione del parametro p.
b. Calcolare la capacit`a del canale C, in funzione del parametro a.
c. Disegnare sul piano (p, a) la regione accessibile, con ci`o intendendo linsieme delle coppie (p, a) tali da rendere possibile
la trasmissione dellinformazione sul canale, garantendo probabilit`a di errore piccola a piacere.

1-a

err

a
1

1
1-a

S OLUZIONE
H(S) = Hb (p); C = 1 a; ) a < 1 Hb (p).

E SERCIZIO 7 Sia X p(x) una variabile aleatoria definita sull alfabeto X = {1, 2, . . . , m}, e sia S X . Sia inoltre Y una
variabile Bernoulliana che assume valore Y = 1 se e solo se X 2 S, e si denoti con la probabilit`a che ci`o accada. Calcolare
la riduzione di incertezza H(X) H(X|Y ).
S OLUZIONE
P(Y = 1) = P(X 2 S) = . Sia pi = P(X = i), i 2 X . Si ha allora

8 p
k
>
k2S
<
P(Y = 1|X = k) pk

P(X = k|Y = 1) =
=
>

:
0 k2
6 S
8
0
k2S
>
<
P(Y = 0|X = k) pk
P(X = k|Y = 0) =
=
pk
>
1
:
k 62 S
1

Dunque

H(X|Y = 1) =

X pk
pk
log

H(X|Y = 0) =

k62S

k2S

H(X|Y )

=
=

pk

log

pk
1

X pk
X pk
pk
pk
log
(1 )
log

1
1
k2S
k62S
X
X
H(X) +
pk log +
pk log(1 ) = H(X) + log + (1

k2S

H(X)

Hb ()

k62S

I(X; Y ) = H(X)

H(X|Y ) = Hb ()

) log(1

Esiste un metodo pi`u rapido per giungere allo stesso risultato? Notiamo che I(X; Y ) = H(X) H(X|Y ) = H(Y )
H(Y |X) = H(Y ), poiche H(Y |X) = 0. Inoltre H(Y ) = Hb () e si ottiene immediatamente H(X) H(X|Y ) = Hb ().

E SERCIZIO 8 Calcolare la capacit`a del canale DMC rappresentato in figura, con alfabeto di ingresso binario e alfabeto di
uscita ternario.

X0

Z0

1-b

1-a

Y0

Ye
b

X1

Z1

Y1
1-a

1-b

E SERCIZIO 9 Sia X1 ! X2 ! X3 ! ! XN una catena Markoviana. X1 e X2 rappresentano lingresso e luscita di un


primo canale di comunicazione la cui capacit`a vale C1 ; similmente, X2 e X3 rappresentano lingresso e luscita di un secondo
canale di comunicazione (in cascata al primo), la cui capacit`a vale C2 , e cos` via. Sia inoltre C la capacit`a del canale con
ingresso X1 e uscita XN . Dimostrare che C min{C1 , C2 , . . . , CN 1 } e commentare brevemente.

E SERCIZIO 10 Si consideri un canale binario asimmetrico in cui le due probabilit`a di transizione sono e . Determinare la
distribuzione (p, 1 p) dei simboli binari di ingresso che massimizza linformazione mutua tra lingresso e luscita del canale.

E SERCIZIO 11 Si consideri il canale DMC (X , p(y|x), Y) descritto dalla relazione ingresso-uscita Y = X + Z, con Z
variabile aleatoria binaria che assume, con uguale probabilit`a, i valori 0 e a, con a 2 <. Lalfabeto di ingresso e` X = {0, 1}, e
le variabili X e Z sono indipendenti. Calcolare, per ogni possibile valore del parametro a, la capacit`a del canale e la relativa
distribuzione degli ingressi che massimizza I(X, Y ).

E SERCIZIO 12 Si consideri un canale di comunicazione X ! Y definito dalla tripla (X , h(y|x), Y), con X e Y insiemi a
cardinalit`a finita. Si considerino inoltre due possibili distribuzioni (pmf) dellingresso X, siano esse P0 (x) e P1 (x), x 2 X , e
le corrispondenti distribuzioni delluscita Y , siano esse Q0 (y) e Q1 (y), y 2 Y.
a. Si mostri che la divergenza tra le due distribuzioni in uscita pu`o essere posta nella forma
"
!
#
P
X
X
x2X P0 (x)h(y|x)
D (Q0 ||Q1 ) =
P0 (x)h(y|x) log P
x2X P1 (x)h(y|x)
y2Y

x2X

b. Si dimostri che

(1)

D (Q0 ||Q1 ) D (P0 ||P1 )

(Suggerimento: facendo ricorso ad una nota disuguaglianza, si elabori dapprima sulla quantit`a in parentesi quadra
nellequazione precedente.)
c. (Facoltativo) Si commenti la rilevanza del risultato (1) in termini delle prestazioni asintotiche di un opportuno test
di ipotesi binario.
S OLUZIONE
a. Si ha, ovviamente,
Q0 (y) =

x2X

h(y|x)P0 (x),

Q1 (y) =

x2X

h(y|x)P1 (x),

8y 2 Y

e dunque, utilizzando la disuguaglianza log-sum,


D (Q0 ||Q1 )

"
#
P
X X
Q0 (y)
x2X h(y|x)P0 (x)
Q0 (y) log
=
h(y|x)P0 (x) log P
Q1 (y)
x2X h(y|x)P1 (x)
y2Y
y2Y x2X
"
#

X X
X
h(y|x)P0 (x)
P0 (x) X
h(y|x)P0 (x) log
=
P0 (x) log
y(y|x)
h(y|x)P1 (x)
P1 (x)
y2Y x2X
x2X
y2Y

X
P0 (x)
P0 (x) log
= D (P0 ||P1 )
P1 (x)
X

x2X

La parte c richiede la lettura del Lemma di Stein, paragrafo 12.8, p. 319 del libro di testo:
T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.
Si vede che le pmf in uscita sono pi`u vicine delle pmf in ingresso. Si pu`o in sostanza affermare, quindi, che il testi ipotesi
ottimo effettuato su dati un uscita ad un canale ha prestazioni (asintotiche) inferiori rispetto al test ottimo effettuato sui dati
in ingresso al canale: e` una versione del teorema di trattamento dei dati (data processing inequality).

E SERCIZIO 13 Sia {Xi }1


i=1 un processo aleatorio tempo discreto a valori discreti e stazionario in senso lato. Se ne definisce
tasso entropico la quantit`a
1
T = lim
H (X1 , X2 , . . . , Xn )
n!1 n
Definendo inoltre H1 = H(X1 ) e, per n > 1, Hn = H(Xn |Xn 1 , Xn 2 , . . . , X1 ), si dimostri che
a) Hn+1 Hn , 8n 1;
b) esiste il limite H1 = limn!1
PnHn ;
c) n1 H (X1 , X2 , . . . , Xn ) = n1 i=1 Hi ;
d) (opzionale) T = H1 .
Si indichi, infine, quali espressione assumono Hn e H1 nel caso in cui il processo in questione sia anche Markoviano.
S OLUZIONE Questo esercizio pu`o essere considerato un approfondimento che riguarda la generalizzazione del concetto di
entropia a sequenze di variabili non iid. E` probabilmente necessaria la lettura del paragrafo 4.2 p. 63-66 del libro di testo:
T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.

E SERCIZIO 14 Si consideri un canale di comunicazione (X , p(y|x), Y) definito dalla matrice di transizione


0
1
r 1 r 2 r3 . . . r n 1
rn
B r 2 r 3 r4 . . .
rn
r1 C
B
C
B r 3 r 4 r5 . . .
r1
r2 C
p(y|x) = B
C
B
C
..
@
A
.
rn

r1

r2

...

rn

rn

dove r = (r1 , r2 , . . . , rn ) e` un vettore di probabilit`a (pmf) con entropia H(r).


Calcolare linformazione mutua ingresso-uscita I(X; Y ).
Calcolare la capacit`
a C del canale.

E SERCIZIO 15 Si consideri un canale binario simmetrico (BSC) con alfabeto di ingresso e di uscita X = Y = {0, 1},
e con assegnata probabilit`a di cross-over < 1/2. Si definisca inoltre una funzione di costo Q : X ! R+ e si assuma,
specificamente, che la trasmissione del simbolo X = 1 comporti un costo Q(1) = 1, mentre la trasmissione del simbolo 0 sia
a costo nullo, cio`e Q(0) = 0. Sia infine p = Pr{X = 1}.
a. Si calcoli la capacit`a del canale con vincolo sul costo medio dei simboli in ingresso:
C( ) =

max

p: E[Q(X)]

I(X; Y ),

b. Si diagrammi qualitativamente landamento della funzione C( ) al variare di


c. Si stabilisca la relazione sussistente tra C( ) e la classica capacit`a del BSC.

2 (0, 1).

S OLUZIONE
C( ) =

max

p: E[Q(X)]

I(X; Y ) =

max

p: E[Q(X)]

H(Y )

Hb ()

Si noti poi che P(Y = 1) = p(1

) + (1

p) = p(1
max

p: E[Q(X)]

2) + . Inoltre E[Q(X)] = p, per cui

H(Y ) = max Hb [p(1


p: p

2) + ]

Dunque,
1/2
) p=
) C( ) = Hb ( (1 2) + ) Hb () < CBSC ()
1 2
1/2
1/2
) p=
) C( ) = 1 Hb () = CBSC ()
1 2
1 2

<

E SERCIZIO 16 Si calcoli la capacit`a C() di un canale ternario simmetrico, con alfabeto di ingresso e di uscita X = Y =
{0, 1, 2}, tale che

1 se i = j
Pr{Y = i|X = j} =
/2
se i 6= j
con i, j 2 {0, 1, 2}.

S OLUZIONE
C() = log2 (3) H(1 , /2, /2), C(0) = log2 (3) 1.585, decrescente per 2 (0, 2/3), C(2/3) = 0 (uniforme),
crescente per 2 (2/3, 1), C(1) = log2 (3) 1 0.585. C() convessa.

E SERCIZIO 17 Siano X e Y due variabili aleatorie la cui pdf congiunta e`

2
1
1
x
p
fXY (x, y) =
exp
2)
2
2
2(1

2 x y 1
x

xy
x y

y2
2
y

a. Si calcoli linformazione mutua I(X; Y ).


b. Si particolarizzi il risultato precedente al caso in cui X N (0, x2 ), Z N (0, z2 ), con E[XZ] = 0, e con Y = X + Z.
c. Si commenti brevemente il risultato ottenuto al passo precedente, alla luce della formula per la capacit`a di un canale
gaussiano tempo discreto con vincolo sulla potenza di ingresso pari a x2 .

S OLUZIONE

2
a.: I(X; Y ) = 12 log 1 2 . b.: E[XY ] = E[X(X + Z)] = E[X 2 ] ) = x / y ) I(X; Y ) = 12 log 1 + x2 . c.:
z
C = I(X; Y ), arg maxf (x):E[X 2 ] x2 I(X; Y ) = N (0, x ).

E SERCIZIO 18 Sia X una variabile aleatoria con alfabeto finito di arbitraria cardinalit`a n. La pmf di detta variabile e` p in
ipotesi H1 , oppure q se vale lipotesi H0 :
H1 : X p
H0 : X q

Denotando con I una variabile aleatoria binaria tale che Pr{I = 1} = 1 Pr{I = 0} = , si ha che l entropia di X
condizionata allevento {I = 1} (cio`e allevento {HI = H1 }) e quella condizionata allevento {I = 0} (cio`e allevento
{HI = H0 }) valgono, rispettivamente, H(p) e H(q).
a. Calcolare lentropia condizionata H(X|I).
b. Calcolare lentropia non condizionata H(X).
c. Utilizzando le espressioni ricavate nei due precedenti punti, si dimostri la concavit`a \ dellentropia.
d. Determinare i vettori p che minimizzano lentropia H(p) sullinsieme di tutte le pmf p di assegnata dimensionalit`a n, e
commentare brevemente il risultato alla luce della dimostrata propriet`a di concavit`a dellentropia.
S OLUZIONE
a. H(X|I) = H(p) + (1
)H(q); b. H(X) = H( p + (1
)q); c. condizionamento riduce lentropia: H(X|I) H(X)
, H(p) + (1
)H(q) H( p + (1
)q); d. p = le n pmf degeneri (v.a. deterministica): una funzione concava ha il
minimo sui punti estremali del set convesso su cui e` definita.

E SERCIZIO 19 Sia C1 la capacit`a di un BSC con ingresso X, uscita Y , e probabilit`a di crossover 1 . Sia inoltre C2 la
capacit`a di ulteriore BSC con ingresso Y , uscita Z, e probabilit`a di crossover 2 . Sia C la capacit`a del canale complessivo
con ingresso X e uscita Z.

a.
b.
c.
d.

Verificare che X ! Y ! Z.
Sulla base del risultato precedente mostrare che C min{C1 , C2 }.
Calcolare le capacit`a C1 , C2 , e C, dei canali in questione.
Assumendo per semplicit`a 1 < 1/2 e 2 < 1/2, verificare che il risultato ottenuto al punto c risulta compatibile con
quanto ricavato al punto b.

S OLUZIONE
a. basta notare che p(z|x, y) = p(z|y);
b. Data processing inequality: ) I(X; Z) I(X; Y ) e I(X; Z) I(Y ; Z) ) C = maxp(x) I(X; Z) maxp(x) I(X; Y ) =
C1 e C = maxp(x) I(X; Z) maxp(y) I(Y ; Z) = C2 ) C min{C1 , C2 };
c. C1 = 1 Hb ( 1 ), C2 = 1 Hb ( 2 ); C = 1 Hb ( ), con = 1 (1
2 1 2;
2 ) + 2 (1
1) = 1 + 2
2
d. Assumiamo 1
= 1+ 2 2 1 2
2 1 (1
2 , allora
1 e similmente, se 2
1 si ha
2 )
1)
max{ 1 , 2 } , C min{C1 , C2 }.

E SERCIZIO 20 Si consideri un canale binario simmetrico con ingresso X e uscita Y , la cui probabilit`a di transizione e` .
Siano inoltre p = Pr{X = 1} e q = Pr{Y = 1}.
a. Dimostrare che H(Y ) H(X)
b. Dimostrare che la propriet`a di cui al punto precedente non e` valida, in generale, se il canale binario non e` simmetrico.
S OLUZIONE
a. q = p(1 ) + (1 p) = p(1 2) + ) se p 1/2 allora p q 1/2; se invece p 1/2 allora 1/2 < q < p.
In entrambi i casi H(q) H(p). b. Si consideri un canale binario asimmetrico con transizioni 1 e 2 , e si consideri il caso
limite 1 ! 0 ed 2 ! 1. Lentropia delluscita tende a 0, 8p; il risultato segue per continuit`a.

E SERCIZIO 21 Utilizzando il metodo del funzionale di Lagrange, si determini la pmf {pk }1


k=
soddisfi il seguente vincolo:
1
X
|k| pk = A

a massima entropia che

k= 1

dove A e` una costante positiva assegnata.

S OLUZIONE
p
p
pk = |k| , con = 1 + A2 A, e = ( 1 + A2 1)/A

E SERCIZIO 22 Sia g(x) la densit`a di probabilit`a di una variabile aleatoria gaussiana a media nulla e varianza
f (x) la densit`a di probabilit`a di una generica variabile aleatoria, sempre a media nulla e con varianza 2 .
a. Calcolare lintegrale
Z
1

. Sia inoltre

g(x) ln g(x) dx

e dire quale sia il suo significato fisico.


b. Giustificare formalmente le seguenti uguaglianze e disuguaglianze
Z 1
Z 1
Z 1
f (x) ln f (x) dx
g(x) ln g(x) dx =
f (x) ln f (x) dx
1

f (x) ln g(x) dx

c. Avvalendosi dei risultati precedenti, stabilire quale sia la densit`a di probabilit`a che massimizza lentropia nella classe delle
densit`a cui compete media nulla e assegnata varianza 2 .

S OLUZIONE
2
), ed e` lentropia di g espressa in nats, diciamo h(g). b. effettuando il conto si vede banalmente che
R a. 0.5 ln(2e
R
f ln g = g ln g = h(g), la disuguaglianza e` la non negativit`a della divergenza; c. i punti precedenti implicano direttamente
lasserto.


E SERCIZIO 23 Si consideri un canale DMC X ! Y con alfabeti di ingresso e di uscita X = Y = {1, 2, 3, 4}. La matrice
di transizione del canale M , i cui elementi sono Mij = Pr{Y = j|X = i}, i, j 2 {1, 2, 3, 4}, vale
0
1
1

0
0
B
1
0
0 C
C
M =B
@ 0
0
1
A
0
0

1
a. Si calcoli la capacit`a del canale in questione, sia essa C().
b. Detta CBSC ( ) la capacit`a di un canale BSC con probabilit`a di crossover pari a
parametri e si verifica che CBSC ( ) = C().

, si determini per quali valori dei

S OLUZIONE
a. C = 2 Hb (). b. = 1/2 e = 0, 1.

E SERCIZIO 24 Una sorgente di informazione emette simboli iid Xi , i = 1, 2, . . . , in accordo alla pmf Pr{X = x} = (1 p)px ,
con p 2 (0, 1), e con x = 0, 1, 2, . . . , 1.
a. Verificare che il contenuto informativo della sorgente cresce in modo monotono al crescere di p.
b. Volendo trasmettere la sorgente su un canale DMC la cui capacit`a ammonta a 2 bit per ogni uso, stabilire per quali valori
di p esiste un modo di trasmettere in maniera affidabile, cio`e con probabilit`a di errore piccola a piacere.
S OLUZIONE
Intanto si ha H(X) =

Hb (p)
1 p .

[a.] Poiche

d
dp Hb (p)

Hb (p)
1 p

= log

1 p
p

d
dp H(X)

log p
(1 p)2

> 0. [b.] p = 1/2 ) H(X) =

= 2. Dunque si pu`o avere trasmissione affidabile se e solo se p < 1/2.

E SERCIZIO 25
a. Si determinino tutti i vettori di probabilit`a p tali che lentropia di Shannon H(p ) risulti minima sullo spazio di tutti i
vettori di probabilit`a n-dimensionali p, per ogni fissato valore finito di n.
b. Si giustifichi il risultato ottenuto al punto precedente con considerazioni di carattere geometrico, alla luce della seguente
propriet`a dellentropia: detti p e q due arbitrari vettori di probabilit`a n-dimensionali, per ogni 2 (0, 1) risulta
H(p) + (1

)H(q) H( p + (1

)q)

S OLUZIONE
a. sono le n pmf degeneri del tipo [0, 0, . . . , 1, . . . , 0], che danno entropia nulla. b. una funzione concava ha il minimo sui
punti estremali del set convesso su cui e` definita.

E SERCIZIO 26 Si consideri un canale discreto senza memoria di tipo binario simmetrico, al cui ingresso viene posta la
successione di variabili aleatorie iid {Xi }1
i=1 , con Pr{Xi = 1} = Pr{Xi = 0} (ovviamente la trasmissione di ogni singola
variabile avviene in un singolo uso del canale di trasmissione). Sia {Yi }1
i=1 la corrispondente successione di variabili aleatorie
in uscita al canale.
a. Si calcoli la distribuzione delle variabili Yi .
b. Si consideri la variabile aleatoria discreta T tale che
Pr{T = m} = Pr{Ym = 1 , Yj = 0 8j < m}

e se ne calcoli lentropia H(T ).


c. Si consideri poi la trasmissione della sorgente di informazione T su un canale in cui gli alfabeti di ingresso e di uscita
abbiano cardinalit`a k. In assenza di ulteriori informazioni sulle caratteristiche del canale, dire per quali valori di k risulta
impossibile effettuare una trasmissione affidabile.
S OLUZIONE
P1
[a.] Yi sono binarie equiprobabili. [b.] Pr{T = m} = (1/2)m , m = 1, 2, . . . . Ne segue che H(T ) = m=1 m(1/2)m = 2
bits. [c.] In generale, per un canale con ingresso U e uscita V vale che C = max I(U ; V ) max H(U ) = log |U| = log k.
La trasmissione affidabile e` impossibile se H(T ) > log k > C ovvero se k < 4.


E SERCIZIO 27 Siano p(x) e q(x) due generiche pmf definite sul medesimo alfabeto X , e si assuma che p(x) > 0 e q(x) > 0,
8x 2 X . Si consideri inoltre la funzione, definita per t 2 (0, 1),
!
X
1 t
t
z(t) = ln
[q(x)]
[p(x)]
x2X

Si valutino le due quantit`a

d z(t)
dt

e
t=0

d z(t)
dt

t=1

e se ne discuta il significato informazionale.


S OLUZIONE
Diciamo z(t) =

ln (t), da cui dz(t)/dt =

d z(t)
dt

0 (t)|t=0

t=0

x2X

Similmente

0 (t)/(t), ma (0) = (1) = 1, per cui


X

=
q 1 t (x)pt (x) ln q(x) + q 1 t (x)pt (x) ln p(x)

t=0

x2X

q(x) ln

q(x)
= D (qkp)
p(x)

d z(t)
= D (pkq)
dt t=1

E SERCIZIO 28 Calcolare la capacit`a di un canale a cancellazione con M > 2 simboli di ingresso e (M + 1) simboli di
uscita, generalizzazione del classico BEC.
S OLUZIONE
Per richiami sul BEC, si consulti il paragrafo 8.15 p. 187-189 del libro di testo:
T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.
Sia a = Pr{Y = k|X = k}, e 1 a = Pr{Y = M + 1|X = k}, con k = 1, 2, . . . , M . Allora H(Y |X) = Hb (a). Inoltre la
pmf di Y e` Pr{Y = k} = a Pr{X = k}, k = 1, 2, . . . , M ; Pr{Y = M + 1} = (1 a). Quindi H(Y ) = aH(X) + Hb (a).
I(X; Y ) = aH(X) ) C = a log M

E SERCIZIO 29 Un canale discreto senza memoria X ! Y e` caratterizzato da alfabeti di ingresso ed uscita X = Y = {0, 1, 2},
e dalla matrice
0
1
2/3 1/3
0
P = @ 1/3 1/3 1/3 A
0
1/3 2/3

il cui elemento pxy , x, y = 0, 1, 2, rappresenta la probabilit`a condizionata p(y|x). Sia C la capacit`a del canale, misurata in
bits/uso, e sia p = Pr{X = 1}.
a. Si valuti lentropia condizionata H(Y |X), in funzione del parametro p.
b. Utilizzando il risultato precedente e la nota relazione H(Y ) log2 |Y|, si dimostri che I(X; Y ) 2/3.
c. Utilizzando i risultati precedenti e ricordando il valore della capacit`a di un canale BEC, si dica per quale distribuzione
degli ingressi si raggiunge la capacit`a C, e quanto vale tale capacit`a.
d. Si commenti brevemente il risultato ottenuto al punto precedente.
S OLUZIONE
a. Un semplice calcolo diretto fornisce H(Y |X) = (1 p)(log 3 2/3) + p log 3 = log 3 2/3(1 p) () H(Y |X)
log 3 2/3). b. I(X; Y ) = H(Y ) H(Y |X) log 3 H(Y |X) = 2/3(1 p) 2/3. c. Poiche C = maxp(x) I(X; Y ), allora
C = 2/3 se esiste una distribuzione degli ingressi tale che I(X; Y ) = 2/3. Ora C = 2/3 e` la capacit`a del BEC che si ottiene
assumendo p = 0 e Pr{X = 0} = Pr{X = 2} = 1/2. Di conseguenza (1/2, 0, 1/2) e` la distribuzione cercata e C = 2/3.
d. Si scopre che la capacit`a si ottiene simulando un BEC, lingresso X = 1 produce output equiprobabili ed e` meglio non
usarlo; notiamo che assumere X con distribuzione (1/2, 0, 1/2) implica sia H(Y ) = log 3 che H(Y |X) = log 3 2/3, cio`e
entrambe le disuguaglianze diventano uguaglianze e in tal caso risulta C = I(X; Y ) = 2/3.


E SERCIZIO 30 La posizione di un aeromobile e` segnalata su uno schermo radar in un sistema di coordinate bidimensionale
opportunamente quantizzato. Dette coordinate, denotate con X e Y , sono dunque modellate come variabili aleatorie indipendenti
ed uniformi, con valori nellalfabeto A = {1, 2, 3,. . . , N }, con N = 16. La posizione dellaeromobile deve essere trasmessa
L = 10 volte al secondo ad un centro di controllo, e tale trasmissione avviene su un canale AWGN con banda W = 10 Hz.
Si assume che le successive trasmissioni siano mutuamente indipendenti ed identicamente distribuite.
Si determini il minimo rapporto segnale rumore di bit b che consenste, mediante adeguata codifica di canale, la trasmissione
dellinformazione al centro di controllo con probabilit`a di errore piccola a piacere.
S OLUZIONE
H(X, Y ) = H(X) + H(Y ) = 2 log N = 8 bits/misura. Quindi Rb = 2L log N = 80 bits/sec, e r = Rb /W = 8. Inoltre
C = W log (1 + b r) bits/sec. Imponendo b (2r 1)/r si ha b 32 15 dB.

E SERCIZIO 31 Sia X = [X1 , X2 , . . . , XN ] un vettore aleatorio le cui componenti sono variabili aleatorie gaussiane Xi
N (i , 2 ), tali che E [Xi Xj ] = i j + 2 ij ( ij = 1 se i = j, e ij = 0 atrimenti). Calcolare lentropia differenziale h(X)
del vettore X.
S OLUZIONE
Il vettore ha elementi indipendenti, quindi h(X) = N h(Xi ) e calcolo diretto fornisce h(Xi ) = 1/2 log2 2e 2 bits.

E SERCIZIO 32 Calcolare lentropia differenziale delle seguenti variabili aleatorie:


1) X di tipo esponenziale: f (x) = e x , x 0.
2) X di tipo Laplace: f (x) = 12 e |x| .
3) X = X1 + X2 , dove X1 e X2 sono variabili aleatorie gaussiane indipendenti a media nulla e varianza, rispettivamente,
2
2
1 e 2.
S OLUZIONE
1) Distribuzione esponenziale.
h(X)

=
=

+1
x

[ln

x]dx

ln + 1
e
log
bits

=
2) Distribuzione Laplace
h(X)

=
=

+1
1

1
2
2e

ln

ln

log

2e

1
e
2

|x|

[ln

1
+ ln
2

|x|]dx

ln + 1
nats
bits

3) Somma di due variabili gaussiane X1 + X2 N (1 + 2 ,

2
1

2
2 ),

quindi h(X) =

1
2

log 2e(

2
1

2
2)

bits.

E SERCIZIO 33 Siano p e q due pmf definite sullo stesso alfabeto di cardinalit`a finita, e si consideri la divergenza
f ( ) = D ((1
con

)p + q||p)

2 [0, 1]. Si dimostri che f (0) f ( ) f (1) e si diagrammi qualitativamente la funzione f ( ).

S OLUZIONE Si tratta essenzialmente della propriet`a di convessit`a della divergenza. Si veda il teorema 2.7.2 p. 30 del libro di
testo:
T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.


E SERCIZIO 34 Siano {Xi , i = 1, 2, 3, . . . } e {Yi , i = 1, 2, 3, . . . } due catene di Markov caratterizzate dalla medesima
matrice di transizione

1
3 1
H=
1 3
4

Siano inoltre p1 = (1/2, 1/2)T la distribuzione di X1 , e q1 = (1, 0)T la distribuzione di Y1 . Calcolare:


a.
lentropia di Xi , per i = 1, 2, 3;
b.
lentropia di Yi , per i = 1, 2, 3;
c.
la distanza in entropia relativa di Yi rispetto a Xi , sia essa D(qi ||pi ), per i = 1, 2, 3;
d.
graficare qualitativamente landamento di H(qi ) e quello di D(qi ||pi ), al variare di i = 1, 2, . . . , 1.

S OLUZIONE
Bisogna ricordare che per una catena Markoviana con matrice di transizione H, si ha pi+1 = H pi . Quindi risulta quanto
segue.
[a.] pi = (1/2, 1/2)T , 8i ) H(Xi ) = 1 bit 8i. [b.] q2 = (3/4, 1/4)T , q3 = (5/8, 3/8)T ) H(Y1 ) = 0, H(Y2 ) 0.8113
bits, H(Y2 ) 0.9544 bits. [c.] D(q1 ||p1 ) = 1 bit; D(q2 ||p2 ) = 0.1887 bits; D(q3 ||p3 ) = 0.0456 bits.

E SERCIZIO 35 In un semplice modello di random walk monodimensionale, la posizione Sn di una certa particella allistante
n e` la risultante di singoli passi unitari e indipendenti. In particolare, siano {Xi }1
i=1 variabili aleatorie iid con Pr{Xi = 1} = p
e Pr{Xi = 1} = q = 1 p (0 < p < 1) e si assuma che la posizione della particella allistante n sia
Sn =

n
X

Xi

i=1

a) Dimostrare che H(Sn ) H(Sn 1 ) 8n > 1.


b) Dimostrare che H(Sn ) H(Xn ) 8n 1.
c) Si calcoli il cosidetto tasso entropico del processo Sn , ovvero il limite
H(S1 , S2 , . . . , Sn )
n
d) Si commentino brevemente i risultati ottenuti nei punti precedenti, alla luce dellinterpretazione fisica dellentropia di
Shannon.
lim

n!1

S OLUZIONE
Per i primi due quesiti, si noti che Sn = Sn 1 + Xn , e che Sn 1 e Xn sono indipendenti. Per la somma di variabili
indipendenti si ha che H(Sn ) H(Sn 1 ) e H(Sn ) H(Xn ) (vedi esercizio 3). Per la soluzione del quesito c e` probabilmente
necessaria la lettura del paragrafo 4.2 p. 63-66 del libro di testo:
T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.

E SERCIZIO 36
Sia X una variabile aleatoria continua a valori nellintervallo (0, 1), con densit`a di probabilit`a f (x), e sia
Z 1
h(X) =
f (x) log [f (x)] dx

(2)

la corrispondente entropia differenziale. Detto n un intero positivo, si definisca

1
2
n 1
,
x2 = ,
...,
xn 1 =
,
xn = 1
(3)
n
n
n
La successione di punti {xk }nk=0 in (3) definisce una partizione dellintervallo (0, 1) in n intervallini di uguale lunghezza
e con funzione massa di probabilit`a
1/n. Si pu`o dunque definire la versione quantizzata della variabile aleatoria X, diciamo X,
e
p(k) = P{X = k} = P{X 2 (xk 1 , xk )}, k = 1, 2, . . . , n.
a. Approssimando lintegrale (2) mediante la somma di contributi relativi ai singoli intervallini della partizione (3), si scriva
e della variabile quantizzata X.
e
la relazione che sussiste tra lentropia differenziale h(X) e lentropia H(X)
b. Assumendo n
1, si commenti la seguente affermazione: lentropia della versione quantizzata a q bit della variabile
aleatoria continua X vale, approssimativamente, h(X) + q.
x0 = 0,

x1 =

e si pu`o
c. Assumendo poi n ! 1, si commenti la seguente affermazione: lentropia differenziale della variabile discreta X
assumere pari a 1.

S OLUZIONE

h(X)

=
=

f (x) log [f (x)] dx =


0

n Z
X

k=1

e
H(X)

log n

n
X

xk
xk

f (x) log [f (x)] dx

np(k) log [np(k)]

k=1

1
n

Si veda anche il paragrafo 9.3, p.228, del libro di testo:


T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.

E SERCIZIO 37 Sia g(x) = p(1 p)x 1 la pmf di una variabile aleatoria geometrica G, con alfabeto A = {1, 2, 3, . . . , 1}, e
media E[G], ove 0 < p < 1 e` un valore noto. Sia inoltre F unaltra variabile aleatoria con pmf arbitraria f (x), a valori nello
stesso alfabeto A, e con la stessa media E[F ] = E[G].
a. Calcolare la media E[G].
b. Calcolare lentropia della variabile aleatoria G, sia essa H(G).
c. Giustificare formalmente i passaggi denotati con (i), (ii), e (iii), nellespressione seguente, ove H(F ) rappresenta
lentropia di F :

1
1
1
X
X
f (x)g(x) (i) X
H(F ) =
f (x) log f (x) =
f (x) log

f (x) log g(x)


g(x)
x=1
x=1
x=1
=

1
X

f (x) log p(1

p)x

log p

x=1
(ii)

1
X

f (x)

log(1

p)

x=1

log p

log(1

p)

1
X

(x

1
X

(x

1)f (x)

x=1

(iii)

1)g(x) = H(G)

x=1

d. In quali condizioni la disuguaglianza (i) diventa unuguaglianza?


e. Enunciare brevemente le implicazioni informazionali della relazione H(F ) H(G).

E SERCIZIO 38
a. Si calcoli la capacit`a del canale BSC con probabilit`a di crossover 0 < < 1/2, mostrato nello schema (a) della figura.
Sia C tale capacit`a.
b. Il canale mostrato nello schema (b) in figura e` costituito dalla cascata di due canali BSC, ciascuno con la stessa probabilit`a
di crossover del canale di cui allo schema (a). In relazione al canale mostrato nello schema (b):
b1. Calcolare le probabilit`a condizionate Pr{Y = i | X = j}, con i = 0, 1, e j = 0, 1.
b2. Mostrare che il canale e` ancora un BSC, e calcolarne la relativa probabilit`a di crossover .
b3. Usando il risultato precedente calcolare la capacit`a del canale, sia essa C .
b4. Mostrare che C < C.

1-

0
1

X
1-

schema (a)

1-

1-

1-

1-

schema (b)

E SERCIZIO 39 Si calcoli la capacit`a del canale DMC (X , p(y|x), Y), in cui X = Y = {1, 2, 3, . . . , n}, e la cui matrice di

transizione p(y|x) e` qui sotto rappresentata, con 0 a 1:


X
Y
1
2
3
n

1
1

a
a

n 1
a
n 1
a
n 1

...

a
n 1

a
n 1
a
n 1

...
...
...
..
.
...

a
n 1
a
n 1
a
n 1

a
n 1
a
n 1

a
n 1

Si discutano poi i casi particolari a = 0, a = 1, n = 2, e n ! 1.

E SERCIZIO 40 Si consideri un canale DMC (X , p(y|x), Y) con capacit`a C.


a. Dimostrare che C min{log |X |, log |Y|}.
b. Fornire un esempio di canale per il quale C = min{log |X |, log |Y|}.
S OLUZIONE
a. I(X; Y ) = H(Y ) H(Y |X) H(Y ) log |Y| ) C = maxp(x) I(X; Y ) log |Y|. Analogamente C log |X |, da cui
lasserto.
b. Il canale triviale Y = X.

E SERCIZIO 41 Si consideri una sorgente di informazione S che emette simboli iid dallalfabeto binario {x, y} in accordo
alla pmf [1 , ], con 0 < < 1.
a. Progettare un codice di Huffman per la sorgente S, e determinarne la lunghezza media L().
Si consideri poi la versione estesa della sorgente, sia essa S (2) , ottenuta considerando coppie di simboli di S. Sia {a, b, c, d}
lalfabeto di S (2) , con a = xx, b = xy, c = yx, d = yy.
b. Determinare la pmf della sorgente S (2) .
c. Progettare un codice di Huffman per la sorgente S (2) , assumendo sufficientemente piccolo.
d. Determinare la lunghezza media del codice di cui al punto precedente, sia essa L2 ().
e. Facendo ricorso al primo teorema di Shannon, dimostrare che, per sufficientemente piccolo, vale la relazione
Hb () >

1 2

S OLUZIONE
a. Il codice di Huffman e` banale: x ! 0, y ! 1, e ovviamente L() = 1.
b. Ai simboli a = xx, b = xy, c = yx, d = yy corrispondono, rispettivamente, le probabilit`a [(1
c. Nella procedura per la determinazione del codice si ottengono le seguenti probabilit`a
(1.1)
(1.2)
(1.3)
(1.4)

(1 )2
(1 )
(1 )
2

(2.1) = (1.1)
(2.2) = (1.3) + (1.4)
(2.3) = (1.2)

(1 )2

(1 )

(3.1) = (2.1)
(3.2) = (2.2) + (2.3)

(1
2

)2
2

)2 , (1

(4.1) = (3.1) + (3.2)

ove si e` assunto 1 per ordinare le probabilit`a in modo non ambiguo. In realt`a basta che risulti
1
2
3
<
2

per garantire < (1 )


p
1
5
per garantire < (1 )2
2
1p
<1
2
per garantire 2 2 < (1 )2
2
p
Lultima condizione e` la pi`u stringente, quindi basterebbe assumere < 1 12 2 0.29.
<

), (1

), 2 ].
1

Un codice di Huffman e`
a
b
c
d
d. Risulta

)2 + 2 (1

L2 () = 1 (1

011

00

010
) + 3 2 = 1 + 3

) + 3 (1

e. Poiche lentropia di S vale Hb (), il primo teorema di Shannon per codici senza prefisso, applicato allestensione n-ma
della sorgente S, afferma che
Ln ()
1
Hb ()
< Hb () +
n
n
Nel caso in esame, n = 2, e risulta
1 + 3 2
1
3
1 2
< Hb () +
) Hb () >

2
2
2
2
Lassunzione 1 serve qui a garantire che la costruzione del codice sia corretta. In merito alla disuguaglianza finale,
vale la pena di osservare che, per ! 0, Hb () ha derivata infinita.

Hb ()

E SERCIZIO 42 Una sorgente di informazione X emette simboli iid in accordo alla pmf
ove
a.
b.
c.
d.
e.

P {X = k} = (1

k = 0, 1, 2, . . .

0 < < 1 e` un parametro assegnato.


Calcolare la media E[X] della variabile aleatoria X.
Calcolare lentropia H(X).
Confrontare H(X) con lentropia binaria di parametro , Hb (). Quale disuguaglianza vale H(X) 7 Hb ()?
Calcolare lim!0 H(X) e lim!1 H(X).
Dimotrare che lentropia H(X) e` funzione crescente di , e graficarne qualitativamente landamento.

S OLUZIONE
P1
a. E[X] = k=0 k(1

)k Poiche
1
X

kk =

k=0

b.

)k ,

1
1
X
d k
d X k
d 1
1
=
=
=
d
d
d 1
(1 )2
k=0

k=0

si ha E[X] = P
/(1 ).
1
k
` una serie di potenze e che pertanto pu`o essereP
(Notiamo
che
derivata termine a termine; la serie
k=0 e
P1 d k
1
k
k=0 d ha lo stesso raggio di convergenza della serie originaria
k=0 .)
H(X)

1
X

)k log (1

(1

k=0

=
Dunque, sapendo che

P1

k=0

(1

1
X

(1

kk = /(1

H(X) =

log(1

)k [log(1

) + k log ]

) log

1
X

kk

k=0

log =

Hb ()
1

< 1.

lim H(X)

lim H(X)

!0

)2

(1

k=0

k=0

c. H(X) > Hb (), visto che 1


d.

!1

) log(1

1
X

)k =

Hb ()
=0
1
log
Hb ()
lim
= lim
!1 1
!1

lim

!0

log e

= lim log
!1

log e = +1

d
d

P1

k=0

k =

e. Conviene assumere che H() sia misurata in nats. Si ha dunque:


(1 ) ln 1 + Hb ()
d Hb ()
H 0 ()(1 ) + Hb ()
= b
=
d 1
(1 )2
(1 )2
(1 ) ln(1 ) (1 ) ln ln (1 ) ln(1 )
ln
=
=
>0
(1 )2
(1 )2

d
H()
d

EP
SERCIZIO 43 Si consideri una corsa tra m cavalli in cui li-mo cavallo ha probabilit`a di vincita pari a pi , con 0 pi 1
m
e i=1 pi = 1. Considerando una successione di n corse iid, uno scommettitore, il cui capitale iniziale ammonta
a S0 euro,
Pm
punta ad ogni corsa una frazione costante bi del proprio capitale sulla vincita del cavallo i-mo, con 0 bi 1 e i=1 bi = 1.
Al termine di ogni corsa le somme di danaro puntate sugli (m 1) cavalli perdenti sono perse, mentre lo scommettitore riceve il
doppio di quanto ha puntato sul cavallo vincente. Dunque, detto Sn 1 il capitale allinizio delln-ma corsa, il capitale posseduto
dallo scommettitore alla fine delln-ma corsa vale Sn = Sn 1 2 bXn , ove Xn 2 {1, 2, . . . , m} e` una variabile aleatoria, con
pmf p = (p1 , p2 , . . . pm ), che rappresenta il cavallo vincente alln-ma corsa. Lo scommettitore vuole scegliere in modo ottimo
il vettore di investimento b = (b1 , b2 , . . . bm ).
a. Esprimere il capitale Sn in funzione di S0 e della successione bX1 , bX2 , . . . , bXn .
b. Calcolare il tasso asintotico di crescita del capitale R(b, p) = limn!1 n1 log Sn .
c. Determinare qual e` il vettore ottimo di investimento b , tale che b = arg maxb R(b, p). (E possibile utilizzare il
metodo di ottimizzazione di Lagrange, oppure ricorrere a disuguaglianze tra quantit`a informazionali.)
d. Determinare il valore massimo e il valore minimo del tasso ottimo R(b , p), al variare di p.
S OLUZIONE
a. Sn = Sn
b.

2 bX n = Sn

R(b, p)

2 bX n

2 bXn = = S0 2n

Qn

i=1 bXi

n
Y
1
1
1
1
lim
log Sn = lim S0 + lim
log 2n + lim
log
bX i
n!1 n
n!1 n
n!1 n
n!1 n
i=1

n
m
X
1X
in prob.
log bXi
! 1 + E[log bX ] = 1 +
pi log bi
n!1 n
i=1
i=1
Pn
c. Il funzionale di Lagrange vale J(b) = R(b, p) + ( i=1 bi 1). Dunque

1 + lim

@
pk
pk
J(b) = 0 )
+ = 0 ) bk =
k = 1, 2, . . . , m
@bk
bk
Pm
Pm
Per determinare , si ha : 1 = i=1 bk = 1 i=1 pk ) = 1. Da cui bk = pk : b = p, ovvero linvestimento
proporzionale e` log-ottimo.
In alternativa,

m
m
X
X
p i bi
R(b, p) = 1 +
pi log bi = 1 +
pi log
= 1 H(p) D(p||b) 1 H(p)
pi
i=1
i=1

Luguaglianza si ha se e solo se b = p e dunque b = p. Dunque R(b , p) = 1 H(p)


d. 1 log m R(b , p) = 1 H(p) 1
Si vede innanzitutto che lunico caso in cui vale la pena di scommettere e` quando H(p) < 1. Poi, il caso pi`u vantaggioso e`
quello in cui la corsa e` meno entropica: se un cavallo vince con probabilit`a uno, il capitale cresce esponenzialmente Sn 2n ,
il che e` del tutto ovvio essendo tutto il capitale puntato sul cavallo vincente. Opposta e` la situazione in cui la corsa e`
massimamente entropica: per p uniforme si ha R(b , p) = 1 log m, e Sn 2 (log m 1) , e il capitale dello scommettitore
decresce esponenzialmente per ogni m 3. Per m = 2 il capitale rimane costante, il che e` di ancora ovvio: si punta la met`a
del capitale su ognuno dei due cavalli e dunque, indipendentemente da p, il capitale deve rimanere costante.

E SERCIZIO 44 Siano X e Y due variabili aleatorie discrete binarie a valori in {0, 1} e sia:
P(X = 0|Y = 0) = 1

P(X = 1|Y = 0) = ,
P(Y = 0) = 1

con , , , parametri noti 2 (0, 1).


a. Calcolare H(X|Y ) e H(X).

P(X = 0|Y = 1) = 1

P(Y = 1) = ,

P(X = 1|Y = 1) = ,

b. Utilizzando la nota relazione H(X|Y ) H(X), dimostrare che la funzione entropia binaria Hb (z) e` funzione concava
della variabile z 2 (0, 1).

Generalizzando, sia X una variabile aleatoria discreta con generico alfabeto X . Sia p0 la pmf condizionata della variabile
aleatoria X dato che Y = 0, e p1 la pmf condizionata della variabile aleatoria X dato che Y = 1. Assumendo sempre
P(Y = 0) = 1
, e P(Y = 1) = :
c. Calcolare H(X|Y ) e H(X).
T
d. Utilizzando la nota relazione H(X|Y ) H(X), dimostrare che lentropia H(p) e` funzione concava
rispetto alla
pmf p.

E SERCIZIO 45 Siano X e Y due variabili aleatorie con alfabeto, rispettivamente, X = {1, 2} e Y = {1, 2, 3}. La pmf
congiunta delle due variabili e` riportata nella seguente tabella, ove 0 p 1:
X=1

X=2

Y =1

1
2

Y =2

p
4
1

Y =3

p
4

p
4

a. Calcolare lentropia congiunta H(X, Y ).


b. Calcolare lentropia H(X) e lentropia H(Y ).
c. Calcolare lentropia condizionata H(X|Y ) e graficarne landamento in funzione di p.
d. Calcolare lentropia condizionata H(Y |X) e graficarne landamento in funzione di p.
e. Verificare che H(X|Y ) H(X).
f. Verificare che H(Y |X) H(Y ).
g. Verificare che H(X) + H(Y |X) = H(Y ) + H(X|Y ) = H(X, Y ) e che H(X) H(X|Y ) = H(Y )
(Pu`o essere utile sapere che Hb (1/4) 0.81)

H(Y |X)

S OLUZIONE
a. H(X, Y ) = Hb (p)/2 + 3/2.
b. H(X) = Hb (1/4); H(Y ) = 3/2.
c. H(X|Y ) = Hb (p)/2.
d. H(Y |X) = Hb2(p) + 34 log 3 12 .

E SERCIZIO 46 Sia P linsieme di tutte le pmf con alfabeto finito X = {1, 2, 3, . . . , N }. Siano inoltre p 2 P una arbitraria
pmf di questa classe, e u 2 P la pmf uniforme.
a. Utilizzando il metodo di ottimizzazione di Lagrange, dimostrare che
u = arg max H(p)
p2P

ovvero, u rappresenta la distribuzione a massima entropia nellinsieme P.


b. Ripetere la dimostrazione di cui al punto precedente, utilizzando questa volta il metodo informazionale.
S OLUZIONE
a. Usando lentropia misurata in nats, si ha
J(p) =

N
X

N
X

pi log pi +

i=1

@Jp
=0
@pk

log pk

1+

pi

i=1

=0

pk = e

!
1

Imponendo il vincolo si ottiene infine pk = 1/N , k = 1, 2, . . . , N , ovvero pk = uk , k = 1, 2, . . . , N .


b. Con il metodo informazionale si ha

N
N
N
X
X
X
pi u i
H(p) =
pi log pi =
pi log
=
pi log ui D(p||u)
ui
i=1
i=1
i=1

N
X

pi log ui =

i=1

N
X

pi log

i=1

con uguaglianza se e solo se p = u.

1
= log N = H(u)
N

E SERCIZIO 47 Sia p una pmf Bernoulliana di parametro 2 (0, 1) e q una pmf Bernoulliana di parametro + , con ||
sufficientemente piccolo. Si vuole calcolare la divergenza D(p||q) e, tenendo conto del fatto che || 1, si approssima tale
divergenza con il suo sviluppo in serie arrestato al secondo termine:
D(p||q) f (, ):= D(p||q) |=0 +

@D(p||q)
@

+
=0

@ 2 D(p||q)
@2

=0

2
2

a. Si ricavi lespressione analitica della funzione f (, ).


b. Fissato , qual e` il valore di che rende minima la distanza f (, ) tra le due pmf?
c. Si ripeta lesercizio considerando la divergenza D(q||p) in luogo della divergenza D(p||q).
S OLUZIONE
a. Si ha

p x (1

)1

q ( + )x (1

)1

x 2 {0, 1}

(1

) log(1

e dunque, usando i logaritmi in base e per semplicit`a di calcolo,


D(p||q) = log

log( + ) + (1

) log(1

Da cui
D(p||q) |=0
@D(p||q)
@
2
@ D(p||q)
@2

=
=
=

D(p||p) = 0

1
@D(p||q)
+
)
=0
+ 1
@
=0
1

1
@ 2 D(p||q)
)
=
( + )2
(1 )2
@2
(1
)
=0

Infine
f (, ) =

2
2(1 )

b. Fissato , la funzione f (, ) risulta massima per = 1/2 e si ha f (1/2, ) = 2 /2.


c. Il risultato e` lo stesso. Infatti:
D(q||p) = ( + ) log( + )
D(q||p) |=0
@D(q||p)
@
2
@ D(q||p)
@2

( + ) log + (1

D(q||q) = 0

log( + ) + 1

1
+
+ 1

log

log(1

) log(1

@ 2 D(p||q)
@2

(1

1 + log(1

=
=0

) log(1

@D(q||p)
@

=0
=0

1
(1

E SERCIZIO 48 Si consideri un canale DMC X ! Y con alfabeto di ingresso e di uscita X = Y = {0, 1}, tale che
P(Y = 0|X = 0) = 1,

P(Y = 1|X = 1) =

1
.
2

Calcolare la capacit`a C del canale e stabilire qual e` il valore di p:=P(X = 1) che massimizza la mutua informazione I(X; Y ).
S OLUZIONE
Intanto ricaviamo le altre due probabilit`a che caratterizzano il canale:
P(Y = 1|X = 0) = 1

P(Y = 0|X = 0) = 0

P(Y = 0|X = 1) = 1

P(Y = 1|X = 1) =

1
2

Si tratta del cosiddetto canale Z. Si ha


H(Y |X = 1) = Hb (1/2) = 1 bit

H(Y |X = 0) = 0

) H(Y |X) = pH(Y |X = 1) + (1

Inoltre,

p)H(Y |X = 0) = p

bits

P(Y = 1) = P(Y = 1|X = 0)P(X = 0) + P(Y = 1|X = 1)P(X = 1) = (1


) H(Y ) = Hb (p/2)

Dunque

p)0 + p

bits

I(X; Y ) = H(Y )

H(Y |X) = Hb (p/2)

1
p
=
2
2

bits

Per calcolare la capacit`a dobbiamo massimizzare linformazione mutua rispetto a p. Procedendo mediante derivazione si ha
(log denota il logaritmo in base 2, ln quello in base e)
p

d
d
d h p
p
p i
I(X; Y ) =
Hb (p/2) 1 =
log
1
log 1
1
dp
dp
dp
2
2
2
2

1
p
log e 1
p
log e
=
log
+ log 1
+
1
2 2 2
2
2
2
1
2 p
=
log
1
2
p
d
1
2 p
I(X; Y ) = 0 ) log
dp
2
p

1=0)

p
p

= 4 ) p =

2
5

Quindi p = p massimizza linformazione mutua e di conseguenza

C = max I(X; Y ) = Hb (p /2)

p 0.322

bits

E SERCIZIO 49 Si consideri una sorgente di informazione senza memoria con alfabeto binario X = {0, 1} e si denoti con
H(X) la corrispondente entropia. Si denotino inoltre con xn = (x1 , . . . , xn ) una generica sequenza di lunghezza n prodotta
dalla sorgente (cio`e una n-sequenza di variabili aleatorie iid binarie), e con tn il numero di 1 presenti nella n-sequenza. Sia
0 < p < 1 la probabilit`a che la singola uscita della sorgente valga 1. Definiamo, per sufficientemente piccolo,

1
(n)
T := xn :
log2 P(xn ) H(X) <
(`e il noto set tipico)
n

tn

S(n) := xn :
p <
(viene detto set fortemente tipico)
n
2
(n)

(n)

(n)

(n)

a. Stabilire per quali valori di p si ha: (a1) T S ; (a2) S T ; (a3) i due insiemi coincidono.
(n)
b. Si consideri ora il caso particolare p = 1/2. A cosa corrisponde linsieme tipico T ? Quale relazione di inclusione vale
tra i due insiemi?
S OLUZIONE
Per brevit`a, denotiamo con log() il logaritmo in base 2. Osserviamo preliminarmente che:
H(X) = Hb (p) =
P(xn ) = ptn (1
Dunque:

p)n

tn

p log p

(1

p) log(1

1
log P(xn ) =
n

tn
log p
n

p) =
n

tn
n

p log p + p log(1
log(1

p) =

p)

log(1

p)

tn
tn
log p +
log(1
n
n

p)

log(1

p)

1
log2 P(xn )
n

H(X)

tn
tn
log p +
log(1 p) log(1 p) + p log p p log(1 p) + log(1
n
n

tn
1 p
tn
1 p
p log
=
p p ,
con p := log
n
p
n
p

=
=

Per cui:

T(n) := xn :

Si ha pertanto quanto segue.


(n)
(n)
a1. T S equivale a p <
(n)
S
(n)
S

(n)
T
(n)
T

1
log2 P(xn )
n

H(X) <

xn :

tn
n

p <

p)

, p > 2 , p 2 (0, 1/5) [ (4/5, 1)

a2.

, p 2 (1/5, 4/5)
a3.

, p = 1/5 e p = 4/5, nel qual caso p = 2.


n
(n)
(n)
(n)
b. Per p = 1/2 si ha P(xn ) = 12 e n1 log P(xn ) = 1 = Hb 12 , per cui T X n , mentre ovviamente S T :
Tutte le sequenze sono tipiche ma non tutte sono fortemente tipiche. Si noti che in questo caso p = 0 e lespressione
(n)
T tnn p < p non ha senso.

E SERCIZIO 50 Siano X1 , X2 , X3 tre variabili aleatorie binarie definite sullalfabeto X = {0, 1}. Sia inoltre P(X1 = 1) = p.
La variabile X1 rappresenta lingresso di un canale BSC con probabilit`a di crossover 1/2, la cui uscita e` X2 . A sua volta X2
rappresenta lingresso di un ulteriore canale BSC con probabilit`a di crossover , la cui uscita e` X3 . Si consideri la sorgente di
informazione S la cui uscita e` il vettore X = (X1 , X2 , X3 ). Assumendo 1/2 < p < 2/3, ed > 0 piccolo a piacere:
a. calcolare lentropia di sorgente H(X);
b. progettare un codice di Huffman per la sorgente S, e determinarne la lunghezza media L(p, ).
c. Ripetere lesercizio assumendo questa volta = 0.
S OLUZIONE
Preliminarmente, si noti che X1 e` indipendente dalla coppia (X2 , X3 ), per effetto del primo canale BSC(1/2). Per lo stesso
motivo, luscita X2 del primo canale risulta equiprobabile: P(X2 = 1) = 1/2. Di conseguenza, essendo X2 lingresso del
secondo canale BSC(), anche X3 risulta equiprobabile: P(X3 = 1) = 1/2.
a. H(X) = H(X1 ) + H(X2 |X1 ) + H(X3 |X2 , X1 ) = Hb (p) + H(X2 ) + H(X3 |X2 ) = Hb (p) + 1 + Hb ().
b. I simboli di sorgente, ordinati in senso decrescente secondo le corrispondenti probabilit`a (lordinamento tiene conto della
condizione 1/2 p 2/3, e del fatto che pu`o essere assunto piccolo a piacere), sono:
simbolo

probabilit`a

111
100
000
011
101
110
001
010

p (1 )/2
p (1 )/2
(1 p) (1 )/2
(1 p) (1 )/2
p /2
p /2
(1 p) /2
(1 p) /2

Un codice di Huffman si ottiene dallo schema:


(1.1)
(1.2)
(1.3)
(1.4)
(1.5)
(1.6)
(1.7)
(1.8)

p (1 )/2
p (1 )/2
(1 p) (1 )/2
(1 p) (1 )/2
p /2
p /2
(1 p) /2
(1 p) /2

(2.1) = (1.1)
(2.2) = (1.2)
(2.3) = (1.3)
(2.4) = (1.4)
(2.5) = (1.7) + (1.8)
(2.6) = (1.5)
(2.7) = (1.6)

p (1 )/2
p (1 )/2
(1 p) (1 )/2
(1 p) (1 )/2
(1 p)
p /2
p /2

(3.1) = (2.1)
(3.2) = (2.2)
(3.3) = (2.3)
(3.4) = (2.4)
(3.5) = (2.6) + (2.7)
(3.6) = (2.5)

p (1 )/2
p (1 )/2
(1 p) (1 )/2
(1 p) (1 )/2
p
(1 p)

(4.1) = (3.1)
(4.2) = (3.2)
(4.3) = (3.3)
(4.4) = (3.4)
(4.5) = (3.5) + (3.6)
(6.1) = (5.3) + (5.4)
(6.2) = (5.1)
(6.3) = (5.2)

(1

Dunque risulta:

p (1 )/2
p (1 )/2
(1 p) (1 )/2
(1 p) (1 )/2

p) (1 ) +
p (1 )/2
p (1 )/2

(5.1) = (4.1)
(5.2) = (4.2)
(5.3) = (4.4) + (4.5)
(5.4) = (4.3)

(7.1) = (6.2) + (6.3)


(7.2) = (6.1)

simbolo

probabilit`a

111
100
000
011
101
110
001
010

p (1 )/2
p (1 )/2
(1 p) (1 )/2
(1 p) (1 )/2
p /2
p /2
(1 p) /2
(1 p) /2

p (1 )
p) (1 ) +

(8.1) = (7.1) + (7.2)

parola codice
!
!
!
!
!
!
!
!

La lunghezza media del codice vale


L(p, )

(1

p (1 )/2
p (1 )/2
(1 p) (1 )/2 +
(1 p) (1 )/2

2 [p (1 ) + (1 p) /2] + 3(1
1
=
[5 p(1 ) + 5]
2
c. Assumendo = 0, si ha X3 = X2 . Il calcolo dellentropia fornisce

11
10
00
011
01011
01010
01001
01000

p) /2 + 5 [p + (1

p) ]

H(X) = H(X1 ) + H(X2 |X1 ) + H(X3 |X2 , X1 ) = Hb (p) + H(X2 ) + 0 = Hb (p) + 1

risultato che si ottiene anche per continuit`a considerando che lim!0 Hb () = 0.


Per il codice di Huffman, invece, occorre ora notare che i simboli di sorgente sono solo quattro e, precisamente:
simbolo

probabilit`a

111
100
000
011

p/2
p/2
(1 p)/2
(1 p)/2

Ricaviamo un codice di Huffman:


(1.1)
(1.2)
(1.3)
(1.4)
Quindi:

p/2
p/2
(1 p)/2
(1 p)/2

(2.1) = (1.3) + (1.4)


(2.2) = (1.1)
(2.3) = (1.2)

1 p
p/2
p/2

(3.1) = (2.2) + (2.3)


(3.2) = (2.1)

simbolo

probabilit`a

111
100
000
011

p/2
p/2
(1 p)/2
(1 p)/2

p
1

(4.1) = (3.1) + (3.2)

parola codice
!
!
!
!

11
10
00
01

La lunghezza media di questo codice e` 2. Vale la pena di osservare che la terza cifra binaria del simbolo in uscita alla
sorgente pu`o non essere trasmesso, essendo uguale al simbolo che lo precede. Non a caso il codice di Huffman, in questo
esempio, e` costituito dalle prime due cifre binarie delluscita della sorgente. Queste cifre sono indipendenti e estensioni
n-me di sorgente consentono di ottenere un codice con lunghezza media pari a 1 + Hb (p) per simbolo.
Naturalmente, se ora assumessimo p = 1/2, allora luscita di sorgente e` rappresentata da due cifre binarie indipendenti,
ciascuna con distribuzione uniforme, pi`u una copia della seconda cifra. Il codice corrispondente, ignorando la terza cifra,

e` lidentit`a, e la lunghezza media, pari a 2, e` uguale a 1 + Hb (1/2), cio`e il codice raggiunge il limite entropico anche
senza ricorrere alla rappresentazione estesa della sorgente.

E SERCIZIO 51 Utilizzando il metodo del funzionale di Lagrange, si determini la pmf p = (p1 , p2 , . . . , pm ), che abbia la
massima entropia compatibilmente con il vincolo p1 = a, con 0 < a < 1 costante assegnata. Ipotizzando poi m pari, si ripeta
Pm/2
lesercizio assumendo questa volta che il vincolo sia k=1 pk = a.
S OLUZIONE
Il funzionale di Lagrange per il primo caso e` :
m
X

J(p) =
ove il vincolo implicito e`

Pm

pk log pk + (p1

m
X

a) +

k=1

k=2

pk

1+a ,

k=2

a. E dunque, assumendo logaritmi in base e per semplificare il conto,

pk = 1

@J(p)
=0 )
@p1
@J(p)
=0 )
@pi

i > 1,

log p1
log pi

=0

p1 = e

1+=0

pi = e

1+

Imponendo i vincoli,
p1 = a ) e 1 = a,
m
X
pi = 1 a ) e

(m

1) = 1

i=2

Dunque:

1
m

p1 = a, p2 = p3 = = pm =
Nel secondo caso, analogamente, si ha:
m
X

J(p) =

k=1

Quindi
i = 1, . . . ,
i=

m/2

pk log pk + @

m
,
2

pk

k=1

@J(p)
=0
@pi
@J(p)
=0
@pi

m
+ 1, . . . , m,
2

aA + @

1
m

a
.
1

a
.
1
m
X

1 + aA ,

pk

k= m
2 +1

log pi

1+

=0

pi = e

log pi

1+=0

pi = e

Imponendo i vincoli,
m/2

i=1
m
X

i= m
2 +1

Dunque:

pi = a
pi = a

1m

=a

1m

=
e

2a
,
m
1

2(1 a)
.
m

2a
,
m
m
2(1 a)
i=
+ 1, . . . , m,
pi =
.
2
m

i = 1, . . . ,

m
,
2

=1

pi =