Sei sulla pagina 1di 162

: Il mondo dell'informatica

Claude E.Shannon-Warren Weaver

LA TEORIA
MATEMATICA DELLE
COMUNICAZIONI

ETAS LIBRI
><
,..
Cl
""'
""
Cl

Claude E. Shannon - Warren Weaver


LA TEORIA MATEMATICA DELLE COMUNICAZIONI

La collana <di mondo dell'informatica» intende approfondire


gli aspetti più rilevanti di un fenomeno che sta assumendo sempre
maggiore importanza per ogni tipo di organizzazione e che avrà
notevoli ripercussioni sul nostro stesso modo di vivere.

Questo volume, ormai considerato un classico, riporta il fondamentale


articolo di Shannon sulla teoria della comunicazione, pubblicato nel
1948 nel Beli System Technlcal Journal. Per chiarezza e semplicità esso
costituisce ancora oggi una delle migliori esposizioni della teoria
dell'informazione che, sviluppata da Shannon in notevoli successivi
lavori, riguarda essenzialmente i problemi delle comunicazioni in
presenza di disturbi, teoria che ha trovato applicazioni anche in campi
ben lontani da quello specifico per il quale era stata scritta.
La trattazione di Weaver invece è una esposizione non matematica dei
concetti fondamentali e dei risultati della teoria di Shannon, e mostra
come la teoria abbia importanti applicazioni nella società.
Nel complesso i due scritti costituiscono un eccellente esempio di una
teoria in grado di unificare branche diverse della fisica e di proiettare la
sua validità fino al campo della semantica e dell'economia.

L 12.000
IVA compresa
Il mondo dell'informatica l 10
Il mondo dell'informatica
l - M. Ri«iardi, Informatica e azienda

2 - M. Italiani - G. Serazzi, Elementi di informatica

3 - F. Lerda, Algebra moderna e circuiti di commutazione

4 - G. Balhiano, Produrre con l'elaboratore

5 - E. lùlpp, Il sistema "viewdata"

6 - F. Cianflone, L'algebra di Boole e i circuiti logici


7 - P. Maggiolini, Costi e benefici di un sistema informativo

8 - H.H. Goldsline, Il computer da Pasca! a von Neumann

9 - P. P. Camussone, Il sistema informativo

10- CE. Shannon - W. Wea��tr, La teoria matematica delle comunicazioni


Claude E. Shannon
Warren Weaver

La teoria matematica
delle comunicazioni

ETAS LIBRI
The Mathematical Theory of Communication
by Claude E. Shannon and Warren Weaver

Originai English-language edition published by the


University of Illinois Press
Copyright, 1949, by the Board of Trustees of the
University of Illinois

Traduzione dall'inglese di Paolo Cappelli

Copyright© 1971 Gruppo Editoriale Fabbri - Bompiani, Sonzogno, Etas S.p.A.

I diritti di traduzione, di riproduzione e di adattamento, totale o parziale e con qualsiasi mezzo


(comprese le copie fotostatiche e i microfilm) sono riservati per tutti i paesi.

Seconda edizione italiana: aprile 1983


Indice

IX Presentazione di Lorenzo Lunelli

XI Prefazione

Recenti contributi alla teoria matematica delle comunicazioni


di Warren Weaver

l Capitolo l - Nota introduttiva sulla impostazione generale

degli studi analitici sulle comunicazioni


1.1. Comunicazione; 1.2. Tre livelli di problemi riguardanti le
comunicazioni; 1.3. Osservazioni.

6 Capitolo 2 - Problemi della comunicazione al livello A


2.1. Un sistema di comunicazione e i problemi relativi; 2.2. In·
formazione; 2.3. Capacità di un canale di comunicazione; 2.4.
Codifica; 2.5. Disturbo; 2.6. Messaggi continui.

26 Capitolo 3 - Le interrelazioni dei tre livelli dei problemi del­

le comunicazioni
3.1. Premessa; 3.2. Carattere generale della teoria al livello A.

La teoria matematica delle comunicazioni


di Claude E. Shannon
33 Introduzione

39 Capitolo l - Sistemi discreti non disturbati


l. Il canale discreto non disturbato; 2. La sorgente discreta di
informazioni; 3. La successione di approssimazioni della lingua
inglese; 4. Rappresentazione grafica di un processo di Markoff;
S. Sorgenti ergodiche e miste; 6. Scelta, incertezza ed entropia;
7. La entropia di una sorgente di informazioni; 8. Rappresen­
tazione delle operazioni di codifica e di decodifica; 9. Il teo­
rema fondamentale per un canale non disturbato; 10. Discus­
sione ed esempi.

71 Capitolo 2 - Il canale discreto con disturbo


11.Rappresentazione di un canale discreto disturbato; 12. Equi­
vocazione e capacità del canale; 13. Il teorema fondamentale
per un canale discreto con disturbo; 14. Discussione; 15. Esem­
pio di un canale discreto e sua capacità; 16. La capacità del
canale in certi casi speciali; 17. Esempio di codifica ad alto
rendimento.

88 Capitolo 3 - Informazioni continue


18. Insiemi e complessi di funzioni; 19. Complessi di funzioni
a banda limitata; 20. Entropia di una distribuzione continua;
21. Entropia di un complesso di funzioni; 22. Perdita di entro­
pia nei filtri lineari; 23. Entropia della somma di due complessi.

1 06 Capitolo 4 - Il canale continuo


24. La capacità di un canale continuo; 25. Capacità del canale
con una limitazione di potenza media; 26. La capacità del
canale con una limitazione nella potenza di picco.

118 Capitolo 5 - La velocità per una sorgente continua


27. Funzioni per la valutazione della fedeltà; 28. La velocità
per una sorgente relativa ad una valutazione di fedeltà; 29. Il
calcolo delle velocità.

127 Riconoscimenti
129 Appendice l L'aumento del numero di blocchi di simboli
-

con una condizione a stati finiti

131 Appendice 2 - Derivazione di H = - r.pi log pi


1 33 Appendice 3 - Teoremi sulle sorgenti ergodiche

135 Appendice 4 Massimizzazione della velocità in un sistema


-

con restrizioni

137 Appendice 5

139 Appendice 6
142 Appendice 7
Presentazione

La teoria dell'informazione si può affermare sia nata con il lavoro di


C. E. Shannon comparso nel 1948 nella rivista «BeH System Technical
Journal » e ripubblicato nel 1949 (unitamente ad un articolo espositivo di
W. Weaver) nel volume che viene ora presentato ai lettori italiani.

Lo stile dell'opera di C. E. Shannon è assai stringato mirando all'esposi­


zione dei problemi ed alla loro soluzione, senza soffermarsi in eccessive
precisazioni matematiche. La trattazione del caso discreto è particolar­
mente approfondita e costituisce una limpida ed efficace presentazione
dell'argomento; la trattazione del caso continuo è meno approfondita e
per la sua comprensione si richiede forse qualche attenzione da parte del
lettore, il quale può trovare nell'articolo « Communication in the Presence
of Noise »1 dello stesso Shannon una visione geometrica di particolare
interesse.

Il breve trattato è da considerarsi ormai un classico; per chiarezza e


semplicità costituisce ancor oggi una delle migliori esposizioni della teoria
dell'informazione che, sviluppata dallo Shannon anche in notevoli succes­
sivi lavori, riguarda essenzialmente i problemi delle comunicazioni in
presenza di disturbi (rumori). E purtroppo va osservato che qualunque
trasmissione di informazioni con mezzi fisici è sempre accompagnata
da disturbi; la teoria dell'informazione ha permesso di dominare un
problema di notevole importanza, consentendo di realizzare comunica­
zioni a grandissima distanza (si pensi alle sonde spaziali per l'esplorazione

' C. E. Shannon, Communication in the Presence ot Noise, Proceeding of the IRE,


Vol. 37, 1949, pp. 10-21.

IX
dei satelliti più lontani) o di trasmettere dati numerici con particolare
sicurezza.

Sulla scia delle considerazioni svolte dallo Shannon si è sviluppata una


scuola che ha grandemente contribuito allo sviluppo della teoria dell'infor­
mazione; il recente volume di R. G. Gallager' costituisce una completa e
aggiornata trattazione dei problemi delle comunicazioni.

A chi desiderasse vedere una esposizione più distesa e completa della


teoria dell'informazione si può suggerire la lettura del chiaro testo di
R. Ash'; per il particolare argomento dei codici algebrici il testo di
E. R. Berlekamp• contiene gli sviluppi matematici più avanzati.

Va segnalato che la teoria dell'informazione può venir applicata anche ad


altri campi; ad esempio all'economia, come si può vedere nell'opera di
H. Theil' od anche a problemi di logica (o più precisamente ai cosi detti
giochi matematici) come si può vedere nel libretto di semplice lettura
(in quanto richiede solo le conoscenze matematiche impartite nelle scuole
secondarie) dovuto ai russi A. M. Yaglom e I. M. Yaglom•.

Chi desiderasse infine una esposizione divulgativa della teoria dell'infor­


mazione, che accenni ad applicazioni nei più svariati campi, può leggere il
volume di John R. Pierce, unica opera tradotta anche in italiano'.

Si sono ricordati qui alcuni volumi oltre che per suggerire qualche ulte­
riore lettura anche per far presente il grandissimo sviluppo che ha avuto
in circa 25 anni la teoria dell'informazione, che ancor oggi costituisce
un campo di intensi studi, ma i cui fondamenti sono tutti contenuti
nell'aureo libretto qui tradotto.
Lorenzo Lunelli

' R. G. Gallager, Information Th.eorg and Reltable Communtcation, J. Wlley and


Sons, New York, 1968.
1 R. Ash, Information Th.eorg, Interscience Publishers, J. Wlley and Sons, New
York, 1965.
• E. R. Berlekamp, Algebratc Coding Theorg, McGraw-Hill, New York, 1968.
' H. Thell, Economics and Informatton Theorg, North-Hollllld PubltshJng Com­
pany, Amsterdam, 1967.
• A. M. Yaglom, l. M. Ya glom, Probabilité et Information <Trad. eli Mercouroff),
Dunod, Parts, 1969.
' J. R. Pierce, La teoria ctell'informazione, Edizioni Scientifiche e Tecniche Mon­
dadori, 1965.

x
Prefazione

Gli ultimi anni hanno visto una rilevante attività di ricerca


nel campo della teoria delle comunicazioni da parte di nume­
rose persone, sia qui che all'estero. Considerato il diffuso inte­
resse in questo campo, Dean L. N. Ridenour ha proposto il se­
guente volume, costituito da due scritti su tale argomento.
Il primo di questi lavori non è stato precedentemente pub­
blicato nella forma attuale, ma ne comparve una riduzione su
Scientific American, nel luglio del 1 949. In parte, esso consiste
in una introduzione, di carattere espositivo, alla teoria generale
e può essere letto facilmente da coloro che desiderino avere una
visione panoramica dell'argomento prima di affrontarne gli
aspetti più specificamente matematici. Inoltre vengono suggerite
alcune idee per una più vasta applicazione dei principi fondamen­
tali della teoria delle comunicazioni.
Il secondo scritto viene ripreso senza mutamenti, eccezion
fatta per la correzione di irrilevanti errori tipografici e la in­
clusione di qualche riferimento aggiuntivo, dal Bell System
Technical Journal, luglio ed ottobre 1 948. E' inteso che succes­
sivi sviluppi in materia saranno trattati in un lavoro già proget­
tato che tratti gli aspetti più generali della teoria delle infor­
mazioni.

XI
Ci è gradito esprimere i nostri ringraziamenti a Dean Ride­
nour per aver reso possibile questo libro e alle edizioni dell'Uni­
versità dell'Illinois per la loro magnifica collaborazione.

C. E. SHANNON
W. WEAVER

Settembre 1 949
Recenti contributi alla
teoria matematica delle comunicazioni
di Warren Weaver
l

Nota introduttiva sulla impostazione generale


degli studi analitici sulle comunicazioni1

1.1. Comunicazione

Il termine comunicazione sarà da noi usato in un senso


molto ampio per comprendervi tutti i procedimenti attraverso i
quali un pensiero può influenzarne un altro. Questi, naturalmente,
comprendono non solo il linguaggio scritto e parlato, ma anche
la musica, le arti figurative, il teatro, la danza e, di fatto, qua­
lunque comportamento umano. In qualche caso può risultare
preferibile usare una definizione ancora più vasta di comunica­
zione, vale a dire una definizione che includa i procedimenti
attraverso i quali un meccanismo (come un impianto automa­
tico per il rilevamento di un aeroplano e per il calcolo della sua
probabile posizione futura) entra attivamente in rapporto con un
altro meccanismo (un missile diretto alla caccia dell'aeroplano).
La terminologia usata sembrerà spesso riferirsi al campo
speciale, ma tuttavia molto vasto ed importante, della comuni­
cazione della parola; ma in pratica tutto quanto scritto si rife­
risce altrettanto bene alla musica di qualunque genere e ad im·
magini ferme o in movimento, come nella televisione.

1 Questo lavoro è suddiviso in tre capitoli. Nel primo e nel terzo Warren
Weaver è responsabile sia delle idee che della forma. L'altro capitolo cc Problemi
della comunicazione al livello A », costituisce una interpretazione degli scritti
matematici di Claude Shannon dei Beli Telephone Laboratories. Il lavoro di
Shanno n trae origine, come ha fatto rilevare Von Neumann, dalla osservazione

l
1 .2. Tre livelli di problemi riguardanti le comunicazioni

In relazione all'ampio campo della comunicazione, sembrano


porsi problemi a tre livelli. Così sembra logico chiedersi, nel­
l'ordine:
Livello A. Con quanta esattezza possono venir trasmessi i simboli
della comunicazione? (Problema tecnico)
Livello B. Con quanta precisione i simboli trasmessi trasferi­
scono il significato desiderato? (Problema semantico)
Livello C. In che misura il significato giunto a destinazione induce
realmente ad un comportamento nel senso desiderato? (Pro­
blema della efficacia)
I problemi tecnici riguardano l'esattezza del trasferimento dal
mittente al destinatario di serie di simboli (linguaggio scrit­
to), oppure di un segnale continuamente variabile (trasmissione
telefonica o radiofonica di musica o voce), oppure di un modello
a due dimensioni continuamente variabile (televisione), ecc. Dal
punto di vista matematico, il primo caso comporta la trasmissione
di un'insieme finito di simboli discreti, il secondo la trasmissione
di una funzione continua del tempo, il terzo caso la trasmissione
di parecchie funzioni continue del tempo oppure di una fun­
zione del tempo e di due coordinate spaziali.

fatta da Boltzmann, nel suo lavoro di fisica statistica ( 1 894), che entropia è
affine a cc informazione mancante 11, considerando che è in relazione con il
numero di alternative ancora possibili per un sistema fisico, una volta che
tutte le informazioni che lo riguardano e che siano osservabili in modo macro­
scopico siano state registrate. L. Szilard <Zsch. f. Phis. Vol. 53, 1925) estese
questa idea ad una discussione generale della informazione nella fisica, e von
Neumann <Math. Foundation oj Quantum Mechanics, Berlin, 1932, Cap. V) ha
trattato l'informazione in termini di meccanica quantistica e di fisica delle par·
ticelle. L'opera di Shannon si collega più direttamente a certe idee sviluppate
circa venti anni or sono da H. Nyquist e R. V. L. Hartley, entrambi dei
Beli Telephone Laboratories; Shannon stesso ha inoltre messo in evidenza che
la teoria delle comunicazioni deve molto a Norbert Wiener per gran parte della
concezione che ne è alla base. Wiener, d'altra parte, mette in rilievo che il
primo lavoro di Shannon sulla teoria della commutazione e sulla logica e ma·
tematica è antecedente al suo interesse in questo campo e generosamente ag.
giunge che a Shannon spetta il merito di uno sviluppo indipendente di aspetti
fondamentali della teoria, come l'introduzione del concetto di entropia. Ovvia­
mente Shannon si è particolarmente dedicato a sviluppare le applicazioni nel
campo tecnico, mentre Wiener si è prevalentemente dedicato alle applicazioni
In campo biologico (fenomeni del sistema nervoso centrale, ecc.).

2
I problemi semantici riguardano la identità, o una appros­
simazione soddisfacente nell'interpretazione del significato da
parte del ricevente, confrontata con il significato inteso da chi
ha inviato la comunicazione. E' questa una situazione molto se­
ria e complessa, anche quando si tratti dei problemi, relativa­
mente più semplici, della comunicazione tramite parole.
Una complicazione fondamentale è illustrata dalla osservazio­
ne che se c'è il dubbio che Tizio non comprende ciò che dice
Caio, allora non è teoricamente possibile, se Caio si limita a
parlare nuovamente con Tizio, chiarire completamente questa
situazione in un tempo finito. Se Caio dice « Mi capisci adesso? »
e Tizio dice « Certamente, sì > ciò non costituisce necessaria­
mente una garanzia che si sia giunti alla comprensione. Può
semplicemente essere che Tizio non abbia capito la domanda.
Se ciò non appare convincente si provi con « Czy paii mnie ro­
zumie >> e con la risposta (( Hai wakkate imasu >> . Ritengo che
questa difficoltà di fondo2 sia, almeno nel ristretto campo della
comunicazione linguistica, ridotta in termini tollerabili (ma mai
completamente eliminata) da (( spiegazioni>> che (a) non sono
presumibilmente niente più che approssimazioni rispetto alle
idee che vengono esposte, ma che (b) sono comprensibili dal
momento che sono formulate in un linguaggio che è stato prece­
dentemente reso ragionevolmente chiaro mediante mezzi opera­
zionali. Per esempio, non ci vuole molto a costruire il simbolo
equivalente a (( sì >> in qualunque linguaggio operazionalmente
comprensibile.
Il problema semantico presenta vaste ramificazioni se si pensa
alle comunicazioni in generale. Si consideri, per esempio, il si­
gnificato per un russo di un cinegiornale statunitense.
I problemi della efficacia concernono l'esito con cui il signifi­
cato trasmesso al destinatario induce questi alla condotta desi­
derata. Può sembrare, a prima vista, spiacevolmente limitato vo­
ler affermare che lo scopo di tutte le comunicazioni è quello
di influenzare la condotta di chi questa comunicazione riceve,

2 (( Quando Pfgunst (1911) dimostrò che i cavalli di Elberfeld, che mostra­


vano una eccezionale abilità linguistica e matematica, altro non facevano che
reagire ai movimenti della testa del loro istruttore, Mr. Krall ( 1911), il proprie­
tario degli animali, affrontò la critica nel modo più diretto. Egli domandò ai

3
ma per qualsiasi definizione sufficientemente ampia di compor­
tamento, appare chiaro che o la comunicazione determina un
comportamento oppure risulta del tutto priva di qualsivoglia
comprensibile e probabile effetto.
Il problema della efficacia implica considerazioni di estetica
nel caso delle belle arti. Nel caso del linguaggio, scritto o par­
lato, implica considerazioni che vanno dai meri aspetti di stile,
attraverso tutti gli aspetti psicologici ed emozionali della teoria
della propaganda, fino a quei giudizi di merito che sono neces­
sari per attribuire un significato reale alle parole ''esito >> e '' de­
siderata » nella frase iniziale di questa sezione sulla efficacia.
Il problema della efficacia è in stretto rapporto con il pro­
blema semantico e in un certo qual modo lo comprende; e, in
effetti, esiste sovrapposizione fra tutte le sopraindicate categorie
di problemi.

1.3. Osservazioni

Detto questo, si potrebbe essere indotti a ritenere che il livello


A sia relativamente superficiale, riguardando solamente i parti­
colari tecnici di un buon progetto di sistema di comunicazioni,
mentre i livelli B e C paiono comprendere, se non tutta, la mag­
gior parte del contenuto concettuale del problema generale delle
comunicazioni.
La teoria matematica degli aspetti tecnici delle comunicazioni,
come è stata sviluppata principalmente da Claude Shannon
ai Bell Telephone Laboratories, esplicitamente si applica in primo
luogo solo al problema A, vale a dire al problema tecnico della
correttezza del trasferimento di vari tipi di segnali dal trasmit­
tente a chi riceve. Ma la teoria ha, ritengo, un profondo significato
che prova come il precedente paragrafo sia gravemente inesatto.
Parte del significato della nuova teoria deriva dal fatto che i
livelli B e C, di cui sopra, possono utilizzare esclusivamente quelle

cavalli se potevano vedere tali piccoli movimenti ed essi compitarono un enfa­


tico 11 No 11. Sfortunatamente noi non possiamo essere cosi sicuri che le nostre
domande siano comprese, nè di ottenere risposte altrettanto chiare 11. Si veda:
Lashley K. S. 11 Persistent problems in the evolution of mind 11 in Quarterly
Review oj Biology, v. 24, Marzo 1949, p. 28.

4
precisioni di segnali che risultano possibili quando vengono ana­
lizzate al livello A. In tal modo qualunque limitazione trovata
nella teoria al livello A si applica ai livelli B e C. Ma una più
larga parte di questo significato discende dal fatto che l'ana­
lisi al livello A mostra che questo livello abbraccia gli altri due
più di quanto si possa superficialmente ritenere. Pertanto la teo­
ria del livello A, almeno ad uno stadio significativo, costituisce
una teoria anche per i livelli B e C. Spero che le successive parti
di questo scritto serviranno a chiarire ed a giustificare questa
ultima osservazione.

5
2

Problemi della comumcaztone al livello A

2.1. Un sistema di comunicazione e i problemi relativi

Il sistema di comunicazione considerato può essere rappre­


sentato simbolicamente come segue :
sorgente della
informazione trasmettitore ricevitore destinazione

sorgente
d i disturbi

La sorgente di informazione sceglie un messaggio desiderato


tra un insieme di messaggi possibili (è questa una osservazione
particolarmente importante che richiederà in seguito una note­
vole spiegazione). Il messaggio scelto può consistere di parole
scritte o dette, oppure di immagini, musica, ecc.
Il trasmettitore converte questo messaggio nel segnale, il qua­
le viene inviato al ricevitore tramite il canale di comunicazione.
Nel caso del telefono, il canale è un filo, il segnale una corrente
elettrica non costante su questo filo ; il trasmettitore è costi-

6
tuito dall'insieme di dispositivi (trasmettitore del telefono, ecc.),
che converte l'intensità del suono della voce nella corrente elet­
trica variabile. In telegrafia, il trasmettitore codifica parole
scritte in sequenze di impulsi elettrici di durata variabile (punti,
linee, spazi). Nel parlare, la sorgente di informazioni è il cer­
vello, e il trasmettitore è il meccanismo vocale che emette le di­
verse intensità di suono (il segnale) le quali vengono trasmesse
attraverso l'aria. Nel caso della radio, il canale è semplicemente
lo spazio (o l'etere, se qualcuno preferisce ancora questo ter­
mine antiquato e ingannevole) mentre il segnale è l'onda elettro­
magnetica che viene trasmessa.
Il ricevitore è una specie di trasmettitore alla rovescia, il
quale riconverte i segnali trasmessi in un messaggio e che invia
questo messaggio fino a destinazione. Quando io vi parlo, il mio
cervello è la sorgente di informazioni, il vostro è la destina­
zione delle stesse; il mio sistema vocale è il trasmettitore, men­
tre il vostro orecchio e il nervo auditivo collegato costituiscono
il ricevitore.
E' purtroppo caratteristico che nel corso della trasmissione
si aggiungano al segnale certe cose non volute dalla sorgente
di informazioni. Queste aggiunte non volute possono essere di­
storsioni del suono (per esempio nella telefonata) o disturbi
atmosferici (nella radio), oppure deformazioni riguardanti la
forma o il contrasto di figure (televisione), o errori nella tra­
smissione (telegrafia o teleriproduzione), ecc. Ogni alterazione
nel segnale trasmesso viene detta disturbd'.
Domande tipiche che ci si pone su un tale sistema di comuni­
cazione sono :
a. Come si misura la quantità di informazione?
b . Come si misura la capacità di un canale di comunicazione?
c. L'operazione del trasmettitore di convertire il messaggio in
segnali spesso comporta un processo di codifica. Quali sono
le caratteristiche di un processo di codifica ad alto rendi-

3 Si è tradotto con disturbo il termine inglese « noise » dato il più ampio


significato che non la parola italiana l'l.lmore, limitata solitamente al campo
acustico. Si fa presente però che nel linguaggio tecnico spesso si usa la parola
rumore con significato più ampio (N.d.T.>.

7
mento ? E quando la codifica sia la più valida possibile, a
quale velocità può il canale convogliare informazioni?
d. Quali sono le caratteristiche generali del disturbo? In che
modo influenza, il disturbo, la precisione del messaggio che
giunge a destinazione ? Come si possono rendere minimi gli
indesiderabili effetti del disturbo, e sino a che punto possono
venire eliminati?
e. Se il segnale trasmesso è continuo ( come nel parlare o nella
musica) invece che formato da simboli discreti (come nella
scrittura, nel telegrafo, ecc.), che conseguenze ha questo fatto
per il problema?
Enunceremo ora, senza alcuna dimostrazione e con un mi­
nimo di terminologia matematica, i principali risultati ottenuti
da Shannon.

2.2. Informazione

Il termine informazione, in questa teoria, viene usato in una


accezione speciale che non deve essere confusa con quella
corrente. In particolare, informazione non deve essere confusa
con significato.
Infatti, due messaggi, uno dei quali sia ricco di significato
mentre l'altro sia un puro nonsenso, possono, dal presente punto
di vista, essere esattamente equivalenti per quanto riguarda l'in­
formazione. E' senza dubbio questo ciò che Shannon intende
quando afferma che « gli aspetti semantici della comunicazione
sono irrilevanti per quelli tecnici ». Ma ciò non significa che gli
aspetti tecnici siano necessariamente irrilevanti per gli aspetti
semantici.
Senza dubbio, il termine informazione nella teoria delle co­
municazioni non riguarda tanto ciò che si dice effettivamente,
quanto ciò che si potrebbe dire . Cioè, l'informazione è una misura
della libertà di scelta che si ha quando si sceglie un messaggio.
Se ci si trova di fronte ad una situazione molto elementare, nella
quale si deve optare per uno fra due messaggi alternativi, allora
arbitrariamente si dice che l'informazione, in relazione a questa

8
situazione, equivale ad una unità. Si noti che è ingannevole ( an­
che se spesso conveniente) dire che l'uno o l'altro messaggio
trasferisce una unità di informazione. Il concetto di informazione
non si applica ai messaggi particolari (come vorrebbe il con­
cetto di significato), ma piuttosto all'informazione intesa come
un tutto, l'unità di informazione stando ad indicare che in questa
situazione si ha una quantità di libertà nella scelta del messag­
gio che è conveniente considerare come una quantità standard
o unitaria.
I due messaggi tra i quali si deve optare, in una tale scelta,
possono essere qualunque cosa si desideri. Uno potrebbe essere
il testo della Versione della Bibbia di Re Giacomo, mentre l'altro
potrebbe e ssere « sì )), Il trasmettitore potrebbe codificare questi
due messaggi in modo che << zero )) sia il segnale per il primo dei
due e « uno )) quello per il secondo; oppure in modo che un cir­
cuito chiuso (con passaggio di corrente) sia il segnale per il primo,
ed un circuito aperto ( senza passaggio di corrente) il segnale per
il secondo. In questo modo le due posizioni, chiuso ed aperto,
di un semplice relè possono corrispondere ai due messaggi.
Per maggior chiarezza, la quantità di informazione è determi­
nata, nei casi più semplici, dal logaritmo del numero di scelte
possibili. Essendo conveniente usare logaritmi4 in base 2, piutto­
sto che il logaritmo comune o di Brigg in base 10, l'informazione,
quando vi sono solo due alternative, è proporzionale al logaritmo
di 2 in base 2. Ma questo equivale ad una unità ; cosicché una
situazione a due alternative è caratterizzata da una unità di in­
formazione, come si è precedentemente affermato. Questa unità
di informazione è detta bit, termine proposto da John W. Tukey,
in luogo dell'espressione completa binary digit ( cifra binaria).
Quando i numeri sono espressi nel sistema binario vi sono sola­
mente due cifre, precisamente O e l ; proprio come dieci cifre,
da O a 9, vengono usate nel sistema decimale che impiega 10
come base. Zero e uno possono venir presi simbolicamente per
rappresentare due qualsiasi alternative, come si è notato prima ;
cosicché è naturale associare la cifra binaria o bit con la situa­
zione a due alternative che possiede informazione unitaria.

• Quando m• = y, si dice che x è il logaritmo di y in base m.

9
Se si hanno a disposizione, poniamo, sedici messaggi alter­
nativi tra i quali si è completamente liberi di scegliere, allora,
dato che 16 = 24, cosicché logzl6 = 4, si dice che questa situa­
zione è caratterizzata da 4 bit di informazione.
Appare senza dubbio strano, a prima vista, che l'informa­
zione venga definita come il logaritmo del numero di alterna­
tive. Ma nel corso dello svolgimento della teoria appare sempre
più evidente che le misure logaritmiche sono di fatto quelle na­
turali. Al momento, daremo solamente una indicazione di questo.
Si è già rilevato che un semplice relè chiuso o aperto, con le due
posizioni definite rispettivamente O e l, può trattare una situa­
zione di unità di informazione, nella quale non vi sono che due
alternative di messaggi. Se un relè può trattare una situazione
unitaria, quante ne possono essere trattate da, poniamo, tre
relè? Sembra molto sensato affermare che tre relè potrebbero
trattare tre volte tanto l'informazione trattata da uno solo. In­
dubbiamente è questo il modo di calcolare se si usa la defini­
zione logaritmica di informazione. Infatti, tre relè sono in grado
di far fronte a 23, ovvero 8, alternative, che simbolicamente pos­
sono venir scritte come 000, 001, 011, 010, 100, 1 10, 101, 1 1 1,
nella prima delle quali tutti e tre i relè sono aperti, e nell'ultima
delle quali sono tutti e tre chiusi. Il logaritmo in base 2 di 23 è 3,
cosicché il calcolo logaritmico assegna tre unità di informazione
a questa situazione, proprio come si è detto. In modo simile, rad­
doppiando il tempo utilizzabile si eleva al quadrato il numero
di messaggi possibili e si raddoppia il logaritmo; pertanto, se
viene misurata logaritmicamente, l'informazione raddoppia.
Le osservazioni fino a questo punto si riferiscono a situa­
zioni artificialmente semplici, in cui la sorgente di informazioni
è libera di scegliere solo tra diversi messaggi definiti, come un
uomo che scelga tra un insieme di telegrammi d'auguri già pre­
parati quello che fa al caso suo. Una situazione più comune e
più importante è quella in cui la sorgente di informazioni forma
una sequenza di simboli scelti tra qualche insieme di simboli
elementari, venendo quindi la sequenza prescelta a formare il
messaggio. Così una persona può scegliere una parola dopo l'al­
tra e in seguito formare il messaggio mettendo insieme queste
parole scelte separatamente.

10
A questo punto viene in primo piano una importante consi­
derazione che è rimasta sullo sfondo e che merita maggiore at­
tenzione. Ci riferiamo al ruolo che gioca la probabilità nella for­
mazione del messaggio. Dal momento che i simboli successivi
vengono scelti, queste scelte sono, almeno dal punto di vista
del sistema di comunicazione, governate da probabilità; e in
realtà da probabilità che non sono indipendenti, ma che dipen­
dono, a ciascuno stadio del processo, dalle scelte precedenti.
Così, se facciamo riferimento alla lingua inglese e l'ultimo sim­
bolo scelto è « the ) ) (il), allora la probabilità che la parola suc­
cessiva sia un articolo o un verbo, piuttosto che un sostantivo,
è molto piccola. Questa rilevanza della probabilità si estende in
realtà oltre due parole. Dopo le tre parole << sia il caso )) la
'
probabilità che la parola seguente sia « di )) è abbastanza alta,
mentre la probabilità che sia « elefante )) è molto bassa.
Che ci siano probabilità che esercitano un certo grado di
controllo sulla lingua appare anche ovvio se si considera, per
esempio, il fatto che nella lingua in questione non esistono asso·
lutamente parole in cui la lettera iniziale j sia seguita da b, c, d,
f, g, j, k, l, q, r, t, v, w, x, z ; pertanto la probabilità che ad una
iniziale j segua una di queste lettere è uguale a zero. Similmente
chiunque sarebbe disposto a convenire che la probabilità di avere
la sequenza di parole « pescando a Costantinopoli del salmone
puzzolente )) è bassa. Incidentalmente, è bassa, ma non zero; in­
fatti è perfettamente possibile pensare ad un brano in cui una
frase termini con « pescando a Costantinopoli )) e la successiva
cominci con « del salmone puzzolente )). Inoltre potremmo osser­
vare, per inciso, che la improbabile sequenza di sei parole di
cui discutiamo si è verificata in una frase in lingua corretta,
precisamente quella da noi formulata.
Un sistema che produce una sequenza di simboli ( che pos­
sono, naturalmente, essere lettere o note musicali, piuttosto che
parole) conformemente a certe probabilità è detto processo sto­
castico, mentre il caso particolare di un processo stocastico in
cui le probabilità dipendono dagli eventi precedenti è detto pro­
cesso markoviano (o di Markoff) o catena markoviana. Tra i
processi markoviani che possono generare messaggi in modo con­
cepibile, vi è una classe speciale che è di importanza primaria per
la teoria delle comunicazioni, quella cioè dei cosiddetti processi

11
ergodici. I dettagli analitici sono a questo proposito complessi e
il ragionamento così impegnativo e complicato da aver richiesto
da parte dei migliori matematici un serio impegno per formu­
lare la relativa teoria ; ma la natura di un processo ergodico nelle
linee fondamentali è facile da comprendere. Esso è tale che pro­
duce una sequenza di simboli che sarebbero il sogno di uno sta­
tistico, giacché ogni campione ragionevolmente ampio tende ad
essere rappresentativo dell'intera sequenza. Supponiamo che due
persone scelgano dei campioni in modi differenti e studino quali
orientamenti mostrano le loro proprietà statistiche, man mano
che i campioni diventano sempre più ampi. Se la situazione è
ergodica, allora quelle due persone, comunque possano aver scelto
i loro campioni, concorderanno nelle loro valutazioni sulle pro­
prietà del complesso. I sistemi ergodici, in altri termini, rivelano
una specie di regolarità statistica particolarmente sicura e con­
fortante.
Torniamo ora all'idea di informazione. Quando abbiamo una
sorgente di informazioni che produce un messaggio scegliendo
uno dopo l'altro dei simboli discreti (lettere, parole, note musi­
cali, segni di una certa grandezza, ecc.), la probabilità di scelta
dei vari simboli ad uno stadio del processo essendo dipendente
dalle scelte precedenti (vale a dire un processo di Markoff),
che dire della informazione relativa a questo procedimento ?
La sola quantità che risponde ai requisiti indispensabili sta­
biliti per (( informazione » risulta essere esattamente quella che
è conosciuta in termodinamica sotto il nome di entropia. Essa è
espressa in termini delle varie probabilità comportate - quelle
di pervenire a certi stadi nel processo di formazione dei mes­
saggi, e le probabilità che, a questi stadi, siano successivamente
scelti certi simboli. La formula, inoltre, comprende il logaritmo
delle probabilità, cosicché costituisce una naturale generalizza­
zione del calcolo logaritmico di cui si è parlato in relazione ai
casi semplici.
A coloro che hanno studiato le scienze fisiche, apparirà estre­
mamente significativo che una espressione come l'entropia com­
paia nella teoria come una misura della informazione. Intro­
dotto da Clausius circa cento anni or sono, strettamente legato
al nome di Boltzmann, e approfondito da Gibbs nel suo classico

12
lavoro di meccanica statistica, il concetto di entropia è divenuto
così basilare e penetrante che Eddington rileva : « La legge se­
condo cui l'entropia aumenta continuamente - la seconda legge
della termodinamica - assume, ritengo, la posizione principale
tra le leggi della natura ,,,
Nelle scienze fisiche, l'entropia relativa ad una situazione è
una misura del grado di casualità, o di « confusione,, se prefe­
rite, presente nella situazione stessa ; e la tendenza dei sistemi
fisici a divenire sempre meno organizzati, sempre più caotici,
è talmente fondamentale che Eddington arguisce che è in primo
luogo questa tendenza che indica la direzione del tempo - che
ci rivelerebbe, per esempio, se una « pellicola,, del mondo fisico
sta correndo in avanti oppure indietro.
Così quando ci si imbatte nel concetto di entropia nella
teoria delle comunicazioni si può rimanere piuttosto sorpresi,
si può a buon diritto avere l'impressione di avere a che fare con
qualcosa che può risultare importante e fondamentale. Che l'in­
formazione sia misurata dall'entropia è, dopotutto, naturale,
quando si ricordi che l'informazione, nella teoria delle comuni­
cazioni è in rapporto con l'ammontare di libertà di scelta che
si ha nel costruire un messaggio. Pertanto si può affermare, ri­
guardo ad una sorgente di informazioni, proprio come per un
complesso termodinamico: cc Questa situazione è estremamente
organizzata, non è caratterizzata da un ampio grado di casualità
o di scelta - vale a dire che la informazione (o la entropia) è
bassa ,,, Torneremo in seguito su questo punto, perché, a meno
che io non sia completamente fuori strada, rappresenta un aspet­
to importante del significato più generale della teoria delle co­
municazioni.
Avendo calcolato l'entropia (o l'informazione, o la libertà di
scelta) di una certa sorgente di informazioni, si può mettere a
confronto questa entropia col valore massimo che essa potrebbe
assumere, alla sola condizione che la sorgente continui ad im­
piegare gli stessi simboli. Il rapporto tra l'entropia effettiva e
l'entropia massima è detto entropia relativa della sorgente. Se
l'entropia relativa di una certa sorgente è, poniamo, 0,8, ciò più
o meno significa che questa sorgente possiede, nella scelta dei
simboli che essa compie per formare un messaggio, una libertà

13
pari a circa l'ottanta per cento di quella possibile con gli stessi
simboli. La differenza tra l e l'entropia relativa costituisce la
ridondanza. Questa è la frazione del messaggio che è determi­
nata non dalla libera scelta del mittente, ma piuttosto dalle accet­
tate regole statistiche che governano l'uso dei simboli in que­
stione. Essa è giustamente detta ridondanza, perché questa fra­
zione del messaggio è di fatto ridondante in qualcosa che è
vicino al senso comune di questo termine; vale a dire che questa
frazione del messaggio non è necessaria (e pertanto ripetitiva e
ridondante) nel senso che, se pure mancasse, il messaggio sa­
rebbe comunque essenzialmente completo, o almeno potrebbe
essere completato .
E' molto interessante notare che la ridondanza della lingua in­
glese è circa del SO per cento5, cosicché circa metà delle let­
tere o delle parole che scegliamo nello scrivere e nel parlare
dipendono dalla nostra libera scelta, e circa metà (sebbene nor­
malmente non ne siamo consapevoli) sono in realtà controllate
dalla struttura statistica del linguaggio. A prescindere da più
serie implicazioni, che nuovamente rinviamo alla discussione fi­
nale, è interessante notare che una lingua deve avere almeno il
SO per cento di libertà reale (o entropia relativa) nella scelta delle
lettere, affinché sia possibile formare delle soddisfacenti parole
crociate. Qualora la libertà fosse totale, allora ogni lista di let­
tere sarebbe un gioco di parole crociate. Se avesse il venti per
cento di libertà sarebbe impossibile costruire parole crociate di
complessità e numero tale da rispondere alle esigenze del popo­
lare gioco. Shannon ha calcolato che se l'inglese avesse sola­
mente il trenta per cento di ridondanza sarebbe possibile costrui­
re parole crociate tridimensionali.
Prima di chiudere questa parte sulla informazione, va notato
che l'effettiva ragione per cui l'analisi del livello A si occupa di
un concetto di informazione che caratterizza l'intera natura sta­
tistica della sorgente di informazioni e non si interessa di singoli
messaggi (e assolutamente non si interessa del significato dei sin­
goli messaggi), è che, dal punto di vista tecnico, un sistema di co­
municazione deve affrontare il problema di trattare qualunque

• La stima del 50 per cento riguarda solamente la struttura statistica fino a circa
otto lettere, cosicché il valore definitivo è presumibilmente lievemente maggiore.

14
messaggio che la sorgente può produrre. Se non è possibile o fatti­
bile progettare un sistema che possa trattare perfettamente ogni
cosa, allora il sistema dovrebbe essere progettato per svolgere
bene i compiti che gli saranno con maggior probabilità assegnati,
accettando che esso sia meno efficiente per quanto riguarda i com­
piti insoliti. Questo tipo di considerazione conduce subito alla
necessità di caratterizzare la natura statistica dell'intero com­
plesso di messaggi che una data sorgente può e vuole produrre .
E l 'informazione, come viene intesa nella teoria delle comuni­
cazioni, fa proprio questo.
Sebbene non sia affatto scopo di questo scritto occuparsi dei
dettagli matematici, sembra cionondimeno essenziale avere una
idea il più possibile precisa dell'entropia che misura l'informa­
zione. Se si ha a che fare, come in un caso semplice, con un
insieme di n simboli indipendenti, o di n messaggi indipendenti
completi riguardanti l'argomento, le cui probabilità di scelta sono
p1, pz, . .. , p,., allora la formula dell'informazione è
H = - [p, log p, + pz log pz + . + p ,.log p ,.],
. .

ovvero
H = - 'J:.p; log p;.
dove6 il simbolo r. indica, come usa in matematica, che bisogna
sommare tutti i termini come quello tipico, p; log p;, scritto come
modello di espressione generale.
Ciò sembra abbastanza complicato; ma vediamo come opera
questa formula in qualche semplice caso.
Supponiamo dapprima di scegliere tra due soli messaggi pos­
sibili, le cui probabilità sono quindi p, per il primo e Pz = 1 - p,
per il secondo. Se si calcola, per questo caso, il valore numerico
di H, risulta che H assume il suo valore massimo, precisamente
l , quando i due messaggi sono ugualmente probabili, quando
cioè p, = Pz = t ; vale a dire quando si è completamente liberi
di scegliere tra i due messaggi . Non appena un messaggio di­
viene più probabile dell'altro (p, maggiore di pz, poniamo) il va-

• Non ci si meravigli del segno meno. Qualunque probabilità è un numero


minore o uguale a l e i logaritmi di numeri inferiori a l sono negativi. Pertanto
il segno meno è necessario affinché H sia in realtà positiva.

15
lore di H diminuisce. E quando un messaggio è molto probabile
(diciamo, P• pressoché uguale ad l e pz pressoché O), il valore
H è molto piccolo (quasi zero).
Nel caso limite in cui una probabilità è uguale a l (certezza)
e tutte le altre a zero ( impossibilità), allora H è zero (assoluta·
mente nessuna incertezza - nessuna libertà di scelta - nessuna
informazione).
Pertanto H ha il valore massimo quando le due probabilità
sono uguali {cioè: quando si è completamente l iberi ed impar­
ziali nella scelta) e si riduce a zero quando non esiste più libertà
di scelta.
La situazione appena descritta è di fatto tipica. Se vi sono
parecchie alternative, invece di due, allora H è massima quando
le probabilità delle varie scelte sono il più poss ibile equivalenti
date le circostanze - quando si ha la maggior libertà possibile
nel fare una scelta, trovandosi il meno possibile condizionati in
direzione di certe scelte che posseggono una probabilità mag­
giore delle altre. Supponiamo, d'altra parte, che una scelta abbia
probabilità di verificarsi vicina ad l e di conseguenza tutte le
altre abbiano probabilità vicine allo zero. Questa è chiaramente
una situazione in cui si è decisamente portati verso una parti­
colare scelta, donde una scarsa libertà di scelta. In tal caso H
viene ad assumere un valore molto piccolo - l'informazione (la
libertà di scelta, l'incertezza) è scarsa.
Abbiamo appena visto che, quando il numero dei casi è de­
terminato, quanto più tende ad essere uguale la probabilità dei
diversi casi tanto maggiore è l'informazione. C'è un altro im­
portante modo di incrementare il valore di H, precisamente au­
mentando il numero dei casi. Più precisamente, se tutte le alter­
native sono ugualmente probabili, quante più alternative ci sono,
tanto maggiore sarà H. Si ha maggiore « informazione )) se si
sceglie liberamente fra cinquanta messaggi possibili, che se si
sceglie fra venticinque.

2.3. Capacità di un canale di comunicazione

Dopo la discussione del precedente paragrafo, non stupisce


che la capacità di un canale non deve venir descritta in termini

16
di numero di simboli che può trasmettere, ma in termini di
informazioni che trasmette. O meglio, dato che questa ultima
frase si presta particolarmente bene ad una interpretazione er­
ronea del termine informazione, la capacità di un canale viene
descritta nei termini della sua idoneità a trasmettere quanto è
prodotto dalla sorgente di una data informazione.
Se la sorgente è di un tipo semplice in cui tutti i simboli
hanno la stessa durata temporale (è il caso, per esempio, della
telescrivente), se la sorgente è tale che ogni simbolo scelto rap­
presenta s bit di informazione (liberamente scelti fra 2' simboli)
e se il canale può trasmettere, poniamo, n simboli al secondo,
allora la capacità C del canale è definita da ns bit al secondo.
In un caso più generale bisogna tener conto della durata
variabile dei diversi simboli. Così la formula generale per la ca­
pacità di un canale comprende il logaritmo dei numeri di simboli
di una certa durata temporale (che introduce, naturalmente,
l'idea di informazione e corrisponde al fattore s nel semplice
caso del precedente capoverso); nel caso generale, la capacità
misura non il numero di simboli trasmessi ogni secondo, quanto
piuttosto l'ammontare di informazione trasmesso al secondo,
usando i bit al secondo come unità di misura.

2.4. Codifica

All'inizio si è posto in rilievo che il trasmettitore accetta il


messaggio e lo trasforma in qualcosa chiamato segnale, ed è que­
st'ultimo che in realtà attraversa il canale fino al ricevitore.
Il trasmettitore, in un caso come quello del telefono, sem­
plicemente commuta il segnale costituito dalla voce intelleggibile
in qualcosa (la corrente elettrica variabile nel filo telefonico)
che è nello stesso tempo chiaramente diverso, ma chiaramente
equivalente. Ma il trasmettitore può effettuare una operazione
molto più complessa sul messaggio, per produrre il segnale. Po­
trebbe, per esempio, prendere un messaggio scritto e usare qual­
che codice per cifrarlo, poniamo, in una sequenza di numeri;
inviando quindi detti numeri sul canale come segnale.
Si dice pertanto, in generale, che la funzione del trasmetti­
tore consiste nel codificare e quella del ricevitore nel decodifi-

17
care il messaggio. La teoria si occupa di trasmettitori e di rice­
vitori molto complessi - dotati, per esempio, di « memoria )) -
cosicché il modo in cui essi codificano un certo simbolo del mes­
saggio dipende non solamente da questo stesso simbolo, ma an­
che dai simboli precedenti del messaggio e dal modo in cui sono
stati messi in codice.
Siamo ora in condizione di enunciare il teorema fondamen­
tale, frutto di questa teoria, riguardante un canale non disturbato
che trasmette simboli discreti. Questo teorema si riferisce ad
un canale di comunicazione di capacità C bit al secondo, che
accetta segnali da una sorgente avente un'entropia (o informa­
zione) di H bit al secondo. Il teorema afferma che, adottando
particolari procedure di codifica per il trasmettitore, è possibile
trasmettere simboli sul canale ad una velocità media prossima
a C/H, ma che, indipendentemente dalla ingegnosità della co­
difica, non può mai superare C/H.1
L'importanza di questo teorema sarà discussa più utilmente
un po' più avanti, quando avremo considerato il caso più gene­
rale in cui è presente il disturbo. Per il momento, tuttavia, è im­
portante notare il ruolo decisivo che gioca la codifica.
Ricordiamo che l'entropia (o informazione) relativa al pro­
cesso che genera messaggi o segnali è determinata dal carat­
tere statistico del processo - dalle diverse probabilità di arrivare
a certe situazioni del messaggio e di scegliere, una volta in quelle
situazioni, i simboli successivi. La natura statistica dei messaggi
è interamente determinata dal carattere della sorgente. Ma il ca­
rattere statistico del segnale quale viene effettivamente trasmesso
tramite un canale, e pertanto l'entropia del canale, è determinato
sia da ciò che si cerca di immettere nel canale, sia dalla idoneità
del canale a trattare differenti configurazioni di segnali. Per
esempio, nella telegrafia devono esservi degli spazi tra punto e
punto, tra punto e linea e tra linea e linea, altrimenti i punti e
le linee non sarebbero riconoscibili.

7 Ricordiamo che la capacità C implica l'idea d i informazione trasmessa a l


secondo. L'entropia H misura qui l'informazione pe r simbolo, cosicché il rap·
porto tra C e H misura simboli al secondo.

18
Ora, accade che quando un canale possiede costrizioni di
questo tipo, che limitano la completa libertà del segnale, vi sono
certe caratteristiche statistiche del segnale che comportano una
entropia di questo maggiore di quella che si avrebbe per ogni
sua altra struttura statistica, e in questo importante caso l'en­
tropia del segnale è esattamente uguale alla capacità del canale.
Tenendo presenti queste idee, è ora possibile definire con pre­
cisione il più efficiente tipo di codifica. Il miglior trasmetti­
tore, infatti, è quello che codifica i messaggi in modo tale che
il segnale possieda proprio quelle caratteristiche statistiche ot­
time che meglio convengono al canale che deve venir impiegato -
le quali rendono di fatto massima l'entropia del segnale (o, si
potrebbe dire del canale) e la rendono uguale alla capacità C
del canale.
Questo genere di codifica comporta, per il teorema fonda­
mentale di cui sopra, la massima velocità C/H nella trasmis­
sione di simboli. Ma per questo guadagno nella velocità di tra­
smissione si paga un prezzo. Accade, infatti, e sembra proprio un
dispetto, che quanto più si costruisce una forma di codifica vicina
all'ideale, si è costretti a ritardi sempre più lunghi nel processo
di codifica. In parte questo dilemma è ridimensionato dal fatto
che « lungo 11, in una apparecchiatura elettronica, può significare
una piccola frazione di secondo, e in parte dal fatto che si rag­
giunge un compromesso, bilanciando il guadagno nella velocità
di trasmissione con la perdita di tempo nella codifica.

2.5. Disturbo

Che incidenza ha il disturbo sulla informazione? L'informa­


zione è, bisogna sempre tenerlo presente, una misura della libertà
che si ha nello scegliere un messaggio. Quanto maggiore è questa
libertà di scelta, e quindi quanto maggiore è l'informazione, tanto
maggiore è l'incertezza che il messaggio effettivamente scelto sia
qualcuno in particolare. Pertanto, maggiore libertà di scelta,
maggiore incertezza, maggiore informazione, vanno di pari passo.
Se si introduce il disturbo, allora il messaggio ricevuto con­
tiene certe alterazioni, certi errori, certo materiale estraneo, che
indurrebbero certamente ad affermare che il messaggio ricevuto

19
rivela una accresciuta incertezza. Ma, se l'incertezza è aumen­
tata, anche l'informazione è aumentata e sembrerebbe che il di­
sturbo sia stato vantaggioso.
E' generalmente vero che in presenza di un disturbo il se­
gnale ricevuto rivela una informazione maggiore - o meglio, il
segnale ricevuto è selezionato tra un insieme più vario di quello
del segnale trasmesso. Questa è una situazione che illustra per­
fettamente la trappola semantica in cui si può cadere se non si
rammenta che il termine cc informazione » è qui usato in una
accezione speciale in cui sta ad indicare la misura di libertà di
scelta e pertanto l'incertezza attinente alla scelta che è stata com­
piuta. E' perciò possibile avere, per quanto riguarda il termine
informazione, dei contenuti impliciti positivi o negativi. L'incer­
tezza che sorge a causa di errori o a causa dell'influenza di un
disturbo è una incertezza indesiderabile.
E' pertanto chiaro dove sta l'inganno nel dire che il segnale
ricevuto contiene maggior informazione. Parte di questa infor­
mazione è falsa ed indesiderabile ed è stata introdotta a causa del
disturbo. Per ottenere l'informazione utile bisogna eliminare dal
segnale ricevuto questa parte falsa.
Prima di poter chiarire questo punto dobbiamo procedere
ad una piccola digressione. Supponiamo di avere due insiemi di
simboli, quelli del messaggio formulato dalla sorgente di infor­
mazioni, e i simboli dei segnali che vengono effettivamente rice­
vuti. Le probabilità di questi due insiemi di simboli sono corre­
late, in quanto la probabilità di ricevere un certo simbolo di­
pende da quale simbolo è stato inviato. Senza errori dovuti a
disturbi o ad altre cause, il segnale ricevuto corrisponderebbe
precisamente ai simboli del messaggio inviati ; in presenza di un
possibile errore, le probabilità per quanto riguarda i simboli rice­
vuti dipenderebbero evidentemente in misura notevole da quelli
che corrispondono, o sono molto simili, ai simboli del messaggio
inviati .
Ora, in una tale situazione si può calcolare quella che è
chiamata l'entropia di un insieme di simboli relativo all'altro .
Consideriamo, per esempio, l'entropia del messaggio in rapporto
al segnale. Purtroppo non è possibile comprendere le questioni

20
qu1 m discussione senza entrare in qualche particolare. Supp o­
niamo per il momento di sapere che è stato effettivamente rice­
vuto un certo simbolo del segnale. In questo caso ogni simbolo
del messaggio assume una certa probabilità - relativamente am­
pia per il simbolo identico o per i simboli simili a quello rice­
vuto e relativamente piccola per tutti gli altri. Servendosi di que­
sto insieme di probabilità, si calcola un valore di stima dell'en­
tropia. Questa è l'entropia del messaggio fondata sulla assun­
zione di un determinato dato ricevuto o simbolo del segnale. In
qualunque buona condizione, il suo valore è basso, dato che le
probabilità implicate non riguardano in modo abbastanza uni­
forme i diversi casi, ma praticamente sono fondate su uno o
pochi casi. Il valore di questa entropia sarebbe zero (v. pag . 13)
in ogni caso, essendo noto il simbolo del segnale, tutte le proba­
bilità del messaggio sarebbero zero, eccezion fatta per un simbolo
(precisamente quello ricevuto) che avrebbe una probabilità ugua­
le ad uno.
Per ogni assunzione riguardo al simbolo del segnale rice­
vuto, si può calcolare una di queste entropie di stima del mes­
saggio. Si calcolino tutte queste entropie e se ne faccia quindi
la media, pesando ognuna di esse in conformità alla probabilità
del simbolo del segnale assunto nel calcolarla. Le entropie in
tal modo calcolate, quando vi sono due insiemi di simboli da
prendere in considerazione, vengono dette entropie relative. Quel­
la appena descritta è l'entropia del messaggio relativa al segnale
e Shannon l'ha anche chiamata equivocazione.
Dal modo in cui questa equivocazione viene calcolata, pos­
siamo intendere in che cosa consiste il suo significato. Essa mi­
sura la incertezza media nel messaggio quando il segnale è noto.
Se non fosse presente alcun disturbo, allora non vi sarebbe
incertezza concernente il messaggio, essendo noto il segnale. Se
la sorgente di informazioni possiede qualche residuo di incer­
tezza una volta noto il segnale, questa è purtroppo dovuta a di­
sturbi.
La discussione si è svolta intorno alla quantità : « l'incertezza
media nella sorgente del messaggio quando è noto il segnale rice­
vuto » ; ci si può ugualmente bene riferire alla analoga quantità :
" l'incertezza media riguardante il segnale ricevuto, quando sia

21
noto il messaggio inviato » . Naturalmente quest'ultima incertezza
sarebbe uguale a zero in assenza di disturbi.
Quanto alle interdipendenze tra questa quantità, è semplice di­
mostrare che
H(x) - H,.(x) = H(y) - Hx(Y)
dove H(x) è l'entropia o informazione della sorgente dei messag­
gi ; H(y) l'entropia o informazione dei segnali ricevuti ; H,.(x)
l'equivocazione, o l'incertezza nella sorgente dei messaggi quan­
do il segnale è noto; Hx(Y) l'incertezza nei segnali ricevuti se sono
noti i messaggi inviati, ovvero la parte falsa di informazione del
segnale ricevuto, dovuta al disturbo. La parte destra di questa
equazione è l'informazione utile che viene trasmessa malgrado
le nocive conseguenze del disturbo.
E' ora possibile spiegare cosa si intende per capacità C di
un canale disturbato. Essa, infatti, è definita essere uguale alla
velocità massima (in bit al secondo) a cui l'informazione utile
(il che equivale a : incertezza totale meno incertezza dovuta al
disturbo) può essere trasmessa tramite il canale.
Perché si parla, qui, di velocità (( massima » ? Cosa si può fare,
cioè, per ridurre o aumentare questa velocità? La risposta è
che si può influenzare questa velocità scegliendo una sorgente
le cui caratteristiche statistiche siano opportunamente rapportate
ai limiti imposti dalla natura del canale. Si può, cioè, rendere
massima la velocità di trasmissione di informazione utile usando
una opportuna codifica (v. pagg. 17-1 8).
Consideriamo ora, finalmente, il teorema fondamentale per
un canale disturbato. Supponiamo che questo canale disturbato
abbia, nel senso appena descritto, una capacità C, supponiamo
che accetti i segnali da una sorgente di informazioni caratteriz­
zata da una entropia di H(x) bit al secondo, mentre sia di H(y)
bit al secondo l'entropia dei segnali ricevuti. Se la capacità C
del canale è uguale o maggiore di H(x), allora, predisponendo
appropriati sistemi di codifica, quanto viene prodotto dalla sor­
gente può essere trasmesso tramite il canale con un errore pic­
colo a piacere. Per quanto piccola sia la frequenza di errore che
si vuole ottenere, esiste un codice che soddisfa questa richiesta.
Ma nel caso che la capacità C del canale sia minore di H(x),

22
entropia della sorgente da cui accetta i messaggi, è impossibile
progettare codici che riducano alla misura desiderata la frequen­
za di errore.
Per quanto si sia abili nel processo di codifica, sarà sempre
vero che, una volta ricevuto il segnale, resterà qualche incertezza
indesiderabile (perché dovuta al disturbo) su ciò che era il mes­
saggio ; e questa indesiderabile incertezza - questa equivoca­
zione - sarà sempre uguale o maggiore di H(x) - C. Inoltre,
esiste sempre almeno un codice in grado di ridurre questa inde­
siderabile incertezza, concernente il messaggio, fino ad un valore
che eccede H(x) - C di una quantità arbitrariamente piccola.
L'aspetto più importante naturalmente è che il minimo inde­
siderabile di false incertezze non può venire ulteriormente ridot­
to, indipendentemente da quanto complicato o appropriato sia
il processo di codifica. Questo importante teorema fornisce una
precisa e quasi eccezionalmente semplice descrizione della sicu­
rezza estrema di funzionamento che si può sempre ottenere da un
canale di comunicazione che operi in presenza di disturbi.
E' da notare una conseguenza pratica, posta in rilievo da
Shannon. Dal momento che l'inglese ha una ridondanza di circa
il 50 per cento, sarebbe possibile risparmiare circa la metà del
tempo impiegato nel normale uso del telegrafo mediante un par­
ticolare processo di codifica, a condizione di trasmettere su un
canale non disturbato. Quando vi sono disturbi nel canale, co­
munque, vi è qualche vantaggio effettivo nel non usare un pro­
cesso di codifica che elimini del tutto la ridondanza. Infatti, la
restante ridondanza serve a combattere i disturbi. E' molto sem­
plice verificare questa asserzione, in quanto, proprio per il fatto
che la ridondanza dell'inglese è elevata, si hanno poche o punte
esitazioni, per esempio, nel correggere errori di ortografia che
siano sorti durante la trasmissione.

2.6. Messaggi continui

Fino a questo punto ci siamo occupati di messaggi compo­


sti da simboli discreti : così le parole sono formate da lettere,
le frasi da parole, una melodia da note musicali, una illustrazione

23
a mezza tinta da un numero finito di punti separati. Che ne è
della teoria, se si considera un messaggio continuo, quale una
voce, con il suo continuo variare di tonalità e di intensità?
Molto approssimativamente si può dire che la teoria ampliata
è un poco più difficile e complicata dal punto di vista matema­
tico, ma non sostanzialmente differente. Molte delle precedenti
affermazioni riguardanti il caso di simboli discreti non richie­
dono alcuna modifica, mentre altre esigono solo cambiamenti
minori.
Una circostanza che favorisce l'analogia tra i due casi è la
seguente. Dal punto di vista pratico, ci si interessa sempre di un
segnale continuo costituito di semplici componenti armoniche
non di tutte le frequenze, ma di frequenze comprese in una banda
che va dalla frequenza zero fino a, poniamo, una frequenza di
W Hz. Così, sebbene la voce umana contenga in effetti frequenze
più alte, è possibile ottenere una comunicazione molto buona tra­
mite un canale telefonico che consenta frequenze fino a, diciamo,
quattromila Hz. Con frequenze fino a dieci o dodicimila è pos­
sibile la trasmissione radio ad alta fedeltà di musica sinfoni­
ca, ecc.
Un teorema matematico afferma che un segnale continuo, di
T secondi di durata e limitato nella frequenza ad una banda da
zero a W, può essere completamente specificato fissando 2TW
numeri. E' questo un teorema veramente notevole. Normalmente,
una curva continua può solo approssimativamente venir caratte­
rizzata determinando un qualunque numero finito di punti attra­
verso cui essa passa e, in generale, per una completa conoscenza
della curva sarebbe richiesto un numero infinito di punti. Ma
se la curva è composta di semplici costituenti armoniche di un
numero limitato di frequenze, così come un suono complesso è
costituito da un numero limitato di toni semplici, allora è suffi­
ciente un numero finito di parametri. Ciò comporta il grande
vantaggio di ridurre il carattere del problema della comunica­
zione, nel caso di segnali continui, da una situazione complicata,
in cui si ha a che fare con un numero infinito di variabili, ad
una situazione considerevolmente più semplice in cui si opera
con un numero di variabili finito (anche se grande).

24
Nella teoria riguardante il caso continuo sono state svilup­
pate delle formule che descrivono la massima capacità C di un
canale avente banda di frequenza W, quando : la potenza media
usata per trasmettere sia P, il canale sia soggetto ad un disturbo
di potenza N, e questo disturbo sia un « rumore bianco ter­
mico )), di un genere speciale dallo Shannon definito. Questo ru­
more bianco termico è esso stesso limitato nella banda delle fre­
quenze e le ampiezze delle componenti alle varie frequenze sono
soggette ad una distribuzione di probabilità normale (gaussiana).
Sotto queste condizioni Shannon ricava il teorema, ancora una
volta veramente notevole nella sua semplicità e nella sua por­
tata, secondo cui è possibile, con il miglior sistema di codifica,
trasmettere cifre binarie alla velocità di:
P + N
W log2
N
bit al secondo ed avere una frequenza di errore arbitrariamente
piccola. Ma questa velocità non può essere assolutamente supe­
rata, indipendentemente dalla adeguatezza del codice, senza che
si dia origine ad una precisa frequenza di errori. Nel caso di
disturbo di altro tipo, invece che del particolare « rumore bianco
termico )) assunto prima, Shannon non riesce a ricavare una for­
mula esplicita per la capacità del canale, ma ottiene, per quanto
riguarda la stessa, utili limiti massimi e minimi. Egli ricava an­
che dei limiti per la capacità del canale quando si specifichi non
la potenza media del trasmettitore, bensì la potenza istantanea
di picco.
In conclusione, va detto che Shannon ottiene dei risultati
che sono necessariamente un po' meno precisi, ma che sono pa­
lesemente di una significatività profonda ed assoluta e che defi­
niscono, per un tipo generale di messaggio o segnale continuo,
la fedeltà del messaggio ricevuto e i concetti di velocità con cui
una sorgente dà origine alle informazioni, di velocità di trasmis­
sione e di capacità del canale, essendo tutti questi in relazione
coi requisiti di sicura fedeltà.

25
3

Le interrelazioni dei tre livelli


dei problemi delle comunicazioni

3.1. Premessa

Nella prima parte di questo scritto si è detto che esistono


tre livelli a cui può venir preso in considerazione il problema
generale delle comunicazioni. Precisamente, si può chiedere :
livello A. Con quanta esattezza possono venir trasmessi i sim-
boli della comunicazione?
livello B. Con quanta precisione i simboli trasmessi trasferiscono
il significato desiderato?
livello C. In che misura il significato giunto a destinazione in-
duce realmente ad un comportamento nel senso desiderato?
Si è espressa l'opinione che la teoria matematica delle co­
municazioni, quale sviluppata da Shannon, Wiener, ed altri, e
in particolare la teoria più decisamente di ordine tecnico di Shan­
non, anche se apparentemente applicabile solo ai problemi del
livello A, è in effetti utile e stimolante per i problemi di cui ai
livelli B e C.
Abbiamo quindi dato uno sguardo nel cap. 2, a che cosa è
questa teoria matematica, quali concetti sviluppa, quali risul­
tati ha ottenuto. Scopo di questa parte conclusiva è quello di
riesaminare la situazione a vedere sino a che punto, e in quali
termini, la precedente parte fosse giustificata quando vi si affer­
mava che il progresso compiuto al livello A è in grado di recare
un contributo ai livelli B e C e che la interrelazione fra i tre

26
livelli è talmente notevole, che consente di trarre la conclusione
finale che la distinzione in tre livelli è, in realtà, artificiale e
da scartare.

3.2. Carattere generale della teoria al livello A

La prima ovvia osservazione, è indubbiamente l'osservazione


che sostiene il maggior peso dell'argomento, è quella che la teoria
matematica è estremamente generale nella sua portata, fonda­
mentale per i problemi che tratta, e di una classica semplicità e
validità nei risultati che ottiene.
E' questa una teoria così generale che non vi è necessità di
precisare quali specie di simboli vengono considerati - se parole
o lettere scritte, o note musicali, o parole pronunciate, o musica
sinfonica o disegni. La teoria è abbastanza profonda da far sì
che le relazioni che rivela si applichino senza distinzione a tutte
queste e ad altre forme di comunicazione. Ciò significa, natural­
mente, che la teoria è motivata in modo sufficientemente astratto
da occuparsi dell'essenza interna del problema delle comunica­
zioni - di quelle relazioni fondamentali che in generale tratta,
non importa quale forma speciale possa assumere il particolare
caso concreto.
Costituisce una prova evidente di questo carattere generale
il fatto che la teoria contribuisce in importante misura, anzi in
realtà costituisce la parte fondamentale delle teorie della crit­
tografia che è, naturalmente, una forma di codifica. Analogamen­
te, la teoria contribuisce al problema della traduzione da un lin­
guaggio ad un altro, sebbene a questo proposito è chiaramente
necessario prendere in considerazione il significato oltre che l'in­
formazione. Similmente, le idee sviluppate in questo lavoro sono
così strettamente collegate con il problema del progetto logico di
grandi calcolatori, che non sorprende che Shannon abbia scritto
proprio un lavoro sul progetto di un calcolatore che sarebbe in
grado di giocare un'abile partita di scacchi. Ed è di ulteriore
diretta pertinenza alla presente questione il notare che detto la­
voro si conclude con l'osservazione che : o si deve affermare che
un tale calcolatore « pensa », oppure bisogna sostanzialmente
modificare il modo convenzionale di intendere il verbo cc pen­
sare ».

27
In secondo luogo, appare chiaro come sia stato portato un
importante contributo ad ogni possibile teoria generale delle co­
municazioni dalla formalizzazione su cui è fondata la presente
teoria. Sembra dapprima ovvio fare lo schema di un sistema di
comunicazioni, come si è fatto all'inizio di questa teoria; ma que­
sta suddivisione della situazione deve essere assai giudiziosa e ap­
propriata, come ci si convince allorché si vede quanto facilmente
e in modo generale questo punto di vista conduca ai punti essen­
ziali. E' quasi certamente vero che un esame delle comunicazioni
ai livelli B e C richieda aggiunte allo schema di pag. 7, ma sembra
altrettanto probabile che si richiedano aggiunte di carattere mi­
nore e nessuna fondamentale revisione.
Pertanto quando ci si sposta ai livelli B e C, può dimostrarsi
indispensabile tenere conto delle caratteristiche statistiche della
destinazione. Possiamo immaginare, come aggiunta allo schema,
un altro rettangolo definito << ricevitore semantico » , collocato tra
il ricevitore meccanico (che cambia i segnali in messaggi) e la
destinazione. Questo ricevitore semantico sottopone il messaggio
ad una seconda decodifica, richiedendoglisi di adeguare le caratte­
ristiche statistiche semantiche del messaggio alle capacità seman­
tiche statistiche della totalità dei ricevitori, o di quel sottogruppo
di ricevitori che costituiscono l'auditorio che si vuole influenzare.
Analogamente è possibile immaginare un altro elemento nello
schema che, inserito tra la sorgente di informazioni ed il tra­
smettitore, verrebbe denominato « disturbo semantico » , chia­
mando ora di conseguenza « disturbo meccanico >> quello che pre­
cedentemente era stato definito semplicemente come « disturbo >>.
Da questa fonte vengono introdotte nel segnale le perturbazioni o
alterazioni che non sono volute dalla sorgente, ma che inevita­
bilmente sono presenti a destinazione. E il problema della deco­
difica semantica deve tener conto di questo disturbo semantico.
E' anche possibile pensare ad una rettifica del messaggio origi­
nale tale che la somma del significato del messaggio e del disturbo
semantico sia uguale a destinazione al desiderato significato to­
tale del messaggio.
In terzo luogo, sembra altamente significativo per il proble­
ma a tutti i livelli il fatto che l'errore e la confusione aumen­
tano e la fedeltà diminuisce quando, indipendentemente dalle ca­
ratteristiche della codifica, si cerca di sovraccaricare un canale

28
( cioè, H > C). Qui nuovamente una teoria generale a tutti i livelli
dovrà tener sicuramente conto non solamente delle capacità del
canale, ma anche (persino se le parole sono giuste ! ) della capa­
cità del destinatario. Se si cerca di eccedere la capacità del desti­
natario è probabilmente vero, per analogia diretta, che non si sa­
turerà, per così dire, l'ascoltatore sprecando solo quanto non può
essere recepito, perché di troppo ; più verosimilmente, ed ancora
per analogia diretta, se si sovraccarica la capacità dell'ascoltatore
si determinerà inevitabilmente un errore e una confusione ge­
nerali.
In quarto luogo, è difficile credere che i livelli B e C non
abbiano molto da ricavare e che i loro problemi non siano giu­
stamente indirizzati dallo sviluppo in questa teoria delle idee en­
tropiche in relazione al concetto di informazione.
Il concetto di informazione sviluppato in questa teoria sem­
bra dapprima deludente e strano - deludente perché non ha
nulla a che fare col significato e strano in quanto si occupa non
di un singolo messaggio, ma piuttosto del carattere statistico di
un intero complesso di messaggi ; strano anche perché in questi
termini statistici le due parole informazione e incertezza si tro­
vano associate.
Io credo, comunque, che si tratti di reazioni passeggere e
che, alla fine, si possa dire che questa analisi ha dissipato i
dubbi al punto che si è ora, forse per la prima volta, in condi­
zione di affrontare una teoria del significato. Una teoria mec­
canica delle comunicazioni è proprio come una ragazza molto a
modo e riservata che accetti un vostro telegramma. Ella non
presta attenzione al significato, se è triste, gioioso o imbarazzan­
te. Ma deve essere preparata ad occuparsi di tutto ciò che arriva
al suo tavolo. Questa idea secondo cui un sistema di comunica­
zioni dovrebbe cercare di trattare tutti i messaggi possibili, e
che il modo intelligente di mirare a questo è quello di fondarne
il progetto sul carattere statistico della sorgente, non è certa­
mente priva di importanza per le comunicazioni in generale. Il
linguaggio deve essere progettato (o sviluppato) avendo di mira
la totalità di cose che si può desiderare dire; ma non essendo
in grado di realizzare tutto, dovrebbe tuttavia operare nel mi­
glior modo possibile il più spesso possibile. Ciò equivale a dire
che si dovrebbe occupare del suo compito statisticamente.

29
Il concetto di associazione tra informazione e sorgente porta
direttamente, come abbiamo veduto, ad uno studio della strut­
tura statistica del linguaggio; e questo studio, per esempio, ri­
vela riguardo alla lingua inglese delle informazioni che sembrano
decisamente importanti per gli studiosi di ogni fase del linguag­
gio e della comunicazione. L'idea di utilizzare la potente teoria
riguardante i processi di Markoff sembra particolarmente pro­
mettente per gli studi semantici, dal momento che questa teoria
è particolarmente adatta a trattare uno dei più importanti, ma
difficili, aspetti del significato, precisamente l'influenza del con­
testo. Si ha la vaga sensazione che informazione e significato
possano dimostrare di essere come un paio di variabili canoni­
camente coniugate nella teoria dei quanti, essendo soggette ad
alcune restrizioni interdipendenti che ci impongono di sacrifi­
care parte dell'una per avere più dell'altro.
Oppure è forse possibile rappresentare il significato come ana­
logo ad una delle quantità da cui dipende l'entropia di un
complesso termodinamico. La presenza della entropia nella teo­
ria, come abbiamo prima rilevato, è sicuramente estremamente
interessante ed importante. Eddington è stato già citato a questo
proposito, ma vi è un altro passo in The Nature of the Physical
World che sembra particolarmente significativo:
Supponiamo di dover ordinare in due categorie quanto segue : distan­
za, massa, forza elettrica, entropia, bellezza, melodia.
Ritengo che vi siano i più validi motivi per collocare l'entropia
accanto a bellezza e melodia, e non con le prime tre. L'entropia
compare solamente quando le parti sono viste in associazione, ed
è con l'osservare od ascoltare le parti come associate che bellezza
e melodia vengono percepite. Tutte e tre sono modi di disposizione.
E' una considerazione significativa quella secondo cui una di queste
tre quantità dello stesso tipo pot rebbe figurare pacificamente come
oggetto di studio scientifico. La ragione per cui questo estraneo
può introdursi tra gli aborigeni del mondo fisico è che è in grado
di parlare il loro linguaggio, cioè il linguaggio della aritmetica.

Sono sicuro che Eddington avrebbe voluto includere il ter­


mine significato insieme a bellezza e melodia ; e ho il dubbio che
egli sarebbe rimasto impressionato nel vedere, in questa teoria,
che l'entropia non parla solamente il linguaggio della aritme­
tica; essa parla anche il linguaggio del linguaggio.

30
La teoria matematica delle comumcaztom
di Claude E . Shannon
Introduzione

Il recente sviluppo di vari metodi di modulazione quali il


PCM (Pulse Code Modulation) e il PPM (Pulse Position Modu­
lation), che cambiano la larghezza di banda per quanto riguarda
il rapporto segnale-rumore, ha rafforzato l'interesse per una teo­
ria generale delle comunicazioni. Una base per una tale teoria è
contenuta negli importanti scritti di Nyquist1 e Hartleyl su que­
sto argomento. Nel presente scritto amplieremo la teoria per
comprendervi un certo numero di nuovi fattori, in particolare
l'effetto del rumore nel canale e i possibili risparmi dovuti alla
struttura statistica del messaggio originale e alla natura della d�
stinazione finale delle informazioni.
Il problema fondamentale delle comunicazioni è quello di ri­
produrre esattamente o approssimativamente in un certo punto
un messaggio scelto in un altro punto. Frequentemente i messaggi
possiedono significato; ciò vuol dire che essi si riferiscono a, o
sono in correlazione con qualche sistema avente certe entità
fisiche o concettuali. Questi aspetti semantici della comunicazione
sono irrilevanti per il problema tecnico. L'aspetto importante è
che il messaggio effettivo viene scelto fra un insieme di possibili
messaggi. Il sistema deve essere progettato per operare in rela-

1 Nyquist H., « Certain Factors Affecting Telegra.ph Speed 11, Bell System Technf.
caz Journal, aprile 1924, p. 324 ; 11 'Certain Topics 1n Telegraph Transmlsslon
Theory >>, A.I.E.E. Trans. , v. 47, aprlle 1928, p. 617.
2 Hartley
R. V. L., 11 Transmisslon of Information 11, Bell System Technical
Journal, luglio 1928, p. 535.

33
zione a qualunque scelta possibile, e non solo per quella che
sarà effettivamente attuata, dal momento che questa non è nota
in fase di progetto.
Se il numero dei messaggi dell'insieme è finito, allora questo
numero, o ogni funzione monotona di questo numero, può es­
sere considerato come una misura della informazione prodotta
quando un messaggio è scelto dall'insieme e tutte le scelte sono
ugualmente probabili. Come fu posto in rilievo da Hartley, la
scelta più naturale è la funzione logaritmica. Sebbene questa de­
finizione debba venir considerevolmente generalizzata quando
prendiamo in considerazione l'influenza dei caratteri statistici
del messaggio e quando abbiamo a che fare con una serie con­
tinua di messaggi, useremo in ogni caso una misurazione essen­
zialmente logaritmica.
La misura logaritmica è più conveniente per varie ragioni.
l . E' praticamente più vantaggiosa. Parametri di rilevanza tec­
nica quali tempo, larghezza della banda, numero di relè, ecc.,
tendono a variare linearmente con il logaritmo del numero di
possibilità. Per esempio, aggiungendo un altro relè ad un
gruppo di relè si raddoppia il numero di stati possibili dei
relè. Ciò aumenta di l il logaritmo in base 2 di questo nu­
mero. Raddoppiando il tempo si eleva approssimativamente al
quadrato il numero di messaggi possibili, o si raddoppia il
logaritmo, ecc.
2. E' più vicina alla nostra intuizione come la misura adatta. Ciò
è in stretta relazione con quanto al punto l , dal momento che
noi intuitivamente misuriamo delle entità mediante confronto
lineare con modelli o unità comuni. Si intuisce, per esempio,
che due schede perforate possiederebbero due volte la capa­
cità di una sola per quanto riguarda l'immagazzinamento di
informazioni, e che due canali identici avrebbero il doppio
della capacità di uno solo per la trasmissione di informazioni.
3. E' più conveniente dal punto di vista matematico. Molte delle
operazioni con i limiti sono semplici in termini di logaritmo,
ma richiederebbero una complicata rielaborazione in termini
di numero delle possibilità.
La scelta di una base logaritmica corrisponde alla scelta di

34
una unità per misurare le informazioni. Se viene usata la base 2
le unità risultanti possono essere chiamate cifre binarie o più
brevemente bit, termine questo suggerito da J. W. Tukey. Un
dispositivo con due posizioni stabili, quali un relè o un circuito
flip-flop, può immagazzinare un bit di informazione. N disposi­
tivi di questo tipo possono immagazzinare N bit, dal momento
che il numero complessivo degli stati possibili è 2N e che
lo� 2N = N . Se si usa la base 10, le unità possono essere deno­
minate cifre decimali. Dal momento che
lo� M = log1o M/logJo 2
= 3,32 logJo M,

una cifra decimale corrisponde a circa 3t bit. Una ruota nume­


rata in un calcolatore da tavolo possiede dieci posizioni stabili
e pertanto ha una capacità di immagazzinamento di una cifra
decimale. Nei calcoli analitici in cui sono implicate l'integrazione
e la derivazione, è talvolta utile la base e. Le unità di informa­
zione risultanti saranno denominate unità naturali. Il passaggio
dalla base a alla base b richiede semplicemente una moltiplica­
zione per 1ogb a.
Per sistema di comunicazione intenderemo un sistema del tipo
indicato schematicamente nella fig. 1 . Esso consiste essenzial­
mente di cinque parti.
1. Una sorgente di informazioni che genera un messaggio o
una sequenza di messaggi che devono essere comunicati al ter­
minale ricevente. Il messaggio può essere di vari tipi : (a) una
sequenza di lettere come in un telegrafo o in un sistema di tele­
scriventi ; ( b ) una singola funzione del tempo f(t) come nella
radio o nella telefonia ; (c) una funzione del tempo ed altre va­
riabili come nella televisione in bianco e nero - in questo caso
si può pensare al messaggio come ad una funzione f(x, y, t) di
due coordinate spaziali e del tempo, l'intensità della luce in un
punto (x, y) e il tempo t su una placca del tubo ricevente ; (d) due
o più funzioni del tempo, poniamo f(t), g(t), h( t) - è questo
il caso che si verifica nella trasmissione « tridimensionale '' del
suono o di quando si vuole che il sistema serva parecchi canali
in multiplex (trasmissione contemporanea) ; (e) parecchie fun­
zioni di diverse variabili - nella televisione a colori il messaggio

35
sorgente della
informazione trasmettitore

sorgente
d i disturbi

Fig. l · Schema di un sistema generale di comunicazioni.

consiste di tre funzioni f(x, y, t), g(x, y, t), h(x, y, t) definite in un


continuo tridimensionale - possiamo anche pensare a queste tre
funzioni come a componenti di un campo vettoriale definito nella
regione - similmente, diverse sorgenti televisive in bianco e nero
produrrebbero « messaggi 11 consistenti di un certo numero di
funzioni di tre variabili; (f) si verificano anche varie combina­
zioni, per esempio nella televisione con associato un canale audio.
2. Un trasmettitore, che opera in qualche modo sul messag­
gio per produrre un segnale adatto alla trasmissione sul canale.
Nella telefonia questa operazione consiste semplicemente nel con­
vertire la pressione del suono in una corrente elettrica propor­
zionale. Nella telegrafia abbiamo una operazione di codifica che
produce sul canale una sequenza di punti, linee e spazi che cor­
rispondono al messaggio. In un sistema PCM a trasmissione mul­
tipla le differenti funzioni del parlato devono essere campionate,
compresse, quantizzate e codificate, e infine opportunamente in­
tercalate per costruire il segnale. Sistemi vocoder, televisione e
modulazione di frequenza sono altri esempi di complesse opera­
zioni effettuate sul messaggio per ottenere il segnale.
3. Il canale è semplicemente il mezzo impiegato per trasmet­
tere il segnale dal trasmettitore al ricevitore. Esso può consistere
di una coppia di fili, un cavo coassiale, una banda di frequenze
radio, un raggio di luce, ecc. Durante la trasmissione, oppure ad
uno dei terminali, il segnale può venir perturbato da un disturbo3•

3 Si è tradotto con disturbo il termine inglese 11 noise 11 dato il più ampio si­
gnificato che non la parola italiana rumore, limitata solitamente al campo acu-

36
Questo fatto viene schematicamente indicato nella fig. l dalla sor­
gente del disturbo che opera sul segnale trasmesso per produrre
il segnale ricevuto.
4. Il ricevitore compie di solito l'operazione inversa di quella
compiuta dal trasmettitore, ricostruendo il messaggio dal se­
gnale.
5.La destinazione è la persona (o la cosa) cui è diretto il
messaggio.
Desideriamo prendere in considerazione certi problemi generali
riguardanti i sistemi di comunicazione. Per fare ciò è prima neces­
sario descrivere i vari elementi implicati come entità matematiche,
opportunamente idealizzati rispetto ai loro componenti fisici. Pos­
siamo grosso modo classificare i sistemi di comunicazione in tre
categorie principali : discreti, continui e misti. Per sistema di­
screto intendiamo un sistema in cui sia il messaggio che il se­
gnale consistono in una sequenza di simboli distinti. Un caso
tipico è costituito dal telegrafo, in cui il messaggio è una se­
quenza di lettere ed il segnale una sequenza di punti, linee e
spazi. Un sistema continuo è quello in cui il messaggio ed il se­
gnale sono entrambi trattati come funzioni continue, per esem­
pio la radio o la televisione. Un sistema misto è quello in cui
compaiono variabili sia discrete che continue, per esempio la tra­
smissione della parola col sistema PCM.
Considereremo dapprima il caso del sistema discreto. Questo
caso possiede applicazioni non solamente nella teoria delle comu­
nicazioni, ma anche nella teoria delle macchine calcolatrici, nella
progettazione di centralini telefonici e in altri campi. Oltre a ciò,
il caso del sistema discreto costituisce un presupposto per i casi
continuo e misto, che verranno trattati nella seconda parte del
lavoro.

stico. Si fa presente però che nel linguaggio tecnico spesso si usa la parola
rumore nel significato più ampio (N.d. T. ).

37
l

Sistemi discreti non disturbati

l . Il canale discreto non disturbato

Telescrivente e telegrafo sono due semplici esempi di un ca­


nale discreto per la trasmissione di informazioni. Generalmen­
te, un canale discreto vuoi significare un sistema per mezzo del
quale una sequenza di scelte, operate tra un insieme finito di
simboli elementari S1 . . . Sn, può venir trasmessa da un punto
ad un altro. Ciascuno dei simboli S; è assunto avere una certa
durata nel tempo di t; secondi (non necessariamente la stessa
per differenti S;, per esempio i punti e le linee nel telegrafo). Non
si richiede che tutte le possibili sequenze dei simboli S; siano su­
scettibili di trasmissione sul sistema ; possono essere consentite
solamente certe sequenze. Queste costituiranno i possibili segnali
per il canale. Così supponiamo che nella telegrafia i simboli
siano :
1. un punto, consistente nel chiudere la linea per una unità di
tempo e quindi di aprirla per un'altra unità di tempo;
2. una linea, consistente di tre unità di tempo di linea chiusa
e una di linea aperta ;
3. uno spazio tra lettere consistente, poniamo, di tre unità di
linea aperta ;
4. uno spazio tra parole, di sei unità di linea aperta.
Potremmo porre la restrizione, per quanto attiene le sequen­
ze consentite, che gli spazi non vengano uno dopo l'altro (in

39
quanto, se due spazi fra lettere sono adiacenti essi sono identici
ad uno spazio fra parole). La questione che ora prendiamo in
considerazione è quella di come è possibile misurare la capacità
di trasmettere informazioni con un canale di questo tipo.
Nel caso della telescrivente in cui tutti i simboli sono della
stessa durata, ed è consentita qualunque sequenza di 32 simboli,
la risposta è semplice. Ciascun simbolo rappresenta cinque bit
di informazione. Se il sistema trasmette n simboli al secondo è
logico affermare che il canale possiede una capacità di Sn bit al
secondo. Ciò non significa che il canale della telescrivente trasmet­
terà sempre informazioni a questa velocità - questa è la mas­
sima velocità possibile e il fatto che la velocità effettiva raggiunga
o meno questo massimo dipende dalla sorgente di informazioni
che alimenta il canale, come si vedrà in seguito.
Nel caso più generale di simboli con differenti durate e con
limitazioni riguardo alle sequenze ammesse, diamo la seguente
definizione : la capacità C di un canale discreto è data da

C = lim log N(T)


T-+ - T
dove N(T) è il numero di segnali ammessi di durata T.
E' facile verificare che nel caso della telescrivente la for­
mula conduce al medesimo risultato già ottenuto. Si può dimo­
strare che nella maggior parte dei casi che interessano, il limite
in questione esiste ed è un numero finito. Supponiamo che siano
consentite tutte le sequenze dei simboli S1, . . . , Sn e che questi
simboli abbiano durata t1, . . . , tn. Quale è la capacità del ca­
nale? Se N(t ) rappresenta il numero di sequenze di durata t ,
abbiamo
N( t) = N(t - t1) + N( t - t2) + . . . + N( t - tn).
Il numero totale è uguale alla somma dei numeri di sequenze
che finiscono in S1, S2, . . . , Sn e queste sono N(t - t1), N( t - t2 ) ,
. . . , N(t - tn), rispettivamente. Conformemente a un ben noto
risultato nella teoria delle differenze finite, N(t), per t grande,
ha comportamento asintotico del tipo AX6 dove A è costante e
Xo è la più grande soluzione reale della equazione caratteristica :

40
x-r, + x-r, + . . . + x-r. = l
e perciò
log AX�
C = lim = log Xo
7'-+ .. T
Nel caso vi siano limitazioni riguardo alle sequenze consen­
tite possiamo spesso ottenere ancora una equazione alle diffe­
renze di questo tipo e ricavare C dalla equazione caratteristica.
Nel caso della telegrafia, sopra menzionata,
N( t) = N( t - 2) + N( t - 4) + N(t - 5) + N(t - 7)
+ N (t - B) + N(t - 10)
come vediamo contando sequenze di simboli in conformità con
l'ultimo o penultimo simbolo che si incontra. Pertanto C è uguale a
- log {.lo dove {.lo è la radice positiva di l = f.L2 + f.L4 + ,; +
f.l1
+ f.L8 + f.l10• Risolvendo, troviamo che C = 0,539.
Un tipo molto generale di limitazione che può essere posta
riguardo alle sequenze consentite è il seguente : immaginiamo
un certo numero di possibili stati a1, a2, . . . , am . Per ciascuno
stato possono venir trasmessi solamente certi simboli dell'in­
sieme St, . . . , S,. (differenti sottoinsiemi per i differenti stati).
Quando uno di questi è stato trasmesso lo stato viene a cambiarsi
in un nuovo stato che dipende sia dal vecchio stato che dal par­
ticolare simbolo trasmesso. Il caso del telegrafo rappresenta un
semplice esempio di questo. Vi sono due stati, a seconda che
l'ultimo simbolo trasmesso sia o no uno spazio. Se era uno spazio,
allora possono venir trasmessi subito dopo soltanto un punto o
una linea e lo stato cambia comunque. Se non era uno spazio,
può venir trasmesso qualunque simbolo e lo stato cambia se è
inviato un segnale di spazio (tra lettere o tra parole), in caso
contrario rimane lo stesso. Le condizioni possono venir indicate
in un grafo lineare, come si vede nella fig. 2. I punti di congiun­
zione corrispondono agli stati, mentre le linee indicano i sim­
boli possibili in uno stato e lo stato risultante. Nell'appendice l
si dimostra che, se le condizioni riguardanti le sequenze ammesse
possono essere descritte in questa forma, C esiste e può essere
calcolato in base al seguente teorema.

41
Teorema l: Sia blfl la durata del smo simbolo che è ammesso
quando ci si trova nello stato i e porta allo stato j. In tal caso
la capacità C del canale è uguale a log W, dove W è la più grande
radice reale della equazione in forma di determinante :
1 •1
1 I: w-b,, - 8ij 1 = o

dove o;i = l se i = j, altrimenti è uguale a zero.

linea

punto

linea

spazio tra
parole

Fig. 2 - Rappresentazione grafica delle restrizioni relative ai simboli del


telegrafo.

Per esempio, nel caso del telegrafo (fig. 2) il determinante è:


l -t (w-z + w-4) l=
(w-3 + w-6) (w-z + w-4 0 _ o.

Sviluppando, si ricava l'equazione prima data per questo insieme


di limitazioni.

2. La sorgente discreta di informazioni

Abbiamo visto che sotto condizioni molto generali il loga­


ritmo del numero dei segnali possibili in un canale discreto au­
menta linearmente con il tempo. La capacità di trasmettere in­
formazioni può venir specificata mediante questa velocità di au­
mento, il numero di bit al secondo richiesti per specificare il
particolare segnale usato.
Consideriamo ora la sorgente di informazioni. Come deve es­
sere descritta dal punto di vista matematico una sorgente di

42
informazioni, e quanta informazione, in bit al secondo, viene pro­
dotta in una data sorgente ? Il punto principale in discussione è
l'effetto della conoscenza statistica della sorgente nel ridurre la
capacità del canale necessaria, mediante l'uso di una opportuna
codifica delle informazioni . Nella telegrafia, ad esempio, i mes­
saggi da trasmettere sono costituiti da sequenze di lettere. Queste
sequenze, comunque, non sono formate completamente a caso.
In generale, esse formano delle frasi e hanno la struttura stati­
stica, poniamo, dell'inglese. La lettera E si presenta più fre­
quentemente della lettera Q, la sequenza TH più frequentemente
della sequenza XP, ecc. L'esistenza di questa struttura consente
di attuare un risparmio nel tempo (o capacità del canale) me­
diante una appropriata codifica delle sequenze dei messaggi in
sequenze di segnali. Ciò viene già fatto in misura limitata nella
telegrafia, usando il più breve simbolo del canale, un punto, al
posto della più comune lettera inglese, la E; mentre le poco fre­
quenti lettere Q , X, Z sono rappresentate da sequenze più lunghe
di punti e linee. Questo principio viene ancor più sviluppato in
certi codici commerciali in cui parole e frasi comuni sono rap­
presentate da gruppi di codice di quattro o cinque lettere, con
un notevole risparmio sul tempo medio. I telegrammi, ora in
uso, di congratulazioni e di auguri formulati in modo standard
estendono questo metodo fino al punto di codificare una o due
frasi in una sequenza relativamente breve di numeri.
Possiamo pensare ad una sorgente discreta come a un gene­
ratore del messaggio simbolo dopo simbolo. Essa sceglierà i sim­
boli successivi in conformità a certe probabilità dipendenti, in
generale, dalle scelte precedenti come anche dai particolari sim­
boli in questione. Un sistema fisico, o un modello matematico
di sistema che produce una tale sequenza di simboli governati da
un insieme di probabilità, è detto un processo stocastico4• Pos­
siamo, pertanto, considerare una sorgente discreta come rappre­
sentata da un processo stocastico. Viceversa, qualunque processo
stocastico che produce una sequenza discreta di simboli scelti
da un insieme finito, può essere considerato una sorgente discreta.
Essa comprenderà casi come :
1. linguaggi scritti naturali, quali l'inglese, il tedesco, il cinese;

•S i veda, a d esempio, S. Chandrasekhar, cc Stochastic Problems in Physics and


Astronomy » Review ot Modern Physics, v. 15, No. l, gennaio 1943, p. l .

43
2. sorgenti di informazione continue che siano state rese discrete
mediante qualche processo di quantificazione. Per esempio, il
parlare quantizzato mediante un trasmettitore PCM, o un se­
gnale televisivo quantizzato ;
3. casi matematici in cui definiamo semplicemente in modo
astratto un processo stocastico che genera una sequenza di
simboli. I seguenti sono esempi di quest'ultimo tipo di sor­
gente:
(A) immaginiamo di avere cinque lettere A, B, C, D, E che sono
scelte ciascuna con probabilità 0,2, e le scelte successive sia­
no indipendenti. Ciò condurrà a sequenze delle quali la se­
guente è un esempio tipico.
B D C B C E C C C A D C B D D A A E C E E AA B B DAEE
C A C E E B A E E C B C E A D.
Essa è stata ottenuta con l'uso di una tavola di numeri ca­
suali5;
(B) usando le medesime cinque lettere, siano però le probabilità,
rispettivamente, 0,4; 0,1 ; 0,2 ; 0,2 ; 0,1 , essendo indipendenti
l'una dall'altra le scelte successive. Un messaggio tipico di
questa sorgente è allora :
A A A C D C B D C E A A D A D A C E D A E A D C A B EDA
D D C E C AA A A A D;
(C) una struttura più complicata la si ottiene se i simboli in
successione non sono scelti indipendentemente, ma se le loro
probabilità dipendono dalle lettere precedenti. Nel più sem­
plice caso di questo tipo, una scelta dipende esclusivamente
dalla lettera precedente e non da quelle ancora precedenti.
La struttura statistica può allora venir descritta mediante un
insieme di probabilità di transizione p;(j), la probabilità che
la lettera i sia seguita dalla lettera j. Gli indici i e j si ap­
plicano a tutti i simboli possibili. Un altro modo, equivalente,
di determinare la struttura è quello di dare le probabilità
del « digramma 11 p( i, j), vale a dire la frequenza relativa
del digramma i j. Le frequenze delle lettere p(i), (la proba­
bilità della lettera i), le probabilità di transizione p;(j) e le

• Kendall e Smith, Tables of Random Sampling Numbers, Cambridge, 1939.

44
probabilità di digramma p( i, j ) sono legate fra di loro dalle
relazioni espresse dalle seguenti formule :
p(i) = l: p( i, j ) = l: p( j , i) = l: p(j }p,(i)
l l l
p( i, j ) = p( i}pi(j )
l: p;(j ) = l: p( i) = l: p( i, j ) = 1
l l i, i

Come esempio specifico, supponiamo che VI s1ano tre let­


tere A, B, C con le seguenti tavole di probabilità:

p;(j ) i i p( i) p( i, j) i
A B c A B c
4 l 9 4 l
A o "T -5- A -rr A o 15 -1.5
16 8 8
i B t t o B
-r,- i B ii -ri o

c t
2
s
l
lo c 2-
'Il
c l l
-ri
4
135
l
135

Un messaggio tipico prodotto da questa sorgente è il se-


guente:
A B B A B A B A B A B A B A B B B A B B B B B A B A
B A B A B A B B B ACACAB B A B B B B A B B A B A
C B B B A B A.
Il successivo aumento nella complessità implicherebbe fre­
quenze di trigramma, ma non più. La scelta di una lettera
dipenderebbe dalle due lettere precedenti, ma non dal mes­
saggio precedente quel punto. Sarebbe richiesto un insieme di
frequenze di trigramma p(i, j , k) o equivalentemente un in­
sieme di probabilità di transizione p;;(k). Continuando in que­
sto modo si ottengono successivamente processi stocastici più
complicati. Nel caso generale di n-gramma, per determinare
la struttura statistica è necessario un insieme di probabilità
di n-gramma p( i., i2, . . . , in) o di probabilità di transizione
p;, , i2• • • • ' in-l ( in};
(D) i processi stocastici possono anche essere definiti come quelli
che producono un testo consistente in una sequenza di « pa­
role )). Supponiamo che vi siano cinque lettere A, B, C , D, E
e 16 « parole '' nel linguaggio, con le relative probabilità:

45
0 , 10 A 0,16 BEBE 0,1 1 CABED 0,04 DEB
0 ,04 ADEB 0 ,04 BEO 0,05 CEED 0,15 DEED
0,05 ADEE 0,02 BEED 0,08 DAB 0,01 EAB
0 ,01 BADO 0,05 CA 0,04 DAD 0 ,05 EE
Supponiamo che le « parole >> in successione siano scelte in
modo indipendente e siano separate da uno spazio. Un mes­
saggio tipico potrebbe essere : DAB EE A BEBE DEED DEB
ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BEO
DEED DEED CEED ADEE A DEED DEED BEBE CABED
BEBE BED DAB DEED ADEB.
Se tutte le parole sono di lunghezza finita questo processo
è equivalente ad uno del tipo precedente, ma la descrizione
in termini di struttura delle parole e di probabilità può risul­
tare più semplice. A questo punto possiamo anche genera­
lizzare e introdurre le probabilità di transizione tra parole,
ecc.
Questi linguaggi artificiali risultano utili nella costruzione di
semplici problemi ed esempi per illustrare diverse possibilità.
Possiamo anche avvicinarci con successive approssimazioni ad
un linguaggio naturale per mezzo di una serie di semplici lin­
guaggi artificiali. L'approssimazione di grado zero viene ottenuta
scegliendo tutte le lettere con la stessa probabilità e in modo
indipendente. L'approssimazione di primo grado si ottiene sce­
gliendo indipendentemente l'una dall'altra le lettere in succes­
sione, avendo però ciascuna lettera la stessa probabilità che pos­
siede nel linguaggio naturale6• Così, nella approssimazione di pri­
mo grado alla lingua inglese, la lettera E viene scelta con pro­
babilità 0,12 (la sua normale frequenza in inglese) e la W con
probabilità 0,02, ma non esiste rapporto tra le lettere consecu­
tive e pertanto non vi è tendenza a formare i digrammi più co­
muni, come TH, ED, ecc . Nella approssimazione di secondo grado
viene introdotta la struttura del digramma. Dopo che una lettera
è stata scelta, la successiva viene scelta in conformità delle fre-

•Frequenze di lettere, di digrammi e di trigrammi si trovano in Secret and


Urgent di Fletcher Pratt, Blue Ribbon Books, 1939. Tabelle di frequenze di
parole si trovano in Relative Frequency of English. Speech. Sounds, G. Dewey,
Harvard University Press, 1923.

46
quenze con cui le diverse lettere seguono la prima. Ciò richiede
una tavola di frequenze di digramma p;(j). Nella approssimazio­
ne di terzo grado, viene introdotta la struttura del trigramma.
Ciascuna lettera viene scelta in base a probabilità che dipendono
dalle due lettere precedenti.

3. La successione di approssimazioni della lingua inglese

Per dare un'idea visiva di come questa serie di processi si


avvicina ad una lingua, sono state costruite delle sequenze ti­
piche di approssimazione all'inglese; esse sono riportate qui
sotto. In tutti i casi abbiamo assunto un « alfabeto » di 27 sim­
boli, le 26 lettere ed uno spazio7•
1. Approssimazione di grado zero ( simboli indipendenti ed ugual­
mente probabili).
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSG­
HYD QPAAMKBZAACIBZLHJQD.
2. Approssimazione di primo grado (simboli indipendenti ma con
frequenze proprie della lingua inglese).
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH
EEI ALHENHTTPA OOBTTVA NAH BRL.
3. Approssimazione di secondo grado (struttura dei digrammi
come in inglese).
ON lE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY
ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO
TIZIN ANDY TOBE SEACE CTISBE.
4. Approssimazione di terzo grado ( strutture dei trigrammi come
in inglese).
IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID
PONDENOME OF DEMONSTURES OF THE REPTAGIN
IS REGOACTIONA OF CRE .

7 Fino alla approssimazione di terzo grado compresa sono scritte in corsivo le


sequenze di lettere che, da sole, costituiscono termini inglesi aventi un senso
compiuto. Altre parole sarebbero estrapolabili da sequenze di lettere più lunghe,
sovente con diverse combinazioni ( ad es., nella sequenza 11 regoactiona 11 sono
compresi i termini : 11 action 11, 11 act 11 e 11 on Il). Nei due casi di approssimazione
alle parole non si è ritenuto di doverle tradurre, dato che le loro sequenze
sono prive di significato, ad eccezione del caso preso in considerazione dal­
l'Autore ( v. nota 8 ) . (N.d.T. >.

47
S. Approssimazione di primo grado, con riguardo alle parole.
Piuttosto che continuare con la struttura dei tetragrammi, . . . ,
degli n-grammi, risulta più semplice e più proficuo, a questo
punto, saltare alle unità di parola. Qui le parole sono scelte
indipendentemente l'una dall'altra, ma con frequenze appro­
priate.
REPRESENTING AND SPEEDILY IS AN GOOD APT OR
COME CAN DIFFERENT NATURAL HERE HE THE A
IN A CAME THE TO OF TO EXPERT GRAY COME TO
FURNISHES THE LINE MESSAGE HAD BE THESE.
6. Approssimazione di secondo grado, con riguardo alle parole.
Le probabilità di transizione delle parole sono corrette, ma
non è inclusa alcuna ulteriore struttura.
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH
WRITER THAT THE CHARACTER OF THIS POINT IS
THEREFORE ANOTHER METHOD FOR THE LETTERS
THAT THE TIME OF WHO EVER TOLD THE PROBLEM
FOR AN UNEXPECTED.
La rassomiglianza con un normale testo inglese aumenta in
maniera notevole ad ognuno dei suesposti passaggi. Si noti che
questi esempi hanno una struttura ragionevolmente buona fino a
circa due volte l 'estensione che è presa in considerazione nella
loro costruzione. Così, al punto 3 il processo statistico assicura
un testo comprensibile per sequenze di due lettere, ma sequenze
di quattro lettere possono normalmente essere inserite, previo
adattamento, in frasi corrette. Nel caso di cui al punto 6, sequenze
di quattro o più parole possono facilmente venir inserite entro
delle frasi, senza ricorrere a costruzioni strane o forzate. La par­
ticolare sequenza di dieci parole << attack on an English writer
that the character of this ,,s non è affatto assurda. E' chiaro dun­
que che un processo stocastico sufficientemente complesso for­
nirà una soddisfacente rappresentazione di una sorgente discreta.
I primi due esempi sono stati formati mediante l'uso di ta­
belle di numeri casuali, unitamente (per l'esempio 2) ad una
tavola di frequenze di lettere. Questo metodo avrebbe potuto es­
sere adoperato anche per i casi 3 , 4 e 5, dato che sono disponibili

" cc Attacco ad uno scrittore inglese sul fatto che il carattere di questo 11 (N.d. T. ) .

48
tavole di frequenza di digrammi, trigrarnrni e parole, ma ci si è
serviti di un metodo equivalente e più semplice. Per fonnare
l'esempio 3, poniamo, si apre un libro a caso e, sempre a caso,
si sceglie una lettera nella pagina. Questa lettera viene quindi
registrata. Si apre quindi il libro ad un'altra pagina e si legge
fino a quando non ci si imbatte in questa lettera. Si procede
quindi alla registrazione della lettera che la segue. Passando ad
una nuova pagina, si cerca questa seconda lettera e si registra
quella ad essa successiva, ecc. Sarebbe interessante se si potesse
procedere ad ulteriori approssimazioni, ma allo stadio successivo
il lavoro diventa enorme.

4. Rappresentazione grafica di un processo di Markoff

Processi stocastici del tipo sopra descritto sono noti mate­


maticamente come processi discreti di Markoff o markoviani e
sono stati ampiamente studiati nella letteratura9• Il caso gene­
rale può venir descritto come segue : esiste un numero finito di
possibili (( stati » di un sistema ; s., S2, • , Sn. Si ha inoltre un
. .

insieme di probabilità di transizione, pi(j), ossia la probabilità che


il sistema, trovandosi nello stato S;, si sposti in seguito nello stato
Si. Per trasformare questo processo markoviano in una sorgente
di informazioni dobbiamo solamente assumere che per ogni tran­
sizione da uno stato ad un altro venga prodotta una lettera. Gli
stati corrisponderanno al (( residuo di influenza » delle prece­
denti lettere.
La situazione può essere rappresentata graficamente come si
vede nelle figg. 3 , 4 e 5. Gli (( stati >> sono i punti di congiunzione
nel grafo e le probabilità e le lettere prodotte in rapporto ad una
transizione sono date a lato della lirtea corrispondente. La fig. 3
corrisponde all'esempio (B) del par. 2 mentre la fig. 4 corrisponde
all'esempio (C). Nella fig. 3 vi è un solo stato, in quanto le lettere
successive sono indipendenti. Nella fig. 4 vi sono tanti stati quan­
te lettere. Se si costruisse un esempio di trigramma, ci sarebbero

• Per una trattazione dettagliata sl veda M. Frechet, Methods des fonctions


arbitraires. Theorte des énénements en chaine dans le cas d'un nombre fini
d'états posstbles, Parls, Gauthier Villars, 1938.

49
A O l B
o

0,2
E
0,1 c

D 0,2

Fig. 3 - Un grafo corrispondente alla sorgente nell'esempio B.

Fig. 4 - Un grafo corrispondente alla sorgente nell'esempio C.

Fig. 5 - Un grafo corrispondente alla sorgente nell'esempio D.

50
al massimo n2 stati corrispondenti al possibile paio di lettere
precedenti a quella che viene scelta. La fig. 5 rappresenta un grafo
per il caso di struttura di parole di cui all'esempio (D). Qui S cor­
risponde al simbolo di « spazio ».

S. Sorgenti ergodiche e miste

Come abbiamo indicato precedentemente, possiamo considera­


re, per i nostri scopi, che una sorgente discreta sia rappresen­
tata da un processo markoviano. Tra i possibili discreti processi
markoviani, ve ne è un gruppo avente proprietà di particolare
rilievo nella teoria delle comunicazioni. Questa classe speciale è
costituita dai processi ergodici ; chiameremo sorgenti ergodiche
le sorgenti corrispondenti. Sebbene sia piuttosto complicata una
definizione rigorosa di processo ergodico, l'idea generale è sem­
plice. In un processo ergodico ciascuna sequenza prodotta me­
diante il processo possiede le stesse proprietà statistiche. In tal
modo, le frequenze delle lettere, le frequenze dei digrammi, ecc.,
ricavate da sequenze particolari, si avvicineranno, all'aumentare
delle lunghezze delle sequenze, a limiti definiti, indipendenti dalla
sequenza particolare. In realtà ciò non è vero per tutte le se­
quenze, ma il gruppo per cui è falso ha probabilità zero. Appros­
simativamente, la proprietà ergodica significa omogeneità sta­
tistica.
Tutti gli esempi di linguaggio artificiale dati sopra sono er­
godici . Questa proprietà è in relazione con la struttura del grafo
corrispondente. Se il grafo ha le due seguenti proprietà10, il cor­
rispondente processo sarà ergodico :
1. il grafo non consiste di due parti separate A e B, tali che
sia impossibile spostarsi da punti di congiunzione nella parte
A a punti di congiunzione nella parte B lungo linee del grafo
nella direzione delle frecce e che sia parimenti impossibile
andare dai punti nella parte B a quelli nella parte A;
2. una serie chiusa di linee nel grafo con tutte le frecce orien­
tate nella medesima direzione sarà detta circuito. La « lun-

10 Si tratta di riaffermazioni espresse nei termini del grafo di condizioni esposto

nel lavoro di Frechet.

51
ghezza » di un circuito è data dal numero delle sue linee . Così
nella fig. 5, la serie BEBES è un circuito di lunghezza S. La
seconda proprietà richiesta è che il massimo comun divisore
delle lunghezze di tutti i circuiti del grafo sia l .
Se è soddisfatta la prima condizione, ma l a seconda è vio­
lata, essendo il massimo comun divisore d > l , le sequenze hanno
un certo tipo di struttura periodica. Le varie sequenze si suddi­
vidono in d differenti classi che sono statisticamente le stesse a
parte uno spostamento dell'origine (cioè, della lettera della se­
quenza chiamata lettera l ). Mediante uno spostamento compreso
tra O e d - l , qualsiasi sequenza può essere resa statisticamente
equivalente a qualunque altra. Un semplice esempio con d = 2 è
il seguente : vi sono tre possibili lettere a, b, c. La lettera a è se­
guita sia da b che da c, rispettivamente con probabilità t e f .
Sia b che c sono sempre seguite dalla lettera a. Pertanto una se­
quenza tipica è
abacacacabacababaca�
Questo tipo di situazione non è molto importante per il nostro
lavoro.
Se viene meno la prima condizione il grafo può venir sepa­
rato in diversi sottografi, ciascuno dei quali soddisfa questa prima
condizione. Assumeremo che la seconda condizione sia pure sod­
disfatta per ogni sottografo. In questo caso abbiamo ciò che può
venir denominato una sorgente « mista », costituita da un certo
numero di semplici componenti. Le componenti corrispondono ai
diversi sottografi . Se L1, Lz, L1, . . . , sono le sorgenti componenti,
possiamo scrivere
L = p1L1 + P2Lz + P1L1 + . . .
dove p; è la probabilità della sorgente componente L;.
Fisicamente la situazione rappresentata è questa: vi sono
parecchie differenti sorgenti L1, Lz, L1, . . . , ognuna di struttura
statistica omogenea (sono, cioè, ergodiche). Non sappiamo a priori
quale deve essere utilizzata, ma una volta che la sequenza ha ini­
zio con una data componente semplice L;, essa prosegue indefi­
nitamente in conformità della struttura statistica di quella com­
ponente.

52
A titolo di esempio, si possono prendere due dei processi
sopra definiti e assumere P1 = 0,2 e Pz = 0,8. Si otterrebbe una
sequenza scaturente dalla sorgente mista
L = 0,2 LI + 0,8Lz
con lo scegliere dapprima L1 o Lz con probabilità 0,2 e 0,8 e con
il generare quindi una sequenza avente come origine la scelta
fatta, qualunque sia.
Assumeremo una sorgente come ergodica ogniqualvolta non
si stabilisca il contrario. Questa assunzione mette in grado di
identificare medie lungo una sequenza con medie dell'insieme di
sequenze possibili (essendo zero la probabilità che vi siano dif­
ferenze). Per esempio, la frequenza relativa della lettera A in una
particolare sequenza infinita sarà, con probabilità uno (certezza),
uguale alla sua frequenza relativa nella totalità delle sequenze.
Se P; è la probabilità dello stato i e p;(j) la probabilità di
transizione allo stato j, allora è chiaro che P;, affinché il pro­
cesso sia stazionario, deve soddisfare alle condizioni di equilibrio :

pi = l: P;p;(j) .
l

Nel caso ergodico, è possibile dimostrare che, con qualunque


condizione di partenza, le probabilità Pi(N) di trovarsi nello stato
i dopo N simboli, tendono ai valori di equilibrio quando N --+ oo.

6. Scelta, incertezza ed entropia

Abbiamo descritto una sorgente di informazioni di tipo di­


screto come un processo markoviano. Possiamo definire una
quantità che misuri, in qualche senso, quanta informazione è
« prodotta >> mediante un tale processo, o meglio a quale velocità
le infomazioni sono prodotte?
Supponiamo di avere un insieme di possibili eventi, le cui
probabilità di verificarsi siano p1, pz, . . . , p,.. Queste probabilità
sono note, ma questo è tutto quanto sappiamo riguardo a quale
evento si verificherà. Possiamo trovare una misura di quanta
cc scelta » comporta la selezione dell'evento, ovvero della nostra

incertezza riguardo al risultato?

53
Se una tale misura, H(pt , p,., . . . , Pn), esiste, è ragionevole
richiedere che abbia le seguenti proprietà :
l . H dovrebbe essere continua nelle p;;
2. se tutte le probabilità p; sono uguali, p; = l /n, allora H do­
vrebbe essere una funzione monotonica crescente di n. Nel
caso di eventi egualmente probabili, quanti più eventi possi­
bili ci sono, tanta maggior scelta, o incertezza, si ha ;
3. se una scelta viene scomposta in due scelte successive, la H
originale dovrebbe essere la somma pesata dei singoli valori
di H. Il significato di ciò è illustrato nella fig. 6. A sinistra
abbiamo tre possibilità Pt = ! , P2 = t, PJ = i. A destra, dap­
prima scegliamo tra due possibilità, ciascuna con probabilità
! , e se si realizza la seconda possibilità, scegliamo ancora, con
probabilità i, t. I risultati finali hanno le stesse probabilità
di prima. Richiediamo, in questo caso speciale, che
H( ! t , i) = H(!, !) + ! H(t , t).
,

Il coefficiente ! costituisce il fattore di peso introdotto perché


questa seconda scelta si verifica solo una volta su due.
Nell'appendice 2, dimostriamo il seguente risultato :
Teorema 2: La sola misura H che soddisfa alle tre proprietà di
cui sopra è della forma:
n
H= - K l; p; log p;
i=l

dove K è una costante positiva.

Fig. 6 - Scomposizione di una scelta fra tre possibilità.

54
1 ,0

0,9 / �
0,8 l Ì\.
v '\
0,7

H 0,6
l 1\
H bits
0,5 1/ \
0,4

0,3 l \
0,2 l \
o, 1 1 / \
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
p

Fig. 7 - Entropia nel caso di due possibilità con probabilità p e (1 - p).

Questo teorema, e le condizioni richieste per la sua dimostra­


zione, non sono in alcun modo necessari per la presente teo­
ria. Esso è riportato principalmente per fornire una certa plau­
sibilità a qualcuna delle nostre ulteriori definizioni. La giustifi­
cazione effettiva di queste definizioni, comunque, risiederà nelle
loro implicazioni .
Quantità della forma H = l: Pi log Pi (la costante K di­
-

pende semplicemente dalla scelta di una unità di misura) giocano


un ruolo centrale nella teoria delle informazioni in quanto misure
di informazione, scelta ed incertezza. Si riconoscerà nella for­
mula di H quella dell'entropia, quale viene definita in certe for­
mulazioni di meccanica statistica11 , dove Pi è la probabilità che
un sistema si trovi nella cella i del suo spazio delle fasi . H è
allora, per esempio, la H del famoso teorema H di Boltzmann .

11 Si veda, per esempio, R. C. Tolman, Principles o/ Statfstfcal Mechanics, Oxford,


Clarendon, 1938.

55
Noi chiameremo H = - l: Pi log Pi l'entropia dell'insieme di
probabilità P1, , p,.. ·Se x è una variabile casuale, scriveremo
. . •

H(x) come sua entropia; pertanto x non è un argomento di una


funzione, bensì un simbolo che sta per un numero, per diffe­
renziarlo da H(y), vale a dire dall'entropia della variabile ca­
suale y.
L'entropia nel caso di due possibilità con probabilità p e
q = 1 - p, vale a dire
H = - (p log p + q log q)
è tracciata nella fig. 7 come una funzione di p.
La quantità H possiede delle interessanti proprietà che di­
mostrano ancor più come essa rappresenti una logica ed oppor­
tuna misura di scelta, o informazione.
1. H è uguale a O se, e solo se, tutte le probabilità pi, meno
una, sono zero, avendo quest'una valore unitario. Pertanto H
diventa uguale a zero esclusivamente quando siamo certi del
risultato. Altrimenti H è positivo.
2. Per un dato n, H è massimo e uguale a log n quando tutte
le probabilità Pi sono uguali, cioè 1 /n. Questa è intuitivamen­
te anche la situazione di maggior incertezza.
3. Supponiamo che vi siano in questione due eventi, x e y, con
m possibilità per il primo e n per il secondo. Sia p( i, j) la
probabilità del verificarsi congiuntamente di i per il primo
e di j per il secondo . L'entropia dell'evento congiunto è
H(x, y) = - l: p(i, j) log p( i, j)
l, i

mentre
H(x) = - l: p(i, j) log l: p(i, j)
l, f l

H(y) = - l: p( i, j) log l: p( i, j)
l, f l

Si dimostra facilmente che


H(x, y) � H(x) + H(y)
con uguaglianza solamente se gli eventi sono indipendenti (se,
cioè, p(i, j) = p(i)p(j)). L'incertezza di un evento congiunto è
minore o uguale alla somma delle singole incertezze.

56
4. Ogni mutamento nella direzione del livellamento delle proba­
bilità p,, !J2, . . . , Pn incrementa in valore di H. Pertanto, se
p, < Pz e incrementiamo p,, diminuendo Pz di un uguale ammon­
tare in modo che p, e pz vengono ad assumere valori più pros­
simi, allora H diventa più grande. Più generalmente, se compia­
mo qualunque operazione di « livellamento )) sulle p; della forma
p; = :E a;i Pi
i

dove :E a;i = :E a;i = l , dove ogni a;i � O, allora H aumenta (ad ec-
; i

cezione del caso particolare in cui questa trasformazione non


equivale ad altro che ad una permutazione delle Pi• con H che
rimane ovviamente lo stesso).
5. Supponiamo che vi siano due eventi casuali x e y come nel
caso 3, non necessariamente indipendenti. Per qualsiasi parti­
colare valore i che x può assumere, esiste una probabilità con­
dizionale p;(j) che y abbia il valore j. Ciò è dato da
p(i, j)
p;( j) = ----
:E'-'
--' p--;'-:
( i'-'-:
, j-:-
)
l

Definiamo l'entropia condizionale di y, H.(y), come la media del­


l'entropia di y per ogni valore di x, pesata in conformità della
probabilità di ottenere quel particolare x. Cioè:
H"(y) = - :E p( i, j) log p;(j).
i. i

Questa quantità misura quanta incertezza di y in media noi ab­


biamo quando ci è noto x. Sostituendo il valore di p;(j), otteniamo
H"(y) = - :E p( i , j) log p( i, j) + :E p( i, j) log :E p( i , j) =
i,j i, j i

= H(x, y) - H(x)
oppure
H(x, y) = H(x) + H"(y).
L'incertezza (o entropia) dell'evento congiunto x, y è l'incertezza
di x più l'incertezza di y quando x è noto .
6. Dai punti 3 e 5 abbiamo

57
H(x) + H( y) � H(x, y) = H(x) + H,(y).
Donde
H( y) � H,:(y).
L'incertezza di y non viene mai aumentata dalla conoscenza di x.
Essa diminuirà, a meno che x e y siano eventi indipendenti, nel
qual caso non subisce variazioni.

7. La entropia di una sorgente di informazioni

Si consideri una sorgente discreta del tipo a stati finiti prece·


dentemente visto. Per ogni possibile stato i vi sarà un insieme di
probabilità p ;(j) di produrre i vari possibili simboli j. Vi è per­
tanto un'entropia H; per ciascuno stato. L'entropia di questa sor­
gente sarà definita come la media di queste H, pesate in confor­
mità alla probabilità di verificarsi degli stati in questione :

= - "f, P;p;(j) log p ;(j).


i, j

Questa è l'entropia della sorgente per simbolo di testo. Se il pro­


cesso markoviano si sviluppa con una velocità determinata vi è
anche un'entropia al secondo.

dove f; è la frequenza media (numero di volte che si verifica al


secondo) dello stato i. Chiaramente
H' = mH
dove m rappresenta il numero medio di simboli prodotto per
secondo. H o H' misura l'ammontare di informazione generata
dalla sorgente per simbolo o al secondo.
Se i simboli in successione sono indipendenti, H è uguale sem­
plicemente a - r. p ; log p;, dove p; è la probabilità del simbolo i.
Supponiamo in questo caso di prendere in considerazione un
lungo messaggio di N simboli. Esso conterrà con molta proba­
bilità circa p1N presenze del primo simbolo, p2N presenze del

58
secondo, ecc . Di conseguenza, la probabilità di questo partico­
lare messaggio sarà approssimativamente
p = Pf•N p�,N . . . P�·N
ovvero
log p == N l: Pi log Pi
i
log p == - NH
log l/p
H ==
N
H , pertanto, è approssimativamente il logaritmo del reciproco
della probabilità di una tipica lunga sequenza diviso per il nu­
mero dei simboli della sequenza. La medesima conclusione vale
per qualunque sorgente. Espresso con maggior precisione abbia­
mo (vedi appendice 3):
o
Teorema 3 : Scelti a piacere E > O e >O, possiamo trovare un
No tale che le sequenze di qualsivoglia lunghezza N � No vengono
a cadere in due classi :
l . un insieme la cui probabilità totale è minore di E.
2. la parte restante, tutti i membri della quale hanno probabi­
lità che soddisfano alla disuguaglianza

l vlo -1
- H l<o.
In altre parole siamo quasi certi di avere �
lo p -1
molto vicino a
H, quando N è grande.
Un teorema strettamente in rapporto con questo tratta del nu­
mero di sequenze di varie probabilità. Si considerino nuovamente
le sequenze di lunghezza N e siano esse disposte in ordine di
probabilità decrescente. Definiamo n(q) il numero di sequenze
che dobbiamo prendere da questo insieme iniziando con la più
probabile, al fine di ottenere per quelle prese una probabilità
totale q.
Teorema 4 :
lim log n(q) =
H
N-+ oo N

59
quando q non è uguale nè a O nè a l .
Possiamo interpretare log n( q ) come i l numero di bit richiesto
per specificare la sequenza quando prendiamo in considerazione
solamente le sequenze più probabili aventi una probabilità to-
tale q . Quindi ;
log (q)
è il numero di bit per simbolo necessari
per la specificazione. Il teorema afferma che per N grande, esso
sarà indipendente da q ed uguale a H. La velocità di aumento
del logaritmo del numero di sequenze ragionevolmente proba­
bili è data da H, indipendentemente dalla interpretazione di
« ragionevolmente probabile ». Grazie a questi risultati, che sono

dimostrati nella appendice 3, è possibile, per la maggior parte


degli scopi, trattare le lunghe sequenze come se ce ne fossero
solo 28N , ciascuna delle quali con probabilità 2 -HN.
I due teoremi successivi mostrano che H e H' possono essere
determinate mediante operazioni limiti direttamente dai dati sta­
tistici delle sequenze del messaggio, senza riferimento agli stati
ed alle probabilità di transizione tra gli stati.
Teorema 5 : Sia p(B;) la probabilità di una sequenza B; di sim­
boli provenienti dalla sorgente. Sia

GN = -
N
l
f p(B;) log p(B;)
dove la sommatoria è estesa a tutte le sequenze B, che conten­
gono N simboli. Allora GN è una funzione monotona decrescente
di N e
lim GN = H.
N� -

Teorema 6 : Sia p(B;, S;) la probabilità di una sequenza B; seguita


da un simbolo S; e sia Ps;(S;) = p(B;, S;)/p(B;) la probabilità con­
dizionale di avere S; dopo B;. Sia
FN = - � p(B;, S;) log ps;(S;)
i, i

dove la sommatoria è fra tutti i blocchi B ; di N - l simboli e


fra tutti i simboli S;. Allora FN è una funzione monotona de­
crescente di N,

60
FN NGN - (N - 1) GN-1,
=

1 N
GN = - I:. FN,
N 1

FN � GN,
e
lim FN = H.
N-+ -

Questi risultati sono derivati nella appendice 3. Essi mostra­


no che è possibile ottenere una serie di approssimazioni ad H
col prendere solamente in considerazione la struttura statistica
delle sequenze estendentisi su l , 2, . . . , N simboli. FN costituisce
la più alta approssimazione. Infatti FN è l'entropia della appros­
simazione di N-mo grado alla sorgente del tipo sopra discusso.
Se non vi sono influenze statistiche riguardanti più di N simboli,
se cioè la probabilità condizionale del successivo simbolo, cono­
scendo i precedenti (N - 1), non è modificata dalla conoscenza
di alcuno prima di quelli, allora FN = H. FN naturalmente è l'en­
tropia condizionale del simbolo successivo quando i precedenti
(N - l ) sono noti, mentre GN è l'entropia per simbolo di blocchi
di N simboli.
Il rapporto tra l'entropia di una sorgente è il valore massimo che
essa potrebbe avere, limitatamente agli stessi simboli, sarà detto
entropia relativa della sorgente. Questa, come si vedrà in seguito,
costituisce la massima compressione possibile quando procedia­
mo alla codificazione con un medesimo alfabeto. Uno meno l'en­
tropia relativa costituisce la ridondanza. La ridondanza del co­
mune inglese, non prendendo in considerazione la struttura sta­
tistica di estensioni maggiori di otto lettere, è approssimativa­
mente del SO%. Ciò significa che, quando scriviamo in inglese,
la metà di quanto scriviamo è determinata dalla struttura del
linguaggio e metà è liberamente scelta. La misura del SO% è
stata ricavata mediante parecchi metodi indipendenti che hanno
dato tutti risultati di questo ordine. Uno di questi metodi con­
siste nel calcolare l'entropia delle approssimazioni all'inglese.
Un secondo metodo è quello di cancellare un certo numero di
lettere da un testo in lingua inglese, preso come campione, e
far provare qualcuno a rimetterle a posto . Se è possibile rimet­
terle quando ne è stato cancellato il SO% la ridondanza deve

61
essere maggiore del SO% . Un terzo metodo si basa su certi risul­
tati noti in crittografia.
Due estremi di ridondanza nella prosa inglese sono rappresentati
dall'inglese essenziale (Basic English) e dal libro di James Joyce,
Finnegans Wake. Il vocabolario di Basic English è limitato a 850
parole e la ridondanza è molto elevata. Ciò si riflette nella espan­
sione che si verifica quando si traduce un passo in Basic English.
Joyce, dall'altra parte, amplia il vocabolario ed è costretto a com­
piere una compressione del contenuto semantico.
La ridondanza di una lingua è in rapporto con l'esistenza di pa­
role crociate. Se la ridondanza è zero, qualunque sequenza di let­
tere costituisce un accettabile testo della lingua e qualunque
schema bidimensionale di lettere forma una cruciverba. Se la
ridondanza è troppo elevata, la lingua impone troppe restrizioni
perché siano possibili ampie parole crociate. Un'analisi più det­
tagliata mostra che, se assumiamo che le limitazioni imposte dalla
lingua siano di natura piuttosto caotica e casuale, vaste parole
crociate sono appena possibili quando la ridondanza è del 50%.
S e l a ridondanza fosse del 33% sarebbero possibili parole cro­
ciate tridimensionali, ecc.

8. Rappresentazione delle operazioni di codifica e di decodifica

Dobbiamo ancora rappresentare matematicamente le operazioni


effettuate dal trasmettitore e dal ricevitore nel codificare e nel
decodificare le informazioni. Entrambi saranno detti trasduttore
discreto. L'ingresso del trasduttore è costituito da una sequenza
di simboli di ingresso e la sua uscita da una sequenza di simboli
di uscita. Il trasduttore può possedere una memoria interna di
modo che la sua uscita non dipende solamente dall'attuale sim­
bolo di ingresso, ma anche dagli eventi passati. Noi assumiamo
che la memoria interna sia finita, che esista, cioè, un numero
finito m di possibili stati del trasduttore e che la sua uscita
sia una funzione dello stato attuale e dell'attuale simbolo di
ingresso. Lo stato successivo sarà una seconda funzione di queste
due quantità. Pertanto un trasduttore può essere descritto me­
diante due funzioni:

62
y,. = f(x,., a,. )
a,.+ l = g(x,. , a,. )
dove:
x,. è l'ennesimo simbolo di ingresso;
a,. è lo stato del trasduttore quando viene introdotto l'n-mo
simbolo d'ingresso ;
y,. è il simbolo di uscita (o sequenza di simboli di uscita) pro-
dotto allorché viene introdotto x,. se lo stato è a,..
Se i simboli di uscita di un trasduttore possono venir identificati
con i simboli di ingresso di un secondo trasduttore, questi pos­
sono essere collegati in cascata e ne risulta ancora un trasdut­
tore. Se esiste un secondo trasduttore che opera sull'uscita del
primo e riproduce i dati di ingresso originali, il primo trasdut­
tore sarà detto non-singolare e il secondo sarà detto il suo inverso.
Teorema 7: L'uscita di un trasduttore a stati finiti azionato da
una sorgente statistica a stati finiti è una sorgente statistica a
stati finiti, con entropia (per unità di tempo) minore od eguale
a quella dell'ingresso. Se il trasduttore è non-singolare esse sono
uguali.
Sia a lo stato della sorgente che produce una sequenza di simboli
xi ; e sia P lo stato del trasduttore che produce, nella sua uscita,
blocchi di simboli Yi· Il sistema combinato può essere rappre­
sentato dallo << spazio dello stato del prodotto » delle coppie ( a, p).
Due punti nello spazio ( at, Pt ) e ( az, Pz ) sono collegati da una li­
nea se a1 può produrre una x che cambia Pt in Pz e a questa linea
viene data la probabilità di tale x in questo caso. La linea è con­
traddistinta con il blocco di Yt simboli prodotti dal trasduttore.
L'entropia dell'uscita può essere calcolata come la somma pesata
degli stati. Se facciamo dapprima la somma su p ciascun termine
risultante è minore o uguale al termine corrispondente per a,
quindi l'entropia non è aumentata . Se il trasduttore e non-sin­
golare ammettiamo che la sua uscita sia collegata al trasduttore
inverso. Se H:, H;, e H; sono l'entropia di uscita della sorgente,
del primo e del secondo trasduttore, rispettivamente, allora
Hl � Hi � H; = Hl e perciò Hl = H;.
Supponiamo di avere a che fare con un sistema di limitazioni
per le sequenze possibili, del tipo rappresentabile mediante
un grafo lineare, come nella fig. 2. Se si assegnassero probabi-

63
lità plf/ alle varie linee che collegano lo stato i allo stato j, que­
sto diverrebbe una sorgente. Vi è un particolare valore assegna­
bile che rende massima la conseguente entropia (v. appendice 4).
Teorema 8 : Abbia il sistema di limitazioni considerato come un
canale una capacità C = log W. Se poniamo
Bi
r•J
Pii = B. W_,r•l
'1
'

dove l't} è la durata del smo simbolo che porta dallo stato i allo
stato j e B; soddisfa:

allora H è resa massima ed uguale a C.


Mediante opportuna assegnazione delle probabilità di transizio­
ne, l'entropia dei simboli su un canale può essere massimizzata e
resa uguale alla capacità del canale.

9. Il teorema fondamentale per un canale non disturbato


Giustificheremo ora la nostra interpretazione di H come velo­
cità nella produzione di informazioni, col provare che H deter­
mina la capacità del canale richiesta con la più efficiente codifica.
Teorema 9: Una sorgente abbia entropia H ( bit per simbolo) e
un canale abbia una capacità C ( bit al secondo). E' possibile in
tal caso codificare l'uscita della sorgente in modo tale da tra-
smettere alla velocità media di Z -E simboli al secondo sul
canale, dove è arbitrariamente piccolo. Non è possibile trasmet-
E
. .
' supertore a c .
tere ad una veloclta' medta
H
La parte inversa del teorema, ossia che non si può eccedere Z
può venir dimostrata col notare che l'entropia al secondo del­
l'ingresso del canale è uguale a quella della sorgente, dal mo­
mento che il trasmettitore deve essere non singolare, e che anche
questa entropia non può essere superiore alla capacità del ca­
nale. Pertanto H' � C e il numero di simboli al secondo =
= H'/H � C/H.

64
La prima parte del teorema sarà dimostrata in due differenti
maniere. Il primo metodo consiste nel prendere in considera­
zione l'insieme di tutte le sequenze di N simboli prodotte dalla
sorgente. Se N è grande possiamo dividere le sequenze in due
gruppi, uno contenente meno di 2<H+T)JN membri e il secondo con­
tenente meno di 2RN membri (dove R è il logaritmo del numero di
simboli differenti) e avente una probabilità complessiva minore di
p.. All'aumentare di N, 71 e p. tendono a zero. Il numero di segnali di
durata T nel canale è maggiore di 2<c-o)T con O piccolo quando T
è grande. Se poniamo

T = (� + À ) N

vi sarà un sufficiente numero di sequenze di simboli del canale


per il gruppo ad alta probabilità, quando T e N sono sufficien­
temente grandi (comunque sia piccolo À), e anche qualcuna in
più. Il gruppo ad alta probabilità viene codificato in questo in­
sieme in un arbitrario modo biunivoco. Le restanti sequenze sono
rappresentate da sequenze più grandi, che iniziano e terminano
con una delle sequenze non usate per il gruppo ad alta proba­
bilità. Questa speciale sequenza si comporta come un segnale di
inizio e di fine per un differente codice. Entro un tempo suffi­
ciente si possono dare abbastanza differenti sequenze per tutti
i messaggi a bassa probabilità. Questo richiederà

T. = ( {- + ) N Q]

dove Q] è piccolo. La velocità media di trasmissione in simboli


di messaggio al secondo sarà allora maggiore di

[ ( 1 - ò) N +
T
ò
T

]-•
All'aumentare di N, ò, À e rp tendono a zero e la velocità si avvi-
. c
cma a '
H
Un altro metodo di operare questa codifica e perciò di dimostrare
il teorema può venir descritto come segue: si ordinino nel senso
di probabilità decrescente i messaggi di lunghezza N e si sup­
p onga che le loro probabilità siano P• � Pz � P3 . . . � p,.. Sia

65
s-l
P. = �l p; ; cioè P. è la probabilità cumulativa fino a p. esclusa.

Codifichiamo dapprima in un sistema binario. Il codice binario


per un messaggio s viene ottenuto sviluppando P. come numero
binario. Lo sviluppo è eseguito fino a m, posizioni, dove m. è il
numero intero che soddisfa :
l l
log2 � m5 < l + log2 -- .
Ps Ps
--

Quindi i messaggi ad alta probabilità sono rappresentati da codici


brevi e quelli a bassa probabilità da codici lunghi. Da queste di­
suguaglianze abbiamo

!.
2 , � Ps < 2 ,_, 2 •

Il codice per P, differirà da tutti i successivi in una o più delle


sue m, posizioni, dal momento che tutte le rimanenti P; sono
!.
almeno di -2 -; più grandi e i loro sviluppi binari differiscono
perciò nelle prime m, posizioni. Di conseguenza tutti i codici sono
differenti ed è possibile ricostruire il messaggio dal suo codice.
Se le sequenze del canale non sono già sequenze di cifre binarie,
esse possono venir ascritte a numeri binari in modo arbitrario
e il codice binario tradotto quindi in segnali adatti per il canale.
Il numero medio H1 di cifre binarie usate per simbolo del mes­
saggio originale viene facilmente valutato. Abbiamo
l
H1 = 'Lm,p,.
N
Ma,

-! L ( log2 �s ) Ps � ! L m,p, < ! L ( l + lo� �s ) Ps


e perciò,
l
GN � Hl < GN + .
N
All'aumentare di N, GN tende a H, l'entropia della sorgente, e H1
tende ad H.

66
Da ciò vediamo che l'inefficienza nella codifica, quando viene
usato soltanto un « ritardo ,, finito di N
simboli, non è necessario
che sia maggiore di � più la differenza tra la reale entropia
Hpercentuale
e la entropia GN calcolata per sequenze di lunghezza N. La
di tempo in eccesso rispetto all'ideale necessario è
perciò minore di

HN- - 1 .
GN 1
+
H
Questo metodo di codifica è sostanzialmente il medesimo di quello
ideato in modo indipendente da R. M. Fano12 • Il suo metodo con­
siste nel porre i messaggi di lunghezza N
in ordine di probabilità
decrescente. Si divide questa serie in due gruppi aventi proba­

1.
bilità il più possibile equivalenti. Se il messaggio è nel primo
gruppo la sua prima cifra binaria sarà O, altrimenti sarà I grup­
pi vengono similarmente divisi in sottoinsiemi di probabilità
pressoché uguale e il particolare sottoinsieme determina la se­
conda cifra binaria. Si continua con questo procedimento fino
a quando ciascun sottoinsieme non contiene che un solo mes­
saggio. Si vede facilmente che, a parte differenze minori (gene­
ralmente nell'ultima cifra), questo metodo corrisponde al pro­
cesso aritmetico prima descritto.

10. Discussione ed esemp i

Al fine di ottenere il massimo trasferimento di potenza da un


generatore ad un carico, deve in generale essere introdotto un
trasformatore cosicché il generatore visto dal carico presenti una
resistenza uguale a quella del carico stesso. La situazione è qui
pressapoco analoga. Il trasduttore che effettua la codifica do­
vrebbe adattare in senso statistico la sorgente al canale. La sor­
gente vista dal canale attraverso il trasduttore dovrebbe avere
la medesima struttura statistica della sorgente che rende mas­
sima l'entropia del canale. Il contenuto del teorema 9 è che, seb­
bene non sia generalmente possibile un esatto adattamento, pos-

12 Technical Report No. 65, The Research Laboratory of Electronics, M.I.T.,


17 marzo, 1949.

67
siamo approssimarci ad esso nella misura che desideriamo. Il
rapporto tra la effettiva velocità di trasmissione e la capacità C
può essere chiamato efficienza del sistema di codifica. Questa è
naturalmente uguale al rapporto tra l'effettiva entropia dei sim­
boli del canale e la maggior entropia possibile.
In generale, una codifica ideale o vicina all'ideale richiede un
lungo ritardo nel trasmettitore e nel ricevitore. Nel caso di assenza
di disturbi, che stiamo considerando, la principale funzione di
questo ritardo è quella di permettere un adattamento ragione­
volmente buono delle probabilità alle corrispondenti lunghezze
delle sequenze. Con un buon codice, il logaritmo della probabi­
lità reciproca di un lungo messaggio deve essere proporzionale
alla durata del segnale corrispondente ; infatti

l log p -1
T
-C l
deve essere piccolo per tutti, all'infuori che per una piccola parte
dei messaggi lunghi.
Se una sorgente può produrre solamente un particolare mes­
saggio, la sua entropia è zero e non vi è bisogno di alcun canale.
Per esempio, una macchina calcolatrice predisposta per calcolare
le cifre successive di 1r produce una sequenza definita senza alcun
elemento di casualità. Non è necessario alcun canale per « tra­
smettere ,, questa sequenza ad un altro punto. Si potrebbe co­
struire una seconda macchina per calcolare la stessa sequenza
in quel punto. Comunque ciò può risultare poco pratico. In tal
caso possiamo preferire ignorare tutte o parte delle cono­
scenze statistiche che abbiamo riguardo alla sorgente. Potremmo
considerare le cifre di 1r come se fossero una sequenza fatta a
caso in quanto costruiamo un sistema in grado di inviare qua­
lunque sequenza di cifre. In modo simile, possiamo decidere di
usare qualcuna delle nostre conoscenze statistiche riguardanti
l'inglese, ma non tutte, nel costruire un codice. In tal caso con­
sideriamo la sorgente con la massima entropia soggetta alle con­
dizioni statistiche che desideriamo mantenere. L'entropia di que­
sta sorgente determina la capacità del canale che è necessaria e
sufficiente. Nell'esempio del 1r la sola informazione conservata è
che tutte le cifre sono scelte dall'insieme O, l , . . . , 9. Nel caso

68
dell'inglese potremmo desiderare di servirei del risparmio stati­
stico possibile grazie alle frequenze delle lettere, ma niente altro.
La sorgente di massima entropia è allora l'approssimazione di
primo grado all'inglese e la sua entropia determina la richiesta
capacità del canale.
Come semplice esempio di qualcuno di questi risultati, conside­
riamo una sorgente che produce una sequenza di lettere scelte
tra A, B, C, D con probabilità ! , !, l, l essendo scelti in modo in­
dipendente i simboli in successione. Abbiamo
H = (! log ! + ! log ! + i log l)
! bit per simbolo.
-

Pertanto possiamo approssimare un sistema di codifica per met­


tere in codice messaggi aventi origine da questa sorgente in cifre
binarie, con una media di ! cifre binarie per simbolo. In que­
sto caso possiamo effettivamente raggiungere il valore limite per
mezzo del seguente codice (ottenuto mediante il metodo della
seconda prova del teorema 9) :
A o
B lO
c 1 10
D 111
Il numero medio di cifre binarie usate nel codificare una se­
quenza di N simboli sarà
N (! x l + ! x 2 + i X 3 ) = ì N.
Si vede facilmente che le cifre binarie O e l hanno ciascuna pro­
babilità ! , t, così l'entropia H per le sequenze messe in codice è
di un bit per simbolo. Dal momento che, nella media, abbiamo ì
simboli binari per lettera originale, le entropie in una unità di
tempo sono le stesse. La massima entropia possibile per l'insieme
originale è log 4 = 2, che si verifica quando A , B, C, D hanno
probabilità !, !, !, !. Pertanto la entropia relativa è -f. Possia­
mo tradurre le sequenze binarie nell'insieme di simboli originale
su una base due-a-uno mediante la seguente tabella:
00 A'
01 B'
10 C'
11 D'

69
Questo doppio processo codifica allora il messaggio originale
negli stessi simboli, ma con un rapporto di compressione me-
.
d 1a d"1 -78-

Come secondo esempio, consideriamo una sorgente che produce


una sequenza di A e di B con probabilità p per A e q per B.
se p < < q, abbiamo
H = - log pP( 1 - p)1 -p
= - p log p( l - p)O -P>/P
e
=. p log - .
p
In tal caso è possibile costruire una codifica abbastanza buona
del messaggio su un canale di O e l inviando una particolare
sequenza, poniamo 0000, per il poco frequente simbolo A e quindi
una sequenza che indica il numero di B che lo seguono. Questo
potrebbe essere espresso in termini binari eliminando tutti i
numeri contenenti la particolare sequenza ; i numeri fino a 16
sono rappresentati come al solito; 1 6 è rappresentato dal numero
binario successivo a 16 che non contiene quattro zeri, precisa­
mente 17 = 1000 1 , ecc .
Si può dimostrare che quando p --+ O la codifica tende all'ideale,
a patto che la lunghezza della particolare sequenza sia opportu­
namente adattata.

70
2

Il canale discreto con disturbo

1 1 . Rappresentazione di un canale discreto disturbato

Consideriamo ora il caso in cui il segnale è perturbato da disturbi


durante la trasmissione o all'uno o all'altro dei terminali. Ciò
significa che il segnale ricevuto non è necessariamente quello
stesso emesso dal trasmettitore. Si possono distinguere due casi.
Se un particolare segnale trasmesso produce sempre lo stesso
segnale ricevuto, se cioè il segnale ricevuto è una funzione defi­
nita del segnale trasmesso, allora l'effetto può esser chiamato
distorsione. Se questa funzione ha un inverso - non producendo
due segnali trasmessi il medesimo segnale ricevuto - la distor­
sione può essere corretta, almeno in via di principio, compiendo
l'operazione funzionalmente inversa sul segnale ricevuto.
Il caso che qui interessa è quello in cui il segnale non subisce
sempre lo stesso cambiamento nel corso della trasmissione. In
questo caso possiamo assumere che il segnale ricevuto E sia una
funzione del segnale trasmesso S e di una seconda variabile, il
disturbo N.
E = f(S, N)
Il disturbo è considerato come una variabile casuale proprio come
lo era precedentemente il messaggio. In generale, esso può essere
rappresentato mediante un idoneo processo stocastico. Il tipo
più generale di canale discreto disturbato che prenderemo in con­
siderazione è una generalizzazione del canale a stati finiti privo
di disturbi descritto precedentemente. Assumiamo un numero

71
finito di stati e un insieme di probabilità
P".;({J, j).
Questa è la probabilità che, se il canale si trova in uno stato a
e viene trasmesso il simbolo i, sia ricevuto il simbolo i e che il
canale venga a trovarsi nello stato {3. Pertanto a e {3 si estendo­
no ai possibili stati ; i si estende ai possibili segnali trasmessi
e i si estende ai possibili segnali ricevuti. Nel caso in cui sim­
boli successivi vengano perturbati in modo indipendente dal di­
sturbo, vi è un solo stato e il canale è rappresentato dall'insieme
di probabilità di transizione p;(j), la probabilità che il simbolo i
trasmesso venga ricevuto come simbolo i·
Se un canale disturbato è alimentato da una sorgente vi sono
in azione due processi statistici : la sorgente e il disturbo. In
tal modo vi sono un certo numero di entropie che possono es­
sere calcolate. Prima vi è l'entropia H(x) della sorgente o del­
l'ingresso al canale (esse saranno uguali se il trasmettitore è
non-singolare). L'entropia dell'uscita del canale, vale a dire dei
segnali ricevuti, sarà indicata con H(y). Nel caso non disturbato
si aveva H(y) = H(x). L'entropia congiunta d'ingresso e di uscita
sarà H(x, y ) Vi sono infine due entropie condizionali H (y) e
.

H1(x), l'entropia di uscita quando è noto l'ingresso e viceversa.


Tra queste quantità abbiamo le relazioni
H(x, y) = H(x) + Hx(Y) = H(y) + Hy(x).
Tutte queste entropie possono venir misurate o come entropia
al secondo oppure come entropia per simbolo.

12. Equivocazione e capacità del canale

Se il canale è disturbato non è, in linea generale, possibile rico­


struire con certezza il messaggio originale o il segnale trasmesso
mediante alcuna operazione sul segnale ricevuto E . Vi sono, co­
munque, dei modi di trasmettere le informazioni i quali sono
ottimali nel combattere il disturbo. Questo è il problema che
prendiamo ora in considerazione.
Supponiamo che vi siano due possibili simboli O e l e che stiamo
trasmettendo alla velocità di 1000 simboli al secondo con prcr

72
babilità po = p, = ; Pertanto, la nostra sorgente produce infor­
.

mazioni al ritmo di 1000 bit al secondo. Durante la trasmissione


il disturbo introduce degli errori cosicché, in media, l simbolo
su 100 viene ricevuto in modo sbagliato (O invece di l , oppure l
invece di O). Quale è la velocità di trasmissione delle informa­
zioni? Certamente meno di 1000 bit al secondo, dato che circa
l' l % dei simboli ricevuti non sono esatti. Il nostro primo impulso
potrebbe essere quello di dire che la velocità è di 990 bit al se­
condo, semplicemente sottraendo il supposto numero di errori.
Questa soluzione non è affatto soddisfacente dato che trascura di
tener conto della mancanza di conoscenza da parte del destina­
tario della localizzazione degli errori. Possiamo arrivare ad un
caso limite ed immaginare che il disturbo sia talmente grande
che i simboli ricevuti sono completamente indipendenti da quelli
trasmessi . La probabilità di ricevere l è !, qualunque sia il sim­
bolo trasmesso, e lo stesso dicasi per O. Quindi circa la metà
dei simboli ricevuti sono esatti grazie al solo caso e diremmo
che il sistema trasmette 500 bit al secondo, mentre in realtà non
è stata trasmessa assolutamente alcuna informazione. Si otter­
rebbe una trasmissione ugualmente 11 buona » facendo comple­
tamente a meno del canale e giocando a testa o croce al terminale
ricevente. Evidentemente la giusta correzione da applicare al­
l'ammontare di informazioni trasmesse è costituita dalla quan­
tità di queste informazioni che viene persa nel segnale ricevuto,
o alternativamente dall'incertezza riguardo a ciò che è stato ef­
fettivamente inviato, quando abbiamo ricevuto un segnale. Te­
nendo conto del nostro precedente discorso sulla entropia come
di una misura dell'incertezza, sembra logico servirsi della entro­
pia condizionale del messaggio, conoscendo il segnale ricevuto,
come di una misura di questa informazione perduta. Questa è in­
dubbiamente la definizione corretta, come vedremo in seguito.
Seguendo questa idea, si otterrebbe la velocità della effettiva tra­
smissione, R, col sottrarre dalla velocità di produzione (cioè, dal­
l'entropia della sorgente) l'entropia condizionale media :
R = H(x) - Hy(X).
L'entropia condizionale Hy(x) sarà chiamata, per convenienza,
l'equivocazione. Essa misura la ambiguità media del segnale rice­
vuto. Nell'esempio considerato prima, se viene ricevuto uno O,

73
la probabilità a posteriori che sia stato trasmesso uno O è
di 0,99, mentre quella che sia stato trasmesso un l è di 0,01 .
Questi valori sono invertiti se viene ricevuto un l . Donde
H1(x) = - [0,99 log 0,99 + 0,01 log 0,01 ]
=0,08 1 bit/ simbolo
ovvero 8 1 bit al secondo.
Possiamo dire che il sistema sta trasmettendo ad una velocità
di 1000 - 8 1 = 919 bit al secondo. Nel caso estremo in cui uno
O ha le stesse probabilità di essere ricevuto come O o come l, e
idem per un l , le probabilità a posteriori sono t, !- . e
H,(x) = - [t log t + t log !- ]
= l bit per simbolo
o 1000 bit al secondo. La velocità di trasmissione è allora O, come
deve essere. Il teorema seguente fornisce una diretta, intuitiva
interpretazione dell'equivocazione e serve anche a giustificarla
come l'unica misura appropriata. Prendiamo in considerazione un
sistema di comunicazione e un osservatore (o un dispositivo ausi­
liario) che può vedere sia ciò che viene inviato, sia ciò che viene
recuperato (con gli errori dovuti al disturbo). Questo osservatore
nota gli errori nel messaggio ricostruito e trasmette su un << ca­
nale di correzione » i dati al punto di ricezione, onde mettere
in grado il ricevitore di correggere detti errori. La situazione
viene indicata schematicamente nella fig. 8.
Teorema 10: Se il canale di correzione possiede una capacità
uguale ad H,(x) è possibile codificare i dati di correzione in modo
da inviarli tramite questo canale e correggere tutti gli errori meno
una frazione E di essi arbitrariamente piccola. Ciò non è possibile
se la capacità del canale è minore di H,(x).
Approssimativamente, quindi, Hy(x) è l'ammontare di informa­
zione supplementare che deve essere fornita, al secondo, al punto
di ricezione per correggere il messaggio ricevuto.
Per provare la prima parte, si considerino lunghe sequenze del
messaggio ricevuto M' e del corrispondente messaggio originale M.
Avremo logaritmicamente THy(x) sequenze M che potrebbero ra­
gionevolmente aver prodotto ogni sequenza M'.
Abbiamo pertanto THy(x) cifre binarie da inviare ogni T secondi.

74
dati di
correzione

osservatore

l r2!
�......., f-�
M
l M
sorgente trasmettitore ricevitore dispositivo
per la
correzione

Fig. 8 - Schema di un sistema con correzione.

Ciò può essere fatto con frequenza e di errori su un canale di


capacità H,(x). La seconda parte del teorema la si può dimostrare
notando, innanzitutto, che per qualunque variabile casuale di­
screta x, y, z
H,( x, z) � H,(x).
La parte sinistra può essere sviluppata per dare
H,(z) + H1z(x) � H,(x)
H,z(x) � H,(x) - H,( z) � H,(x) - H( z)
Se identifichiamo x come l'uscita della sorgente, y come il se­
gnale ricevuto e z come il segnale inviato sul canale di corre­
zione, allora la parte destra costituisce l'equivocazione meno la
velocità di trasmissione sul canale di correzione. Se la capacità
di questo canale è minore dell'equivocazione, la parte destra della
disuguaglianza sarà maggiore di zero e H,z(x) >O. Ma questa è
l'incertezza di ciò che è stato inviato, conoscendo sia il segnale
ricevuto che il segnale di correzione. Se essa è maggiore di zero
la frequenza di errori non può essere arbitrariamente piccola.

Esempio :
Supponiamo che gli errori si verifichino a caso in una sequenza di cifre
binarie: sia p la probabilità che una cifra sia errata e sia q = l - p la
probabilità che sia esatta. Questi errori possono venir corretti se la loro
posizione è nota. Pertanto il canale di correzione deve soltanto inviare

75
informazioni riguardo a queste posizioni. Questo equivale a trasmettere
da una sorgente che produce cifre binarie con probabilità p per l (sba­
gliato) e q per O (esatto). Ciò richiede un canale di capacità

- [ p log p + q log q]
che è l'equivocazione del sistema originale.

La velocità di trasmissione R può essere scritta in altre due forme


dovute alle identità sopra notate. Abbiamo
R = H(x) - H1(x)
= H(y) - Hx(Y)
= H(x) + H(y) - H(x, y).

La prima espressione è una definizione ed è già stata interpretata


come l'ammontare di informazioni inviate meno l'incertezza su
ciò che è stato inviato. La seconda misura l'ammontare ricevuto
meno la parte di esso dovuta al disturbo. La terza è la somma
delle due quantità meno l'entropia congiunta e perciò in un certo
senso è il numero di bit al secondo comune alle due. Pertanto
tutte e tre le espressioni hanno un certo significato intuitivo.
La capacità C di un canale disturbato dovrebbe essere la massima
velocità di trasmissione possibile, vale a dire la velocità quando
la sorgente è opportunamente messa in rapporto col canale.
Definiamo perciò la capacità del canale con
C = Max (H(x) - H1(x))
dove la differenza massima è con riferimento a tutte le possibili
sorgenti di informazioni usate come ingressi al canale. Se il ca­
nale è non disturbato, H1(x) = O . La definizione è allora equiva­
lente a quella già data per un canale non disturbato, dato che
l'entropia massima per il canale è la sua capacità, come risulta
dal teorema 8.

13. Il teorema fondamentale per un canale discreto con disturbo

Può apparire sorprendente definire una capacità C determinata


per un canale disturbato, dal momento che in questo caso non
possiamo mai inviare informazioni sicure. E' chiaro, comunque,
che inviando le informazioni in una forma ridondante la proba­
bilità di errori può venir ridotta. Per esempio, ripetendo più volte

76
il messaggio e mediante uno studio statistico delle differenti ver­
sioni del messaggio che si sono ricevute, la probabilità di errori
potrebbe essere resa molto piccola. Ci si aspetterebbe, comun­
que, che, per fare tendere a zero questa probabilità di errori,
debba aumentare indefinitamente la ridondanza della codifica,
e perciò tendere a zero la velocità di trasmissione. Questo non
è assolutamente vero. Se lo fosse non esisterebbe una capacità
molto ben definita, ma solamente una capacità per una data fre­
quenza di errori, o per una data equivocazione ; la capacità di­
minuirebbe quando i requisiti di errore fossero resi più strin­
genti. In realtà la capacità C sopra definita ha un significato
molto preciso. E' possibile inviare informazioni alla velocità C
attraverso il canale con una frequenza di errori o una equivoca­
zione piccola quanto si vuole mediante una opportuna codifica.
Questa affermazione non è vera per alcuna velocità superiore a C.
Se si opera un tentativo di trasmettere ad una velocità superiore
a C, poniamo C + R1, allora vi sarà necessariamente una equivo­
cazione uguale o maggiore della eccedenza R1. La natura si prende
la contropartita col richiedere proprio quella incertezza, cosicché
otteniamo, in effetti, di completamente esatto, non altro che C.
La situazione è presentata nella fig. 9. La velocità di informazione
entro il canale è riportata in ascisse e l'equivocazione in ordinate.
Qualsiasi punto sopra la linea in grassetto nella regione tratteg­
giata può essere raggiunto, mentre i punti al di sotto della stessa,
no. I punti della linea non possono in generale essere raggiunti,
salvo, normalmente, due di essi. Questi risultati costituiscono la
principale giustificazione per la definizione di C e saranno ora
provati.
Teorema 11 : Si abbia un canale discreto con capacità C e si abbia
una sorgente discreta con entropia al secondo H. Se H � C, esi­
ste un sistema di codifica tale che l'uscita della sorgente può es-

C H (x)
Fig. 9 - L'equivocazione possibile per una data entropia di ingresso ad
un canale.

77
sere trasmessa sul canale con una frequenza di errori arbitraria­
mente piccola (o una equivocazione arbitrariamente piccola). Se
H > C, è possibile codificare la sorgente in modo che l'equivo­
cazione sia minore di H - C + E, dove E è arbitrariamente piccola.
Non esiste alcun metodo di codifica che consenta una equivoca­
zione minore di H - C.
Il metodo per dimostrare la prima parte di questo teorema non
consiste nell'esporre un metodo di codifica che abbia le proprietà
desiderate, bensì nel mostrare che un tale codice deve esistere
in un certo gruppo di codici. Infatti faremo la media della fre­
quenza di errori in questo gruppo e mostreremo che questa media
può essere resa minore di E. Se la media di un insieme di numeri
è minore di E deve esistere almeno uno dei componenti dell'in­
sieme che è minore di E. Questo confermerà il risultato desiderato.
La capacità C di un canale disturbato è stata definita come
C = Max (H(x) - Hy(x))
dove x è l'ingresso e y l'uscita. Il calcolo della differenza mas·
sima avviene fra tutte le sorgenti che potrebbero essere usate
come ingresso al canale.
Sia So una sorgente che raggiunge la massima capacità C. Se que­
sta capacità massima non è in realtà raggiunta da alcuna sorgente
(ma soltanto avvicinata come limite), So sarà una sorgente che si
approssima a fornire la velocità massima. Supponiamo che So sia
usata come ingresso al canale. Consideriamo le possibili sequenze
di lunga durata T, trasmesse e ricevute. Sarà vero quanto segue:
l. le sequenze trasmesse si suddividono in due classi, un gruppo
ad alta probabilità con circa 2TH<x> membri e le restanti sequenze
di bassa probabilità totale;
2. analogamente, le sequenze ricevute si suddividono in un in­
sieme ad alta probabilità di circa 2TH <yJ membri e in un insieme
a bassa probabilità delle restanti sequenze;
3. ogni uscita ad alta probabilità potrebbe essere prodotta da
circa 2TH,<x> ingressi. La probabilità totale di tutti gli altri casi
è piccola ;
4. ogni ingresso ad alta probabilità potrebbe dar luogo a circa
2TH,<x> uscite. La probabilità totale di tutti gli altri casi è piccola.

78
E


M
• •

• •

2H(:x)T •

messaggi
2H(y)T
ad alta
• segnali rice-
probabilità
vuti ad alta

probabilità
• •

• •

: cz;zee:
• effetti ragio-
nevoli per


ciascun M

Fig. 10 - Rappresentazione schematica delle relazioni tra ingressi e uscite


di un canale.

Tutte le E e le ò implicate dai termini « bassa ( o piccola) )) e


« circa )) in questa esposizione tendono a zero quando lasciamo
aumentare T e quando So si avvicina ad essere la sorgente che
rende massima la capacità.
La situazione è sintetizzata nella fig. 10 dove le sequenze di in­
gresso sono rappresentate da punti sulla sinistra e le sequenze
di uscita da punti sulla destra. Il ventaglio superiore di linee
trasversali rappresenta la serie di possibili cause per una uscita
tipica. Il ventaglio inferiore rappresenta la serie di possibili ri­
sultati derivanti da un ingresso tipico. In entrambi i casi ven­
gono ignorati gli insiemi a « bassa probabilità )).
Supponiamo ora di avere un'altra sorgente S, che produce in­
formazioni alla velocità R, con R < C. Nel periodo T questa sor­
gente avrà 2TR messaggi ad alta probabilità. Vogliamo associare

79
questi messaggi con una selezione di possibili ingressi del canale
in modo tale da ottenere una piccola frequenza di errori. Fisse­
remo questa associazione in tutti i modi possibili (utilizzando,
comunque, solamente il gruppo di ingressi ad alta probabilità,
quale è determinato dalla sorgente So) e calcoleremo la frequenza
media di errori per questa ampia classe di possibili sistemi di
codifica. Ciò equivale a calcolare la frequenza di errori per una
associazione fatta a caso dei messaggi e degli ingressi del canale
di durata T. Supponiamo di osservare una particolare uscita y,.
Qual è la probabilità di più di un messaggio proveniente da S,
nell'insieme di possibili cause di y, ? Vi sono 2TR messaggi distri­
buiti a caso in 2T81"> punti. La probabilità di un particolare punto
di essere un messaggio è pertanto
2 T(R -H (x)) .
La probabilità che nessuno dei punti del ventaglio sia un mes­
saggio ( a prescindere da quello effettivo che dà origine al mes­
saggio) è

Ora, R < H(x)- H,(x), quindi R -H(x) = - H,(x) - TJ , con 'Y}, po­
sitivo. Di conseguenza
p = [ l _ 2 -TH,C.<l-T1J ] 2J'B1U)
si avvicina ( quando T ___,. oo ) a
1 - 2- T11•
Quindi la probabilità di un errore si avvicina a zero e la prima
parte del teorema è dimostrata.
La seconda parte del teorema è facilmente dimostrata sulla base
della considerazione che potremmo semplicemente inviare dalla
sorgente C bit al secondo, trascurando completamente la re­
stante informazione prodotta. Al ricevitore, la parte tralasciata
dà una equivocazione H(x) - C e alla parte trasmessa bisogna
solo aggiungere e. Questo limite può essere ottenuto in molti
altri modi, come mostreremo quando prenderemo in considera­
zione il caso continuo.
L'ultima affermazione del teorema è una semplice conseguenza
della nostra definizione di C. Supponiamo di poter codificare

80
una sorgente con H(x) = C + a in modo tale da ottenere una
equivocazione H,(x) = a - E, con E positiva. Allora
H(x) - H,(x) = C + E

con E positiva . Questo contraddice alla definizione di C come


valore massimo di H(x) - H,(x).
In realtà si è dimostrato più di quanto affermato nel teorema.
Se la media di un insieme di numeri positivi differisce da zero
per un valore E, una frazione di al massimo {E può avere valori
maggiori di {E. Dal momento che E è arbitrariamente piccolo,
possiamo dire che quasi tutti i sistemi sono arbitrariamente pros­
simi all'ideale.

14. Discussione

La dimostrazione del teorema 1 1 , mentre non costituisce una


semplice dimostrazione di esistenza, ha qualcuna delle deficienze
di tali dimostrazioni. Un tentativo di ottenere una buona ap­
prossimazione alla codifica ideale seguendo il procedimento della
dimostrazione è generalmente poco pratico. Infatti, a prescin­
dere da alcuni casi piuttosto banali e da certe situazioni limite,
non è stata trovata alcuna descrizione esplicita di una serie di
approssimazione all'ideale. Probabilmente questo non è un fatto
casuale, ma è in relazione con la difficoltà di fornire una espli­
cita elaborazione per una buona approssimazione ad una sequen­
za fatta a caso.
Una approssimazione all'ideale dovrebbe avere la proprietà per
cui, se il segnale viene alterato dal disturbo in modo ragione­
vole, è possibile ricostruire l'originale. In altre parole, l'altera­
zione non comporterà in generale che un segnale divenga più
simile ad un altro segnale possibile che non all'originale . Ciò
viene realizzato a costo di una certa quantità di ridondanza nella
codifica. La ridondanza deve essere introdotta nel modo oppor­
tuno per combattere la particolare struttura del disturbo in que­
stione. Comunque, qualsiasi ridondanza della sorgente sarà nor­
malmente di aiuto se viene utilizzata nel punto di ricezione. In
particolare, se la sorgente già possiede una certa ridondanza e
non si cerca di eliminarla nel collegarla al canale, questa ridon-

81
danza sarà di aiuto per combattere il disturbo. Per esempio, in
un canale telegrafico non disturbato sarebbe possibile rispar­
miare circa il SO% del tempo mediante una opportuna codifica
dei messaggi. Ciò non viene fatto e la maggior parte della ri­
dondanza dell'inglese rimane nei simboli del canale. Questo pre­
senta il vantaggio, comunque, di rendere tollerabile un conside­
revole disturbo del canale. Una frazione piuttosto grande delle
lettere possono essere ricevute in modo non corretto e nondi­
meno ricostruite mediante il contesto. In effetti, in molti casi
questa non è probabilmente una cattiva approssimazione al­
l'ideale, dal momento che la struttura statistica dell'inglese è
piuttosto complessa e le sequenze inglesi ragionevoli non sono
troppo lontane (nel senso richiesto dal teorema) da una sele­
zione fatta a caso.
Come nel caso di assenza di disturbo, è generalmente necessario
un ritardo per realizzare una codifica vicina all'ideale. Tale ri­
tardo ha ora l'ulteriore funzione di consentire che diversi disturbi
intacchino il segnale prima che al terminale ricevente venga
emesso alcun giudizio riguardo al messaggio originale. Aumen­
tando i campioni di disturbo, si rendono sempre più esatte le
possibili affermazioni statistiche.
Il contenuto del teorema 1 1 e la sua dimostrazione possono essere
formulati in un modo alquanto diverso che mette più chiara­
mente in luce la relazione con il caso di assenza di disturbi. Si
considerino i possibili segnali di durata T e si supponga di sce­
gliere e usare un sottoinsieme di essi. Siano tutti i segnali del
sottoinsieme usati con uguale probabilità e poniamo che il rice­
vitore sia costruito per individuare come segnale originale la
causa più probabile tra quelle del sottoinsieme, quando viene
ricevuto un segnale disturbato. Definiamo N(T, q) essere il mas­
simo numero di segnali che possiamo scegliere dal sottogruppo,
tali che la probabilità di una interpretazione sbagliata sia mi­
nore o uguale a q.
log N(T, q)
Teorema 12 : lim = C, dove C è la capacità del
T
canale, a condizione che q non sia uguale a O oppure a l .
In altre parole, indipendentemente da come stabiliamo i nostri
limiti di attendibilità, possiamo distinguere in modo attendibile

82
simboli simboli
trasmessi ricevuti

Fig. 11 - Esempio di un canale discreto.

nel tempo T abbastanza messaggi da corrispondere a circa CT


bit, quando T è sufficientemente grande. Il teorema 12 può es­
sere messo a confronto con la definizione della capacità di un
canale non disturbato data nel par. l .

1 5. Esempio di un canale discreto e sua capacità

Un semplice esempio di canale discreto è indicato nella fig. 1 1 .


Vi sono tre possibili simboli. Il primo non viene mai intaccato
dal disturbo. Il secondo e il terzo hanno ciascuno probabilità p
di attraversare il canale indisturbati e probabilità q di essere
scambiati l'uno nell'altro. Sia a = - [p log p + q log q] e siano
P, Q e Q le probabilità di usare rispettivamente il primo, il se­
condo e il terzo simbolo (essendo le ultime due uguali per con­
siderazioni di simmetria). Abbiamo :
H(x) = - P log P - 2Q log Q
Hy(x) = 2Qa
Vogliamo scegliere P e Q in modo tale da rendere massima la
differenza H(x) - H.,(x), subordinatamente alla condizione impo­
sta P + 2Q = l . Donde consideriamo
U = - P log P - 2Q log Q - 2Qa + l(P + 2Q)
au
ap = - 1 - log P + À. = O

au
= - 2 - 2 log Q - 2a + 2À. = o.
aQ

83
Eliminando À.
log P log Q + a
=

p = Qea = Q{3
l
Q = - +2 '
{3
La capacità del canale è allora
{3 + 2
C = log
{3
Si noti come questo confermi i valori evidenti nei casi di p = l
e p = t. Nel primo caso, {3 = l e C = log 3, il che è esatto dal
momento che allora il canale è non disturbato con tre possibili
simboli. Se p = t, {3 = 2 e C = log 2. Qui il secondo e il terzo
simbolo non possono essere affatto distinti e si comportano come
un solo simbolo. Il primo simbolo è usato con probabilità P = t
e il secondo e il terzo insieme con probabilità t. Questa può
essere distribuita tra essi in qualunque modo si voglia e nondi­
meno raggiungere la capacità massima.
Per valori intermedi di p, la capacità del canale sarà compresa
tra log 2 e log 3. La distinzione tra il secondo ed il terzo sim­
bolo convoglia qualche informazione, ma non in misura pari a
quella del caso non disturbato. Il primo simbolo è usato un
po' più frequentemente degli altri due, a causa della sua immu­
nità dal disturbo.

16. La capacità del canale in certi casi speciali

Se il disturbo colpisce in modo indipendente simboli successivi


del canale, esso può essere descritto mediante un insieme di
probabilità di transizione Pii· Questa è la probabilità che sia ri­
cevuto il simbolo j, quando viene inviato il simbolo i . La capa­
cità del canale è allora data dal valore massimo di
- l: Pi Pii log l: Pi Pii + l: Pi Pii log Pii
L/ i LI

dove variamo l e Pi subordinatamente a r,pi = l . Ciò porta, me­


diante il metodo di Lagrange, alle equazioni,

84
Ps; l , 2,
t Ps; log l: P; p;;
= JL s = . . .
i

Moltiplichiamo per P. e sommando rispetto all'indice s risulta che


JL = - C. Sia (se esiste) h., l'inverso di p.;, cosicché l: h., Ps; = o,;.
Allora:
l: hsr Ps; log Ps; log l: P; Pii = C l: h.,.
s, l l s
- -

Donde :

l: P; p;r = esp [C l: hsr + l: h., Psi log Ps; ]


l s s. /
oppure,
P; = l: h;, esp [C l: hsr + l: h., Psi log Ps; ] .
t s s, j
Questo è il sistema di equazioni per determinare i valori mas­
simizzanti di P; , con C che deve essere determinato in modo che
'f.P; = l Fatto questo, C sarà la capacità del canale e le P; sa­
.

ranno le particolari probabilità dei simboli del canale per otte­


nere questa capacità.
Se ciascun simbolo di entrata ha lo stesso insieme di probabi­
lità sulle linee che da esso si dipartono, e lo stesso dicasi di
ogni simbolo di uscita, la capacità può essere facilmente cal­
colata. Degli esempi sono presentati nella fig. 12. In un tale
caso H,:{y) è indipendente dalla distribuzione di probabilità tra
i simboli di entrata, ed è data da - l: p; log p;, dove p; sono i
valori delle probabilità di transizione da qualsiasi simbolo di
entrata. La capacità del canale è
Max [H(y) - H..(y) ]
= Max H(y) + r, p; log p;.
Il valore massimo di H(y) è chiaramente log m, dove m è il nu­
mero di simboli di uscita, dato che è possibile renderli tutti
ugualmente probabili, col rendere ugualmente probabili i sim­
boli di entrata. La capacità del canale è perciò
C = log m + 'f. p; log p;.

85
a b c

Fig. 12 - Esempi di canali discreti con alcune probabilità di transizione per


ciascun ingresso e per ciascuna unità.

Nella fig. 1 2 a sarebbe C = log 4 - log 2 = log 2.


Si potrebbe ottenere lo stesso risultato servendosi solamente del
l" e del 3• simbolo. Nella fig. 12b
C = log 4 - t log 3 - t log 6
= log 4 - log 3 - t log 2

= log t 2513•
Nella fig. 1 2 c abbiamo
C = log 3 - -! log 2 - t log 3 - ! log 6
3
= log

Supponiamo che i simboli si dividano in diversi gruppi in modo


che il disturbo non comporti mai che un simbolo compreso in
un gruppo sia confuso con un simbolo di un altro gruppo. Sia
C,. (in bit al secondo) la capacità per l'ennesimo gruppo quando
usiamo soltanto i simboli di questo gruppo. Si dimostra allora
facilmente che, per il miglior impiego dell'intero insieme, la pro­
babilità totale P,. di tutti i simboli dell'ennesimo gruppo deve
essere

86
All'interno di un gruppo la probabilità è distribuita proprio come
lo sarebbe se questi fossero i soli simboli che vengono usati. La
capacità del canale è
C = log L2c •.

17. Esempio di codifica ad alto rendimento

L'esempio seguente, sebbene un poco artificioso, rappresenta un


caso in cui è possibile un adattamento esatto ad un canale di­
sturbato. Vi sono due simboli del canale, O e l , e il disturbo li
colpisce entro blocchi di sette simboli. O un blocco di sette sim­
boli è trasmesso senza errore, oppure uno dei sette simboli non
è giusto. Queste otto possibilità sono ugualmente probabili.
Abbiamo
C = Max [H(y) - H.(y)]
= + [7 + + log -!- ]

= +bit/ simbolo.
Un codice efficiente, che consente una completa correzione degli
errori e che trasmette alla velocità C, è il seguente (trovato me­
diante un metodo dovuto a R. Hamming).
Prendiamo un blocco di sette simboli X�, Xz, . . . , X1. Di questi, X3,
Xs, X6 e X1 sono simboli del messaggio e sono scelti arbitraria­
mente dalla sorgente. Gli altri tre sono ridondanti e calcolati
come segue :
X4 è scelto in modo di rendere a = X4 + Xs + X6 + X1 pari
Xz ,, » » » » » p = X2 + x3 + x6 + X1 »
X1 » » » » » » r = X 1 + x3 + Xs + X1 »

Quando viene ricevuto un blocco di sette simboli vengono cal­


colati a, P e y e, se pari, chiamati zero, se dispari chiamati uno.
Il numero binario a P y dà allora l'indice sottoscritto dello X;
che non è esatto (se O, non c'era errore)13 •

13Per ulteriori esempi di codici auto-correttori, si veda M. J. Golay, << Notes


on Digitai Coding 11, Proceedtngs oj the Institute oj Radio Engineers, v. 37,
No. 6, giugno 1949, p. 637.

87
3

Informazioni continue

Consideriamo ora il caso in cui i segnali o i messaggi, o entrambi,


sono continuamente variabili, in contrasto con la natura discre­
ta assunta prima. In misura notevole il caso continuo può essere
ricavato attraverso un procedimento limite dal caso discreto, di­
videndo il continuo dei messaggi e dei segnali in un grande, ma
finito, numero di regioni e calcolando i diversi parametri rela­
tivi ad una base discreta. Quando diminuiamo la dimensione
delle regioni, questi parametri in generale si avvicinano, come
limiti, ai valori propri del caso continuo. Compaiono, comunque,
alcuni nuovi effetti e anche un generale cambiamento di accen­
tuazione, nella direzione della specializzazione dei risultati ge­
nerali verso i casi particolari.
Non cercheremo, nel caso continuo, di ottenere i risultati con
la massima generalità, o con l'estremo rigore della matematica
pura, dato che ciò comporterebbe una gran mole di teoria su
misure astratte e renderebbe oscuro il filo essenziale dell'analisi.
Uno studio preliminare, comunque, indica che la teoria può es­
sere formulata in una maniera completamente assiomatica e rigo­
rosa che includa sia il caso discreto, sia quello continuo, e molti
altri. Le occasionali libertà che ci si è presi nei confronti dei pro­
cedimenti di limite, nella presente analisi, possono essere giu­
stificate in tutti i casi di interesse pratico.

18. Insiemi e complessi di funzioni


Ci dovremo occupare, nel caso continuo, di insiemi di funzioni

88
e complessi di funzioni. Un insieme di funzioni, come implica
il nome, è semplicemente una classe o raccolta di funzioni, ge­
neralmente in una variabile, il tempo. Esso può essere specificato
mediante una rappresentazione esplicita delle varie funzioni del­
l'insieme, oppure, in modo implicito, tramite una proprietà che
le funzioni dell'insieme posseggono e le altre no. Alcuni esempi
sono :
1. L'insieme di funzioni :
fe(t) = sen ( t + 8).
Ciascun particolare valore di 8 determina una particolare fun­
zione dell'insieme.
2. L'insieme di tutte le funzioni del tempo che contengono fre­
quenze non superiori a W cicli al secondo.
3. L'insieme di tutte le funzioni limitate nella banda entro W e
nell'ampiezza fino ad A.
4. L'insieme di tutti i segnali del discorso inglese come funzioni
del tempo.
Un complesso14 di funzioni è un insieme di funzioni unitamente
ad una misura di probabilità mediante la quale possiamo deter­
minare la probabilità di una funzione dell'insieme avente certe
proprietà15• Per esempio, con l'insieme,
fe(t) = sen (t + 8),
possiamo dare una distribuzione di probabilità per 8, poniamo
P(8). L'insieme diviene allora un complesso.
Ulteriori esempi di complessi di funzioni sono:
1. Un insieme finito di funzioni Mt) (k = l , 2, . . . , n), essendo
Pk la probabilità di /k.
2. Un raggruppamento a dimensioni finite di funzioni
f(a,, az, . . . , an ; t)

•• 81 è reso con complesso il termine inglese 11 ensamble 11 non disponendo l'ita­


liano di un sinonimo della parola insieme, utilizzata per tradurre la parola 11 set >>.
Si osservi che un complesso di funzioni descrive sostanzialmente un processo
stocastico.

•• Nella terminoiogia matematica le funzioni appartengono ad uno spazio con


misura la cui misura totale è unitaria.

89
con una distribuzione di probabilità per i parametri a; :
p( al, . . • , an).
Per esempio potremmo considerare il complesso definito da
n
f( a l, , an, 81, . . , On ; t) = l: an sen n (fùt + On)
n• l
. . • .

con le ampiezze a; distribuite normalmente e indipendentemente,


e le fasi 0; distribuite uniformemente (da O a 2 n) e indipen­
pendentemente.
3. L'esempio

f( a; , t) = +i an ___-;:::-3c:-:-_�
s en n (2W t --')'-
n
n·-- n(2Wt - n)
con le a; normali e indipendenti e tutte con la stessa deviazione
standard .[!il. Questa è una rappresentazione di rumore « bianco »,
limitato nella banda da O a W Hz e con potenza media N 16•
4. Si considerino i punti distribuiti lungo l'asse t secondo una
distribuzione di Poisson. In ogni punto scelto è posta la funzione
f(t) e le differenti funzioni vengono sommate, dando il com­
plesso

dove tk sono i punti della distribuzione di Poisson. Questo com­


plesso può essere considerato come un tipo di impulso o di
rumore impulsivo in cui tutti gli impulsi sono identici.
S. L'insieme di funzioni della lingua inglese con misura di pro­
babilità data dalla frequenza di occorrenza nell'uso comune.
Un complesso di funzioni fa(t) è stazionario se, quando tutte le
funzioni sono spostate nel tempo di una qualsiasi quantità fis­
sata, ne risulta il medesimo complesso. Il complesso

•• Questa rappresentazione può essere usata come una definizione di rumore


bianco a banda limitata. Essa presenta certi vantaggi per il fatto che implica
un minor numero di operazioni con i limiti di quanto non avvenisse con le
definizioni che sono state usate in precedenza. Il nome (( rumore bianco 11, già
saldamente acquisito in letteratura, è forse un po' infelice. In ottica, per luce
bianca si intende sia qualunque spettro continuo in contrasto con uno spettro
limitato in un punto, sia uno spettro che è uniforme nella lunghezza d'onda
( che non è Io stesso di uno spettro uniforme nella frequenza).

90
fe(t) = sen ( t + O)
è stazionario se O è distribuito uniformemente da O a 2n. Se spo­
stiamo ciascuna funzione di un valore ti otteniamo
fe(t + ti) = sen ( t + ti + O)
= sen ( t + tp)

con tp distribuito uniformemente da O a 2n. Ciascuna singola fun­


zione è cambiata, ma il complesso inteso come un tutto è inva­
riante rispetto alla traslazione. Gli altri esempi precedentemente
esposti sono pure stazionari.
Un complesso è ergodico se è stazionario e se non vi è alcun
sottoinsieme con una probabilità differente da O e da l che sia
stazionario. Il complesso
sen (t + O)
è ergodico. Nessun sottoinsieme di queste funzioni di probabilità
� 0,1 viene trasformato in se stesso con tutte le traslazioni nel
tempo. D'altra parte, il complesso
a sen (t + O)
con a distribuito normalmente e O uniforme, è stazionario ma
non ergodico. Il sottoinsieme di queste funzioni con a compreso
tra O e l , per esempio, è stazionario ed ha una probabilità di­
versa da O e da l . Degli esempi dati, il 3 e il 4 sono ergodici, e
il 5 può essere forse considerato tale. Se un complesso è ergo­
dico, possiamo approssimativamente dire che ogni funzione del­
l'insieme è tipica del complesso. Più precisamente, è noto che in
un complesso ergodico una media di qualunque statistica riguar­
dante il complesso è uguale (con probabilità l ) ad una media
valutata su tutte le traslazioni nel tempo di una particolare fun­
zione dell'insiemei7• Parlando in modo poco preciso, ci si può

17 E' questo il famoso teorema ergodico, o piuttosto un aspetto di questo teo·


rema, che fu dimostrato In formulazioni In parte differenti da Birkhoff, von
Neumann e Koopman, e successivamente generalizzato da Wiener, Hopf, Hure­
wicz ed altri. La letteratura sulla teoria ergodica è decisamente vasta e il
lettore è rinviato agli scritti di questi autori per formulazioni precise e di
carattere generale ; p. s., E. Hopf cc Ergodentheorie 11, Ergebnisse der Mathematik
und threr Grenzgebiete, v. 5 : cc On Casuality Statistics and Probabllity )) , Journal
of Mathematics and Phystcs, v. XIII, No. l, 1934 ; N. Wiener, cc The Ergodic
Theorem )), Duke Mathematical Journal, v. 5, 1939.

91
aspettare che ciascuna funzione, nel procedere del tempo, attra­
versi, con l'opportuna frequenza, tutte le convoluzioni di qualun­
que delle funzioni dell'insieme.
Proprio come possiamo compiere diverse operazioni su numeri e
funzioni per ottenere nuovi numeri o nuove funzioni, possiamo
compiere operazioni sui complessi per ottenere nuovi complessi.
Supponiamo, per esempio, di avere un complesso di funzioni
fa(t) e un operatore T che dà per ciascuna funzione fa( t) una
funzione risultante g.( t) :
ga( t) = T/.( t).
La misura di probabilità è definita per l'insieme ga( t) per mezzo
di quella per l'insieme /a( t). La probabilità di un certo sottoin­
sieme delle funzioni ga( t) è uguale a quella del sottoinsieme delle
funzioni /a( t) che producono, quando sottoposte all'operazione
T, componenti del dato sottoinsieme di funzioni g. Fisicamente
questo corrisponde a far passare il complesso attraverso qualche
dispositivo, per esempio un filtro, un raddrizzatore o un modu­
latore. Le funzioni di uscita del dispositivo formano l'insieme
g,.( t). Un dispositivo o un operatore T saranno detti invarianti se,
traslando l'ingresso, semplicemente si trasla l'uscita, se, cioè,

implica
gJ.. t + t 1 ) = Tfa( t + t 1 )
per ogni f.( t) e per ogni t •. Si dimostra facilmente che (v. appen­
dice 5), se T è invariante e il complesso di entrata è stazionario,
allora il complesso di uscita è stazionario. Parimenti, se l'ingresso
è ergodico, l'uscita sarà a sua volta ergodica.
Un filtro o un raddrizzatore sono invarianti per qualsiasi trasla­
zione nel tempo. L'operazione di modulazione non lo è, dato
che la fase della portante determina una certa struttura tem­
porale. Comunque, la modulazione è invariante per tutte le tra­
stazioni che sono multiple del periodo della portante.
Wiener ha posto in luce l'intima relazione tra l'invarianza di

92
dispositivi fisici per traslazioni nel tempo e la teoria di Fourier18•
Egli ha dimostrato, infatti, che se un dispositivo è lineare ed in­
variante, l'analisi di Fourier è l'idoneo strumento matematico
per trattare il problema.
Un complesso di funzioni è la appropriata rappresentazione ma­
tematica dei messaggi prodotti da una sorgente continua (per
esempio, il parlare), dei segnali prodotti da un trasmettitore, e
del disturbo perturbatore. La teoria delle comunicazioni corret­
tamente si occupa, come è stato sottolineato da Wiener, non di
operazioni su funzioni particolari, bensì di operazioni su com­
plessi di funzioni. Un sistema di comunicazione non è progettato
per una particolare funzione del parlare e ancor meno per una
onda sinusoidale, ma per il complesso di funzioni del discorso.

19. Complessi di funzioni a banda limitata

Se una funzione del tempo f(t) è limitata alla banda da O a W Hz,


essa viene determinata completamente specificando le sue ordi-

nate in una serie di punti distinti distanziati di


2
� secondi, nel
modo indicato dal seguente teorema19•
Teorema 13: Non contenga f(t) frequenze superiori a W. Allora
.. sen n (2Wt - n)
f( t) = L Xn ---:-=-:c:-:---.,....-'-
-.. n(2Wt - n)

18 La teoria delle comunicazioni deve molto a Wlener per gran parte dei con·
cetti e della teoria d! base. Il suo classico rapporto NDRC, The Interpolatton,
Extrapolation, and Smoothing of Stationary Time Series ( Wiley, 1949 ) , contiene
la prima formulazione chiara e precisa della teoria delle comunicazioni come
problema statistico, lo studio di operazioni su serle temporali. Questo lavoro ,
sebbene riguardasse principalmente Il problema della predizione e del filtro
lineare, è un importante riferimento collaterale in relazione al presente scritto.
Possiamo anche far riferimento all'opera di Wiener, Cybernetics ( Wiley, 1948),
che tratta dei problemi generali della comunicazione e del controllo.

19 Per una dimostrazione di questo teorema ed un ulteriore approfondimento si


veda lo scritto dell'Autore cc Communication in the Presence of Noise » in PTo­
ceedings of the Jnstitute ot Radio Engineers, v. 37, No. 7, gennaio 1949, pp. 10·21.

93
dove

Xn =
f ( 7v
2 ).
In questo sviluppo f(t) è rappresentata come una somma di fun­
zioni ortogonali. I coefficienti Xn dei vari termini possono essere
considerati come coordinate in uno « spazio delle funzioni ,, a
infinite dimensioni. In questo spazio ciascuna funzione corrispon­
de precisamente ad un punto e ciascun punto ad una funzione.
Una funzione si può considerare come sostanzialmente limitata
entro un tempo T se tutte le ordinate Xn al di fuori di questo
intervallo di tempo sono zero. In questo caso tutte le coordinate
meno 2TW saranno zero. Pertanto funzioni limitate ad una banda
W e ad una durata T corrispondono a punti in uno spazio di
2TW dimensioni. Un sottoinsieme delle funzioni di banda W e
durata T corrisponde ad una regione di questo spazio. Per esem­
pio, le funzioni la cui energia totale è minore o uguale ad E cor­
rispondono a punti in una sfera di 2TW dimensioni con raggio
r = ..[L:WE.

..
Un complesso di funzioni di durata e banda limitata sarà rap­
presentato da una distribuzione di probabilità p(x,, . , Xn) nel
corrispondente spazio n-dimensionale. Se il complesso non è li­
mitato nel tempo possiamo considerare che le 2TW coordinate
in un dato intervallo T rappresentino sostanzialmente la parte
della funzione nell'intervallo T e che la distribuzione di proba­
bilità p(x,, . . . , Xn) determini la struttura statistica del complesso
per intervalli di quella durata.

20. Entropia di una distribuzione continua


L'entropia di un insieme discreto di probabilità p,, . . . , Pn è stata
definita come:
H = - :E p; log p;.
In maniera analoga definiamo l'entropia di una distribuzione con­
tinua avente la funzione densità di distribuzione (densità di pro­
babilità) p(x):
H = -J�_ p(x) log p(x) dx.

94
Con una distribuzione n-dimensionale p(x1 , . . . , x,) abbiamo

H = - J . . .J p(x1 , . . . , x,) log p(x1 , . . . , x,) dx1 . . . dx,.


Se abbiamo due argomenti x e y (che possono essi stessi essere
multidimensionali) le entropie congiunta e condizionale di p(x,y)
sono date da

H(x, y) = - JJp(x, y) log p(x, y) dx dy


e

H.(y) = - JJp(x, y) log p(x, y) dx dy


p( x)

- JJp(x, y) log
p(x, y)
Hy(x) = dx dy
p(y)
dove

p(x) = Jp(x, y) dy
p(y) = J p(x, y) dx.
Le entropie di distribuzioni continue hanno la maggior parte (ma
non tutte) delle proprietà del caso discreto . In particolare ab­
biamo quanto segue :
1. Se x è limitato nella sua estensione ad un certo volume v, allora

H( x) è massima ed uguale a log v, quando p(x) è costante (�)


nel volume.
2. Con due qualsiasi variabili x, y abbiamo

H(x, y) :::;; H(x) + H(y)


con uguaglianza se (e solo se) x e y sono indipendenti, se, cioè,
p(x, y)= p(x) p(y) (a meno di un insieme di punti di probabilità

zero).
3. Si consideri una operazione generalizzata di calcolo della me­
dia del tipo seguente:
p'(y) = J a(x, y) p(x) dx
95
con

Ja(x, y) dx Ja(x, y) dy
= = l, a(x, y ) ;;:;: O.

Allora l'entropia della distribuzione media calcolata, p'(y), è ugua­


le o maggiore di quella della distribuzione originale p(x).
4. Abbiamo

H(x, y) = H(x) + H.(y) = H(y) + H,(x)


e
H.(y) ::;; H(y ).
5. Sia p(x) una distribuzione unidimensionale. La forma di p(x)
che determina una entropia massima, subordinatamente alla con­
dizione che la deviazione standard di x sia fissata in a, è quella
gaussiana. Per dimostrare ciò dobbiamo rendere massima

H(x) = - Jp(x) log p(x) dx


con le condizioni :

fil = J p(x)x2 dx, e l = Jp(x) dx.


Ciò richiede, mediante il calcolo delle variazioni, di rendere mas­
simo

J [- p(x) log p(x) + À.p(x)x2 + JLp(x) ] dx.


La condizione per questo è che
- l - log p(x) + À.x2 + JL = O
e di conseguenza (determinando le costanti in modo da soddisfare
alle condizioni imposte)
l
---.,=- e-<:r2/2 a2 J
p(x) =
{!i a
.

Similmente in n-dimensioni, supponiamo che i momenti del se-


condo ordine di p(x1, . . . , Xn) siano fissati in A;i :

A;l = J . . . J X;Xjp(x;, . . . , Xn) dx1 . . . dxn.


96
Allora l'entropia massima si verifica (con un calcolo analogo)
quando p(x1, . . . , Xn) è la distribuzione n-dimensionale gaussiana
con i momenti del secondo ordine A ii·
6. L'entropia di una distribuzione unidimensionale gaussiana la
cui deviazione standard è a è data da
H(x) = log -Y5e a.
Essa è calcolata come segue :

p(x) = l_ e;- <:r.•/2 v•>


{'Er (j
___

x2
- log p(x) = log -{'Ii a +
-2a2-
H(x) = - Jp(x) log p(x) dx
= Jp(x) log {!1r a dx + J p{x) ;� dx

=
al
log -{'5 a +
-2Gi-
=
log ..['Ei"a + log {e
=
log -{'Iie a.
Similmente la distribuzione n-dimensionale gaussiana con la for­
ma quadratica associata aii è data da
J aii J lf2
p(x1 , . . . , Xn) = exp (- ! r.aiiXiXi)
(2,.)"12
e l'entropia può essere calcolata come
H = log (2n-e )"12 JaiiJ - 1 12
dove Jaiil è il determinante i cui elementi sono aii·
7. Se x è limitato a una semiretta (p(x) = O per x � O) e se il
primo momento di x è a :

a = J; p(x)x dx,
allora l'entropia massima si verifica quando

97
p( x) = _l_ e- <xfa)
a
ed è uguale a log ea.
8. Vi è una importante differenza tra le entropie continua e di­
screta. Nel caso discreto l'entropia misura in modo assoluto la
casualità della variabile casuale. Nel caso continuo la misura è
relativa al sistema di coordinate. Se cambiamo coordinate l'en­

.
tropia in generale cambierà . Infatti se passiamo a coordinate
y, . . Yn la nuova entropia è data da

H(y) = J J p(Xi
· · · • • • Xn) J (T)
log p(x, . . . Xn) 1( ; )dy, . . . dyn
dove J ( �- ) è lo j acobiano della trasformazione delle coordi­
nate. Sviluppando il logaritmo e cambiando le variabili in
x, . . . Xn, otteniamo :

H(y) = H(x) -J . . . J p(x,, . . . , Xn) log ( ; ) dx1 J • • • dx.,.

Pertanto la nuova entropia è uguale alla vecchia entropia meno il


valore atteso del logaritmo dello jacobiano. Nel caso continuo
l'entropia può essere considerata una misura della casualità rela­
tiva ad uno standard assunto, precisamente il sistema di coor­
dinate scelto con pesi uguali dati a ogni elemento di volume
dx, . . . dxn. Quando cambiamo il sistema di coordinate, l'entro­
pia nel nuovo sistema misura la casualità quando ad elementi
di egual volume dy, . . . dy" nel nuovo sistema è dato peso uguale.
Malgrado questa dipendenza dal sistema di coordinate, il con­
cetto di entropia è altrettanto importante nel caso continuo che
in quello discreto. Ciò è dovuto al fatto che i concetti derivati
di velocità di informazione e di capacità del canale dipendono
dalla differenza di due entropie e questa differenza non dipende
dal sistema di coordinate, essendo ciascuno dei due termini mo­
dificato della stessa quantità.
L'entropia di una distribuzione continua può essere negativa. La

98
scala di grandezze stabilisce uno zero arbitrario corrispondente
ad una distribuzione uniforme su un'unità di volume.
Una distribuzione che sia più limitata di questa ha meno entropia
e sarà negativa. Le velocità e le capacità saranno sempre, comun­
que, non negative.
9. Un caso particolare di trasformazione di coordinate è quello
lineare
y; = :I: a;1x;
i

In questo caso lo jacobiano è il determinante Ja;1J- 1 e


H(y) = H(x) + log Ja;1J.
Nel caso di una rotazione di coordinate (o di qualunque trasfor­
mazione che preservi la misura) J = l e H(y) = H(x).

2 1 . Entropia di un complesso di funzioni

Si consideri un complesso ergodico di funzioni limitate ad una


certa banda di ampiezza W Hz. Sia
p (X ! , . . . , Xn )

la funzione densità di distribuzione per le ampiezze X1 • • • Xn in


n successivi punti campione. Definiamo la entropia del complesso
per grado di libertà con

H' = - lim
"� ""
-1-J . . . J p(x�,
n
. . . , Xn )

log p(x !, . . . , Xn ) dx1 . . . dxn .


Possiamo anche definire un'entropia H al secondo dividendo non
per n, ma per il tempo T in secondi per n campioni. Dato che
n = 2TW, H = 2WH'. Col rumore bianco termico, p è gaussiana
e abbiamo
H' = log �,
H = W log 27reN.
Per una data potenza media N, il rumore bianco ha la massima
entropia possibile. Ciò discende dalle proprietà, sopra notate,
massimizzanti della distribuzione gaussiana.

99
La entropia per un processo stocastico continuo possiede molte
proprietà analoghe a quelle dell'entropia per i processi discreti.
Nel caso discreto l'entropia era in rapporto con il logaritmo della
probabilità delle lunghe sequenze, e con il numero di sequenze di
lunga estensione ragionevolmente probabili. Nel caso continuo
essa è in rapporto in modo analogo col logaritmo della densità
di probabilità per una lunga serie di campioni, e con il volume
di probabilità ragionevolmente alta nello spazio delle funzioni.
Più precisamente, se assumiamo p(x1, . . . , Xn) continue in tutti
gli X; per ogni n, allora per n sufficientemente grande

I !p - l
lo
H' < E

per ogni scelta di (x1, ..


. , Xn), a parte un insieme la cui proba­
bilità totale è minore di o, con o e E arbitrariamente piccoli.
Ciò discende dalla proprietà ergodica se dividiamo lo spazio in
un grande numero di piccole celle.
La relazione di H con il volume può essere stabilita come segue.

..
Sotto le stesse assunzioni, si consideri lo spazio n-dimensionale
corrispondente a p(x1, . , Xn). Sia Vn(q) il più piccolo volume
in questo spazio che comprende al suo interno una probabilità
totale q. Allora

log V,.( q)
lim = H'
"- - n
a patto che q non sia uguale a O o a l .
Questi risultati mostrano che, per n grande, esiste un abbastanza
ben definito volume (almeno in senso logaritmico) di alta pro­
babilità, e che all'interno di questo volume la densità di proba­
bilità è relativamente uniforme ( ancora in senso logaritmico).
Nel caso di rumore bianco la funzione di distribuzione è data da

p(XJ, • • • , Xn ) =
l
( 27rN)n/2 exp - l
2N ...
� 2
xl .

Dato che questa dipende solamente da �x� , le superfici di den­


sità di probabilità uguale sono sfere e l'intera distribuzione ha
simmetria sferica. La regione di alta probabilità è una sfera di

100
raggio � nN. Quando n-+oo la probabilità di trovarsi al di fuori
di una sfera di raggio � n (N + E) tende a zero comunque sia pie­
l
colo E e -- volte il logaritmo del volume della sfera si avvi-
n
cina a log {I7ieN.
Nel caso continuo è conveniente lavorare non con la entropia H
di un complesso, bensì con una quantità derivata che chiame­
remo potenza dell'entropia o potenza entropica. Questa è definita
come la potenza in un rumore bianco, limitato alla stessa banda
del complesso originale ed avente la medesima entropia. In altre
parole, se H' è l'entropia di un complesso la sua potenza en­
tropica è

l
exp 2H'.
2 ne

Geometricamente ciò equivale a misurare il volume ad alta pro­


babilità mediante il quadrato del raggio di una sfera avente lo
stesso volume. Dal momento che il rumore bianco ha il massimo
di entropia per una potenza data, la potenza entropica di qua­
lunque rumore è minore o uguale alla sua potenza effettiva.

22. Perdita di entropia nei filtri lineari

Teorema 14: Se un complesso avente una entropia H1 per grado


di libertà nella banda W è fatto passare attraverso un filtro con
caratteristica Y(f), il complesso di uscita ha un'entropia

H2 = H1 +
�f w
log l Y(f) 1 2 df.

L'operazione del filtro consiste essenzialmente in una trasfor­


mazione lineare delle coordinate. Se pensiamo alle componenti
di differente frequenza come all'originale sistema di coordinate,
le nuove componenti di frequenza sono semplicemente le vecchie
moltiplicate per dei fattori. La matrice di trasformazione delle
coordinate è pertanto essenzialmente diagonalizzata in termini
di queste coordinate. Lo j acobiano della trasformazione è (per
n componenti sinusoidali e per n componenti cosinusoidali)

101
n

l = Il l Y(f;) 1 2 = exp L log l Y(f;) 1 2


i� l
dove l e f; sono ugualmente spaziate nella banda W. Esso diviene
al limite
exp �J w
log l Y(f) 1 2 df.

Dato che l è costante il suo valore medio è la stessa quantità


ed applicando il teorema sulla variazione di entropia con un
cambiamento di coordinate, ne consegue il risultato. Possiamo

Tabella l
guadagno
fattore di
di potenza risposta
guadagno potenza
entropica all'ùnpulso
entropica
in decibel

·-
·
l�
- -
- -

o (Il
� l
-
l
ez
- 8, 6 1
51N 2 11't
(11't)2

· - ··
��---
(t)
4
,
- 5 32 2
[ !li N
tl
t _ COS t
t2
]
o (Il l


D_
•-
•'
--
-
0. 314 -4,15
l [ COS t - l _ CO!I t + SIN t ]
t4 2 tz tl

o
(Il l

;,:o<-- {�� (t t 11' Jl (t)


- 2,66 --
2 t

o
(Il l

·� o
(Il l
ez
l
• -I,H tr
1
tr t2 [ cos (1 -tr) t- cos t ]
esprimere ciò anche in termini di potenza entropica. Pertanto,
se la potenza entropica del primo complesso è N1 , quella del
secondo è

N1 exp �J w
log l Y(f) 12 df.

La potenza entropica finale è data dalla potenza entropica iniziale


moltiplicata per il guadagno medio geometrico del filtro. Se il
guadagno è misurato in decibel (db), allora la potenza entro­
piea di uscita aumenterà del guadagno medio aritmetico in db
su w.
Nella tabella l la perdita di potenza entropica è stata calcolata
(ed anche espressa in db) per un certo numero di caratteristiche
ideali di guadagno. Le risposte impulsive di questi filtri sono
anche date per W = 2n, con fase assunta uguale a O.
La perdita di entropia per molti altri casi può essere ottenuta
partendo da questi risultati. Per esempio il fattore di potenza
entropica � per il primo caso si applica anche a qualsiasi ca­
ratteristica di guadagno ottenuta da l - w mediante una misu­
ra che prc::serva la trasformazione dell'asse w. In particolare un
guadagno linearmente crescente G(w) = w, o una caratteristica
a << dente di sega )) tra O e l hanno la medesima perdita di entro-
1
pia. Il guadagno reciproco ha il fattore reciproco pertanto
w
--

ha il fattore e2 • Elevando il guadagno a qualsivoglia potenza si


eleva il fattore a questa potenza.

23. Entropia della somma di due complessi

Se abbiamo due complessi di funzioni M t) e gp( t) possiamo for­


mare un nuovo complesso mediante « addizione )) , Poniamo che
il primo complesso abbia la funzione densità di probabilità
p(x1, . . . , Xn) e il secondo q(x1 , . . . , Xn). Allora la funzione di den­
sità per la somma è data dalla convoluzione :

r(xl, . . . , Xn) = f . . . f p(yl, . , Yn)


· ·

• q(XJ - Y1, . . . , Xn - Yn) dy1 dyz . . . dyn.

103
Fisicamente ciò corrisponde a sommare i disturbi o segnali rap­
presentati dagli originali complessi di funzioni.
Il seguente risultato è derivato nella appendice 6.
Teorema 15: Siano N1 e Nz, rispettivamente, la potenza media
di due complessi e siano N1 e Nz le loro potenze entropiche. Al­
lora la potenza entropica della somma, NJ, è delimitata da
N1 + Nz � NJ � N1 + Nz .
Il rumore bianco gaussiano ha la peculiare proprietà di poter
assorbire qualunque altro complesso, di rumori o segnali, che
può essere sommato ad esso e con una potenza entropica risul­
tante che è approssimativamente uguale alla somma della po­
tenza del rumore bianco e della potenza del segnale (misurata
dal valore medio del segnale, che è normalmente zero), a patto
che la potenza del segnale sia piccola, in un certo senso, rispetto
al rumore.
Si consideri lo spazio delle funzioni relativo a questi complessi
avente n dimensioni. Il rumore bianco corrisponde alla distri­
buzione sferica gaussiana in questo spazio. Il complesso di se­
gnali corrisponde ad un'altra distribuzione di probabilità, non
necessariamente gaussiana o sferica. Siano a;i i momenti di se­
condo ordine di questa distribuzione intorno al suo centro di
gravità. Ciò significa che, se p(x1 , . . . , Xn) è la funzione densità
di distribuzione

a;i = J . J p(X; - a;) (xi - ai) dx1 . . . dxn


. .

dove a; sono le coordinate del centro di gravità. Ora a;i è una


forma quadratica positiva e definita e possiamo ruotare il nostro
sistema di coordinate per allinearlo con le direzioni principali
di questa forma. a;i è allora ridotto alla forma diagonale bii. Ri­
chiediamo che ciascun bu sia piccolo rispetto a N, il raggio al
quadrato della distribuzione sferica.
In questo caso la convoluzione del rumore e del segnale produ­
ce approssimativamente una distribuzione gaussiana, cui corri­
sponde la forma quadratica.
N + b;;.

104
La potenza entropica di questa distribuzione è
[II(N + b ;; )Jifn
o approssimativamente
= [(N )" + � b;; (N)"- 1 ] 1/"

= N + -1- � b;;.
n

L'ultimo termine è la potenza del segnale, mentre il primo è la


potenza del rumore.

105
4

Il canale continuo

24. La capacità di un canale continuo

In un canale continuo i segnali di ingresso, o trasmessi, saranno


funzioni continue del tempo f(t) appartenenti ad un certo in­
sieme, e i segnali di uscita, o ricevuti, saranno versioni pertur­
bate di queste. Prenderemo in considerazione solamente il caso
in cui sia i segnali trasmessi che quelli ricevuti sono limitati ad
una certa banda W. In tal caso essi possono venir specificati, per
un tempo T, mediante 2TW numeri, e la loro struttura statistica
mediante funzioni di distribuzione di dimensioni finite. Pertanto
il carattere statistico del segnale trasmesso sarà determinato da
P(x1 , . . . , x,) = P(x)
e quello del disturbo dalla distribuzione di probabilità condi­
zionale

Pzl , . . . , z" (yl, . . . , y,) = P:.( y ) .

La velocità di trasmissione di informazioni per un canale continuo


è definita in modo analogo a quello usato per un canale discreto,
precisamente
R = H(x) - H,(x)
dove H(x) è l'entropia dell'ingresso e H,(x) l'equivocazione. La
capacità C del canale viene definita come il massimo di R quando
variamo l'ingresso su tutti i possibili complessi. Ciò significa che

106
in una approssimazione a dimensioni finite dobbiamo variare
P(x) = P(x1, . . . , Xn) e massimizzare

- J P(x) log P(x) dx + JJP(x, y) log p���) dx dy.

Oppure possiamo scrivere

JJP(x, y) log P(x, y)


P(x)P(y)
dx dy

approfittando del fatto che

JJP(x, y) log P(x) dx dy J P(x) log P(x) dx.


=

La capacità del canale è pertanto espressa come segue :

C = lim Max - -
T-+ - Pc">
1
T
JJP(x, y) log P(x, y)
P(x)P(y)
dx dy.

E' ovvio in questa forma che R e C sono indipendenti dal sistema


di coordinate dato che il numeratore ed il denominatore di
log ;��/c�) saranno moltiplicati per gli stessi fattori quando
x e y vengano trasformati in qualsiasi modo biunivoco. Questa
espressione integrale per C è più generale di H(x) - Hy(x). Cor­
rettamente interpretata (v. appendice 7) essa esisterà sempre,
mentre H(x) - Hy(X) può in alcuni casi assumere una forma in­
determinata oo oo
-
Questo si verifica, ad esempio, se x è limi­
.

tato ad una superficie avente un numero di dimensioni inferiore


ad n nella sua approssimazione n-dimensionale.
Se la base dei logaritmi usata nel calcolare H(x) e Hy(X) è 2,
allora C è il massimo numero di cifre binarie che possono es­
sere inviate in un secondo sul canale con equivocazione piccola
a piacere, proprio come nel caso discreto. Possiamo vedere fisi­
camente quanto sopra dividendo lo spazio dei segnali in un gran
numero di piccole celle, sufficientemente piccole perché la den­
sità di probabilità P.. (y) che il segnale x sia perturbato al punto y
sia sostanzialmente costante in una cella ( sia di x che di y). Se
le celle vengono considerate come punti distinti, la situazione
è essenzialmente la stessa di un canale discreto e vi si appli­
cheranno le dimostrazioni là usate. Ma è chiaro fisicamente che

107
questa quantizzazione del volume in singoli punti non puo m
alcuna situazione pratica alterare in modo significativo la soluzi�
ne finale, a condizione che le regioni siano sufficientemente piccole.
Pertanto la capacità sarà il limite delle capacità per le suddivi­
sioni discrete e questa è proprio la capacità continua preceden­
temente definita.
Dal lato matematico si può dimostrare (v. appendice 7) che se
u è il messaggio, x il segnale, y il segnale ricevuto (perturbato dal
disturbo) e v il messaggio ricostruito, allora
H(x) - Hy(x) � H(u) - H.(u)
senza riguardo per le operazioni compiute su u per ottenere x,
o su y per ottenere v. Pertanto, indipendentemente da come met­
tiamo in codice le cifre binarie per ottenere il segnale, o da come
decodifichiamo il segnale ricevuto per ricostruire il messaggio,
la velocità discreta per le cifre binarie non eccede la capacità del
canale che abbiamo definito. D'altra parte, è possibile, sotto con­
dizioni molto generali, trovare un sistema di codifica per trasmet­
tere cifre binarie alla velocità C con una equivocazione o fre­
quenza di errori piccola a piacere. Questo è vero, per esempio,
se, quando prendiamo uno spazio che si approssima ad uno spazio
a dimensioni finite per le funzioni dei segnali, P(x, y ) è continua
sia in x che in y, eccetto che in un insieme di punti di probabilità
zero.
Un importante caso speciale si verifica quando al segnale si som­
ma un disturbo da esso indipendente (nel senso della probabilità).
Allora P..(y ) è funzione solamente della differenza (vettoriale)
n = (y - x),
P..(y) = Q( y - x)
e possiamo assegnare una entropia definita al disturbo ( indipen­
dente dai caratteri statistici del segnale), precisamente l'entropia
della distribuzione Q(n) . Questa entropia sarà indicata con H(n).
Teorema 16: Se il segnale e il disturbo sono indipendenti e il
segnale ricevuto è la somma del segnale trasmesso e del disturbo,
allora la velocità di trasmissione è
R = H(y ) - H(n),

108
vale a dire, l'entropia del segnale ricevuto meno l'entropia del
disturbo. La capacità del canale è
C = Max H(y) - H(n).
P(z)

Abbiamo, dato che y = x + n:


H(x, y ) = H(x, n)
Sviluppando la parte sinistra e valendosi del fatto che x ed n
sono indipendenti
H(y) + H,(x) = H(x) + H(n).
Donde
R = H(x) - HJ.. x ) = H(y) - H(n).
Dal momento che H(n) è indipendente da P(x), per rendere mas­
sima R bisogna rendere massima H( y), l'entropia del segnale ri­
cevuto. Se vi sono certe restrizioni riguardo al complesso di
segnali trasmessi, l'entropia del segnale ricevuto deve essere resa
massima subordinatamente a queste restrizioni.

25. Capacità del canale con una limitazione di potenza media

Una semplice applicazione del teorema 16 si presenta quando il


disturbo è un rumore termico bianco e i segnali trasmessi sono
limitati ad una certa potenza media P. Allora i segnali ricevuti
hanno una potenza media P + N dove N è la potenza media del
disturbo. La entropia massima per i segnali ricevuti si verifica
quando essi costituiscono altresì un complesso con le caratteri­
stiche del rumore bianco, dato che questo presenta la maggiore
entropia possibile per una potenza P + N e che può essere ot­
tenuto mediante una opportuna scelta del complesso di segnali
trasmessi, precisamente quando essi costituiscono un complesso
con le caratteristiche del rumore bianco di potenza P. L'entropia
(al secondo) del complesso ricevuto è allora
H(y ) = W log 2xe(P + N),
e l'entropia del disturbo è
H(n) = W log 2xeN.

109
La capacità del canale è

C = H(y) - H(n) = W log p �N


Riassumendo abbiamo il seguente :
La capacità di un canale di banda W disturbato
N
Teorema 17:
da rumore bianco termico di potenza quando la potenza me­
dia del trasmettitore è limitata a P è data da

N .
P+N
C = W log

Ciò significa che mediante sistemi di codifica sufficientemente


elaborati possiamo trasmettere cifre binarie alla velocità di
W lo� p �N bit al secondo, con frequenza di errori arbitra­
riamente piccola. Non è possibile trasmettere ad una velocità più
elevata con alcun sistema di codifica senza avere una determinata
frequenza positiva di errori .
Per avvicinarsi a questa velocità limite di trasmissione i segnali
trasmessi devono approssimare, nelle proprietà statistiche, un
rumore bianco20• Un sistema che si avvicina alla velocità ideale
può essere descritto come segue : si siano costruiti M = 2s cam­
pioni di rumore bianco, tutti di durata T. Ad essi sono assegnati
numeri binari da O a ( M - l ). Al punto di trasmissione le se­
quenze del messaggio sono suddivise in gruppi di s e per cia­
scun gruppo il corrispondente campione di rumore viene tra­
smesso come il segnale. Al punto di ricezione gli M campioni
sono noti e l'effettivo segnale ricevuto ( alterato dal disturbo)
viene confrontato con ciascuno di essi. Il campione che rivela la
minor differenza R.M.S.21 dal segnale ricevuto viene scelto come
segnale trasmesso e viene ricostruito il corrispondente numero
binario. Questo processo equivale a scegliere il segnale più pro­
babile (a posteriori). Il numero M di campioni di disturbo usati
dipenderà dalla frequenza di errori E tollerabile, ma per quasi
ogni scelta di campioni abbiamo

20Queste ed altre proprietà del caso di rumore bianco sono discusse dal pwtto
di vista geometrico in 11 Communication in the Presence of Noise >>, loc. cit.
21 «Root Mean Square » ( radice quadrata dei valori medi al quadrato ) . (N.d.T. ).

1 10
. log M (e, T) P+N
l1m 1 1m
. --=--=::-'---'-':...._ W log ,
._.o T-+ - T N

cosicché, indipendentemente da quanto sia piccola e, possiamo,


prendendo T sufficientemente grande, trasmettere un numero di
. . . . P+N
CI'fre b'mane ch e SI avvtcma quanto vogl'1amo a TW l og nel ,

tempo T. Formule simili a C = W log


P N
� per il caso di rumo­
re bianco sono state sviluppate in modo indipendente da parecchi
altri autori, sebbene con interpretazioni un poco differenti. Pos­
siamo menzionare a questo proposito l 'opera di N. Wiener22,
W. G. Tuller23 e di H . Sullivan.
Nel caso di perturbazioni dovute ad un disturbo arbitrario (non
necessariamente rumore bianco termico) non sembra che sia
possibile risolvere esplicitamente il problema di massimizzazione
relativo alla determinazione della capacità C del canale. Si pos­
sono, comunque, stabilire limiti inferiori e superiori per C in
termini di potenza media N del disturbo e di potenza entropica
N, del disturbo. Questi limiti nella maggior parte dei casi sono
sufficientemente vicini da fornire una soddisfacente soluzione
del problema.
Teorema 18: La capacità di un canale di banda W perturbato da
un dis turbo arbitrario è determinata dalle disuguaglianze
P + N1 P+N
W log � C � W log --:-::--
N, N,
dove
P = potenza media del trasmettitore
N = potenza media del disturbo
N, = potenza entropica del disturbo.

22 Cybernetics, loc. cit.

23(( Theoretical Lirnitations on the Rate of Transmission of Infonnation >>,


Proceedings oj the Institute oj Radio Engineers, v. 37, No. 5, maggio 1949,
pp. 468-78.

111
Anche qui la potenza media dei segnali disturbati sarà P + N.
Il massimo di entropia per questa potenza lo si avrebbe se il
segnale ricevuto fosse rumore bianco e sarebbe W log 2TCe(P +N).
Può non essere possibile raggiungere questo massimo; cioè, può
non esserci alcun complesso di segnali trasmessi che, aggiunto
al disturbo perturbatore, produca un rumore bianco termico al
punto di ricezione, ma quanto meno esso stabilisce un limite
superiore per H(y). Abbiamo perciò
C = Max H(y) - H(n)
:;::; W log 2TCe(P + N) - W log 2TCeNI .
Questo è il limite superiore dato dal teorema. Si ottiene il limite
inferiore considerando la velocità quando il segnale trasmesso
è un rumore bianco, di potenza P. In questo caso la potenza en­
tropica del segnale ricevuto deve essere grande almeno quanto
quella di un rumore bianco di potenza P + N1 , dato che abbiamo
dimostrato nel teorema 1 5 che la potenza entropica della somma
di due complessi è maggiore o uguale alla somma delle singole
potenze entropiche. Donde
Max H(y) � W log 2TCe(P + N1)
e
C � W log 2TCe(P + N1)
P + N1
- W log 2TCeNI
= W l og
N1
Quando P aumenta, i limiti superiore ed inferiore di cui al teo­
rema 18 si avvicinano l'un l'altro ; si ha quindi una velocità asin­
totica
P+N
W log
N1 •

Se il disturbo è esso stesso un rumore bianco, N = N1 e il risul­


tato si riduce alla formula precedentemente dimostrata :

C = W log ( l +
� ).
Se il disturbo è gaussiano ma con uno spettro che non è neces-

1 12
sariamente uniforme, N1 è la media geometrica della potenza del
disturbo alle varie frequenze nella banda W. Perciò

N1 = exp -t-J w
log N(f) df

dove N(f) è la potenza del disturbo alla frequenza f.


Teorema 19: Se poniamo la capacità per una data potenza P del
trasmettitore uguale a
p + N - TJ
C = W log -- --- ,
N1
allora TJ è monotonica decrescente quando P aumenta e tende a
O come limite.
Supponiamo che per una data potenza P1 la capacità del canale
sia

Ciò significa che la migliore distribuzione del segnale, poniamo


p(x), quando è sommata alla distribuzione del disturbo q(x), dà
una distribuzione ricevuta r(y) la cui potenza entropica è
(P1 + N - TJI). Aumentiamo la potenza a P1 + !J.P aggiungendo al
segnale un rumore bianco di potenza !J.P. L'entropia del segnale
ricevuto è ora almeno

H(y) = W log 27re(Pl + N - TJi + !J.P)

in base al teorema sul minimo di potenza entropica di una som­


ma. Quindi, dato che possiamo conseguire la H indicata, l'entro­
pia della distribuzione massimizzante deve essere almeno altret­
tanto grande e TJ deve essere monotonica decrescente. Per dimo­
strare che TJ --+ O quando P --+ oo si consideri un segnale che sia
un rumore bianco con una P grande. Qualunque sia il disturbo
perturbatore, se P è sufficientemente grande il segnale ricevuto
sarà approssimativamente un rumore bianco, nel senso che avrà
una potenza entropica tendente a P + N.

1 13
26 . La capacità del canale con una limitazione nella potenza di
picco
In alcune applicazioni il trasmettitore è limitato non dall'uscita
di potenza media, bensì dalla potenza di picco istantanea. Il pro­
blema di calcolare la capacità del canale è allora quello di ren­
dere massima (mediante variazione del complesso di simboli
trasmessi)
H(y) - H(n)
subordinatamente alla condizione che tutte le funzioni f( t) del
complesso siano minori od uguali a, poniamo, � per ogni t.
Una condizione di questo tipo non risolve la questione, matema­
ticamente, altrettanto bene della limitazione di potenza media.
Tutto quanto abbiamo ottenuto per questo caso è un limite infe­
riore valido per ogni S/ N, un limite << asintotico )) superiore (va­
lido per grandi S/ N) ed un valore asintotico di C per S/N pic­
coli.
Teorema 20 : La capacità C di un canale di banda W perturbata
da un rumore bianco termico di potenza N è limitata da

C � W log --2
7re3
s
--
N '
dove S è la potenza di picco del trasmettitore consentita. Per S/N
sufficientemente grande

2 S+N
C � W log
--

'!re
N
(l + E)

dove E è arbitrariamente piccolo. Quando S/N -. O (e a patto che


la banda W parta da O)

C/ W log (l + � ) -. l.
Vogliamo rendere massima l a entropia del segnale ricevuto. Se
S/N è grande ci si avvicinerà molto a questo risultato quando
viene resa massima l'entropia del complesso trasmesso.
Il limite asintotico superiore viene ottenuto mitigando le condi­
zioni riguardanti il complesso. Supponiamo che la potenza sia limi-

1 14
tata a S non in ogni istante, ma solamente nei punti campione.
Il massimo di entropia del complesso trasmesso è, sotto queste
condizioni meno restrittive, certamente uguale o maggiore di
quello che si aveva sotto le condizioni originali. Questo proble­
ma modificato può essere risolto facilmente. Il massimo di en­
tropia si verifica quando i differenti campioni sono indipendenti
e quando hanno una funzione di distribuzione che è costante da
- {S a + -{S. L'entropia può essere calcolata come
W log 4S.
Il segnale ricevuto avrà allora una entropia minore di
W log (4S + 21reN) ( l + E)
con E -+ O quando S/ N -+ = e la capacità del canale viene otte­
nuta sottraendo la entropia del rumore bianco, W log 211:eN:
W log (4S + 21reN) ( l + E) - W log ( 21reN)
2
11:e S + N
= W log ----cN-=--- ( l + E) .
Questo è il limite superiore per la capacità del canale .
Per ottenere un limite inferiore si consideri il medesimo com­
plesso di funzioni. Siano queste funzioni fatte passare attraverso
un filtro ideale con caratteristica di trasferimento triangolare.
Il guadagno deve essere uguale a l alla frequenza O e diminuire
linearmente fino ad annullarsi alla frequenza W. Dimostriamo
dapprima che le funzioni di uscita del filtro hanno una limita­
zione della potenza di picco S in ogni momento (non solamente
sen 7r 2 Wt
nei punti campione). Prima notiamo che un impulso
2 1r Wt
che entra nel filtro produce un'uscita
l sen2 11:Wt
2 (11:Wt)Z
Questa funzione non è mai negativa. Si può pensare alla fun­
zione di ingresso (nel caso generale) come alla somma di una
serie di funzioni traslate
sen 21rWt
a
2 1r Wt

1 15
dove a, ampiezza del campione, non è maggiore di {S. Pertanto
l'uscita è la somma delle funzioni traslate della forma non-nega­
tiva di cui sopra con i medesimi coefficienti. Essendo queste fun­
zioni non-negative, il maggior valore positivo per qualunque t
lo si ottiene quando tutti i coefficienti a hanno il loro massimo
valore positivo, vale a dire � In questo caso la funzione di in­
gresso era una costante di ampiezza {S e dato che il filtro ha
guadagno unitario per corrente continua, l'uscita è la stessa. Per­
tanto il complesso di uscita ha una potenza di picco S.
L'entropia del complesso di uscita può essere ricavata da quella
del complesso di entrata, mediante il teorema che si occupa di
tale situazione. L'entropia di uscita è uguale alla entropia di en­
trata più il guadagno medio geometrico del filtro:

J� log G2 df = J� log ( W
.; f )
2
df = - 2W.

Quindi l'entropia di uscita è


4S
W log 4S - 2W = W log -2-
e

e la capacità del canale è maggiore di


2 s
W log --
3 -.
ne N
Vogliamo ora dimostrare che, per S/N (rapporto tra la potenza
di picco del segnale e la potenza media del rumore bianco) piccolo,
la capacità del canale è approssimativamente

C = W log ( l + !) .

Più precisamente C/W log ( l + S/N) - 1 quando S/N - 0. Dato


che la potenza media P del segnale è minore o uguale al picco S,
ne segue che per ogni S/N.

C � W log ( l + �) � W log ( l + !)
Pertanto, se possiamo trovare un complesso di funzioni tale che
esse corrispondano ad una velocità vicina a W log ( l + S/N) e

1 16
siano limitate ad una banda_ W e a una potenza di picco S, avremo
raggiunto la dimostrazione. Si consideri il complesso di funzioni

-
del tipo seguente. Una serie di t campioni hanno lo stesso valore,
+ -fS o {S, quindi i successivi t campioni hanno lo stesso
valore, ecc. Il valore per una serie è scelto a caso, probabilità -!
per + -{S e t per - {S Se questo complesso viene fatto pas­
.

sare attraverso un filtro con caratteristica di guadagno triango­


lare ( guadagno unitario in corrente continua), l'uscita è limitata
nella potenza a picco + S. Inoltre la potenza media è presso­
ché S ed è possibile farla avvicinare a questa prendendo t suffi­
cientemente grande. L'entropia della somma di questa e del ru­
more bianco può essere trovata applicando il teorema sulla som­
ma di un disturbo e di un piccolo segnale. Questo teorema si
applicherà se

{I _§_
N
è sufficientemente piccolo. Ci si può assicurare di ciò prendendo
S/N abbastanza piccolo (dopo che si è scelto t). La potenza en­
tropica sarà vicina a S + N con l'approssimazione che si vuole,
e pertanto la velocità di trasmissione sarà vicina quanto vo­
gliamo a

W log
( S+N
N
).

1 17
5

La velocità per una sorgente continua

27. Funzioni per la valutazione della fedeltà

Nel caso di una sor-gente di informazioni discrete eravamo in


grado di determinare una definita velocità di generare informa­
zioni, vale a dire l'entropia del processo stocastico che ne è alla
base. Con una sorgente continua la situazione è considerevol­
mente più complicata. In primo luogo, una quantità continua­
mente variabile può assumere un numero infinito di valori e
richiede, perciò, un numero infinito di cifre binarie per una esat­
ta specificazione. Ciò significa che per trasmettere l'uscita di
una sorgente continua ottenendo un recupero esatto al punto di
ricezione si richiede, in generale, un canale di capacità infinita
(in bit al secondo). Dato che, normalmente, i canali hanno un
certo ammontare di disturbo, e pertanto una capacità finita, è
impossibile una trasmissione esatta.
Ciò, comunque, esula dal punto in discussione. Praticamente, non
siamo interessati ad una trasmissione esatta quando abbiamo
una sorgente continua, ma solamente ad una trasmissione conte­
nuta entro una certa tolleranza. La questione è se possiamo as­
segnare ad una sorgente continua una definita velocità quando
richiediamo solamente una certa fedeltà di riproduzione, misu­
rata in maniera adeguata . Naturalmente, quando vengono aumen­
tati i requisiti di fedeltà la velocità aumenterà. Mostreremo che
è possibile, in casi molto generali, definire una velocità, tale che
sia possibile trasmettere le informazioni, dopo averle opportu-

1 18
namente messe in codice, su un canale la cui capacità sia uguale
alla velocità in questione, e soddisfare alle esigenze di fedeltà.
Un canale di capacità inferiore è insufficiente.
E' dapprima necessario dare una formulazione matematica ge­
nerale del concetto di fedeltà di trasmissione. Si consideri l'in­
sieme dei messaggi aventi una lunga durata, poniamo di T se­
condi. La sorgente viene descritta fornendo la densità di proba­
bilità, P(x), che la sorgente scelga, nello spazio relativo il mes­
saggio in questione. Un dato sistema di comunicazione viene de­
scritto ( dal punto di vista esterno) dando la probabilità condizio­
nale P..(y) che, se dalla sorgente viene prodotto il messaggio x,
il messaggio riprodotto al punto di ricezione sia y. Il sistema nel
suo complesso (comprendente la sorgente ed il sistema di trasmis­
sione) viene descritto mediante la funzione di probabilità P(x, y)
di avere un messaggio x ed un'uscita finale y. Se è nota questa
funzione, sono note le caratteristiche complessive del sistema dal
punto di vista della fedeltà. Qualunque valutazione di fedeltà
deve corrispondere, matematicamente, ad una operazione riguar­
dante P(x, y ). Questa operazione deve avere almeno le proprietà
di un semplice ordinamento di sistemi ; deve, cioè, essere possi­
bile, riguardo a due sistemi rappresentati da P1(x, y) e P2(x, y) ,
affermare che, in conformità al criterio di fedeltà, o ( l ) possiede
maggiore fedeltà il primo, o (2) possiede maggiore fedeltà il se­
condo, oppure (3) essi hanno uguale fedeltà. Ciò significa che si
può rappresentare un criterio di fedeltà mediante una funzione di
valutazione numericamente calcolabile
v(P(x, y))
il cui argomento si estende alle possibili funzioni di probabilità
P(x, y ) . La funzione v( P( x, y)) ordina i sistemi di comunicazione in
base alla fedeltà, e per convenienza prendiamo più bassi valori
di v in corrispondenza a « più alta fedeltà >> .
Mostreremo ora che, sotto condizioni molto generali e ragione­
voli, è possibile scrivere la funzione v( P( x, y)) in una forma appa­
rentemente molto più specifica, precisamente come media di una
funzione p(x , y) tra l'insieme di possibili valori di x e di y :

v(P(x, y)) = JJ P(x, y) p(x, y) dx dy.


119
Per ottenere questo dobbiamo solamente assumere ( l ) che la
sorgente ed il sistema siano ergodici cosicché un campione molto
lungo sarà, con probabilità pressoché l , tipico del complesso, e
(2) che la valutazione sia « ragionevole >>, nel senso che sia pos­
sibile, esaminando un ingresso e un'uscita tipici, x, e y,, formu­
lare una valutazione di prova sulla base di questi campioni; e
se si aumenta la durata di questi campioni, la valutazione di prova
tenderà, con probabilità l , alla valutazione esatta, basata su una
conoscenza piena di P( x, y ). Sia p(x, y ) la valutazione di prova.
Allora la funzione p(x, y) tende ad essere (quando T -- oo ) una
costante per quasi tutti gli (x, y ) che si trovano nella regione ad
alta probabilità corrispondente al sistema:
p(x, y ) --- v(P(x, y ))
e possiamo anche scrivere

p(x, y ) __. JJ P(x, y) p(x, y) dx dy


dato che

JJ P(x, y ) dx dy = l.

Questo dimostra quanto desiderato.


La funzione p(x, y ) ha la natura di una « distanza » tra x e y24•
Essa misura quanto sia indesiderabile (relativamente al nostro
criterio di fedeltà) ricevere y quando viene trasmesso x. La for­
mulazione generale di cui sopra può essere denunciata come
segue : qualunque ragionevole valutazione può essere rappresen­
tata come media di una funzione di distanza sull'insieme di mes­
saggi e di messaggi ricostruiti x e y , pesata in conformità della
probabilità P(x, y) di ottenere la coppia in questione, a patto che
la durata T dei messaggi sia sufficientemente grande.
I seguenti costituiscono semplici esempi di funzioni di valuta­
zione.

2• Non si tratta, comunque, di una distanza 11 metrica 11 in senso stretto, dal


momento che in generale essa non soddisfa né p <x. y )
= p <Y. x> oé
p( X, y ) + p(Y,Z) > p(X, 2).

120
1. Criterio R.M.S.

v = (x( t)- y(t))2


In questa misura di fedeltà, assai comunemente usata, la fun­
zione della distanza p(x, y) è (a parte un fattore costante) il qua­
drato della normale distanza euclidea tra i punti x e y nel rela­
tivo spazio delle funzioni.

p(x, y) =
1
T
fT
0 [x(t) - y(t)] 2 dt

2. Criterio R.M.S. con frequenza pesata. Più generalmente si pos­


sono attribuire pesi differenti alle differenti componenti di fre­
quenza, prima di applicare una misura R.M.S. di fedeltà. Ciò equi­
vale a far passare la differenza x(t) - y(t) attraverso un filtro di
taglio, determinando quindi la potenza media all'unità. Perciò
e(t) = x( t) - y( t)
e

f(t) = f�- e(-r)k(t - -r) d-r

allora

p(x, y) =
i J� f(t)2 dt.

3. Criterio dell'errore assoluto.

p(x , y) =
1
T
fT
o
l x(t) - y(t) l dt

4. La struttura dell'orecchio e del cervello determinano implici­


tamente un certo numero di valutazioni, appropriate nel caso di
trasmissione di parole o musica. Vi è, per esempio, un criterio
di « intellegibilità ,, in cui p(x,y) è uguale alla frequenza relativa
delle parole scorrettamente interpretate quando il messaggio x(t)
viene ricevuto come y( t). Pur non potendo in questi casi dare una
rappresentazione esplicita di p(x,y), essa potrebbe essere deter­
minata, in linea di principio, mediante una sufficiente sperimen­
tazione. Alcune delle sue proprietà discendono da ben noti ri­
sultati sperimentali riguardanti l'udito; ad esempio, l'orecchio

121
è relativamente insensibile alla fase e la sensibilità alla ampiezza
ed alla frequenza è pressapoco logaritmica.
5. Il caso discreto può essere considerato come una specializza­
zione in cui abbiamo tacitamente assunto una valutazione basata
sulla frequenza di errori. La funzione p(x, y) è allora definita come
il numero di simboli della sequenza y che differiscono dai cor­
rispondenti simboli della sequenza x, diviso per il numero totale
di simboli in x.

28. La velocità per una sorgente relativa ad una valutazione di


fedeltà

Siamo ora in condizione di definire la velocità di generazione


delle informazioni di una sorgente continua. Sono dati P(x) per
la sorgente e una valutazione v determinata da una funzione
distanza p(x, y) che sarà assunta continua sia in x che in y. Con
un particolare sistema P(x, y) la fedeltà è misurata da

v = JJ p(x, y) P(x, y) dx dy.


Inoltre la velocità di flusso di cifre binarie corrispondenti a
P(x, y ) è

R = JJ P(x, y) log P(x, y)


P(x)P(y)
dx dy.

Definiamo la velocità Ri di generazione delle informazioni per una


data qualità Vi di riproduzione come il valore minimo di R quan·
do manteniamo v fisso al valore Vi e variamo Px(y). Cioè :

Ri = �!r JJP(x, y) log P(x, y)


P(x)P(y)
dx dy

sotto la condizione che

vi = JJ P(x,y)p(x, y) dx dy.
Ciò significa che prendiamo in considerazione, in effetti, tutti i
sistemi di comunicazione che potrebbero essere usati e che tra­
smettono con la fedeltà richiesta. La velocità di trasmissione in
bit al secondo è calcolata per ogni sistema e scegliamo quello

122
avente la più piccola velocità. Quest'ultima velocità è la velocità
che assegnamo alla sorgente per la fedeltà in questione.
La giustificazione di questa definizione si trova nel seguente
teorema :
Teorema 21 : Se una sorgente ha una velocità R1 per una valu­
tazione V1 è possibile mettere in codice l'uscita della sorgente e
trasmetterla su un canale di capacità C con fedeltà prossima quan­
to vogliamo a v1 a patto che R1 � C. Questo non è possibile se
RI > C.
L'ultima affermazione del teorema discende immediatamente dal­
la definizione di R1 e dalle precedenti acquisizioni. Se essa non
fosse vera potremmo trasmettere più di C bit al secondo su un
canale di capacità C. La prima parte del teorema è dimostrabile
mediante un metodo analogo a quello usato per il teorema 1 1 .
Possiamo, in primo luogo, dividere lo spazio (x, y) in un gran
numero di piccole celle e rappresentare la situazione come in
un caso discreto. Ciò non cambierà la funzione di valutazione
altro che di una quantità arbitrariamente piccola (quando le celle
sono molto piccole) a causa della continuità assunta per p(x, y).
Supponiamo che P1(x, y) sia il particolare sistema che rende mi­
nima la velocità e dà R1. Scegliamo fra gli y ad alta probabilità
un insieme a caso contenente

membri, dove E - O quando T - <Xl Con T grande ciascun punto


.

scelto sarà collegato tramite linee ad alta probabilità (come nella


fig. 10) ad un insieme di x. Un calcolo simile a quello usato nella
dimostrazione del teorema 1 1 mostra che con T grande quasi
tutti gli x sono coperti dai ventagli che hanno origine nei punti
y prescelti, per quasi tutte le scelte dei detti punti y. Il sistema
di comunicazione da usarsi opera come segue : ai punti scelti
vengono assegnati dei numeri binari ; quando viene data origine
ad un messaggio x esso si verrà a trovare (con probabilità ten­
dente a l quando T - <Xl ) all'interno di almeno uno dei venta­
gli. Il numero binario corrispondente (oppure uno di essi scelto
a piacere, se sono parecchi) viene trasmesso sul canale, con mezzi
di codifica opportuni per determinare una piccola probabilità
di errore. Dal momento che R1 � C, questo è possibile. Al punto

123
di ricezione la y corrispondente viene ricostruita e usata come
messaggio ricevuto.
La valutazione vl per questo sistema può essere resa prossima
a v1 nella misura che vogliamo prendendo T sufficientemente
grande. Ciò è dovuto al fatto che per ogni lungo campione di
messaggio x(t) e di messaggio ricostruito y(t) la valutazione ten­
de a v. (con probabilità 1 ).
E' interessante notare che, in questo sistema, il disturbo nel mes­
saggio ricostruito è in realtà prodotto da una specie di quantiz­
zazione generale nel trasmettitore e non è prodotto dal disturbo nel
canale. E' più o meno analogo al disturbo quantizzante nel PCM.

29. Il calcolo delle velocità

La definizione di velocità è simile per molti aspetti alla defini­


zione di capacità del canale. Nella prima abbiamo

R = �<�� I J P(x, y) log pf����) dx dy

con P(x) e v1 = II P(x, y ) p(x, y) dx dy fissati. Nella seconda

C = Wc�x II P(x, y ) log pf����) dx dy

con PJ.. y ) fissata e possibilmente con una o più altre condizioni


imposte (per es., una limitazione di potenza media) della for­
ma K = f f P(x,y) À.(x, y) dx dy.
E' possibile dare una soluzione parziale del problema generale
di massimizzazione per determinare la velocità di una sorgente.
Servendoci del metodo di Lagrange consideriamo

JJ [
P(x, y )
P(x, y) log + l.l P(x, y) p(x, y )
P(x)P( y )

+ v(x)P(x, y ) ] dx dy.

L'equazione variazionale ( quando prendiamo la prima variazione


su P(x, y )) porta a

1 24
Py(X) = B(x) e-}..p (.r.rl
dove À. è determinato per fornire la fedeltà richiesta e B(x) è
scelto per soddisfare

JB(x) e-}..p(-<.rl dx = l .
Questo dimostra che, con la miglior codifica, la probabilità con­
dizionale di una certa causa per i vari y ricevuti, Pr(x), dimi­
nuirà esponenzialmente con la funzione p(x, y) della distanza tra
gli x e gli y in questione.
Nel caso speciale in cui la funzione p(x, y) della distanza dipende
solamente dalla differenza (vettore) tra x e y,
p(x, y) = p(x - y)
abbiamo
J B(x) e -}..p(-<-rl dx = l.
Allora B(x) è costante, poniamo a , e
Py{x) = ae-}..p(.r-rl.
Sfortunatamente queste soluzioni formali sono difficili da valu­
tare in casi particolari e sembrano essere di scarso valore. Infatti,
l'effettivo calcolo delle velocità è stato realizzato soltanto in pochi
casi molto semplici.
Se la funzione della distanza p(x, y) è lo scarto quadratico medio
tra x e y e il complesso del messaggio è un rumore bianco, la
velocità può essere determinata. In questo caso abbiamo
R = Min [H(x) - Hr(x) ] = H(x) - Max Hr(x)
con N = (x - y)2• Ma Max. Hr(x) si verifica quando y - x è un
rumore bianco, ed è uguale a W1 log 2neN dove W1 è l'ampiezza
della banda del complesso del messaggio. Perciò
R = W1 log 2neQ - W 1 log 2neN
= wl log _Q_
N
dove Q è la potenza media del messaggio. Ciò dimostra il se­
guente :

125
Teorema 22: La velocità di una sorgente con caratteristica di
rumore bianco, di potenza Q e banda W1 relativamente ad una
misura di fedeltà R . M.S. è
Q
R = W1 log N

dove N è l'errore quadratico medio consentito tra i messaggi


originali e quelli ricostruiti.
Più generalmente con qualsiasi sorgente di messaggi possiamo
ottenere disuguaglianze che delimitano la velocità in rapporto ad
un criterio di errore quadratico medio.
Teorema 23 : La velocità di qualsiasi sorgente di banda W1 è
delimitata da

w! log Ql � R � w! log Q
N N
dove Q è la potenza media della sorgente, QI la sua potenza en­
tropica e N il consentito errore quadratico medio.
Il limite inferiore discende dal fatto che Max H1(x) per un dato
(x - y)2 = N si verifica nel caso di rumore bianco. Il limite su­
periore si ha se disponiamo i punti (usati nella dimostrazione
del teorema 2 1 ) non nel modo migliore, bensì a caso in una
sfera di raggio �Q- N.

126
Riconoscimenti
L'autore deve ai suoi colleghi dei Laboratori, particolarmente al
Dr. H. W. Bode, al Dr. J. R . Pierce, al Dr. B. McMillan e al Dr.
B. M. Oliver molti suggerimenti e critiche che gli sono stati di
aiuto nel corso di questo lavoro. Va anche reso merito al Prof.
N. Wiener, la cui elegante soluzione dei problemi di filtro e di
predizione di complessi stazionari ha influenzato in misura con­
siderevole il pensiero dell'autore in questo campo.

127
Appendice l

L 'aumento del numero di blocchi di simboli


con una condizione a stati finiti
Sia N;(L) il numero di blocchi di simboli di lunghezza L che
vanno a finire nello stato i. Allora abbiamo
N;(L) = l: N;(L - b�'/)
is

dove b)1 , M1 , b'fl rappresentano le lunghezze dei simboli che


• • • ,

possono venir scelti nello stato i e portare allo stato j. Queste


sono equazioni lineari alle differenze finite e il comportamento
quando L -- oo deve essere del tipo
N; = A;WL.
Sostituendo nella equazione alle differenze

Sia
,r.,
A; = l: A; w- ,
iS
,

11r s1
W ,, - Ò;;) A; = O.
lt t
( -

Perché questo sia possibile il determinante

129
D( W ) = l a;; l = I: w-b\? - o;; l
s

deve diventare zero e questo determina W, che è, naturalmente,


la più grande radice reale di D = O. La quantità C è allora data da
log � A; WL 1og
C = l1m
.
W
4- L
e notiamo anche che le stesse proprietà di aumento si hanno se
richiediamo che tutti i blocchi partano nello stesso stato (arbi­
trariamente scelto).

130
Appendice 2

Derivazione di H = - l:P i log Pi

Sia H ( ! , ..., ! , � ) = A( n). Per la condizione (3) pos­


siamo scomporre una scelta fra sm possibilità egualmente proba­
bili in una serie di m scelte ciascuna tra s possibilità egualmente
probabili ed ottenere

Analogamente
A( t" ) = n A( t).
Possiamo scegliere n arbitrariamente grande e trovare un m che
soddisfi
m
s � t" < s (m+l) .
Perciò, prendendo i logaritmi e dividendo per n log s,
...!!!____
n

��
log s

_!E_
n
+ _l_
n
0 '___!!!___
n
_ log t
log s
l <
E

dove E è arbitrariamente piccolo. Ora dalla proprietà monoto­


nica di A(n),
A(sm) � A(t" ) � A(sm+t)
m A(s) � nA(t ) � (m + l ) A(s)
donde, dividendo per nA(s),

131
m
n
+
n
l
ovvero l ___!!'!____
n
-

A(s)
l
_A(t)_ < E

l A(t)
A(s)
- _l�g_!_
log s
l ""'
� 2E A( t) = - K log t

dove K deve essere positiva per soddisfare la condizione (2) .


Supponiamo ora di avere una scelta fra n possibilità con pro·
:-
babilità commensurabili p; = - !_____ dove n; sono numeri interi.
... n;
Possiamo scomporre una scelta fra �n; possibilità in una scelta
fra n possibilità con probabilità P•· . . . , Pn e quindi, se è stata
scelta la ima possibilità, in una scelta tra n; possibilità con pro­
babilità uguali. Servendoci nuovamente della condizione (3),
uguagliamo la scelta totale fra �n; calcolata mediante due metodi
K log � n; = H(p. , . . . , Pn) + K�p; log n;.
Di qui
H = K [ �p; log Ln; - Lp; log n;]
n;
= -K�p; log '<;' = - KLp; log p;.
... n;
Se le p; non sono commensurabili, esse possono venir appros­
simate mediante numeri razionali e la stessa espressione deve
mantenersi fedele alla nostra assunzione di continuità. Pertanto
l'espressione rimane la stessa in generale. La scelta del coeffi­
ciente K è una questione di convenienza e corrisponde alla scelta
di una unità di misura.

13 2
Appendice 3

Teoremi sulle sorgenti ergodiche


Assumiamo che la sorgente sia ergodica, cosicché è possibile ap­
plicare la legge forte dei grandi numeri. Così il numero di volte
che una data traiettoria Pii della rete viene attraversata in una
lunga sequenza di lunghezza N è pressappoco proporzionale alla
probabilità, diciamo P;, di trovarsi in i, e di scegliere quindi que­
sta traiettoria, P;p;iN. Se N è sufficientemente grande, la pro­
babilità di errore percentuale ±o in questa traiettoria è minore
di t, cosicchè per tutti gli insiemi di bassa probabilità eccetto
uno, i numeri effettivi si trovano entro i limiti
(P;p;i + o)N.
Quindi quasi tutte le sequenze hanno una probabilità p data da

log P . .
e -N- e l Imitato da
,

log p
= 'f.(P;p;l + o) log Pii
N
oppure
l log p
N
- '"i.P;p;i log Pii
l< 71

il che prova il teorema 3.


Il teorema 4 discende immediatamente da questo, calcolando li-

133
miti superiori ed inferiori per n(q) basati sulla possibile serie di
valori di p del teorema 3. Nel caso misto (non ergodico) se
L = 'E.p;L;
e se le entropie delle componenti sono H1 � Hz � . . . � H" abbia­
mo il

(q )
Z
log
Teorema : lim = cp(q) è una funzione decrescente a sca-
N-+ -
lini,
s-1 s
cp ( q ) = H. nell'intervallo l; ai < q < l: a;.
l l

Per provare i teoremi 5 e 6 si noti in primo luogo che FN è mo­


notona decrescente in quanto aumentando N si aggiunge un in­
dice sottoscritto a un'entropia condizionale. Una semplice sosti­
tuzione di ps;(Si) nella definizione di FN mostra che
FN = N GN - (N - 1 ) GN-1

e facendo la somma per tutti gli N si ha GN = � 'E.FN· Quindi


GN � FN e GN è monotona decrescente. Anche queste funzioni
devono tendere allo stesso limite. Servendoci del teorema 3 ve­
diamo che lim GN = H.
N-+ -

134
Appendice 4

Massimizzazione della velocità


in un sistema con restrizioni
Supponiamo di avere un insieme di restrizioni riguardanti se­
quenze di simboli che sia del tipo a stati finiti e possa pertanto
essere rappresentato mediante un grafo lineare, come nella fig. 2.
Siano N/ le lunghezze dei vari simboli che possono verificarsi
nel corso del passaggio dallo stato i allo stato j. Quale distribu­
zione di probabilità P; per i differenti stati e pltJ per la scelta di
un simbolo s nello stato i e il trasferimento allo stato j rende
massima la velocità di produzione di informazioni sotto queste
condizioni restrittive? Le restrizioni definiscono un canale discre­
to e la velocità massima deve essere minore o uguale alla capa­
cità C di questo canale, dato che se tutti i blocchi di grande
lunghezza fossero ugualmente probabili, ne risulterebbe questa
velocità, e, se possibile, questa sarebbe la migliore. Mostreremo
che questa velocità può essere raggiunta mediante opportuna
scelta della P; e delle p't}. La velocità in questione è
- l: P;plf} log plf/
i,j,s

l: P;prtJ zrtJ
i,j,s
Sia
,.,
P(�/, -
,
- �
B;
w-r,,
dove B; soddisfano le equazioni

135
Questo sistema omogeneo ha una soluzione non nulla dato che
W è tale che il determinante dei coefficienti è zero:
l I: w-rW - òij l = o.

Le p1tj definite sono perciò soddisfacenti probabilità di transizione


perché in primo luogo

= B·
n: = 1

cosicché la somma delle probabilità da qualunque particolare


punto di congiunzione è uguale a 1 (unità). Inoltre esse sono
non-negative, come si può vedere considerando le quantità Ai
date nella appendice 1 . Ogni A1 è necessariamente non-negativa
e ogni Bi soddisfa ad un sistema simile di equazioni, ma con i
e i scambiati. Ciò equivale ad invertire la direzione sulle linee
del grafo.
Sostituendo i valori assunti da plf/ nella equazione generale rela­
tiva alla velocità, otteniamo
,,,
I: Pipt:/ log T

w-r,,

I: Piplf/ Iii
log W I: Piplf/ llfl - I: P1p1f/ log Bi + I: P�p�J log B1
I: P1Pii lo/J
= log W = C.
Pertanto la velocità con questo insieme di probabilità di transi­
zione è C e, dato che questa velocità non potrebbe mai essere
superata, questo è il valore massimo.

136
Appendice 5

Sia S1 un qualsiasi sottoinsieme misurabile del complesso g, e


sia Sz il sottoinsieme del complesso t che dà S1 sotto l'opera­
tore T. Allora

Sia Jll. l'operatore che trasla tutte le funzioni di un insieme del


tempo À.. Allora

dato che T è invariante e perciò si commuta con HÀ . Quindi se


m[S] è la misura di probabilità dell'insieme S
m[H),S1] = m [ TH>..S2 ] = m [IP-Sz]
= m [ Sz] = m[S1]
dove la seconda uguaglianza discende dalla definizione di misura
nello spazio di g, la terza dal fatto che il complesso t è staziona­
rio, e l'ultima ancora dalla definizione di misura di g. Questo
mostra che il complesso g è stazionario.

Per provare che la proprietà ergodica viene mantenuta sotto ope­


razioni invarianti, sia S1 un sottoinsieme del complesso g che è
invariante sotto H\ e sia Sz l'insieme di tutte le funzioni f che
si trasformano in S1. Allora

137
H).SI = H).TS1 = TH).S1 = SI
cosicché H>..S1 è incluso in S2 per ogni À. . Ora, dato che
m[H>..S 1] = m[S2 ] = m[S1]
ciò comporta che
H>..S1 = S2
Per ogni À. con m[S2 ] ;é O, l . Questa contraddizione mostra che
S1 non esiste.

138
Appendice 6

Il limite superiore, N3 � N1 + N2, è dovuto al fatto che la mas­


sima entropia possibile per una potenza N1 + N2 si verifica quan­
do abbiamo un rumore bianco di questa potenza. In questo caso
la potenza entropica è N1 + N2.
Per ottenere il limite inferiore, supponiamo di avere due distri­
buzioni in n dimensioni p(x;) e q(x;) con potenze entropiche N1
e N2. Ci si chiede che forma dovrebbero avere p e q per rendere
minima la potenza entropica N3 della loro convoluzione r(x;):

r(x;) = Jp(y;)q(x; - y;) dy;


La entropia H3 di r è data da

H3 = - Jr(x;) log r(x;) dx;.


Vogliamo renderla minima subordinatamente alle restrizioni

H1 = - J p(x;) log p{x;) dx;


H2 = - J q(x;) log q(x;) dx;.
Consideriamo quindi

V = - J [ r(x) log r(x) + À.p(x) log p(x) + (.J.q(x) log q(x) ] dx


oU = - f { [ l log r(x) ] or(x) + À. [ l log p(x) ] op(x)
+ +

+ (..L[ l + log q(x) oq(x) ] } dx.

139
Se p(x) viene modificata in un particolare argomento X; = s;, la
variazione in r(x) è
or(x) = q(X; - S;)
e

oU = - J q(x; - S;) log r(x;) dx; - À log p(s;) = o


e analogamente quando viene modificata q. Quindi le condizioni
per un minimo sono

J q(x; - s;) log r(x;) = - À log p(s;)


J p(x; - s;) log r(x;) = - log q(s;). u

Se moltiplichiamo la prima per p(s;) e la seconda per q(si) ed


integriamo rispetto ad s, otteniamo
Hl = - ..l. H,
Hl = - f.J. H2
ovvero risolvendo per À e f.J. e sostituendo nelle equazioni

H, J q(x; - s; ) log r(x;) dx; - Hl log p(s;)


=

H2 J p(x; - s;) log r(x;) dx; = - Hl log p(s;).


Supponiamo ora che p(x;) e q(x;) siano normali

l Aij l n/2
p( x;) =
( Zn )n/2 exp - t EA;iXiXi
l Bij l n/2
q(x;) =
( Zn )nf2 exp - t 'f.B;iXiXi .
Allora r(x; ) sarà a sua volta normale con forma quadratica C;i.
Se gli inversi di queste forme sono a;i, b;i, c;i allora

Vogliamo dimostrare che queste funzioni soddisfano alle condi­


zioni minimizzatrici se e solo se a;i = Kb;i e quindi danno il
valore minimo di Hl in presenza delle restrizioni imposte. Innan­
zitutto

140
n 1
log r(x;) = log 2,. l C11 l - i 'f.C;�;XJ

n 1
J q(x; - s;) log r(x;) = 2 log 2 ,. l C;; l - ! 'f.C;JS;s1 - ! 'f.C;;b;J.

Questo dovrebbe uguagliare

�: [ n log �
2 l A;; l - ! 'i:.A;JS;SI ]
il che richiede A;1 = �: C;1•

In questo caso A11 = :: B;1 ed entrambe le equazioni si ridu­

cono ad identità.

141
Appendice 7

Quanto segue indicherà un accostamento più generale e più ri­


goroso alle definizioni centrali della teoria delle comunicazioni.
Si consideri uno spazio di misura di probabilità i cui elementi
siano ordinati in coppie (x, y ). Le variabili x, y devono essere
identificate come i possibili segnali trasmessi e ricevuti di una
certa lunga durata T. Chiamiamo fascia di S1 l'insieme di tutti i
punti i cui x appartengono ad un sottoinsieme S1 di punti x, e
analogamente fascia di S2 l'insieme i cui y appartengono al sotto­
insieme S2 . Dividiamo x e y in una raccolta di sottoinsiemi mi­
surabili X; e Y; non sovrapponentisi e approssimanti la velocità
di trasmissione R
1 y) P( X;, Y;)
R
l
=
T t: P(X;, ; log
P(X;)P( Y;)
dove
P(X;) è la misura di probabilità della fascia di X;
P(Y;) è la misura di probabilità della fascia di Y;
P(X;, Y;) è la misura di probabilità della intersezione delle fasce.
Una ulteriore suddivisione non può mai diminuire R1 . Infatti sia
X1 diviso in X1 = Xl + Xl' e sia
P(Y1 ) = a P(X,) = b + c
P{Xl) b P(Xl , Y,) = d
P(Xl') = c P(Xl', Y,) = e
P(X, , Y,) = d + e.

142
Ne segue che nella somma (per la intersezione X1, Y1) sostituiamo
d+e d e
(d + e) log a( b con d log ab + e log ac .
+ c)
Si dimostra facilmente che, con la limitazione esistente per b ,
c, d, e,
[ d ]
+ e d+e � dde•
b+c "" b dc•
e di conseguenza la somma è aumentata. Così le varie possibili
suddivisioni formano un insieme ordinato, con R monotona cre­
scente con il raffinamento della suddivisione. Possiamo definire
R senza ambiguità come il più piccolo limite superiore per R1
e scrivere

R
=
l
T JJ P(x, y) log P(x, y)
P(x)P(y)
dx dy.

Questo integrale, inteso nel senso di cui sopra, include sia il caso
discreto che quello continuo e naturalmente molti altri che non
possono essere rappresentati né nell'una né nell'altra forma. E'
ovvio in questa formulazione che se x e u sono in corrispon­
denza biunivoca, la velocità da u a y è uguale a quella da x a y.
Se v è una qualsiasi funzione di y (non necessariamente con un
inverso) allora la velocità da x a y è maggiore o uguale a quella
da x a v, dato che, nel calcolo delle approssimazioni, le suddivi­
sioni di y costituiscono essenzialmente una suddivisione più pre­
cisa di quanto non siano quelle di v. Più generalmente se y e v
sono in relazione non funzionale ma statistica, se cioè abbiamo
uno spazio (y, v) di misura di probabilità, allora R(x, v) � R(x, y).
Ciò significa che qualunque operazione effettuata sul segnale ri­
cevuto, anche se coinvolge elementi statistici, non incrementa R.
Un altro concetto che dovrebbe essere definito precisamente in
una formulazione astratta della teoria è quello di « flusso delle
dimensioni », che è il numero medio di dimensioni richieste al
secondo per specificare un membro del complesso. Nel caso di
banda limitata sono sufficienti 2W numeri al secondo. Una defi­
nizione generale può essere formulata come segue. Sia M t ) un
complesso di funzioni e sia pr[fa(t), fp( t) ] una misura metrica della
<< distanza >> tra f,. e f11 nel tempo T (per esempio la differenza

143
R.M.S. in questo intervallo). Sia N(E, ò, T) il minimo numero di
elementi f che possono venir scelti in modo che tutti gli elementi
del complesso, a parte un insieme di misura ò, sono compresi
entro la distanza E di almeno uno di quelli scelti . Pertanto co­
priamo lo spazio compreso entro E, a parte un insieme di pic­
cola misura ò . Definiamo il flusso di dimensioni À. del complesso
con il triplice limite
. log =- E,--'
N::-'-(--'- Ò,'-
T.:._
--)
Il.
, 1Im l'Im 1.Im __""=
T log E
=
6_o ._o T_ ..

Questa è una generalizzazione delle definizioni di tipo di misura


della dimensione in topologia, e si accorda con l'intuitivo flusso
delle dimensioni di semplici complessi dove il risultato desiderato
è evidente.

144
Finito di stampare nel mese di aprile 1983 dalla Milanostampa o Farigliano (CN)
per conto del Gruppo Editoriale Fabbri o Bompiani, Sonzogno, Etas S.p.A.,
Via Mecenate, 91 o 20138 Milano

Potrebbero piacerti anche