C. E. Shannon, W. Weaver - UnaTeoria Matematica Della Communicazione (Etas Libri, 1971)

: Il mondo dell'informatica
Claude E.Shannon-Warren Weaver
LA TEORIA
MATEMATICA DELLE
COMUNICAZIONI
ETAS LIBRI
><
,..
Cl
""'
""
Cl
Claude E. Shannon - Warren Weaver

LA TEORIA MATEMATICA DELLE COMUNICAZIONI
La collana <di mondo dell'informatica» intende approfondire

gli aspetti più rilevanti di un fenomeno che sta assumendo sempre
maggiore importanza per ogni tipo di organizzazione e che avrà
notevoli ripercussioni sul nostro stesso modo di vivere.
Questo volume, ormai considerato un classico, riporta il fondamentale

articolo di Shannon sulla teoria della comunicazione, pubblicato nel
1948 nel Beli System Technlcal Journal. Per chiarezza e semplicità esso
costituisce ancora oggi una delle migliori esposizioni della teoria
dell'informazione che, sviluppata da Shannon in notevoli successivi
lavori, riguarda essenzialmente i problemi delle comunicazioni in
presenza di disturbi, teoria che ha trovato applicazioni anche in campi
ben lontani da quello specifico per il quale era stata scritta.
La trattazione di Weaver invece è una esposizione non matematica dei
concetti fondamentali e dei risultati della teoria di Shannon, e mostra
come la teoria abbia importanti applicazioni nella società.
Nel complesso i due scritti costituiscono un eccellente esempio di una
teoria in grado di unificare branche diverse della fisica e di proiettare la
sua validità fino al campo della semantica e dell'economia.
L 12.000
IVA compresa
Il mondo dell'informatica l 10
Il mondo dell'informatica
l - M. Ri«iardi, Informatica e azienda
2 - M. Italiani - G. Serazzi, Elementi di informatica
3 - F. Lerda, Algebra moderna e circuiti di commutazione
4 - G. Balhiano, Produrre con l'elaboratore
5 - E. lùlpp, Il sistema "viewdata"
6 - F. Cianflone, L'algebra di Boole e i circuiti logici

7 - P. Maggiolini, Costi e benefici di un sistema informativo
8 - H.H. Goldsline, Il computer da Pasca! a von Neumann
9 - P. P. Camussone, Il sistema informativo
10- CE. Shannon - W. Wea��tr, La teoria matematica delle comunicazioni

Claude E. Shannon
Warren Weaver
La teoria matematica
delle comunicazioni
ETAS LIBRI
The Mathematical Theory of Communication
by Claude E. Shannon and Warren Weaver
Originai English-language edition published by the

University of Illinois Press
Copyright, 1949, by the Board of Trustees of the
University of Illinois
Traduzione dall'inglese di Paolo Cappelli
Copyright© 1971 Gruppo Editoriale Fabbri - Bompiani, Sonzogno, Etas S.p.A.
I diritti di traduzione, di riproduzione e di adattamento, totale o parziale e con qualsiasi mezzo

(comprese le copie fotostatiche e i microfilm) sono riservati per tutti i paesi.
Seconda edizione italiana: aprile 1983

Indice
IX Presentazione di Lorenzo Lunelli
XI Prefazione
Recenti contributi alla teoria matematica delle comunicazioni

di Warren Weaver
l Capitolo l - Nota introduttiva sulla impostazione generale
degli studi analitici sulle comunicazioni

1.1. Comunicazione; 1.2. Tre livelli di problemi riguardanti le
comunicazioni; 1.3. Osservazioni.
6 Capitolo 2 - Problemi della comunicazione al livello A

2.1. Un sistema di comunicazione e i problemi relativi; 2.2. In·
formazione; 2.3. Capacità di un canale di comunicazione; 2.4.
Codifica; 2.5. Disturbo; 2.6. Messaggi continui.
26 Capitolo 3 - Le interrelazioni dei tre livelli dei problemi del
le comunicazioni
3.1. Premessa; 3.2. Carattere generale della teoria al livello A.
La teoria matematica delle comunicazioni

di Claude E. Shannon
33 Introduzione
39 Capitolo l - Sistemi discreti non disturbati

l. Il canale discreto non disturbato; 2. La sorgente discreta di
informazioni; 3. La successione di approssimazioni della lingua
inglese; 4. Rappresentazione grafica di un processo di Markoff;
S. Sorgenti ergodiche e miste; 6. Scelta, incertezza ed entropia;
7. La entropia di una sorgente di informazioni; 8. Rappresen
tazione delle operazioni di codifica e di decodifica; 9. Il teo
rema fondamentale per un canale non disturbato; 10. Discus
sione ed esempi.
71 Capitolo 2 - Il canale discreto con disturbo

11.Rappresentazione di un canale discreto disturbato; 12. Equi
vocazione e capacità del canale; 13. Il teorema fondamentale
per un canale discreto con disturbo; 14. Discussione; 15. Esem
pio di un canale discreto e sua capacità; 16. La capacità del
canale in certi casi speciali; 17. Esempio di codifica ad alto
rendimento.
88 Capitolo 3 - Informazioni continue

18. Insiemi e complessi di funzioni; 19. Complessi di funzioni
a banda limitata; 20. Entropia di una distribuzione continua;
21. Entropia di un complesso di funzioni; 22. Perdita di entro
pia nei filtri lineari; 23. Entropia della somma di due complessi.
1 06 Capitolo 4 - Il canale continuo

24. La capacità di un canale continuo; 25. Capacità del canale
con una limitazione di potenza media; 26. La capacità del
canale con una limitazione nella potenza di picco.
118 Capitolo 5 - La velocità per una sorgente continua

27. Funzioni per la valutazione della fedeltà; 28. La velocità
per una sorgente relativa ad una valutazione di fedeltà; 29. Il
calcolo delle velocità.
127 Riconoscimenti
129 Appendice l L'aumento del numero di blocchi di simboli
-
con una condizione a stati finiti
131 Appendice 2 - Derivazione di H = - r.pi log pi

1 33 Appendice 3 - Teoremi sulle sorgenti ergodiche
135 Appendice 4 Massimizzazione della velocità in un sistema

-
con restrizioni
137 Appendice 5
139 Appendice 6
142 Appendice 7
Presentazione
La teoria dell'informazione si può affermare sia nata con il lavoro di

C. E. Shannon comparso nel 1948 nella rivista «BeH System Technical
Journal » e ripubblicato nel 1949 (unitamente ad un articolo espositivo di
W. Weaver) nel volume che viene ora presentato ai lettori italiani.
Lo stile dell'opera di C. E. Shannon è assai stringato mirando all'esposi

zione dei problemi ed alla loro soluzione, senza soffermarsi in eccessive
precisazioni matematiche. La trattazione del caso discreto è particolar
mente approfondita e costituisce una limpida ed efficace presentazione
dell'argomento; la trattazione del caso continuo è meno approfondita e
per la sua comprensione si richiede forse qualche attenzione da parte del
lettore, il quale può trovare nell'articolo « Communication in the Presence
of Noise »1 dello stesso Shannon una visione geometrica di particolare
interesse.
Il breve trattato è da considerarsi ormai un classico; per chiarezza e

semplicità costituisce ancor oggi una delle migliori esposizioni della teoria
dell'informazione che, sviluppata dallo Shannon anche in notevoli succes
sivi lavori, riguarda essenzialmente i problemi delle comunicazioni in
presenza di disturbi (rumori). E purtroppo va osservato che qualunque
trasmissione di informazioni con mezzi fisici è sempre accompagnata
da disturbi; la teoria dell'informazione ha permesso di dominare un
problema di notevole importanza, consentendo di realizzare comunica
zioni a grandissima distanza (si pensi alle sonde spaziali per l'esplorazione
' C. E. Shannon, Communication in the Presence ot Noise, Proceeding of the IRE,

Vol. 37, 1949, pp. 10-21.
IX
dei satelliti più lontani) o di trasmettere dati numerici con particolare
sicurezza.
Sulla scia delle considerazioni svolte dallo Shannon si è sviluppata una

scuola che ha grandemente contribuito allo sviluppo della teoria dell'infor
mazione; il recente volume di R. G. Gallager' costituisce una completa e
aggiornata trattazione dei problemi delle comunicazioni.
A chi desiderasse vedere una esposizione più distesa e completa della

teoria dell'informazione si può suggerire la lettura del chiaro testo di
R. Ash'; per il particolare argomento dei codici algebrici il testo di
E. R. Berlekamp• contiene gli sviluppi matematici più avanzati.
Va segnalato che la teoria dell'informazione può venir applicata anche ad

altri campi; ad esempio all'economia, come si può vedere nell'opera di
H. Theil' od anche a problemi di logica (o più precisamente ai cosi detti
giochi matematici) come si può vedere nel libretto di semplice lettura
(in quanto richiede solo le conoscenze matematiche impartite nelle scuole
secondarie) dovuto ai russi A. M. Yaglom e I. M. Yaglom•.
Chi desiderasse infine una esposizione divulgativa della teoria dell'infor

mazione, che accenni ad applicazioni nei più svariati campi, può leggere il
volume di John R. Pierce, unica opera tradotta anche in italiano'.
Si sono ricordati qui alcuni volumi oltre che per suggerire qualche ulte
riore lettura anche per far presente il grandissimo sviluppo che ha avuto
in circa 25 anni la teoria dell'informazione, che ancor oggi costituisce
un campo di intensi studi, ma i cui fondamenti sono tutti contenuti
nell'aureo libretto qui tradotto.
Lorenzo Lunelli
' R. G. Gallager, Information Th.eorg and Reltable Communtcation, J. Wlley and

Sons, New York, 1968.
1 R. Ash, Information Th.eorg, Interscience Publishers, J. Wlley and Sons, New
York, 1965.
• E. R. Berlekamp, Algebratc Coding Theorg, McGraw-Hill, New York, 1968.
' H. Thell, Economics and Informatton Theorg, North-Hollllld PubltshJng Com
pany, Amsterdam, 1967.
• A. M. Yaglom, l. M. Ya glom, Probabilité et Information <Trad. eli Mercouroff),
Dunod, Parts, 1969.
' J. R. Pierce, La teoria ctell'informazione, Edizioni Scientifiche e Tecniche Mon
dadori, 1965.
x
Prefazione
Gli ultimi anni hanno visto una rilevante attività di ricerca

nel campo della teoria delle comunicazioni da parte di nume
rose persone, sia qui che all'estero. Considerato il diffuso inte
resse in questo campo, Dean L. N. Ridenour ha proposto il se
guente volume, costituito da due scritti su tale argomento.
Il primo di questi lavori non è stato precedentemente pub
blicato nella forma attuale, ma ne comparve una riduzione su
Scientific American, nel luglio del 1 949. In parte, esso consiste
in una introduzione, di carattere espositivo, alla teoria generale
e può essere letto facilmente da coloro che desiderino avere una
visione panoramica dell'argomento prima di affrontarne gli
aspetti più specificamente matematici. Inoltre vengono suggerite
alcune idee per una più vasta applicazione dei principi fondamen
tali della teoria delle comunicazioni.
Il secondo scritto viene ripreso senza mutamenti, eccezion
fatta per la correzione di irrilevanti errori tipografici e la in
clusione di qualche riferimento aggiuntivo, dal Bell System
Technical Journal, luglio ed ottobre 1 948. E' inteso che succes
sivi sviluppi in materia saranno trattati in un lavoro già proget
tato che tratti gli aspetti più generali della teoria delle infor
mazioni.
XI
Ci è gradito esprimere i nostri ringraziamenti a Dean Ride
nour per aver reso possibile questo libro e alle edizioni dell'Uni
versità dell'Illinois per la loro magnifica collaborazione.
C. E. SHANNON
W. WEAVER
Settembre 1 949
Recenti contributi alla
teoria matematica delle comunicazioni
di Warren Weaver
l
Nota introduttiva sulla impostazione generale

degli studi analitici sulle comunicazioni1
1.1. Comunicazione
Il termine comunicazione sarà da noi usato in un senso

molto ampio per comprendervi tutti i procedimenti attraverso i
quali un pensiero può influenzarne un altro. Questi, naturalmente,
comprendono non solo il linguaggio scritto e parlato, ma anche
la musica, le arti figurative, il teatro, la danza e, di fatto, qua
lunque comportamento umano. In qualche caso può risultare
preferibile usare una definizione ancora più vasta di comunica
zione, vale a dire una definizione che includa i procedimenti
attraverso i quali un meccanismo (come un impianto automa
tico per il rilevamento di un aeroplano e per il calcolo della sua
probabile posizione futura) entra attivamente in rapporto con un
altro meccanismo (un missile diretto alla caccia dell'aeroplano).
La terminologia usata sembrerà spesso riferirsi al campo
speciale, ma tuttavia molto vasto ed importante, della comuni
cazione della parola; ma in pratica tutto quanto scritto si rife
risce altrettanto bene alla musica di qualunque genere e ad im·
magini ferme o in movimento, come nella televisione.
1 Questo lavoro è suddiviso in tre capitoli. Nel primo e nel terzo Warren
Weaver è responsabile sia delle idee che della forma. L'altro capitolo cc Problemi
della comunicazione al livello A », costituisce una interpretazione degli scritti
matematici di Claude Shannon dei Beli Telephone Laboratories. Il lavoro di
Shanno n trae origine, come ha fatto rilevare Von Neumann, dalla osservazione
l
1 .2. Tre livelli di problemi riguardanti le comunicazioni
In relazione all'ampio campo della comunicazione, sembrano

porsi problemi a tre livelli. Così sembra logico chiedersi, nel
l'ordine:
Livello A. Con quanta esattezza possono venir trasmessi i simboli
della comunicazione? (Problema tecnico)
Livello B. Con quanta precisione i simboli trasmessi trasferi
scono il significato desiderato? (Problema semantico)
Livello C. In che misura il significato giunto a destinazione induce
realmente ad un comportamento nel senso desiderato? (Pro
blema della efficacia)
I problemi tecnici riguardano l'esattezza del trasferimento dal
mittente al destinatario di serie di simboli (linguaggio scrit
to), oppure di un segnale continuamente variabile (trasmissione
telefonica o radiofonica di musica o voce), oppure di un modello
a due dimensioni continuamente variabile (televisione), ecc. Dal
punto di vista matematico, il primo caso comporta la trasmissione
di un'insieme finito di simboli discreti, il secondo la trasmissione
di una funzione continua del tempo, il terzo caso la trasmissione
di parecchie funzioni continue del tempo oppure di una fun
zione del tempo e di due coordinate spaziali.
fatta da Boltzmann, nel suo lavoro di fisica statistica ( 1 894), che entropia è
affine a cc informazione mancante 11, considerando che è in relazione con il
numero di alternative ancora possibili per un sistema fisico, una volta che
tutte le informazioni che lo riguardano e che siano osservabili in modo macro
scopico siano state registrate. L. Szilard <Zsch. f. Phis. Vol. 53, 1925) estese
questa idea ad una discussione generale della informazione nella fisica, e von
Neumann <Math. Foundation oj Quantum Mechanics, Berlin, 1932, Cap. V) ha
trattato l'informazione in termini di meccanica quantistica e di fisica delle par·
ticelle. L'opera di Shannon si collega più direttamente a certe idee sviluppate
circa venti anni or sono da H. Nyquist e R. V. L. Hartley, entrambi dei
Beli Telephone Laboratories; Shannon stesso ha inoltre messo in evidenza che
la teoria delle comunicazioni deve molto a Norbert Wiener per gran parte della
concezione che ne è alla base. Wiener, d'altra parte, mette in rilievo che il
primo lavoro di Shannon sulla teoria della commutazione e sulla logica e ma·
tematica è antecedente al suo interesse in questo campo e generosamente ag.
giunge che a Shannon spetta il merito di uno sviluppo indipendente di aspetti
fondamentali della teoria, come l'introduzione del concetto di entropia. Ovvia
mente Shannon si è particolarmente dedicato a sviluppare le applicazioni nel
campo tecnico, mentre Wiener si è prevalentemente dedicato alle applicazioni
In campo biologico (fenomeni del sistema nervoso centrale, ecc.).
2
I problemi semantici riguardano la identità, o una appros
simazione soddisfacente nell'interpretazione del significato da
parte del ricevente, confrontata con il significato inteso da chi
ha inviato la comunicazione. E' questa una situazione molto se
ria e complessa, anche quando si tratti dei problemi, relativa
mente più semplici, della comunicazione tramite parole.
Una complicazione fondamentale è illustrata dalla osservazio
ne che se c'è il dubbio che Tizio non comprende ciò che dice
Caio, allora non è teoricamente possibile, se Caio si limita a
parlare nuovamente con Tizio, chiarire completamente questa
situazione in un tempo finito. Se Caio dice « Mi capisci adesso? »
e Tizio dice « Certamente, sì > ciò non costituisce necessaria
mente una garanzia che si sia giunti alla comprensione. Può
semplicemente essere che Tizio non abbia capito la domanda.
Se ciò non appare convincente si provi con « Czy paii mnie ro
zumie >> e con la risposta (( Hai wakkate imasu >> . Ritengo che
questa difficoltà di fondo2 sia, almeno nel ristretto campo della
comunicazione linguistica, ridotta in termini tollerabili (ma mai
completamente eliminata) da (( spiegazioni>> che (a) non sono
presumibilmente niente più che approssimazioni rispetto alle
idee che vengono esposte, ma che (b) sono comprensibili dal
momento che sono formulate in un linguaggio che è stato prece
dentemente reso ragionevolmente chiaro mediante mezzi opera
zionali. Per esempio, non ci vuole molto a costruire il simbolo
equivalente a (( sì >> in qualunque linguaggio operazionalmente
comprensibile.
Il problema semantico presenta vaste ramificazioni se si pensa
alle comunicazioni in generale. Si consideri, per esempio, il si
gnificato per un russo di un cinegiornale statunitense.
I problemi della efficacia concernono l'esito con cui il signifi
cato trasmesso al destinatario induce questi alla condotta desi
derata. Può sembrare, a prima vista, spiacevolmente limitato vo
ler affermare che lo scopo di tutte le comunicazioni è quello
di influenzare la condotta di chi questa comunicazione riceve,
2 (( Quando Pfgunst (1911) dimostrò che i cavalli di Elberfeld, che mostra

vano una eccezionale abilità linguistica e matematica, altro non facevano che
reagire ai movimenti della testa del loro istruttore, Mr. Krall ( 1911), il proprie
tario degli animali, affrontò la critica nel modo più diretto. Egli domandò ai
3
ma per qualsiasi definizione sufficientemente ampia di compor
tamento, appare chiaro che o la comunicazione determina un
comportamento oppure risulta del tutto priva di qualsivoglia
comprensibile e probabile effetto.
Il problema della efficacia implica considerazioni di estetica
nel caso delle belle arti. Nel caso del linguaggio, scritto o par
lato, implica considerazioni che vanno dai meri aspetti di stile,
attraverso tutti gli aspetti psicologici ed emozionali della teoria
della propaganda, fino a quei giudizi di merito che sono neces
sari per attribuire un significato reale alle parole ''esito >> e '' de
siderata » nella frase iniziale di questa sezione sulla efficacia.
Il problema della efficacia è in stretto rapporto con il pro
blema semantico e in un certo qual modo lo comprende; e, in
effetti, esiste sovrapposizione fra tutte le sopraindicate categorie
di problemi.
1.3. Osservazioni
Detto questo, si potrebbe essere indotti a ritenere che il livello

A sia relativamente superficiale, riguardando solamente i parti
colari tecnici di un buon progetto di sistema di comunicazioni,
mentre i livelli B e C paiono comprendere, se non tutta, la mag
gior parte del contenuto concettuale del problema generale delle
comunicazioni.
La teoria matematica degli aspetti tecnici delle comunicazioni,
come è stata sviluppata principalmente da Claude Shannon
ai Bell Telephone Laboratories, esplicitamente si applica in primo
luogo solo al problema A, vale a dire al problema tecnico della
correttezza del trasferimento di vari tipi di segnali dal trasmit
tente a chi riceve. Ma la teoria ha, ritengo, un profondo significato
che prova come il precedente paragrafo sia gravemente inesatto.
Parte del significato della nuova teoria deriva dal fatto che i
livelli B e C, di cui sopra, possono utilizzare esclusivamente quelle
cavalli se potevano vedere tali piccoli movimenti ed essi compitarono un enfa

tico 11 No 11. Sfortunatamente noi non possiamo essere cosi sicuri che le nostre
domande siano comprese, nè di ottenere risposte altrettanto chiare 11. Si veda:
Lashley K. S. 11 Persistent problems in the evolution of mind 11 in Quarterly
Review oj Biology, v. 24, Marzo 1949, p. 28.
4
precisioni di segnali che risultano possibili quando vengono ana
lizzate al livello A. In tal modo qualunque limitazione trovata
nella teoria al livello A si applica ai livelli B e C. Ma una più
larga parte di questo significato discende dal fatto che l'ana
lisi al livello A mostra che questo livello abbraccia gli altri due
più di quanto si possa superficialmente ritenere. Pertanto la teo
ria del livello A, almeno ad uno stadio significativo, costituisce
una teoria anche per i livelli B e C. Spero che le successive parti
di questo scritto serviranno a chiarire ed a giustificare questa
ultima osservazione.
5
2
Problemi della comumcaztone al livello A
2.1. Un sistema di comunicazione e i problemi relativi
Il sistema di comunicazione considerato può essere rappre

sentato simbolicamente come segue :
sorgente della
informazione trasmettitore ricevitore destinazione
sorgente
d i disturbi
La sorgente di informazione sceglie un messaggio desiderato

tra un insieme di messaggi possibili (è questa una osservazione
particolarmente importante che richiederà in seguito una note
vole spiegazione). Il messaggio scelto può consistere di parole
scritte o dette, oppure di immagini, musica, ecc.
Il trasmettitore converte questo messaggio nel segnale, il qua
le viene inviato al ricevitore tramite il canale di comunicazione.
Nel caso del telefono, il canale è un filo, il segnale una corrente
elettrica non costante su questo filo ; il trasmettitore è costi-
6
tuito dall'insieme di dispositivi (trasmettitore del telefono, ecc.),
che converte l'intensità del suono della voce nella corrente elet
trica variabile. In telegrafia, il trasmettitore codifica parole
scritte in sequenze di impulsi elettrici di durata variabile (punti,
linee, spazi). Nel parlare, la sorgente di informazioni è il cer
vello, e il trasmettitore è il meccanismo vocale che emette le di
verse intensità di suono (il segnale) le quali vengono trasmesse
attraverso l'aria. Nel caso della radio, il canale è semplicemente
lo spazio (o l'etere, se qualcuno preferisce ancora questo ter
mine antiquato e ingannevole) mentre il segnale è l'onda elettro
magnetica che viene trasmessa.
Il ricevitore è una specie di trasmettitore alla rovescia, il
quale riconverte i segnali trasmessi in un messaggio e che invia
questo messaggio fino a destinazione. Quando io vi parlo, il mio
cervello è la sorgente di informazioni, il vostro è la destina
zione delle stesse; il mio sistema vocale è il trasmettitore, men
tre il vostro orecchio e il nervo auditivo collegato costituiscono
il ricevitore.
E' purtroppo caratteristico che nel corso della trasmissione
si aggiungano al segnale certe cose non volute dalla sorgente
di informazioni. Queste aggiunte non volute possono essere di
storsioni del suono (per esempio nella telefonata) o disturbi
atmosferici (nella radio), oppure deformazioni riguardanti la
forma o il contrasto di figure (televisione), o errori nella tra
smissione (telegrafia o teleriproduzione), ecc. Ogni alterazione
nel segnale trasmesso viene detta disturbd'.
Domande tipiche che ci si pone su un tale sistema di comuni
cazione sono :
a. Come si misura la quantità di informazione?
b . Come si misura la capacità di un canale di comunicazione?
c. L'operazione del trasmettitore di convertire il messaggio in
segnali spesso comporta un processo di codifica. Quali sono
le caratteristiche di un processo di codifica ad alto rendi-
3 Si è tradotto con disturbo il termine inglese « noise » dato il più ampio

significato che non la parola italiana l'l.lmore, limitata solitamente al campo
acustico. Si fa presente però che nel linguaggio tecnico spesso si usa la parola
rumore con significato più ampio (N.d.T.>.
7
mento ? E quando la codifica sia la più valida possibile, a
quale velocità può il canale convogliare informazioni?
d. Quali sono le caratteristiche generali del disturbo? In che
modo influenza, il disturbo, la precisione del messaggio che
giunge a destinazione ? Come si possono rendere minimi gli
indesiderabili effetti del disturbo, e sino a che punto possono
venire eliminati?
e. Se il segnale trasmesso è continuo ( come nel parlare o nella
musica) invece che formato da simboli discreti (come nella
scrittura, nel telegrafo, ecc.), che conseguenze ha questo fatto
per il problema?
Enunceremo ora, senza alcuna dimostrazione e con un mi
nimo di terminologia matematica, i principali risultati ottenuti
da Shannon.
2.2. Informazione
Il termine informazione, in questa teoria, viene usato in una

accezione speciale che non deve essere confusa con quella
corrente. In particolare, informazione non deve essere confusa
con significato.
Infatti, due messaggi, uno dei quali sia ricco di significato
mentre l'altro sia un puro nonsenso, possono, dal presente punto
di vista, essere esattamente equivalenti per quanto riguarda l'in
formazione. E' senza dubbio questo ciò che Shannon intende
quando afferma che « gli aspetti semantici della comunicazione
sono irrilevanti per quelli tecnici ». Ma ciò non significa che gli
aspetti tecnici siano necessariamente irrilevanti per gli aspetti
semantici.
Senza dubbio, il termine informazione nella teoria delle co
municazioni non riguarda tanto ciò che si dice effettivamente,
quanto ciò che si potrebbe dire . Cioè, l'informazione è una misura
della libertà di scelta che si ha quando si sceglie un messaggio.
Se ci si trova di fronte ad una situazione molto elementare, nella
quale si deve optare per uno fra due messaggi alternativi, allora
arbitrariamente si dice che l'informazione, in relazione a questa
8
situazione, equivale ad una unità. Si noti che è ingannevole ( an
che se spesso conveniente) dire che l'uno o l'altro messaggio
trasferisce una unità di informazione. Il concetto di informazione
non si applica ai messaggi particolari (come vorrebbe il con
cetto di significato), ma piuttosto all'informazione intesa come
un tutto, l'unità di informazione stando ad indicare che in questa
situazione si ha una quantità di libertà nella scelta del messag
gio che è conveniente considerare come una quantità standard
o unitaria.
I due messaggi tra i quali si deve optare, in una tale scelta,
possono essere qualunque cosa si desideri. Uno potrebbe essere
il testo della Versione della Bibbia di Re Giacomo, mentre l'altro
potrebbe e ssere « sì )), Il trasmettitore potrebbe codificare questi
due messaggi in modo che << zero )) sia il segnale per il primo dei
due e « uno )) quello per il secondo; oppure in modo che un cir
cuito chiuso (con passaggio di corrente) sia il segnale per il primo,
ed un circuito aperto ( senza passaggio di corrente) il segnale per
il secondo. In questo modo le due posizioni, chiuso ed aperto,
di un semplice relè possono corrispondere ai due messaggi.
Per maggior chiarezza, la quantità di informazione è determi
nata, nei casi più semplici, dal logaritmo del numero di scelte
possibili. Essendo conveniente usare logaritmi4 in base 2, piutto
sto che il logaritmo comune o di Brigg in base 10, l'informazione,
quando vi sono solo due alternative, è proporzionale al logaritmo
di 2 in base 2. Ma questo equivale ad una unità ; cosicché una
situazione a due alternative è caratterizzata da una unità di in
formazione, come si è precedentemente affermato. Questa unità
di informazione è detta bit, termine proposto da John W. Tukey,
in luogo dell'espressione completa binary digit ( cifra binaria).
Quando i numeri sono espressi nel sistema binario vi sono sola
mente due cifre, precisamente O e l ; proprio come dieci cifre,
da O a 9, vengono usate nel sistema decimale che impiega 10
come base. Zero e uno possono venir presi simbolicamente per
rappresentare due qualsiasi alternative, come si è notato prima ;
cosicché è naturale associare la cifra binaria o bit con la situa
zione a due alternative che possiede informazione unitaria.
• Quando m• = y, si dice che x è il logaritmo di y in base m.
9
Se si hanno a disposizione, poniamo, sedici messaggi alter
nativi tra i quali si è completamente liberi di scegliere, allora,
dato che 16 = 24, cosicché logzl6 = 4, si dice che questa situa
zione è caratterizzata da 4 bit di informazione.
Appare senza dubbio strano, a prima vista, che l'informa
zione venga definita come il logaritmo del numero di alterna
tive. Ma nel corso dello svolgimento della teoria appare sempre
più evidente che le misure logaritmiche sono di fatto quelle na
turali. Al momento, daremo solamente una indicazione di questo.
Si è già rilevato che un semplice relè chiuso o aperto, con le due
posizioni definite rispettivamente O e l, può trattare una situa
zione di unità di informazione, nella quale non vi sono che due
alternative di messaggi. Se un relè può trattare una situazione
unitaria, quante ne possono essere trattate da, poniamo, tre
relè? Sembra molto sensato affermare che tre relè potrebbero
trattare tre volte tanto l'informazione trattata da uno solo. In
dubbiamente è questo il modo di calcolare se si usa la defini
zione logaritmica di informazione. Infatti, tre relè sono in grado
di far fronte a 23, ovvero 8, alternative, che simbolicamente pos
sono venir scritte come 000, 001, 011, 010, 100, 1 10, 101, 1 1 1,
nella prima delle quali tutti e tre i relè sono aperti, e nell'ultima
delle quali sono tutti e tre chiusi. Il logaritmo in base 2 di 23 è 3,
cosicché il calcolo logaritmico assegna tre unità di informazione
a questa situazione, proprio come si è detto. In modo simile, rad
doppiando il tempo utilizzabile si eleva al quadrato il numero
di messaggi possibili e si raddoppia il logaritmo; pertanto, se
viene misurata logaritmicamente, l'informazione raddoppia.
Le osservazioni fino a questo punto si riferiscono a situa
zioni artificialmente semplici, in cui la sorgente di informazioni
è libera di scegliere solo tra diversi messaggi definiti, come un
uomo che scelga tra un insieme di telegrammi d'auguri già pre
parati quello che fa al caso suo. Una situazione più comune e
più importante è quella in cui la sorgente di informazioni forma
una sequenza di simboli scelti tra qualche insieme di simboli
elementari, venendo quindi la sequenza prescelta a formare il
messaggio. Così una persona può scegliere una parola dopo l'al
tra e in seguito formare il messaggio mettendo insieme queste
parole scelte separatamente.
10
A questo punto viene in primo piano una importante consi
derazione che è rimasta sullo sfondo e che merita maggiore at
tenzione. Ci riferiamo al ruolo che gioca la probabilità nella for
mazione del messaggio. Dal momento che i simboli successivi
vengono scelti, queste scelte sono, almeno dal punto di vista
del sistema di comunicazione, governate da probabilità; e in
realtà da probabilità che non sono indipendenti, ma che dipen
dono, a ciascuno stadio del processo, dalle scelte precedenti.
Così, se facciamo riferimento alla lingua inglese e l'ultimo sim
bolo scelto è « the ) ) (il), allora la probabilità che la parola suc
cessiva sia un articolo o un verbo, piuttosto che un sostantivo,
è molto piccola. Questa rilevanza della probabilità si estende in
realtà oltre due parole. Dopo le tre parole << sia il caso )) la
'
probabilità che la parola seguente sia « di )) è abbastanza alta,
mentre la probabilità che sia « elefante )) è molto bassa.
Che ci siano probabilità che esercitano un certo grado di
controllo sulla lingua appare anche ovvio se si considera, per
esempio, il fatto che nella lingua in questione non esistono asso·
lutamente parole in cui la lettera iniziale j sia seguita da b, c, d,
f, g, j, k, l, q, r, t, v, w, x, z ; pertanto la probabilità che ad una
iniziale j segua una di queste lettere è uguale a zero. Similmente
chiunque sarebbe disposto a convenire che la probabilità di avere
la sequenza di parole « pescando a Costantinopoli del salmone
puzzolente )) è bassa. Incidentalmente, è bassa, ma non zero; in
fatti è perfettamente possibile pensare ad un brano in cui una
frase termini con « pescando a Costantinopoli )) e la successiva
cominci con « del salmone puzzolente )). Inoltre potremmo osser
vare, per inciso, che la improbabile sequenza di sei parole di
cui discutiamo si è verificata in una frase in lingua corretta,
precisamente quella da noi formulata.
Un sistema che produce una sequenza di simboli ( che pos
sono, naturalmente, essere lettere o note musicali, piuttosto che
parole) conformemente a certe probabilità è detto processo sto
castico, mentre il caso particolare di un processo stocastico in
cui le probabilità dipendono dagli eventi precedenti è detto pro
cesso markoviano (o di Markoff) o catena markoviana. Tra i
processi markoviani che possono generare messaggi in modo con
cepibile, vi è una classe speciale che è di importanza primaria per
la teoria delle comunicazioni, quella cioè dei cosiddetti processi
11
ergodici. I dettagli analitici sono a questo proposito complessi e
il ragionamento così impegnativo e complicato da aver richiesto
da parte dei migliori matematici un serio impegno per formu
lare la relativa teoria ; ma la natura di un processo ergodico nelle
linee fondamentali è facile da comprendere. Esso è tale che pro
duce una sequenza di simboli che sarebbero il sogno di uno sta
tistico, giacché ogni campione ragionevolmente ampio tende ad
essere rappresentativo dell'intera sequenza. Supponiamo che due
persone scelgano dei campioni in modi differenti e studino quali
orientamenti mostrano le loro proprietà statistiche, man mano
che i campioni diventano sempre più ampi. Se la situazione è
ergodica, allora quelle due persone, comunque possano aver scelto
i loro campioni, concorderanno nelle loro valutazioni sulle pro
prietà del complesso. I sistemi ergodici, in altri termini, rivelano
una specie di regolarità statistica particolarmente sicura e con
fortante.
Torniamo ora all'idea di informazione. Quando abbiamo una
sorgente di informazioni che produce un messaggio scegliendo
uno dopo l'altro dei simboli discreti (lettere, parole, note musi
cali, segni di una certa grandezza, ecc.), la probabilità di scelta
dei vari simboli ad uno stadio del processo essendo dipendente
dalle scelte precedenti (vale a dire un processo di Markoff),
che dire della informazione relativa a questo procedimento ?
La sola quantità che risponde ai requisiti indispensabili sta
biliti per (( informazione » risulta essere esattamente quella che
è conosciuta in termodinamica sotto il nome di entropia. Essa è
espressa in termini delle varie probabilità comportate - quelle
di pervenire a certi stadi nel processo di formazione dei mes
saggi, e le probabilità che, a questi stadi, siano successivamente
scelti certi simboli. La formula, inoltre, comprende il logaritmo
delle probabilità, cosicché costituisce una naturale generalizza
zione del calcolo logaritmico di cui si è parlato in relazione ai
casi semplici.
A coloro che hanno studiato le scienze fisiche, apparirà estre
mamente significativo che una espressione come l'entropia com
paia nella teoria come una misura della informazione. Intro
dotto da Clausius circa cento anni or sono, strettamente legato
al nome di Boltzmann, e approfondito da Gibbs nel suo classico
12
lavoro di meccanica statistica, il concetto di entropia è divenuto
così basilare e penetrante che Eddington rileva : « La legge se
condo cui l'entropia aumenta continuamente - la seconda legge
della termodinamica - assume, ritengo, la posizione principale
tra le leggi della natura ,,,
Nelle scienze fisiche, l'entropia relativa ad una situazione è
una misura del grado di casualità, o di « confusione,, se prefe
rite, presente nella situazione stessa ; e la tendenza dei sistemi
fisici a divenire sempre meno organizzati, sempre più caotici,
è talmente fondamentale che Eddington arguisce che è in primo
luogo questa tendenza che indica la direzione del tempo - che
ci rivelerebbe, per esempio, se una « pellicola,, del mondo fisico
sta correndo in avanti oppure indietro.
Così quando ci si imbatte nel concetto di entropia nella
teoria delle comunicazioni si può rimanere piuttosto sorpresi,
si può a buon diritto avere l'impressione di avere a che fare con
qualcosa che può risultare importante e fondamentale. Che l'in
formazione sia misurata dall'entropia è, dopotutto, naturale,
quando si ricordi che l'informazione, nella teoria delle comuni
cazioni è in rapporto con l'ammontare di libertà di scelta che
si ha nel costruire un messaggio. Pertanto si può affermare, ri
guardo ad una sorgente di informazioni, proprio come per un
complesso termodinamico: cc Questa situazione è estremamente
organizzata, non è caratterizzata da un ampio grado di casualità
o di scelta - vale a dire che la informazione (o la entropia) è
bassa ,,, Torneremo in seguito su questo punto, perché, a meno
che io non sia completamente fuori strada, rappresenta un aspet
to importante del significato più generale della teoria delle co
municazioni.
Avendo calcolato l'entropia (o l'informazione, o la libertà di
scelta) di una certa sorgente di informazioni, si può mettere a
confronto questa entropia col valore massimo che essa potrebbe
assumere, alla sola condizione che la sorgente continui ad im
piegare gli stessi simboli. Il rapporto tra l'entropia effettiva e
l'entropia massima è detto entropia relativa della sorgente. Se
l'entropia relativa di una certa sorgente è, poniamo, 0,8, ciò più
o meno significa che questa sorgente possiede, nella scelta dei
simboli che essa compie per formare un messaggio, una libertà
13
pari a circa l'ottanta per cento di quella possibile con gli stessi
simboli. La differenza tra l e l'entropia relativa costituisce la
ridondanza. Questa è la frazione del messaggio che è determi
nata non dalla libera scelta del mittente, ma piuttosto dalle accet
tate regole statistiche che governano l'uso dei simboli in que
stione. Essa è giustamente detta ridondanza, perché questa fra
zione del messaggio è di fatto ridondante in qualcosa che è
vicino al senso comune di questo termine; vale a dire che questa
frazione del messaggio non è necessaria (e pertanto ripetitiva e
ridondante) nel senso che, se pure mancasse, il messaggio sa
rebbe comunque essenzialmente completo, o almeno potrebbe
essere completato .
E' molto interessante notare che la ridondanza della lingua in
glese è circa del SO per cento5, cosicché circa metà delle let
tere o delle parole che scegliamo nello scrivere e nel parlare
dipendono dalla nostra libera scelta, e circa metà (sebbene nor
malmente non ne siamo consapevoli) sono in realtà controllate
dalla struttura statistica del linguaggio. A prescindere da più
serie implicazioni, che nuovamente rinviamo alla discussione fi
nale, è interessante notare che una lingua deve avere almeno il
SO per cento di libertà reale (o entropia relativa) nella scelta delle
lettere, affinché sia possibile formare delle soddisfacenti parole
crociate. Qualora la libertà fosse totale, allora ogni lista di let
tere sarebbe un gioco di parole crociate. Se avesse il venti per
cento di libertà sarebbe impossibile costruire parole crociate di
complessità e numero tale da rispondere alle esigenze del popo
lare gioco. Shannon ha calcolato che se l'inglese avesse sola
mente il trenta per cento di ridondanza sarebbe possibile costrui
re parole crociate tridimensionali.
Prima di chiudere questa parte sulla informazione, va notato
che l'effettiva ragione per cui l'analisi del livello A si occupa di
un concetto di informazione che caratterizza l'intera natura sta
tistica della sorgente di informazioni e non si interessa di singoli
messaggi (e assolutamente non si interessa del significato dei sin
goli messaggi), è che, dal punto di vista tecnico, un sistema di co
municazione deve affrontare il problema di trattare qualunque
• La stima del 50 per cento riguarda solamente la struttura statistica fino a circa
otto lettere, cosicché il valore definitivo è presumibilmente lievemente maggiore.
14
messaggio che la sorgente può produrre. Se non è possibile o fatti
bile progettare un sistema che possa trattare perfettamente ogni
cosa, allora il sistema dovrebbe essere progettato per svolgere
bene i compiti che gli saranno con maggior probabilità assegnati,
accettando che esso sia meno efficiente per quanto riguarda i com
piti insoliti. Questo tipo di considerazione conduce subito alla
necessità di caratterizzare la natura statistica dell'intero com
plesso di messaggi che una data sorgente può e vuole produrre .
E l 'informazione, come viene intesa nella teoria delle comuni
cazioni, fa proprio questo.
Sebbene non sia affatto scopo di questo scritto occuparsi dei
dettagli matematici, sembra cionondimeno essenziale avere una
idea il più possibile precisa dell'entropia che misura l'informa
zione. Se si ha a che fare, come in un caso semplice, con un
insieme di n simboli indipendenti, o di n messaggi indipendenti
completi riguardanti l'argomento, le cui probabilità di scelta sono
p1, pz, . .. , p,., allora la formula dell'informazione è
H = - [p, log p, + pz log pz + . + p ,.log p ,.],
. .
ovvero
H = - 'J:.p; log p;.
dove6 il simbolo r. indica, come usa in matematica, che bisogna
sommare tutti i termini come quello tipico, p; log p;, scritto come
modello di espressione generale.
Ciò sembra abbastanza complicato; ma vediamo come opera
questa formula in qualche semplice caso.
Supponiamo dapprima di scegliere tra due soli messaggi pos
sibili, le cui probabilità sono quindi p, per il primo e Pz = 1 - p,
per il secondo. Se si calcola, per questo caso, il valore numerico
di H, risulta che H assume il suo valore massimo, precisamente
l , quando i due messaggi sono ugualmente probabili, quando
cioè p, = Pz = t ; vale a dire quando si è completamente liberi
di scegliere tra i due messaggi . Non appena un messaggio di
viene più probabile dell'altro (p, maggiore di pz, poniamo) il va-
• Non ci si meravigli del segno meno. Qualunque probabilità è un numero

minore o uguale a l e i logaritmi di numeri inferiori a l sono negativi. Pertanto
il segno meno è necessario affinché H sia in realtà positiva.
15
lore di H diminuisce. E quando un messaggio è molto probabile
(diciamo, P• pressoché uguale ad l e pz pressoché O), il valore
H è molto piccolo (quasi zero).
Nel caso limite in cui una probabilità è uguale a l (certezza)
e tutte le altre a zero ( impossibilità), allora H è zero (assoluta·
mente nessuna incertezza - nessuna libertà di scelta - nessuna
informazione).
Pertanto H ha il valore massimo quando le due probabilità
sono uguali {cioè: quando si è completamente l iberi ed impar
ziali nella scelta) e si riduce a zero quando non esiste più libertà
di scelta.
La situazione appena descritta è di fatto tipica. Se vi sono
parecchie alternative, invece di due, allora H è massima quando
le probabilità delle varie scelte sono il più poss ibile equivalenti
date le circostanze - quando si ha la maggior libertà possibile
nel fare una scelta, trovandosi il meno possibile condizionati in
direzione di certe scelte che posseggono una probabilità mag
giore delle altre. Supponiamo, d'altra parte, che una scelta abbia
probabilità di verificarsi vicina ad l e di conseguenza tutte le
altre abbiano probabilità vicine allo zero. Questa è chiaramente
una situazione in cui si è decisamente portati verso una parti
colare scelta, donde una scarsa libertà di scelta. In tal caso H
viene ad assumere un valore molto piccolo - l'informazione (la
libertà di scelta, l'incertezza) è scarsa.
Abbiamo appena visto che, quando il numero dei casi è de
terminato, quanto più tende ad essere uguale la probabilità dei
diversi casi tanto maggiore è l'informazione. C'è un altro im
portante modo di incrementare il valore di H, precisamente au
mentando il numero dei casi. Più precisamente, se tutte le alter
native sono ugualmente probabili, quante più alternative ci sono,
tanto maggiore sarà H. Si ha maggiore « informazione )) se si
sceglie liberamente fra cinquanta messaggi possibili, che se si
sceglie fra venticinque.
2.3. Capacità di un canale di comunicazione
Dopo la discussione del precedente paragrafo, non stupisce

che la capacità di un canale non deve venir descritta in termini
16
di numero di simboli che può trasmettere, ma in termini di
informazioni che trasmette. O meglio, dato che questa ultima
frase si presta particolarmente bene ad una interpretazione er
ronea del termine informazione, la capacità di un canale viene
descritta nei termini della sua idoneità a trasmettere quanto è
prodotto dalla sorgente di una data informazione.
Se la sorgente è di un tipo semplice in cui tutti i simboli
hanno la stessa durata temporale (è il caso, per esempio, della
telescrivente), se la sorgente è tale che ogni simbolo scelto rap
presenta s bit di informazione (liberamente scelti fra 2' simboli)
e se il canale può trasmettere, poniamo, n simboli al secondo,
allora la capacità C del canale è definita da ns bit al secondo.
In un caso più generale bisogna tener conto della durata
variabile dei diversi simboli. Così la formula generale per la ca
pacità di un canale comprende il logaritmo dei numeri di simboli
di una certa durata temporale (che introduce, naturalmente,
l'idea di informazione e corrisponde al fattore s nel semplice
caso del precedente capoverso); nel caso generale, la capacità
misura non il numero di simboli trasmessi ogni secondo, quanto
piuttosto l'ammontare di informazione trasmesso al secondo,
usando i bit al secondo come unità di misura.
2.4. Codifica
All'inizio si è posto in rilievo che il trasmettitore accetta il

messaggio e lo trasforma in qualcosa chiamato segnale, ed è que
st'ultimo che in realtà attraversa il canale fino al ricevitore.
Il trasmettitore, in un caso come quello del telefono, sem
plicemente commuta il segnale costituito dalla voce intelleggibile
in qualcosa (la corrente elettrica variabile nel filo telefonico)
che è nello stesso tempo chiaramente diverso, ma chiaramente
equivalente. Ma il trasmettitore può effettuare una operazione
molto più complessa sul messaggio, per produrre il segnale. Po
trebbe, per esempio, prendere un messaggio scritto e usare qual
che codice per cifrarlo, poniamo, in una sequenza di numeri;
inviando quindi detti numeri sul canale come segnale.
Si dice pertanto, in generale, che la funzione del trasmetti
tore consiste nel codificare e quella del ricevitore nel decodifi-
17
care il messaggio. La teoria si occupa di trasmettitori e di rice
vitori molto complessi - dotati, per esempio, di « memoria )) -
cosicché il modo in cui essi codificano un certo simbolo del mes
saggio dipende non solamente da questo stesso simbolo, ma an
che dai simboli precedenti del messaggio e dal modo in cui sono
stati messi in codice.
Siamo ora in condizione di enunciare il teorema fondamen
tale, frutto di questa teoria, riguardante un canale non disturbato
che trasmette simboli discreti. Questo teorema si riferisce ad
un canale di comunicazione di capacità C bit al secondo, che
accetta segnali da una sorgente avente un'entropia (o informa
zione) di H bit al secondo. Il teorema afferma che, adottando
particolari procedure di codifica per il trasmettitore, è possibile
trasmettere simboli sul canale ad una velocità media prossima
a C/H, ma che, indipendentemente dalla ingegnosità della co
difica, non può mai superare C/H.1
L'importanza di questo teorema sarà discussa più utilmente
un po' più avanti, quando avremo considerato il caso più gene
rale in cui è presente il disturbo. Per il momento, tuttavia, è im
portante notare il ruolo decisivo che gioca la codifica.
Ricordiamo che l'entropia (o informazione) relativa al pro
cesso che genera messaggi o segnali è determinata dal carat
tere statistico del processo - dalle diverse probabilità di arrivare
a certe situazioni del messaggio e di scegliere, una volta in quelle
situazioni, i simboli successivi. La natura statistica dei messaggi
è interamente determinata dal carattere della sorgente. Ma il ca
rattere statistico del segnale quale viene effettivamente trasmesso
tramite un canale, e pertanto l'entropia del canale, è determinato
sia da ciò che si cerca di immettere nel canale, sia dalla idoneità
del canale a trattare differenti configurazioni di segnali. Per
esempio, nella telegrafia devono esservi degli spazi tra punto e
punto, tra punto e linea e tra linea e linea, altrimenti i punti e
le linee non sarebbero riconoscibili.
7 Ricordiamo che la capacità C implica l'idea d i informazione trasmessa a l

secondo. L'entropia H misura qui l'informazione pe r simbolo, cosicché il rap·
porto tra C e H misura simboli al secondo.
18
Ora, accade che quando un canale possiede costrizioni di
questo tipo, che limitano la completa libertà del segnale, vi sono
certe caratteristiche statistiche del segnale che comportano una
entropia di questo maggiore di quella che si avrebbe per ogni
sua altra struttura statistica, e in questo importante caso l'en
tropia del segnale è esattamente uguale alla capacità del canale.
Tenendo presenti queste idee, è ora possibile definire con pre
cisione il più efficiente tipo di codifica. Il miglior trasmetti
tore, infatti, è quello che codifica i messaggi in modo tale che
il segnale possieda proprio quelle caratteristiche statistiche ot
time che meglio convengono al canale che deve venir impiegato -
le quali rendono di fatto massima l'entropia del segnale (o, si
potrebbe dire del canale) e la rendono uguale alla capacità C
del canale.
Questo genere di codifica comporta, per il teorema fonda
mentale di cui sopra, la massima velocità C/H nella trasmis
sione di simboli. Ma per questo guadagno nella velocità di tra
smissione si paga un prezzo. Accade, infatti, e sembra proprio un
dispetto, che quanto più si costruisce una forma di codifica vicina
all'ideale, si è costretti a ritardi sempre più lunghi nel processo
di codifica. In parte questo dilemma è ridimensionato dal fatto
che « lungo 11, in una apparecchiatura elettronica, può significare
una piccola frazione di secondo, e in parte dal fatto che si rag
giunge un compromesso, bilanciando il guadagno nella velocità
di trasmissione con la perdita di tempo nella codifica.
2.5. Disturbo
Che incidenza ha il disturbo sulla informazione? L'informa

zione è, bisogna sempre tenerlo presente, una misura della libertà
che si ha nello scegliere un messaggio. Quanto maggiore è questa
libertà di scelta, e quindi quanto maggiore è l'informazione, tanto
maggiore è l'incertezza che il messaggio effettivamente scelto sia
qualcuno in particolare. Pertanto, maggiore libertà di scelta,
maggiore incertezza, maggiore informazione, vanno di pari passo.
Se si introduce il disturbo, allora il messaggio ricevuto con
tiene certe alterazioni, certi errori, certo materiale estraneo, che
indurrebbero certamente ad affermare che il messaggio ricevuto
19
rivela una accresciuta incertezza. Ma, se l'incertezza è aumen
tata, anche l'informazione è aumentata e sembrerebbe che il di
sturbo sia stato vantaggioso.
E' generalmente vero che in presenza di un disturbo il se
gnale ricevuto rivela una informazione maggiore - o meglio, il
segnale ricevuto è selezionato tra un insieme più vario di quello
del segnale trasmesso. Questa è una situazione che illustra per
fettamente la trappola semantica in cui si può cadere se non si
rammenta che il termine cc informazione » è qui usato in una
accezione speciale in cui sta ad indicare la misura di libertà di
scelta e pertanto l'incertezza attinente alla scelta che è stata com
piuta. E' perciò possibile avere, per quanto riguarda il termine
informazione, dei contenuti impliciti positivi o negativi. L'incer
tezza che sorge a causa di errori o a causa dell'influenza di un
disturbo è una incertezza indesiderabile.
E' pertanto chiaro dove sta l'inganno nel dire che il segnale
ricevuto contiene maggior informazione. Parte di questa infor
mazione è falsa ed indesiderabile ed è stata introdotta a causa del
disturbo. Per ottenere l'informazione utile bisogna eliminare dal
segnale ricevuto questa parte falsa.
Prima di poter chiarire questo punto dobbiamo procedere
ad una piccola digressione. Supponiamo di avere due insiemi di
simboli, quelli del messaggio formulato dalla sorgente di infor
mazioni, e i simboli dei segnali che vengono effettivamente rice
vuti. Le probabilità di questi due insiemi di simboli sono corre
late, in quanto la probabilità di ricevere un certo simbolo di
pende da quale simbolo è stato inviato. Senza errori dovuti a
disturbi o ad altre cause, il segnale ricevuto corrisponderebbe
precisamente ai simboli del messaggio inviati ; in presenza di un
possibile errore, le probabilità per quanto riguarda i simboli rice
vuti dipenderebbero evidentemente in misura notevole da quelli
che corrispondono, o sono molto simili, ai simboli del messaggio
inviati .
Ora, in una tale situazione si può calcolare quella che è
chiamata l'entropia di un insieme di simboli relativo all'altro .
Consideriamo, per esempio, l'entropia del messaggio in rapporto
al segnale. Purtroppo non è possibile comprendere le questioni
20
qu1 m discussione senza entrare in qualche particolare. Supp o
niamo per il momento di sapere che è stato effettivamente rice
vuto un certo simbolo del segnale. In questo caso ogni simbolo
del messaggio assume una certa probabilità - relativamente am
pia per il simbolo identico o per i simboli simili a quello rice
vuto e relativamente piccola per tutti gli altri. Servendosi di que
sto insieme di probabilità, si calcola un valore di stima dell'en
tropia. Questa è l'entropia del messaggio fondata sulla assun
zione di un determinato dato ricevuto o simbolo del segnale. In
qualunque buona condizione, il suo valore è basso, dato che le
probabilità implicate non riguardano in modo abbastanza uni
forme i diversi casi, ma praticamente sono fondate su uno o
pochi casi. Il valore di questa entropia sarebbe zero (v. pag . 13)
in ogni caso, essendo noto il simbolo del segnale, tutte le proba
bilità del messaggio sarebbero zero, eccezion fatta per un simbolo
(precisamente quello ricevuto) che avrebbe una probabilità ugua
le ad uno.
Per ogni assunzione riguardo al simbolo del segnale rice
vuto, si può calcolare una di queste entropie di stima del mes
saggio. Si calcolino tutte queste entropie e se ne faccia quindi
la media, pesando ognuna di esse in conformità alla probabilità
del simbolo del segnale assunto nel calcolarla. Le entropie in
tal modo calcolate, quando vi sono due insiemi di simboli da
prendere in considerazione, vengono dette entropie relative. Quel
la appena descritta è l'entropia del messaggio relativa al segnale
e Shannon l'ha anche chiamata equivocazione.
Dal modo in cui questa equivocazione viene calcolata, pos
siamo intendere in che cosa consiste il suo significato. Essa mi
sura la incertezza media nel messaggio quando il segnale è noto.
Se non fosse presente alcun disturbo, allora non vi sarebbe
incertezza concernente il messaggio, essendo noto il segnale. Se
la sorgente di informazioni possiede qualche residuo di incer
tezza una volta noto il segnale, questa è purtroppo dovuta a di
sturbi.
La discussione si è svolta intorno alla quantità : « l'incertezza
media nella sorgente del messaggio quando è noto il segnale rice
vuto » ; ci si può ugualmente bene riferire alla analoga quantità :
" l'incertezza media riguardante il segnale ricevuto, quando sia
21
noto il messaggio inviato » . Naturalmente quest'ultima incertezza
sarebbe uguale a zero in assenza di disturbi.
Quanto alle interdipendenze tra questa quantità, è semplice di
mostrare che
H(x) - H,.(x) = H(y) - Hx(Y)
dove H(x) è l'entropia o informazione della sorgente dei messag
gi ; H(y) l'entropia o informazione dei segnali ricevuti ; H,.(x)
l'equivocazione, o l'incertezza nella sorgente dei messaggi quan
do il segnale è noto; Hx(Y) l'incertezza nei segnali ricevuti se sono
noti i messaggi inviati, ovvero la parte falsa di informazione del
segnale ricevuto, dovuta al disturbo. La parte destra di questa
equazione è l'informazione utile che viene trasmessa malgrado
le nocive conseguenze del disturbo.
E' ora possibile spiegare cosa si intende per capacità C di
un canale disturbato. Essa, infatti, è definita essere uguale alla
velocità massima (in bit al secondo) a cui l'informazione utile
(il che equivale a : incertezza totale meno incertezza dovuta al
disturbo) può essere trasmessa tramite il canale.
Perché si parla, qui, di velocità (( massima » ? Cosa si può fare,
cioè, per ridurre o aumentare questa velocità? La risposta è
che si può influenzare questa velocità scegliendo una sorgente
le cui caratteristiche statistiche siano opportunamente rapportate
ai limiti imposti dalla natura del canale. Si può, cioè, rendere
massima la velocità di trasmissione di informazione utile usando
una opportuna codifica (v. pagg. 17-1 8).
Consideriamo ora, finalmente, il teorema fondamentale per
un canale disturbato. Supponiamo che questo canale disturbato
abbia, nel senso appena descritto, una capacità C, supponiamo
che accetti i segnali da una sorgente di informazioni caratteriz
zata da una entropia di H(x) bit al secondo, mentre sia di H(y)
bit al secondo l'entropia dei segnali ricevuti. Se la capacità C
del canale è uguale o maggiore di H(x), allora, predisponendo
appropriati sistemi di codifica, quanto viene prodotto dalla sor
gente può essere trasmesso tramite il canale con un errore pic
colo a piacere. Per quanto piccola sia la frequenza di errore che
si vuole ottenere, esiste un codice che soddisfa questa richiesta.
Ma nel caso che la capacità C del canale sia minore di H(x),
22
entropia della sorgente da cui accetta i messaggi, è impossibile
progettare codici che riducano alla misura desiderata la frequen
za di errore.
Per quanto si sia abili nel processo di codifica, sarà sempre
vero che, una volta ricevuto il segnale, resterà qualche incertezza
indesiderabile (perché dovuta al disturbo) su ciò che era il mes
saggio ; e questa indesiderabile incertezza - questa equivoca
zione - sarà sempre uguale o maggiore di H(x) - C. Inoltre,
esiste sempre almeno un codice in grado di ridurre questa inde
siderabile incertezza, concernente il messaggio, fino ad un valore
che eccede H(x) - C di una quantità arbitrariamente piccola.
L'aspetto più importante naturalmente è che il minimo inde
siderabile di false incertezze non può venire ulteriormente ridot
to, indipendentemente da quanto complicato o appropriato sia
il processo di codifica. Questo importante teorema fornisce una
precisa e quasi eccezionalmente semplice descrizione della sicu
rezza estrema di funzionamento che si può sempre ottenere da un
canale di comunicazione che operi in presenza di disturbi.
E' da notare una conseguenza pratica, posta in rilievo da
Shannon. Dal momento che l'inglese ha una ridondanza di circa
il 50 per cento, sarebbe possibile risparmiare circa la metà del
tempo impiegato nel normale uso del telegrafo mediante un par
ticolare processo di codifica, a condizione di trasmettere su un
canale non disturbato. Quando vi sono disturbi nel canale, co
munque, vi è qualche vantaggio effettivo nel non usare un pro
cesso di codifica che elimini del tutto la ridondanza. Infatti, la
restante ridondanza serve a combattere i disturbi. E' molto sem
plice verificare questa asserzione, in quanto, proprio per il fatto
che la ridondanza dell'inglese è elevata, si hanno poche o punte
esitazioni, per esempio, nel correggere errori di ortografia che
siano sorti durante la trasmissione.
2.6. Messaggi continui
Fino a questo punto ci siamo occupati di messaggi compo

sti da simboli discreti : così le parole sono formate da lettere,
le frasi da parole, una melodia da note musicali, una illustrazione
23
a mezza tinta da un numero finito di punti separati. Che ne è
della teoria, se si considera un messaggio continuo, quale una
voce, con il suo continuo variare di tonalità e di intensità?
Molto approssimativamente si può dire che la teoria ampliata
è un poco più difficile e complicata dal punto di vista matema
tico, ma non sostanzialmente differente. Molte delle precedenti
affermazioni riguardanti il caso di simboli discreti non richie
dono alcuna modifica, mentre altre esigono solo cambiamenti
minori.
Una circostanza che favorisce l'analogia tra i due casi è la
seguente. Dal punto di vista pratico, ci si interessa sempre di un
segnale continuo costituito di semplici componenti armoniche
non di tutte le frequenze, ma di frequenze comprese in una banda
che va dalla frequenza zero fino a, poniamo, una frequenza di
W Hz. Così, sebbene la voce umana contenga in effetti frequenze
più alte, è possibile ottenere una comunicazione molto buona tra
mite un canale telefonico che consenta frequenze fino a, diciamo,
quattromila Hz. Con frequenze fino a dieci o dodicimila è pos
sibile la trasmissione radio ad alta fedeltà di musica sinfoni
ca, ecc.
Un teorema matematico afferma che un segnale continuo, di
T secondi di durata e limitato nella frequenza ad una banda da
zero a W, può essere completamente specificato fissando 2TW
numeri. E' questo un teorema veramente notevole. Normalmente,
una curva continua può solo approssimativamente venir caratte
rizzata determinando un qualunque numero finito di punti attra
verso cui essa passa e, in generale, per una completa conoscenza
della curva sarebbe richiesto un numero infinito di punti. Ma
se la curva è composta di semplici costituenti armoniche di un
numero limitato di frequenze, così come un suono complesso è
costituito da un numero limitato di toni semplici, allora è suffi
ciente un numero finito di parametri. Ciò comporta il grande
vantaggio di ridurre il carattere del problema della comunica
zione, nel caso di segnali continui, da una situazione complicata,
in cui si ha a che fare con un numero infinito di variabili, ad
una situazione considerevolmente più semplice in cui si opera
con un numero di variabili finito (anche se grande).
24
Nella teoria riguardante il caso continuo sono state svilup
pate delle formule che descrivono la massima capacità C di un
canale avente banda di frequenza W, quando : la potenza media
usata per trasmettere sia P, il canale sia soggetto ad un disturbo
di potenza N, e questo disturbo sia un « rumore bianco ter
mico )), di un genere speciale dallo Shannon definito. Questo ru
more bianco termico è esso stesso limitato nella banda delle fre
quenze e le ampiezze delle componenti alle varie frequenze sono
soggette ad una distribuzione di probabilità normale (gaussiana).
Sotto queste condizioni Shannon ricava il teorema, ancora una
volta veramente notevole nella sua semplicità e nella sua por
tata, secondo cui è possibile, con il miglior sistema di codifica,
trasmettere cifre binarie alla velocità di:
P + N
W log2
N
bit al secondo ed avere una frequenza di errore arbitrariamente
piccola. Ma questa velocità non può essere assolutamente supe
rata, indipendentemente dalla adeguatezza del codice, senza che
si dia origine ad una precisa frequenza di errori. Nel caso di
disturbo di altro tipo, invece che del particolare « rumore bianco
termico )) assunto prima, Shannon non riesce a ricavare una for
mula esplicita per la capacità del canale, ma ottiene, per quanto
riguarda la stessa, utili limiti massimi e minimi. Egli ricava an
che dei limiti per la capacità del canale quando si specifichi non
la potenza media del trasmettitore, bensì la potenza istantanea
di picco.
In conclusione, va detto che Shannon ottiene dei risultati
che sono necessariamente un po' meno precisi, ma che sono pa
lesemente di una significatività profonda ed assoluta e che defi
niscono, per un tipo generale di messaggio o segnale continuo,
la fedeltà del messaggio ricevuto e i concetti di velocità con cui
una sorgente dà origine alle informazioni, di velocità di trasmis
sione e di capacità del canale, essendo tutti questi in relazione
coi requisiti di sicura fedeltà.
25
3
Le interrelazioni dei tre livelli

dei problemi delle comunicazioni
3.1. Premessa
Nella prima parte di questo scritto si è detto che esistono

tre livelli a cui può venir preso in considerazione il problema
generale delle comunicazioni. Precisamente, si può chiedere :
livello A. Con quanta esattezza possono venir trasmessi i sim-
boli della comunicazione?
livello B. Con quanta precisione i simboli trasmessi trasferiscono
il significato desiderato?
livello C. In che misura il significato giunto a destinazione in-
duce realmente ad un comportamento nel senso desiderato?
Si è espressa l'opinione che la teoria matematica delle co
municazioni, quale sviluppata da Shannon, Wiener, ed altri, e
in particolare la teoria più decisamente di ordine tecnico di Shan
non, anche se apparentemente applicabile solo ai problemi del
livello A, è in effetti utile e stimolante per i problemi di cui ai
livelli B e C.
Abbiamo quindi dato uno sguardo nel cap. 2, a che cosa è
questa teoria matematica, quali concetti sviluppa, quali risul
tati ha ottenuto. Scopo di questa parte conclusiva è quello di
riesaminare la situazione a vedere sino a che punto, e in quali
termini, la precedente parte fosse giustificata quando vi si affer
mava che il progresso compiuto al livello A è in grado di recare
un contributo ai livelli B e C e che la interrelazione fra i tre
26
livelli è talmente notevole, che consente di trarre la conclusione
finale che la distinzione in tre livelli è, in realtà, artificiale e
da scartare.
3.2. Carattere generale della teoria al livello A
La prima ovvia osservazione, è indubbiamente l'osservazione

che sostiene il maggior peso dell'argomento, è quella che la teoria
matematica è estremamente generale nella sua portata, fonda
mentale per i problemi che tratta, e di una classica semplicità e
validità nei risultati che ottiene.
E' questa una teoria così generale che non vi è necessità di
precisare quali specie di simboli vengono considerati - se parole
o lettere scritte, o note musicali, o parole pronunciate, o musica
sinfonica o disegni. La teoria è abbastanza profonda da far sì
che le relazioni che rivela si applichino senza distinzione a tutte
queste e ad altre forme di comunicazione. Ciò significa, natural
mente, che la teoria è motivata in modo sufficientemente astratto
da occuparsi dell'essenza interna del problema delle comunica
zioni - di quelle relazioni fondamentali che in generale tratta,
non importa quale forma speciale possa assumere il particolare
caso concreto.
Costituisce una prova evidente di questo carattere generale
il fatto che la teoria contribuisce in importante misura, anzi in
realtà costituisce la parte fondamentale delle teorie della crit
tografia che è, naturalmente, una forma di codifica. Analogamen
te, la teoria contribuisce al problema della traduzione da un lin
guaggio ad un altro, sebbene a questo proposito è chiaramente
necessario prendere in considerazione il significato oltre che l'in
formazione. Similmente, le idee sviluppate in questo lavoro sono
così strettamente collegate con il problema del progetto logico di
grandi calcolatori, che non sorprende che Shannon abbia scritto
proprio un lavoro sul progetto di un calcolatore che sarebbe in
grado di giocare un'abile partita di scacchi. Ed è di ulteriore
diretta pertinenza alla presente questione il notare che detto la
voro si conclude con l'osservazione che : o si deve affermare che
un tale calcolatore « pensa », oppure bisogna sostanzialmente
modificare il modo convenzionale di intendere il verbo cc pen
sare ».
27
In secondo luogo, appare chiaro come sia stato portato un
importante contributo ad ogni possibile teoria generale delle co
municazioni dalla formalizzazione su cui è fondata la presente
teoria. Sembra dapprima ovvio fare lo schema di un sistema di
comunicazioni, come si è fatto all'inizio di questa teoria; ma que
sta suddivisione della situazione deve essere assai giudiziosa e ap
propriata, come ci si convince allorché si vede quanto facilmente
e in modo generale questo punto di vista conduca ai punti essen
ziali. E' quasi certamente vero che un esame delle comunicazioni
ai livelli B e C richieda aggiunte allo schema di pag. 7, ma sembra
altrettanto probabile che si richiedano aggiunte di carattere mi
nore e nessuna fondamentale revisione.
Pertanto quando ci si sposta ai livelli B e C, può dimostrarsi
indispensabile tenere conto delle caratteristiche statistiche della
destinazione. Possiamo immaginare, come aggiunta allo schema,
un altro rettangolo definito << ricevitore semantico » , collocato tra
il ricevitore meccanico (che cambia i segnali in messaggi) e la
destinazione. Questo ricevitore semantico sottopone il messaggio
ad una seconda decodifica, richiedendoglisi di adeguare le caratte
ristiche statistiche semantiche del messaggio alle capacità seman
tiche statistiche della totalità dei ricevitori, o di quel sottogruppo
di ricevitori che costituiscono l'auditorio che si vuole influenzare.
Analogamente è possibile immaginare un altro elemento nello
schema che, inserito tra la sorgente di informazioni ed il tra
smettitore, verrebbe denominato « disturbo semantico » , chia
mando ora di conseguenza « disturbo meccanico >> quello che pre
cedentemente era stato definito semplicemente come « disturbo >>.
Da questa fonte vengono introdotte nel segnale le perturbazioni o
alterazioni che non sono volute dalla sorgente, ma che inevita
bilmente sono presenti a destinazione. E il problema della deco
difica semantica deve tener conto di questo disturbo semantico.
E' anche possibile pensare ad una rettifica del messaggio origi
nale tale che la somma del significato del messaggio e del disturbo
semantico sia uguale a destinazione al desiderato significato to
tale del messaggio.
In terzo luogo, sembra altamente significativo per il proble
ma a tutti i livelli il fatto che l'errore e la confusione aumen
tano e la fedeltà diminuisce quando, indipendentemente dalle ca
ratteristiche della codifica, si cerca di sovraccaricare un canale
28
( cioè, H > C). Qui nuovamente una teoria generale a tutti i livelli
dovrà tener sicuramente conto non solamente delle capacità del
canale, ma anche (persino se le parole sono giuste ! ) della capa
cità del destinatario. Se si cerca di eccedere la capacità del desti
natario è probabilmente vero, per analogia diretta, che non si sa
turerà, per così dire, l'ascoltatore sprecando solo quanto non può
essere recepito, perché di troppo ; più verosimilmente, ed ancora
per analogia diretta, se si sovraccarica la capacità dell'ascoltatore
si determinerà inevitabilmente un errore e una confusione ge
nerali.
In quarto luogo, è difficile credere che i livelli B e C non
abbiano molto da ricavare e che i loro problemi non siano giu
stamente indirizzati dallo sviluppo in questa teoria delle idee en
tropiche in relazione al concetto di informazione.
Il concetto di informazione sviluppato in questa teoria sem
bra dapprima deludente e strano - deludente perché non ha
nulla a che fare col significato e strano in quanto si occupa non
di un singolo messaggio, ma piuttosto del carattere statistico di
un intero complesso di messaggi ; strano anche perché in questi
termini statistici le due parole informazione e incertezza si tro
vano associate.
Io credo, comunque, che si tratti di reazioni passeggere e
che, alla fine, si possa dire che questa analisi ha dissipato i
dubbi al punto che si è ora, forse per la prima volta, in condi
zione di affrontare una teoria del significato. Una teoria mec
canica delle comunicazioni è proprio come una ragazza molto a
modo e riservata che accetti un vostro telegramma. Ella non
presta attenzione al significato, se è triste, gioioso o imbarazzan
te. Ma deve essere preparata ad occuparsi di tutto ciò che arriva
al suo tavolo. Questa idea secondo cui un sistema di comunica
zioni dovrebbe cercare di trattare tutti i messaggi possibili, e
che il modo intelligente di mirare a questo è quello di fondarne
il progetto sul carattere statistico della sorgente, non è certa
mente priva di importanza per le comunicazioni in generale. Il
linguaggio deve essere progettato (o sviluppato) avendo di mira
la totalità di cose che si può desiderare dire; ma non essendo
in grado di realizzare tutto, dovrebbe tuttavia operare nel mi
glior modo possibile il più spesso possibile. Ciò equivale a dire
che si dovrebbe occupare del suo compito statisticamente.
29
Il concetto di associazione tra informazione e sorgente porta
direttamente, come abbiamo veduto, ad uno studio della strut
tura statistica del linguaggio; e questo studio, per esempio, ri
vela riguardo alla lingua inglese delle informazioni che sembrano
decisamente importanti per gli studiosi di ogni fase del linguag
gio e della comunicazione. L'idea di utilizzare la potente teoria
riguardante i processi di Markoff sembra particolarmente pro
mettente per gli studi semantici, dal momento che questa teoria
è particolarmente adatta a trattare uno dei più importanti, ma
difficili, aspetti del significato, precisamente l'influenza del con
testo. Si ha la vaga sensazione che informazione e significato
possano dimostrare di essere come un paio di variabili canoni
camente coniugate nella teoria dei quanti, essendo soggette ad
alcune restrizioni interdipendenti che ci impongono di sacrifi
care parte dell'una per avere più dell'altro.
Oppure è forse possibile rappresentare il significato come ana
logo ad una delle quantità da cui dipende l'entropia di un
complesso termodinamico. La presenza della entropia nella teo
ria, come abbiamo prima rilevato, è sicuramente estremamente
interessante ed importante. Eddington è stato già citato a questo
proposito, ma vi è un altro passo in The Nature of the Physical
World che sembra particolarmente significativo:
Supponiamo di dover ordinare in due categorie quanto segue : distan
za, massa, forza elettrica, entropia, bellezza, melodia.
Ritengo che vi siano i più validi motivi per collocare l'entropia
accanto a bellezza e melodia, e non con le prime tre. L'entropia
compare solamente quando le parti sono viste in associazione, ed
è con l'osservare od ascoltare le parti come associate che bellezza
e melodia vengono percepite. Tutte e tre sono modi di disposizione.
E' una considerazione significativa quella secondo cui una di queste
tre quantità dello stesso tipo pot rebbe figurare pacificamente come
oggetto di studio scientifico. La ragione per cui questo estraneo
può introdursi tra gli aborigeni del mondo fisico è che è in grado
di parlare il loro linguaggio, cioè il linguaggio della aritmetica.
Sono sicuro che Eddington avrebbe voluto includere il ter

mine significato insieme a bellezza e melodia ; e ho il dubbio che
egli sarebbe rimasto impressionato nel vedere, in questa teoria,
che l'entropia non parla solamente il linguaggio della aritme
tica; essa parla anche il linguaggio del linguaggio.
30
La teoria matematica delle comumcaztom
di Claude E . Shannon
Introduzione
Il recente sviluppo di vari metodi di modulazione quali il

PCM (Pulse Code Modulation) e il PPM (Pulse Position Modu
lation), che cambiano la larghezza di banda per quanto riguarda
il rapporto segnale-rumore, ha rafforzato l'interesse per una teo
ria generale delle comunicazioni. Una base per una tale teoria è
contenuta negli importanti scritti di Nyquist1 e Hartleyl su que
sto argomento. Nel presente scritto amplieremo la teoria per
comprendervi un certo numero di nuovi fattori, in particolare
l'effetto del rumore nel canale e i possibili risparmi dovuti alla
struttura statistica del messaggio originale e alla natura della d�
stinazione finale delle informazioni.
Il problema fondamentale delle comunicazioni è quello di ri
produrre esattamente o approssimativamente in un certo punto
un messaggio scelto in un altro punto. Frequentemente i messaggi
possiedono significato; ciò vuol dire che essi si riferiscono a, o
sono in correlazione con qualche sistema avente certe entità
fisiche o concettuali. Questi aspetti semantici della comunicazione
sono irrilevanti per il problema tecnico. L'aspetto importante è
che il messaggio effettivo viene scelto fra un insieme di possibili
messaggi. Il sistema deve essere progettato per operare in rela-
1 Nyquist H., « Certain Factors Affecting Telegra.ph Speed 11, Bell System Technf.
caz Journal, aprile 1924, p. 324 ; 11 'Certain Topics 1n Telegraph Transmlsslon
Theory >>, A.I.E.E. Trans. , v. 47, aprlle 1928, p. 617.
2 Hartley
R. V. L., 11 Transmisslon of Information 11, Bell System Technical
Journal, luglio 1928, p. 535.
33
zione a qualunque scelta possibile, e non solo per quella che
sarà effettivamente attuata, dal momento che questa non è nota
in fase di progetto.
Se il numero dei messaggi dell'insieme è finito, allora questo
numero, o ogni funzione monotona di questo numero, può es
sere considerato come una misura della informazione prodotta
quando un messaggio è scelto dall'insieme e tutte le scelte sono
ugualmente probabili. Come fu posto in rilievo da Hartley, la
scelta più naturale è la funzione logaritmica. Sebbene questa de
finizione debba venir considerevolmente generalizzata quando
prendiamo in considerazione l'influenza dei caratteri statistici
del messaggio e quando abbiamo a che fare con una serie con
tinua di messaggi, useremo in ogni caso una misurazione essen
zialmente logaritmica.
La misura logaritmica è più conveniente per varie ragioni.
l . E' praticamente più vantaggiosa. Parametri di rilevanza tec
nica quali tempo, larghezza della banda, numero di relè, ecc.,
tendono a variare linearmente con il logaritmo del numero di
possibilità. Per esempio, aggiungendo un altro relè ad un
gruppo di relè si raddoppia il numero di stati possibili dei
relè. Ciò aumenta di l il logaritmo in base 2 di questo nu
mero. Raddoppiando il tempo si eleva approssimativamente al
quadrato il numero di messaggi possibili, o si raddoppia il
logaritmo, ecc.
2. E' più vicina alla nostra intuizione come la misura adatta. Ciò
è in stretta relazione con quanto al punto l , dal momento che
noi intuitivamente misuriamo delle entità mediante confronto
lineare con modelli o unità comuni. Si intuisce, per esempio,
che due schede perforate possiederebbero due volte la capa
cità di una sola per quanto riguarda l'immagazzinamento di
informazioni, e che due canali identici avrebbero il doppio
della capacità di uno solo per la trasmissione di informazioni.
3. E' più conveniente dal punto di vista matematico. Molte delle
operazioni con i limiti sono semplici in termini di logaritmo,
ma richiederebbero una complicata rielaborazione in termini
di numero delle possibilità.
La scelta di una base logaritmica corrisponde alla scelta di
34
una unità per misurare le informazioni. Se viene usata la base 2
le unità risultanti possono essere chiamate cifre binarie o più
brevemente bit, termine questo suggerito da J. W. Tukey. Un
dispositivo con due posizioni stabili, quali un relè o un circuito
flip-flop, può immagazzinare un bit di informazione. N disposi
tivi di questo tipo possono immagazzinare N bit, dal momento
che il numero complessivo degli stati possibili è 2N e che
lo� 2N = N . Se si usa la base 10, le unità possono essere deno
minate cifre decimali. Dal momento che
lo� M = log1o M/logJo 2
= 3,32 logJo M,
una cifra decimale corrisponde a circa 3t bit. Una ruota nume

rata in un calcolatore da tavolo possiede dieci posizioni stabili
e pertanto ha una capacità di immagazzinamento di una cifra
decimale. Nei calcoli analitici in cui sono implicate l'integrazione
e la derivazione, è talvolta utile la base e. Le unità di informa
zione risultanti saranno denominate unità naturali. Il passaggio
dalla base a alla base b richiede semplicemente una moltiplica
zione per 1ogb a.
Per sistema di comunicazione intenderemo un sistema del tipo
indicato schematicamente nella fig. 1 . Esso consiste essenzial
mente di cinque parti.
1. Una sorgente di informazioni che genera un messaggio o
una sequenza di messaggi che devono essere comunicati al ter
minale ricevente. Il messaggio può essere di vari tipi : (a) una
sequenza di lettere come in un telegrafo o in un sistema di tele
scriventi ; ( b ) una singola funzione del tempo f(t) come nella
radio o nella telefonia ; (c) una funzione del tempo ed altre va
riabili come nella televisione in bianco e nero - in questo caso
si può pensare al messaggio come ad una funzione f(x, y, t) di
due coordinate spaziali e del tempo, l'intensità della luce in un
punto (x, y) e il tempo t su una placca del tubo ricevente ; (d) due
o più funzioni del tempo, poniamo f(t), g(t), h( t) - è questo
il caso che si verifica nella trasmissione « tridimensionale '' del
suono o di quando si vuole che il sistema serva parecchi canali
in multiplex (trasmissione contemporanea) ; (e) parecchie fun
zioni di diverse variabili - nella televisione a colori il messaggio
35
sorgente della
informazione trasmettitore
sorgente
d i disturbi
Fig. l · Schema di un sistema generale di comunicazioni.
consiste di tre funzioni f(x, y, t), g(x, y, t), h(x, y, t) definite in un

continuo tridimensionale - possiamo anche pensare a queste tre
funzioni come a componenti di un campo vettoriale definito nella
regione - similmente, diverse sorgenti televisive in bianco e nero
produrrebbero « messaggi 11 consistenti di un certo numero di
funzioni di tre variabili; (f) si verificano anche varie combina
zioni, per esempio nella televisione con associato un canale audio.
2. Un trasmettitore, che opera in qualche modo sul messag
gio per produrre un segnale adatto alla trasmissione sul canale.
Nella telefonia questa operazione consiste semplicemente nel con
vertire la pressione del suono in una corrente elettrica propor
zionale. Nella telegrafia abbiamo una operazione di codifica che
produce sul canale una sequenza di punti, linee e spazi che cor
rispondono al messaggio. In un sistema PCM a trasmissione mul
tipla le differenti funzioni del parlato devono essere campionate,
compresse, quantizzate e codificate, e infine opportunamente in
tercalate per costruire il segnale. Sistemi vocoder, televisione e
modulazione di frequenza sono altri esempi di complesse opera
zioni effettuate sul messaggio per ottenere il segnale.
3. Il canale è semplicemente il mezzo impiegato per trasmet
tere il segnale dal trasmettitore al ricevitore. Esso può consistere
di una coppia di fili, un cavo coassiale, una banda di frequenze
radio, un raggio di luce, ecc. Durante la trasmissione, oppure ad
uno dei terminali, il segnale può venir perturbato da un disturbo3•
3 Si è tradotto con disturbo il termine inglese 11 noise 11 dato il più ampio si
gnificato che non la parola italiana rumore, limitata solitamente al campo acu-
36
Questo fatto viene schematicamente indicato nella fig. l dalla sor
gente del disturbo che opera sul segnale trasmesso per produrre
il segnale ricevuto.
4. Il ricevitore compie di solito l'operazione inversa di quella
compiuta dal trasmettitore, ricostruendo il messaggio dal se
gnale.
5.La destinazione è la persona (o la cosa) cui è diretto il
messaggio.
Desideriamo prendere in considerazione certi problemi generali
riguardanti i sistemi di comunicazione. Per fare ciò è prima neces
sario descrivere i vari elementi implicati come entità matematiche,
opportunamente idealizzati rispetto ai loro componenti fisici. Pos
siamo grosso modo classificare i sistemi di comunicazione in tre
categorie principali : discreti, continui e misti. Per sistema di
screto intendiamo un sistema in cui sia il messaggio che il se
gnale consistono in una sequenza di simboli distinti. Un caso
tipico è costituito dal telegrafo, in cui il messaggio è una se
quenza di lettere ed il segnale una sequenza di punti, linee e
spazi. Un sistema continuo è quello in cui il messaggio ed il se
gnale sono entrambi trattati come funzioni continue, per esem
pio la radio o la televisione. Un sistema misto è quello in cui
compaiono variabili sia discrete che continue, per esempio la tra
smissione della parola col sistema PCM.
Considereremo dapprima il caso del sistema discreto. Questo
caso possiede applicazioni non solamente nella teoria delle comu
nicazioni, ma anche nella teoria delle macchine calcolatrici, nella
progettazione di centralini telefonici e in altri campi. Oltre a ciò,
il caso del sistema discreto costituisce un presupposto per i casi
continuo e misto, che verranno trattati nella seconda parte del
lavoro.
stico. Si fa presente però che nel linguaggio tecnico spesso si usa la parola
rumore nel significato più ampio (N.d. T. ).
37
l
Sistemi discreti non disturbati
l . Il canale discreto non disturbato
Telescrivente e telegrafo sono due semplici esempi di un ca

nale discreto per la trasmissione di informazioni. Generalmen
te, un canale discreto vuoi significare un sistema per mezzo del
quale una sequenza di scelte, operate tra un insieme finito di
simboli elementari S1 . . . Sn, può venir trasmessa da un punto
ad un altro. Ciascuno dei simboli S; è assunto avere una certa
durata nel tempo di t; secondi (non necessariamente la stessa
per differenti S;, per esempio i punti e le linee nel telegrafo). Non
si richiede che tutte le possibili sequenze dei simboli S; siano su
scettibili di trasmissione sul sistema ; possono essere consentite
solamente certe sequenze. Queste costituiranno i possibili segnali
per il canale. Così supponiamo che nella telegrafia i simboli
siano :
1. un punto, consistente nel chiudere la linea per una unità di
tempo e quindi di aprirla per un'altra unità di tempo;
2. una linea, consistente di tre unità di tempo di linea chiusa
e una di linea aperta ;
3. uno spazio tra lettere consistente, poniamo, di tre unità di
linea aperta ;
4. uno spazio tra parole, di sei unità di linea aperta.
Potremmo porre la restrizione, per quanto attiene le sequen
ze consentite, che gli spazi non vengano uno dopo l'altro (in
39
quanto, se due spazi fra lettere sono adiacenti essi sono identici
ad uno spazio fra parole). La questione che ora prendiamo in
considerazione è quella di come è possibile misurare la capacità
di trasmettere informazioni con un canale di questo tipo.
Nel caso della telescrivente in cui tutti i simboli sono della
stessa durata, ed è consentita qualunque sequenza di 32 simboli,
la risposta è semplice. Ciascun simbolo rappresenta cinque bit
di informazione. Se il sistema trasmette n simboli al secondo è
logico affermare che il canale possiede una capacità di Sn bit al
secondo. Ciò non significa che il canale della telescrivente trasmet
terà sempre informazioni a questa velocità - questa è la mas
sima velocità possibile e il fatto che la velocità effettiva raggiunga
o meno questo massimo dipende dalla sorgente di informazioni
che alimenta il canale, come si vedrà in seguito.
Nel caso più generale di simboli con differenti durate e con
limitazioni riguardo alle sequenze ammesse, diamo la seguente
definizione : la capacità C di un canale discreto è data da
C = lim log N(T)

T-+ - T
dove N(T) è il numero di segnali ammessi di durata T.
E' facile verificare che nel caso della telescrivente la for
mula conduce al medesimo risultato già ottenuto. Si può dimo
strare che nella maggior parte dei casi che interessano, il limite
in questione esiste ed è un numero finito. Supponiamo che siano
consentite tutte le sequenze dei simboli S1, . . . , Sn e che questi
simboli abbiano durata t1, . . . , tn. Quale è la capacità del ca
nale? Se N(t ) rappresenta il numero di sequenze di durata t ,
abbiamo
N( t) = N(t - t1) + N( t - t2) + . . . + N( t - tn).
Il numero totale è uguale alla somma dei numeri di sequenze
che finiscono in S1, S2, . . . , Sn e queste sono N(t - t1), N( t - t2 ) ,
. . . , N(t - tn), rispettivamente. Conformemente a un ben noto
risultato nella teoria delle differenze finite, N(t), per t grande,
ha comportamento asintotico del tipo AX6 dove A è costante e
Xo è la più grande soluzione reale della equazione caratteristica :
40
x-r, + x-r, + . . . + x-r. = l
e perciò
log AX�
C = lim = log Xo
7'-+ .. T
Nel caso vi siano limitazioni riguardo alle sequenze consen
tite possiamo spesso ottenere ancora una equazione alle diffe
renze di questo tipo e ricavare C dalla equazione caratteristica.
Nel caso della telegrafia, sopra menzionata,
N( t) = N( t - 2) + N( t - 4) + N(t - 5) + N(t - 7)
+ N (t - B) + N(t - 10)
come vediamo contando sequenze di simboli in conformità con
l'ultimo o penultimo simbolo che si incontra. Pertanto C è uguale a
- log {.lo dove {.lo è la radice positiva di l = f.L2 + f.L4 + ,; +
f.l1
+ f.L8 + f.l10• Risolvendo, troviamo che C = 0,539.
Un tipo molto generale di limitazione che può essere posta
riguardo alle sequenze consentite è il seguente : immaginiamo
un certo numero di possibili stati a1, a2, . . . , am . Per ciascuno
stato possono venir trasmessi solamente certi simboli dell'in
sieme St, . . . , S,. (differenti sottoinsiemi per i differenti stati).
Quando uno di questi è stato trasmesso lo stato viene a cambiarsi
in un nuovo stato che dipende sia dal vecchio stato che dal par
ticolare simbolo trasmesso. Il caso del telegrafo rappresenta un
semplice esempio di questo. Vi sono due stati, a seconda che
l'ultimo simbolo trasmesso sia o no uno spazio. Se era uno spazio,
allora possono venir trasmessi subito dopo soltanto un punto o
una linea e lo stato cambia comunque. Se non era uno spazio,
può venir trasmesso qualunque simbolo e lo stato cambia se è
inviato un segnale di spazio (tra lettere o tra parole), in caso
contrario rimane lo stesso. Le condizioni possono venir indicate
in un grafo lineare, come si vede nella fig. 2. I punti di congiun
zione corrispondono agli stati, mentre le linee indicano i sim
boli possibili in uno stato e lo stato risultante. Nell'appendice l
si dimostra che, se le condizioni riguardanti le sequenze ammesse
possono essere descritte in questa forma, C esiste e può essere
calcolato in base al seguente teorema.
41
Teorema l: Sia blfl la durata del smo simbolo che è ammesso
quando ci si trova nello stato i e porta allo stato j. In tal caso
la capacità C del canale è uguale a log W, dove W è la più grande
radice reale della equazione in forma di determinante :
1 •1
1 I: w-b,, - 8ij 1 = o
•
dove o;i = l se i = j, altrimenti è uguale a zero.
linea
punto
linea
spazio tra
parole
Fig. 2 - Rappresentazione grafica delle restrizioni relative ai simboli del

telegrafo.
Per esempio, nel caso del telegrafo (fig. 2) il determinante è:

l -t (w-z + w-4) l=
(w-3 + w-6) (w-z + w-4 0 _ o.
Sviluppando, si ricava l'equazione prima data per questo insieme

di limitazioni.
2. La sorgente discreta di informazioni
Abbiamo visto che sotto condizioni molto generali il loga

ritmo del numero dei segnali possibili in un canale discreto au
menta linearmente con il tempo. La capacità di trasmettere in
formazioni può venir specificata mediante questa velocità di au
mento, il numero di bit al secondo richiesti per specificare il
particolare segnale usato.
Consideriamo ora la sorgente di informazioni. Come deve es
sere descritta dal punto di vista matematico una sorgente di
42
informazioni, e quanta informazione, in bit al secondo, viene pro
dotta in una data sorgente ? Il punto principale in discussione è
l'effetto della conoscenza statistica della sorgente nel ridurre la
capacità del canale necessaria, mediante l'uso di una opportuna
codifica delle informazioni . Nella telegrafia, ad esempio, i mes
saggi da trasmettere sono costituiti da sequenze di lettere. Queste
sequenze, comunque, non sono formate completamente a caso.
In generale, esse formano delle frasi e hanno la struttura stati
stica, poniamo, dell'inglese. La lettera E si presenta più fre
quentemente della lettera Q, la sequenza TH più frequentemente
della sequenza XP, ecc. L'esistenza di questa struttura consente
di attuare un risparmio nel tempo (o capacità del canale) me
diante una appropriata codifica delle sequenze dei messaggi in
sequenze di segnali. Ciò viene già fatto in misura limitata nella
telegrafia, usando il più breve simbolo del canale, un punto, al
posto della più comune lettera inglese, la E; mentre le poco fre
quenti lettere Q , X, Z sono rappresentate da sequenze più lunghe
di punti e linee. Questo principio viene ancor più sviluppato in
certi codici commerciali in cui parole e frasi comuni sono rap
presentate da gruppi di codice di quattro o cinque lettere, con
un notevole risparmio sul tempo medio. I telegrammi, ora in
uso, di congratulazioni e di auguri formulati in modo standard
estendono questo metodo fino al punto di codificare una o due
frasi in una sequenza relativamente breve di numeri.
Possiamo pensare ad una sorgente discreta come a un gene
ratore del messaggio simbolo dopo simbolo. Essa sceglierà i sim
boli successivi in conformità a certe probabilità dipendenti, in
generale, dalle scelte precedenti come anche dai particolari sim
boli in questione. Un sistema fisico, o un modello matematico
di sistema che produce una tale sequenza di simboli governati da
un insieme di probabilità, è detto un processo stocastico4• Pos
siamo, pertanto, considerare una sorgente discreta come rappre
sentata da un processo stocastico. Viceversa, qualunque processo
stocastico che produce una sequenza discreta di simboli scelti
da un insieme finito, può essere considerato una sorgente discreta.
Essa comprenderà casi come :
1. linguaggi scritti naturali, quali l'inglese, il tedesco, il cinese;
•S i veda, a d esempio, S. Chandrasekhar, cc Stochastic Problems in Physics and

Astronomy » Review ot Modern Physics, v. 15, No. l, gennaio 1943, p. l .
43
2. sorgenti di informazione continue che siano state rese discrete
mediante qualche processo di quantificazione. Per esempio, il
parlare quantizzato mediante un trasmettitore PCM, o un se
gnale televisivo quantizzato ;
3. casi matematici in cui definiamo semplicemente in modo
astratto un processo stocastico che genera una sequenza di
simboli. I seguenti sono esempi di quest'ultimo tipo di sor
gente:
(A) immaginiamo di avere cinque lettere A, B, C, D, E che sono
scelte ciascuna con probabilità 0,2, e le scelte successive sia
no indipendenti. Ciò condurrà a sequenze delle quali la se
guente è un esempio tipico.
B D C B C E C C C A D C B D D A A E C E E AA B B DAEE
C A C E E B A E E C B C E A D.
Essa è stata ottenuta con l'uso di una tavola di numeri ca
suali5;
(B) usando le medesime cinque lettere, siano però le probabilità,
rispettivamente, 0,4; 0,1 ; 0,2 ; 0,2 ; 0,1 , essendo indipendenti
l'una dall'altra le scelte successive. Un messaggio tipico di
questa sorgente è allora :
A A A C D C B D C E A A D A D A C E D A E A D C A B EDA
D D C E C AA A A A D;
(C) una struttura più complicata la si ottiene se i simboli in
successione non sono scelti indipendentemente, ma se le loro
probabilità dipendono dalle lettere precedenti. Nel più sem
plice caso di questo tipo, una scelta dipende esclusivamente
dalla lettera precedente e non da quelle ancora precedenti.
La struttura statistica può allora venir descritta mediante un
insieme di probabilità di transizione p;(j), la probabilità che
la lettera i sia seguita dalla lettera j. Gli indici i e j si ap
plicano a tutti i simboli possibili. Un altro modo, equivalente,
di determinare la struttura è quello di dare le probabilità
del « digramma 11 p( i, j), vale a dire la frequenza relativa
del digramma i j. Le frequenze delle lettere p(i), (la proba
bilità della lettera i), le probabilità di transizione p;(j) e le
• Kendall e Smith, Tables of Random Sampling Numbers, Cambridge, 1939.
44
probabilità di digramma p( i, j ) sono legate fra di loro dalle
relazioni espresse dalle seguenti formule :
p(i) = l: p( i, j ) = l: p( j , i) = l: p(j }p,(i)
l l l
p( i, j ) = p( i}pi(j )
l: p;(j ) = l: p( i) = l: p( i, j ) = 1
l l i, i
Come esempio specifico, supponiamo che VI s1ano tre let

tere A, B, C con le seguenti tavole di probabilità:
p;(j ) i i p( i) p( i, j) i
A B c A B c
4 l 9 4 l
A o "T -5- A -rr A o 15 -1.5
16 8 8
i B t t o B
-r,- i B ii -ri o
c t
2
s
l
lo c 2-
'Il
c l l
-ri
4
135
l
135
Un messaggio tipico prodotto da questa sorgente è il se-

guente:
A B B A B A B A B A B A B A B B B A B B B B B A B A
B A B A B A B B B ACACAB B A B B B B A B B A B A
C B B B A B A.
Il successivo aumento nella complessità implicherebbe fre
quenze di trigramma, ma non più. La scelta di una lettera
dipenderebbe dalle due lettere precedenti, ma non dal mes
saggio precedente quel punto. Sarebbe richiesto un insieme di
frequenze di trigramma p(i, j , k) o equivalentemente un in
sieme di probabilità di transizione p;;(k). Continuando in que
sto modo si ottengono successivamente processi stocastici più
complicati. Nel caso generale di n-gramma, per determinare
la struttura statistica è necessario un insieme di probabilità
di n-gramma p( i., i2, . . . , in) o di probabilità di transizione
p;, , i2• • • • ' in-l ( in};
(D) i processi stocastici possono anche essere definiti come quelli
che producono un testo consistente in una sequenza di « pa
role )). Supponiamo che vi siano cinque lettere A, B, C , D, E
e 16 « parole '' nel linguaggio, con le relative probabilità:
45
0 , 10 A 0,16 BEBE 0,1 1 CABED 0,04 DEB
0 ,04 ADEB 0 ,04 BEO 0,05 CEED 0,15 DEED
0,05 ADEE 0,02 BEED 0,08 DAB 0,01 EAB
0 ,01 BADO 0,05 CA 0,04 DAD 0 ,05 EE
Supponiamo che le « parole >> in successione siano scelte in
modo indipendente e siano separate da uno spazio. Un mes
saggio tipico potrebbe essere : DAB EE A BEBE DEED DEB
ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BEO
DEED DEED CEED ADEE A DEED DEED BEBE CABED
BEBE BED DAB DEED ADEB.
Se tutte le parole sono di lunghezza finita questo processo
è equivalente ad uno del tipo precedente, ma la descrizione
in termini di struttura delle parole e di probabilità può risul
tare più semplice. A questo punto possiamo anche genera
lizzare e introdurre le probabilità di transizione tra parole,
ecc.
Questi linguaggi artificiali risultano utili nella costruzione di
semplici problemi ed esempi per illustrare diverse possibilità.
Possiamo anche avvicinarci con successive approssimazioni ad
un linguaggio naturale per mezzo di una serie di semplici lin
guaggi artificiali. L'approssimazione di grado zero viene ottenuta
scegliendo tutte le lettere con la stessa probabilità e in modo
indipendente. L'approssimazione di primo grado si ottiene sce
gliendo indipendentemente l'una dall'altra le lettere in succes
sione, avendo però ciascuna lettera la stessa probabilità che pos
siede nel linguaggio naturale6• Così, nella approssimazione di pri
mo grado alla lingua inglese, la lettera E viene scelta con pro
babilità 0,12 (la sua normale frequenza in inglese) e la W con
probabilità 0,02, ma non esiste rapporto tra le lettere consecu
tive e pertanto non vi è tendenza a formare i digrammi più co
muni, come TH, ED, ecc . Nella approssimazione di secondo grado
viene introdotta la struttura del digramma. Dopo che una lettera
è stata scelta, la successiva viene scelta in conformità delle fre-
•Frequenze di lettere, di digrammi e di trigrammi si trovano in Secret and

Urgent di Fletcher Pratt, Blue Ribbon Books, 1939. Tabelle di frequenze di
parole si trovano in Relative Frequency of English. Speech. Sounds, G. Dewey,
Harvard University Press, 1923.
46
quenze con cui le diverse lettere seguono la prima. Ciò richiede
una tavola di frequenze di digramma p;(j). Nella approssimazio
ne di terzo grado, viene introdotta la struttura del trigramma.
Ciascuna lettera viene scelta in base a probabilità che dipendono
dalle due lettere precedenti.
3. La successione di approssimazioni della lingua inglese
Per dare un'idea visiva di come questa serie di processi si

avvicina ad una lingua, sono state costruite delle sequenze ti
piche di approssimazione all'inglese; esse sono riportate qui
sotto. In tutti i casi abbiamo assunto un « alfabeto » di 27 sim
boli, le 26 lettere ed uno spazio7•
1. Approssimazione di grado zero ( simboli indipendenti ed ugual
mente probabili).
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSG
HYD QPAAMKBZAACIBZLHJQD.
2. Approssimazione di primo grado (simboli indipendenti ma con
frequenze proprie della lingua inglese).
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH
EEI ALHENHTTPA OOBTTVA NAH BRL.
3. Approssimazione di secondo grado (struttura dei digrammi
come in inglese).
ON lE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY
ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO
TIZIN ANDY TOBE SEACE CTISBE.
4. Approssimazione di terzo grado ( strutture dei trigrammi come
in inglese).
IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID
PONDENOME OF DEMONSTURES OF THE REPTAGIN
IS REGOACTIONA OF CRE .
7 Fino alla approssimazione di terzo grado compresa sono scritte in corsivo le

sequenze di lettere che, da sole, costituiscono termini inglesi aventi un senso
compiuto. Altre parole sarebbero estrapolabili da sequenze di lettere più lunghe,
sovente con diverse combinazioni ( ad es., nella sequenza 11 regoactiona 11 sono
compresi i termini : 11 action 11, 11 act 11 e 11 on Il). Nei due casi di approssimazione
alle parole non si è ritenuto di doverle tradurre, dato che le loro sequenze
sono prive di significato, ad eccezione del caso preso in considerazione dal
l'Autore ( v. nota 8 ) . (N.d.T. >.
47
S. Approssimazione di primo grado, con riguardo alle parole.
Piuttosto che continuare con la struttura dei tetragrammi, . . . ,
degli n-grammi, risulta più semplice e più proficuo, a questo
punto, saltare alle unità di parola. Qui le parole sono scelte
indipendentemente l'una dall'altra, ma con frequenze appro
priate.
REPRESENTING AND SPEEDILY IS AN GOOD APT OR
COME CAN DIFFERENT NATURAL HERE HE THE A
IN A CAME THE TO OF TO EXPERT GRAY COME TO
FURNISHES THE LINE MESSAGE HAD BE THESE.
6. Approssimazione di secondo grado, con riguardo alle parole.
Le probabilità di transizione delle parole sono corrette, ma
non è inclusa alcuna ulteriore struttura.
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH
WRITER THAT THE CHARACTER OF THIS POINT IS
THEREFORE ANOTHER METHOD FOR THE LETTERS
THAT THE TIME OF WHO EVER TOLD THE PROBLEM
FOR AN UNEXPECTED.
La rassomiglianza con un normale testo inglese aumenta in
maniera notevole ad ognuno dei suesposti passaggi. Si noti che
questi esempi hanno una struttura ragionevolmente buona fino a
circa due volte l 'estensione che è presa in considerazione nella
loro costruzione. Così, al punto 3 il processo statistico assicura
un testo comprensibile per sequenze di due lettere, ma sequenze
di quattro lettere possono normalmente essere inserite, previo
adattamento, in frasi corrette. Nel caso di cui al punto 6, sequenze
di quattro o più parole possono facilmente venir inserite entro
delle frasi, senza ricorrere a costruzioni strane o forzate. La par
ticolare sequenza di dieci parole << attack on an English writer
that the character of this ,,s non è affatto assurda. E' chiaro dun
que che un processo stocastico sufficientemente complesso for
nirà una soddisfacente rappresentazione di una sorgente discreta.
I primi due esempi sono stati formati mediante l'uso di ta
belle di numeri casuali, unitamente (per l'esempio 2) ad una
tavola di frequenze di lettere. Questo metodo avrebbe potuto es
sere adoperato anche per i casi 3 , 4 e 5, dato che sono disponibili
" cc Attacco ad uno scrittore inglese sul fatto che il carattere di questo 11 (N.d. T. ) .
48
tavole di frequenza di digrammi, trigrarnrni e parole, ma ci si è
serviti di un metodo equivalente e più semplice. Per fonnare
l'esempio 3, poniamo, si apre un libro a caso e, sempre a caso,
si sceglie una lettera nella pagina. Questa lettera viene quindi
registrata. Si apre quindi il libro ad un'altra pagina e si legge
fino a quando non ci si imbatte in questa lettera. Si procede
quindi alla registrazione della lettera che la segue. Passando ad
una nuova pagina, si cerca questa seconda lettera e si registra
quella ad essa successiva, ecc. Sarebbe interessante se si potesse
procedere ad ulteriori approssimazioni, ma allo stadio successivo
il lavoro diventa enorme.
4. Rappresentazione grafica di un processo di Markoff
Processi stocastici del tipo sopra descritto sono noti mate

maticamente come processi discreti di Markoff o markoviani e
sono stati ampiamente studiati nella letteratura9• Il caso gene
rale può venir descritto come segue : esiste un numero finito di
possibili (( stati » di un sistema ; s., S2, • , Sn. Si ha inoltre un
. .
insieme di probabilità di transizione, pi(j), ossia la probabilità che

il sistema, trovandosi nello stato S;, si sposti in seguito nello stato
Si. Per trasformare questo processo markoviano in una sorgente
di informazioni dobbiamo solamente assumere che per ogni tran
sizione da uno stato ad un altro venga prodotta una lettera. Gli
stati corrisponderanno al (( residuo di influenza » delle prece
denti lettere.
La situazione può essere rappresentata graficamente come si
vede nelle figg. 3 , 4 e 5. Gli (( stati >> sono i punti di congiunzione
nel grafo e le probabilità e le lettere prodotte in rapporto ad una
transizione sono date a lato della lirtea corrispondente. La fig. 3
corrisponde all'esempio (B) del par. 2 mentre la fig. 4 corrisponde
all'esempio (C). Nella fig. 3 vi è un solo stato, in quanto le lettere
successive sono indipendenti. Nella fig. 4 vi sono tanti stati quan
te lettere. Se si costruisse un esempio di trigramma, ci sarebbero
• Per una trattazione dettagliata sl veda M. Frechet, Methods des fonctions

arbitraires. Theorte des énénements en chaine dans le cas d'un nombre fini
d'états posstbles, Parls, Gauthier Villars, 1938.
49
A O l B
o
0,2
E
0,1 c
D 0,2
Fig. 3 - Un grafo corrispondente alla sorgente nell'esempio B.
Fig. 4 - Un grafo corrispondente alla sorgente nell'esempio C.
Fig. 5 - Un grafo corrispondente alla sorgente nell'esempio D.
50
al massimo n2 stati corrispondenti al possibile paio di lettere
precedenti a quella che viene scelta. La fig. 5 rappresenta un grafo
per il caso di struttura di parole di cui all'esempio (D). Qui S cor
risponde al simbolo di « spazio ».
S. Sorgenti ergodiche e miste
Come abbiamo indicato precedentemente, possiamo considera

re, per i nostri scopi, che una sorgente discreta sia rappresen
tata da un processo markoviano. Tra i possibili discreti processi
markoviani, ve ne è un gruppo avente proprietà di particolare
rilievo nella teoria delle comunicazioni. Questa classe speciale è
costituita dai processi ergodici ; chiameremo sorgenti ergodiche
le sorgenti corrispondenti. Sebbene sia piuttosto complicata una
definizione rigorosa di processo ergodico, l'idea generale è sem
plice. In un processo ergodico ciascuna sequenza prodotta me
diante il processo possiede le stesse proprietà statistiche. In tal
modo, le frequenze delle lettere, le frequenze dei digrammi, ecc.,
ricavate da sequenze particolari, si avvicineranno, all'aumentare
delle lunghezze delle sequenze, a limiti definiti, indipendenti dalla
sequenza particolare. In realtà ciò non è vero per tutte le se
quenze, ma il gruppo per cui è falso ha probabilità zero. Appros
simativamente, la proprietà ergodica significa omogeneità sta
tistica.
Tutti gli esempi di linguaggio artificiale dati sopra sono er
godici . Questa proprietà è in relazione con la struttura del grafo
corrispondente. Se il grafo ha le due seguenti proprietà10, il cor
rispondente processo sarà ergodico :
1. il grafo non consiste di due parti separate A e B, tali che
sia impossibile spostarsi da punti di congiunzione nella parte
A a punti di congiunzione nella parte B lungo linee del grafo
nella direzione delle frecce e che sia parimenti impossibile
andare dai punti nella parte B a quelli nella parte A;
2. una serie chiusa di linee nel grafo con tutte le frecce orien
tate nella medesima direzione sarà detta circuito. La « lun-
10 Si tratta di riaffermazioni espresse nei termini del grafo di condizioni esposto
nel lavoro di Frechet.
51
ghezza » di un circuito è data dal numero delle sue linee . Così
nella fig. 5, la serie BEBES è un circuito di lunghezza S. La
seconda proprietà richiesta è che il massimo comun divisore
delle lunghezze di tutti i circuiti del grafo sia l .
Se è soddisfatta la prima condizione, ma l a seconda è vio
lata, essendo il massimo comun divisore d > l , le sequenze hanno
un certo tipo di struttura periodica. Le varie sequenze si suddi
vidono in d differenti classi che sono statisticamente le stesse a
parte uno spostamento dell'origine (cioè, della lettera della se
quenza chiamata lettera l ). Mediante uno spostamento compreso
tra O e d - l , qualsiasi sequenza può essere resa statisticamente
equivalente a qualunque altra. Un semplice esempio con d = 2 è
il seguente : vi sono tre possibili lettere a, b, c. La lettera a è se
guita sia da b che da c, rispettivamente con probabilità t e f .
Sia b che c sono sempre seguite dalla lettera a. Pertanto una se
quenza tipica è
abacacacabacababaca�
Questo tipo di situazione non è molto importante per il nostro
lavoro.
Se viene meno la prima condizione il grafo può venir sepa
rato in diversi sottografi, ciascuno dei quali soddisfa questa prima
condizione. Assumeremo che la seconda condizione sia pure sod
disfatta per ogni sottografo. In questo caso abbiamo ciò che può
venir denominato una sorgente « mista », costituita da un certo
numero di semplici componenti. Le componenti corrispondono ai
diversi sottografi . Se L1, Lz, L1, . . . , sono le sorgenti componenti,
possiamo scrivere
L = p1L1 + P2Lz + P1L1 + . . .
dove p; è la probabilità della sorgente componente L;.
Fisicamente la situazione rappresentata è questa: vi sono
parecchie differenti sorgenti L1, Lz, L1, . . . , ognuna di struttura
statistica omogenea (sono, cioè, ergodiche). Non sappiamo a priori
quale deve essere utilizzata, ma una volta che la sequenza ha ini
zio con una data componente semplice L;, essa prosegue indefi
nitamente in conformità della struttura statistica di quella com
ponente.
52
A titolo di esempio, si possono prendere due dei processi
sopra definiti e assumere P1 = 0,2 e Pz = 0,8. Si otterrebbe una
sequenza scaturente dalla sorgente mista
L = 0,2 LI + 0,8Lz
con lo scegliere dapprima L1 o Lz con probabilità 0,2 e 0,8 e con
il generare quindi una sequenza avente come origine la scelta
fatta, qualunque sia.
Assumeremo una sorgente come ergodica ogniqualvolta non
si stabilisca il contrario. Questa assunzione mette in grado di
identificare medie lungo una sequenza con medie dell'insieme di
sequenze possibili (essendo zero la probabilità che vi siano dif
ferenze). Per esempio, la frequenza relativa della lettera A in una
particolare sequenza infinita sarà, con probabilità uno (certezza),
uguale alla sua frequenza relativa nella totalità delle sequenze.
Se P; è la probabilità dello stato i e p;(j) la probabilità di
transizione allo stato j, allora è chiaro che P;, affinché il pro
cesso sia stazionario, deve soddisfare alle condizioni di equilibrio :
pi = l: P;p;(j) .
l
Nel caso ergodico, è possibile dimostrare che, con qualunque

condizione di partenza, le probabilità Pi(N) di trovarsi nello stato
i dopo N simboli, tendono ai valori di equilibrio quando N --+ oo.
6. Scelta, incertezza ed entropia
Abbiamo descritto una sorgente di informazioni di tipo di

screto come un processo markoviano. Possiamo definire una
quantità che misuri, in qualche senso, quanta informazione è
« prodotta >> mediante un tale processo, o meglio a quale velocità
le infomazioni sono prodotte?
Supponiamo di avere un insieme di possibili eventi, le cui
probabilità di verificarsi siano p1, pz, . . . , p,.. Queste probabilità
sono note, ma questo è tutto quanto sappiamo riguardo a quale
evento si verificherà. Possiamo trovare una misura di quanta
cc scelta » comporta la selezione dell'evento, ovvero della nostra
incertezza riguardo al risultato?
53
Se una tale misura, H(pt , p,., . . . , Pn), esiste, è ragionevole
richiedere che abbia le seguenti proprietà :
l . H dovrebbe essere continua nelle p;;
2. se tutte le probabilità p; sono uguali, p; = l /n, allora H do
vrebbe essere una funzione monotonica crescente di n. Nel
caso di eventi egualmente probabili, quanti più eventi possi
bili ci sono, tanta maggior scelta, o incertezza, si ha ;
3. se una scelta viene scomposta in due scelte successive, la H
originale dovrebbe essere la somma pesata dei singoli valori
di H. Il significato di ciò è illustrato nella fig. 6. A sinistra
abbiamo tre possibilità Pt = ! , P2 = t, PJ = i. A destra, dap
prima scegliamo tra due possibilità, ciascuna con probabilità
! , e se si realizza la seconda possibilità, scegliamo ancora, con
probabilità i, t. I risultati finali hanno le stesse probabilità
di prima. Richiediamo, in questo caso speciale, che
H( ! t , i) = H(!, !) + ! H(t , t).
,
Il coefficiente ! costituisce il fattore di peso introdotto perché

questa seconda scelta si verifica solo una volta su due.
Nell'appendice 2, dimostriamo il seguente risultato :
Teorema 2: La sola misura H che soddisfa alle tre proprietà di
cui sopra è della forma:
n
H= - K l; p; log p;
i=l
dove K è una costante positiva.
Fig. 6 - Scomposizione di una scelta fra tre possibilità.
54
1 ,0
0,9 / �
0,8 l Ì\.
v '\
0,7
H 0,6
l 1\
H bits
0,5 1/ \
0,4
0,3 l \
0,2 l \
o, 1 1 / \
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
p
Fig. 7 - Entropia nel caso di due possibilità con probabilità p e (1 - p).
Questo teorema, e le condizioni richieste per la sua dimostra

zione, non sono in alcun modo necessari per la presente teo
ria. Esso è riportato principalmente per fornire una certa plau
sibilità a qualcuna delle nostre ulteriori definizioni. La giustifi
cazione effettiva di queste definizioni, comunque, risiederà nelle
loro implicazioni .
Quantità della forma H = l: Pi log Pi (la costante K di
-
pende semplicemente dalla scelta di una unità di misura) giocano

un ruolo centrale nella teoria delle informazioni in quanto misure
di informazione, scelta ed incertezza. Si riconoscerà nella for
mula di H quella dell'entropia, quale viene definita in certe for
mulazioni di meccanica statistica11 , dove Pi è la probabilità che
un sistema si trovi nella cella i del suo spazio delle fasi . H è
allora, per esempio, la H del famoso teorema H di Boltzmann .
11 Si veda, per esempio, R. C. Tolman, Principles o/ Statfstfcal Mechanics, Oxford,

Clarendon, 1938.
55
Noi chiameremo H = - l: Pi log Pi l'entropia dell'insieme di
probabilità P1, , p,.. ·Se x è una variabile casuale, scriveremo
. . •
H(x) come sua entropia; pertanto x non è un argomento di una

funzione, bensì un simbolo che sta per un numero, per diffe
renziarlo da H(y), vale a dire dall'entropia della variabile ca
suale y.
L'entropia nel caso di due possibilità con probabilità p e
q = 1 - p, vale a dire
H = - (p log p + q log q)
è tracciata nella fig. 7 come una funzione di p.
La quantità H possiede delle interessanti proprietà che di
mostrano ancor più come essa rappresenti una logica ed oppor
tuna misura di scelta, o informazione.
1. H è uguale a O se, e solo se, tutte le probabilità pi, meno
una, sono zero, avendo quest'una valore unitario. Pertanto H
diventa uguale a zero esclusivamente quando siamo certi del
risultato. Altrimenti H è positivo.
2. Per un dato n, H è massimo e uguale a log n quando tutte
le probabilità Pi sono uguali, cioè 1 /n. Questa è intuitivamen
te anche la situazione di maggior incertezza.
3. Supponiamo che vi siano in questione due eventi, x e y, con
m possibilità per il primo e n per il secondo. Sia p( i, j) la
probabilità del verificarsi congiuntamente di i per il primo
e di j per il secondo . L'entropia dell'evento congiunto è
H(x, y) = - l: p(i, j) log p( i, j)
l, i
mentre
H(x) = - l: p(i, j) log l: p(i, j)
l, f l
H(y) = - l: p( i, j) log l: p( i, j)
l, f l
Si dimostra facilmente che

H(x, y) � H(x) + H(y)
con uguaglianza solamente se gli eventi sono indipendenti (se,
cioè, p(i, j) = p(i)p(j)). L'incertezza di un evento congiunto è
minore o uguale alla somma delle singole incertezze.
56
4. Ogni mutamento nella direzione del livellamento delle proba
bilità p,, !J2, . . . , Pn incrementa in valore di H. Pertanto, se
p, < Pz e incrementiamo p,, diminuendo Pz di un uguale ammon
tare in modo che p, e pz vengono ad assumere valori più pros
simi, allora H diventa più grande. Più generalmente, se compia
mo qualunque operazione di « livellamento )) sulle p; della forma
p; = :E a;i Pi
i
dove :E a;i = :E a;i = l , dove ogni a;i � O, allora H aumenta (ad ec-
; i
cezione del caso particolare in cui questa trasformazione non

equivale ad altro che ad una permutazione delle Pi• con H che
rimane ovviamente lo stesso).
5. Supponiamo che vi siano due eventi casuali x e y come nel
caso 3, non necessariamente indipendenti. Per qualsiasi parti
colare valore i che x può assumere, esiste una probabilità con
dizionale p;(j) che y abbia il valore j. Ciò è dato da
p(i, j)
p;( j) = ----
:E'-'
--' p--;'-:
( i'-'-:
, j-:-
)
l
Definiamo l'entropia condizionale di y, H.(y), come la media del

l'entropia di y per ogni valore di x, pesata in conformità della
probabilità di ottenere quel particolare x. Cioè:
H"(y) = - :E p( i, j) log p;(j).
i. i
Questa quantità misura quanta incertezza di y in media noi ab

biamo quando ci è noto x. Sostituendo il valore di p;(j), otteniamo
H"(y) = - :E p( i , j) log p( i, j) + :E p( i, j) log :E p( i , j) =
i,j i, j i
= H(x, y) - H(x)
oppure
H(x, y) = H(x) + H"(y).
L'incertezza (o entropia) dell'evento congiunto x, y è l'incertezza
di x più l'incertezza di y quando x è noto .
6. Dai punti 3 e 5 abbiamo
57
H(x) + H( y) � H(x, y) = H(x) + H,(y).
Donde
H( y) � H,:(y).
L'incertezza di y non viene mai aumentata dalla conoscenza di x.
Essa diminuirà, a meno che x e y siano eventi indipendenti, nel
qual caso non subisce variazioni.
7. La entropia di una sorgente di informazioni
Si consideri una sorgente discreta del tipo a stati finiti prece·

dentemente visto. Per ogni possibile stato i vi sarà un insieme di
probabilità p ;(j) di produrre i vari possibili simboli j. Vi è per
tanto un'entropia H; per ciascuno stato. L'entropia di questa sor
gente sarà definita come la media di queste H, pesate in confor
mità alla probabilità di verificarsi degli stati in questione :
= - "f, P;p;(j) log p ;(j).

i, j
Questa è l'entropia della sorgente per simbolo di testo. Se il pro

cesso markoviano si sviluppa con una velocità determinata vi è
anche un'entropia al secondo.
dove f; è la frequenza media (numero di volte che si verifica al

secondo) dello stato i. Chiaramente
H' = mH
dove m rappresenta il numero medio di simboli prodotto per
secondo. H o H' misura l'ammontare di informazione generata
dalla sorgente per simbolo o al secondo.
Se i simboli in successione sono indipendenti, H è uguale sem
plicemente a - r. p ; log p;, dove p; è la probabilità del simbolo i.
Supponiamo in questo caso di prendere in considerazione un
lungo messaggio di N simboli. Esso conterrà con molta proba
bilità circa p1N presenze del primo simbolo, p2N presenze del
58
secondo, ecc . Di conseguenza, la probabilità di questo partico
lare messaggio sarà approssimativamente
p = Pf•N p�,N . . . P�·N
ovvero
log p == N l: Pi log Pi
i
log p == - NH
log l/p
H ==
N
H , pertanto, è approssimativamente il logaritmo del reciproco
della probabilità di una tipica lunga sequenza diviso per il nu
mero dei simboli della sequenza. La medesima conclusione vale
per qualunque sorgente. Espresso con maggior precisione abbia
mo (vedi appendice 3):
o
Teorema 3 : Scelti a piacere E > O e >O, possiamo trovare un
No tale che le sequenze di qualsivoglia lunghezza N � No vengono
a cadere in due classi :
l . un insieme la cui probabilità totale è minore di E.
2. la parte restante, tutti i membri della quale hanno probabi
lità che soddisfano alla disuguaglianza
l vlo -1
- H l<o.
In altre parole siamo quasi certi di avere �
lo p -1
molto vicino a
H, quando N è grande.
Un teorema strettamente in rapporto con questo tratta del nu
mero di sequenze di varie probabilità. Si considerino nuovamente
le sequenze di lunghezza N e siano esse disposte in ordine di
probabilità decrescente. Definiamo n(q) il numero di sequenze
che dobbiamo prendere da questo insieme iniziando con la più
probabile, al fine di ottenere per quelle prese una probabilità
totale q.
Teorema 4 :
lim log n(q) =
H
N-+ oo N
59
quando q non è uguale nè a O nè a l .
Possiamo interpretare log n( q ) come i l numero di bit richiesto
per specificare la sequenza quando prendiamo in considerazione
solamente le sequenze più probabili aventi una probabilità to-
tale q . Quindi ;
log (q)
è il numero di bit per simbolo necessari
per la specificazione. Il teorema afferma che per N grande, esso
sarà indipendente da q ed uguale a H. La velocità di aumento
del logaritmo del numero di sequenze ragionevolmente proba
bili è data da H, indipendentemente dalla interpretazione di
« ragionevolmente probabile ». Grazie a questi risultati, che sono
dimostrati nella appendice 3, è possibile, per la maggior parte

degli scopi, trattare le lunghe sequenze come se ce ne fossero
solo 28N , ciascuna delle quali con probabilità 2 -HN.
I due teoremi successivi mostrano che H e H' possono essere
determinate mediante operazioni limiti direttamente dai dati sta
tistici delle sequenze del messaggio, senza riferimento agli stati
ed alle probabilità di transizione tra gli stati.
Teorema 5 : Sia p(B;) la probabilità di una sequenza B; di sim
boli provenienti dalla sorgente. Sia
GN = -
N
l
f p(B;) log p(B;)
dove la sommatoria è estesa a tutte le sequenze B, che conten
gono N simboli. Allora GN è una funzione monotona decrescente
di N e
lim GN = H.
N� -
Teorema 6 : Sia p(B;, S;) la probabilità di una sequenza B; seguita

da un simbolo S; e sia Ps;(S;) = p(B;, S;)/p(B;) la probabilità con
dizionale di avere S; dopo B;. Sia
FN = - � p(B;, S;) log ps;(S;)
i, i
dove la sommatoria è fra tutti i blocchi B ; di N - l simboli e

fra tutti i simboli S;. Allora FN è una funzione monotona de
crescente di N,
60
FN NGN - (N - 1) GN-1,
=
1 N
GN = - I:. FN,
N 1
FN � GN,
e
lim FN = H.
N-+ -
Questi risultati sono derivati nella appendice 3. Essi mostra

no che è possibile ottenere una serie di approssimazioni ad H
col prendere solamente in considerazione la struttura statistica
delle sequenze estendentisi su l , 2, . . . , N simboli. FN costituisce
la più alta approssimazione. Infatti FN è l'entropia della appros
simazione di N-mo grado alla sorgente del tipo sopra discusso.
Se non vi sono influenze statistiche riguardanti più di N simboli,
se cioè la probabilità condizionale del successivo simbolo, cono
scendo i precedenti (N - 1), non è modificata dalla conoscenza
di alcuno prima di quelli, allora FN = H. FN naturalmente è l'en
tropia condizionale del simbolo successivo quando i precedenti
(N - l ) sono noti, mentre GN è l'entropia per simbolo di blocchi
di N simboli.
Il rapporto tra l'entropia di una sorgente è il valore massimo che
essa potrebbe avere, limitatamente agli stessi simboli, sarà detto
entropia relativa della sorgente. Questa, come si vedrà in seguito,
costituisce la massima compressione possibile quando procedia
mo alla codificazione con un medesimo alfabeto. Uno meno l'en
tropia relativa costituisce la ridondanza. La ridondanza del co
mune inglese, non prendendo in considerazione la struttura sta
tistica di estensioni maggiori di otto lettere, è approssimativa
mente del SO%. Ciò significa che, quando scriviamo in inglese,
la metà di quanto scriviamo è determinata dalla struttura del
linguaggio e metà è liberamente scelta. La misura del SO% è
stata ricavata mediante parecchi metodi indipendenti che hanno
dato tutti risultati di questo ordine. Uno di questi metodi con
siste nel calcolare l'entropia delle approssimazioni all'inglese.
Un secondo metodo è quello di cancellare un certo numero di
lettere da un testo in lingua inglese, preso come campione, e
far provare qualcuno a rimetterle a posto . Se è possibile rimet
terle quando ne è stato cancellato il SO% la ridondanza deve
61
essere maggiore del SO% . Un terzo metodo si basa su certi risul
tati noti in crittografia.
Due estremi di ridondanza nella prosa inglese sono rappresentati
dall'inglese essenziale (Basic English) e dal libro di James Joyce,
Finnegans Wake. Il vocabolario di Basic English è limitato a 850
parole e la ridondanza è molto elevata. Ciò si riflette nella espan
sione che si verifica quando si traduce un passo in Basic English.
Joyce, dall'altra parte, amplia il vocabolario ed è costretto a com
piere una compressione del contenuto semantico.
La ridondanza di una lingua è in rapporto con l'esistenza di pa
role crociate. Se la ridondanza è zero, qualunque sequenza di let
tere costituisce un accettabile testo della lingua e qualunque
schema bidimensionale di lettere forma una cruciverba. Se la
ridondanza è troppo elevata, la lingua impone troppe restrizioni
perché siano possibili ampie parole crociate. Un'analisi più det
tagliata mostra che, se assumiamo che le limitazioni imposte dalla
lingua siano di natura piuttosto caotica e casuale, vaste parole
crociate sono appena possibili quando la ridondanza è del 50%.
S e l a ridondanza fosse del 33% sarebbero possibili parole cro
ciate tridimensionali, ecc.
8. Rappresentazione delle operazioni di codifica e di decodifica
Dobbiamo ancora rappresentare matematicamente le operazioni

effettuate dal trasmettitore e dal ricevitore nel codificare e nel
decodificare le informazioni. Entrambi saranno detti trasduttore
discreto. L'ingresso del trasduttore è costituito da una sequenza
di simboli di ingresso e la sua uscita da una sequenza di simboli
di uscita. Il trasduttore può possedere una memoria interna di
modo che la sua uscita non dipende solamente dall'attuale sim
bolo di ingresso, ma anche dagli eventi passati. Noi assumiamo
che la memoria interna sia finita, che esista, cioè, un numero
finito m di possibili stati del trasduttore e che la sua uscita
sia una funzione dello stato attuale e dell'attuale simbolo di
ingresso. Lo stato successivo sarà una seconda funzione di queste
due quantità. Pertanto un trasduttore può essere descritto me
diante due funzioni:
62
y,. = f(x,., a,. )
a,.+ l = g(x,. , a,. )
dove:
x,. è l'ennesimo simbolo di ingresso;
a,. è lo stato del trasduttore quando viene introdotto l'n-mo
simbolo d'ingresso ;
y,. è il simbolo di uscita (o sequenza di simboli di uscita) pro-
dotto allorché viene introdotto x,. se lo stato è a,..
Se i simboli di uscita di un trasduttore possono venir identificati
con i simboli di ingresso di un secondo trasduttore, questi pos
sono essere collegati in cascata e ne risulta ancora un trasdut
tore. Se esiste un secondo trasduttore che opera sull'uscita del
primo e riproduce i dati di ingresso originali, il primo trasdut
tore sarà detto non-singolare e il secondo sarà detto il suo inverso.
Teorema 7: L'uscita di un trasduttore a stati finiti azionato da
una sorgente statistica a stati finiti è una sorgente statistica a
stati finiti, con entropia (per unità di tempo) minore od eguale
a quella dell'ingresso. Se il trasduttore è non-singolare esse sono
uguali.
Sia a lo stato della sorgente che produce una sequenza di simboli
xi ; e sia P lo stato del trasduttore che produce, nella sua uscita,
blocchi di simboli Yi· Il sistema combinato può essere rappre
sentato dallo << spazio dello stato del prodotto » delle coppie ( a, p).
Due punti nello spazio ( at, Pt ) e ( az, Pz ) sono collegati da una li
nea se a1 può produrre una x che cambia Pt in Pz e a questa linea
viene data la probabilità di tale x in questo caso. La linea è con
traddistinta con il blocco di Yt simboli prodotti dal trasduttore.
L'entropia dell'uscita può essere calcolata come la somma pesata
degli stati. Se facciamo dapprima la somma su p ciascun termine
risultante è minore o uguale al termine corrispondente per a,
quindi l'entropia non è aumentata . Se il trasduttore e non-sin
golare ammettiamo che la sua uscita sia collegata al trasduttore
inverso. Se H:, H;, e H; sono l'entropia di uscita della sorgente,
del primo e del secondo trasduttore, rispettivamente, allora
Hl � Hi � H; = Hl e perciò Hl = H;.
Supponiamo di avere a che fare con un sistema di limitazioni
per le sequenze possibili, del tipo rappresentabile mediante
un grafo lineare, come nella fig. 2. Se si assegnassero probabi-
63
lità plf/ alle varie linee che collegano lo stato i allo stato j, que
sto diverrebbe una sorgente. Vi è un particolare valore assegna
bile che rende massima la conseguente entropia (v. appendice 4).
Teorema 8 : Abbia il sistema di limitazioni considerato come un
canale una capacità C = log W. Se poniamo
Bi
r•J
Pii = B. W_,r•l
'1
'
dove l't} è la durata del smo simbolo che porta dallo stato i allo
stato j e B; soddisfa:
allora H è resa massima ed uguale a C.

Mediante opportuna assegnazione delle probabilità di transizio
ne, l'entropia dei simboli su un canale può essere massimizzata e
resa uguale alla capacità del canale.
9. Il teorema fondamentale per un canale non disturbato

Giustificheremo ora la nostra interpretazione di H come velo
cità nella produzione di informazioni, col provare che H deter
mina la capacità del canale richiesta con la più efficiente codifica.
Teorema 9: Una sorgente abbia entropia H ( bit per simbolo) e
un canale abbia una capacità C ( bit al secondo). E' possibile in
tal caso codificare l'uscita della sorgente in modo tale da tra-
smettere alla velocità media di Z -E simboli al secondo sul
canale, dove è arbitrariamente piccolo. Non è possibile trasmet-
E
. .
' supertore a c .
tere ad una veloclta' medta
H
La parte inversa del teorema, ossia che non si può eccedere Z
può venir dimostrata col notare che l'entropia al secondo del
l'ingresso del canale è uguale a quella della sorgente, dal mo
mento che il trasmettitore deve essere non singolare, e che anche
questa entropia non può essere superiore alla capacità del ca
nale. Pertanto H' � C e il numero di simboli al secondo =
= H'/H � C/H.
64
La prima parte del teorema sarà dimostrata in due differenti
maniere. Il primo metodo consiste nel prendere in considera
zione l'insieme di tutte le sequenze di N simboli prodotte dalla
sorgente. Se N è grande possiamo dividere le sequenze in due
gruppi, uno contenente meno di 2<H+T)JN membri e il secondo con
tenente meno di 2RN membri (dove R è il logaritmo del numero di
simboli differenti) e avente una probabilità complessiva minore di
p.. All'aumentare di N, 71 e p. tendono a zero. Il numero di segnali di
durata T nel canale è maggiore di 2<c-o)T con O piccolo quando T
è grande. Se poniamo
T = (� + À ) N
vi sarà un sufficiente numero di sequenze di simboli del canale

per il gruppo ad alta probabilità, quando T e N sono sufficien
temente grandi (comunque sia piccolo À), e anche qualcuna in
più. Il gruppo ad alta probabilità viene codificato in questo in
sieme in un arbitrario modo biunivoco. Le restanti sequenze sono
rappresentate da sequenze più grandi, che iniziano e terminano
con una delle sequenze non usate per il gruppo ad alta proba
bilità. Questa speciale sequenza si comporta come un segnale di
inizio e di fine per un differente codice. Entro un tempo suffi
ciente si possono dare abbastanza differenti sequenze per tutti
i messaggi a bassa probabilità. Questo richiederà
T. = ( {- + ) N Q]
dove Q] è piccolo. La velocità media di trasmissione in simboli

di messaggio al secondo sarà allora maggiore di
[ ( 1 - ò) N +
T
ò
T
�
]-•
All'aumentare di N, ò, À e rp tendono a zero e la velocità si avvi-
. c
cma a '
H
Un altro metodo di operare questa codifica e perciò di dimostrare
il teorema può venir descritto come segue: si ordinino nel senso
di probabilità decrescente i messaggi di lunghezza N e si sup
p onga che le loro probabilità siano P• � Pz � P3 . . . � p,.. Sia
65
s-l
P. = �l p; ; cioè P. è la probabilità cumulativa fino a p. esclusa.
Codifichiamo dapprima in un sistema binario. Il codice binario

per un messaggio s viene ottenuto sviluppando P. come numero
binario. Lo sviluppo è eseguito fino a m, posizioni, dove m. è il
numero intero che soddisfa :
l l
log2 � m5 < l + log2 -- .
Ps Ps
--
Quindi i messaggi ad alta probabilità sono rappresentati da codici

brevi e quelli a bassa probabilità da codici lunghi. Da queste di
suguaglianze abbiamo
!.
2 , � Ps < 2 ,_, 2 •
Il codice per P, differirà da tutti i successivi in una o più delle

sue m, posizioni, dal momento che tutte le rimanenti P; sono
!.
almeno di -2 -; più grandi e i loro sviluppi binari differiscono
perciò nelle prime m, posizioni. Di conseguenza tutti i codici sono
differenti ed è possibile ricostruire il messaggio dal suo codice.
Se le sequenze del canale non sono già sequenze di cifre binarie,
esse possono venir ascritte a numeri binari in modo arbitrario
e il codice binario tradotto quindi in segnali adatti per il canale.
Il numero medio H1 di cifre binarie usate per simbolo del mes
saggio originale viene facilmente valutato. Abbiamo
l
H1 = 'Lm,p,.
N
Ma,
-! L ( log2 �s ) Ps � ! L m,p, < ! L ( l + lo� �s ) Ps

e perciò,
l
GN � Hl < GN + .
N
All'aumentare di N, GN tende a H, l'entropia della sorgente, e H1
tende ad H.
66
Da ciò vediamo che l'inefficienza nella codifica, quando viene
usato soltanto un « ritardo ,, finito di N
simboli, non è necessario
che sia maggiore di � più la differenza tra la reale entropia
Hpercentuale
e la entropia GN calcolata per sequenze di lunghezza N. La
di tempo in eccesso rispetto all'ideale necessario è
perciò minore di
HN- - 1 .
GN 1
+
H
Questo metodo di codifica è sostanzialmente il medesimo di quello
ideato in modo indipendente da R. M. Fano12 • Il suo metodo con
siste nel porre i messaggi di lunghezza N
in ordine di probabilità
decrescente. Si divide questa serie in due gruppi aventi proba
1.
bilità il più possibile equivalenti. Se il messaggio è nel primo
gruppo la sua prima cifra binaria sarà O, altrimenti sarà I grup
pi vengono similarmente divisi in sottoinsiemi di probabilità
pressoché uguale e il particolare sottoinsieme determina la se
conda cifra binaria. Si continua con questo procedimento fino
a quando ciascun sottoinsieme non contiene che un solo mes
saggio. Si vede facilmente che, a parte differenze minori (gene
ralmente nell'ultima cifra), questo metodo corrisponde al pro
cesso aritmetico prima descritto.
10. Discussione ed esemp i
Al fine di ottenere il massimo trasferimento di potenza da un

generatore ad un carico, deve in generale essere introdotto un
trasformatore cosicché il generatore visto dal carico presenti una
resistenza uguale a quella del carico stesso. La situazione è qui
pressapoco analoga. Il trasduttore che effettua la codifica do
vrebbe adattare in senso statistico la sorgente al canale. La sor
gente vista dal canale attraverso il trasduttore dovrebbe avere
la medesima struttura statistica della sorgente che rende mas
sima l'entropia del canale. Il contenuto del teorema 9 è che, seb
bene non sia generalmente possibile un esatto adattamento, pos-
12 Technical Report No. 65, The Research Laboratory of Electronics, M.I.T.,

17 marzo, 1949.
67
siamo approssimarci ad esso nella misura che desideriamo. Il
rapporto tra la effettiva velocità di trasmissione e la capacità C
può essere chiamato efficienza del sistema di codifica. Questa è
naturalmente uguale al rapporto tra l'effettiva entropia dei sim
boli del canale e la maggior entropia possibile.
In generale, una codifica ideale o vicina all'ideale richiede un
lungo ritardo nel trasmettitore e nel ricevitore. Nel caso di assenza
di disturbi, che stiamo considerando, la principale funzione di
questo ritardo è quella di permettere un adattamento ragione
volmente buono delle probabilità alle corrispondenti lunghezze
delle sequenze. Con un buon codice, il logaritmo della probabi
lità reciproca di un lungo messaggio deve essere proporzionale
alla durata del segnale corrispondente ; infatti
l log p -1
T
-C l
deve essere piccolo per tutti, all'infuori che per una piccola parte
dei messaggi lunghi.
Se una sorgente può produrre solamente un particolare mes
saggio, la sua entropia è zero e non vi è bisogno di alcun canale.
Per esempio, una macchina calcolatrice predisposta per calcolare
le cifre successive di 1r produce una sequenza definita senza alcun
elemento di casualità. Non è necessario alcun canale per « tra
smettere ,, questa sequenza ad un altro punto. Si potrebbe co
struire una seconda macchina per calcolare la stessa sequenza
in quel punto. Comunque ciò può risultare poco pratico. In tal
caso possiamo preferire ignorare tutte o parte delle cono
scenze statistiche che abbiamo riguardo alla sorgente. Potremmo
considerare le cifre di 1r come se fossero una sequenza fatta a
caso in quanto costruiamo un sistema in grado di inviare qua
lunque sequenza di cifre. In modo simile, possiamo decidere di
usare qualcuna delle nostre conoscenze statistiche riguardanti
l'inglese, ma non tutte, nel costruire un codice. In tal caso con
sideriamo la sorgente con la massima entropia soggetta alle con
dizioni statistiche che desideriamo mantenere. L'entropia di que
sta sorgente determina la capacità del canale che è necessaria e
sufficiente. Nell'esempio del 1r la sola informazione conservata è
che tutte le cifre sono scelte dall'insieme O, l , . . . , 9. Nel caso
68
dell'inglese potremmo desiderare di servirei del risparmio stati
stico possibile grazie alle frequenze delle lettere, ma niente altro.
La sorgente di massima entropia è allora l'approssimazione di
primo grado all'inglese e la sua entropia determina la richiesta
capacità del canale.
Come semplice esempio di qualcuno di questi risultati, conside
riamo una sorgente che produce una sequenza di lettere scelte
tra A, B, C, D con probabilità ! , !, l, l essendo scelti in modo in
dipendente i simboli in successione. Abbiamo
H = (! log ! + ! log ! + i log l)
! bit per simbolo.
-
Pertanto possiamo approssimare un sistema di codifica per met

tere in codice messaggi aventi origine da questa sorgente in cifre
binarie, con una media di ! cifre binarie per simbolo. In que
sto caso possiamo effettivamente raggiungere il valore limite per
mezzo del seguente codice (ottenuto mediante il metodo della
seconda prova del teorema 9) :
A o
B lO
c 1 10
D 111
Il numero medio di cifre binarie usate nel codificare una se
quenza di N simboli sarà
N (! x l + ! x 2 + i X 3 ) = ì N.
Si vede facilmente che le cifre binarie O e l hanno ciascuna pro
babilità ! , t, così l'entropia H per le sequenze messe in codice è
di un bit per simbolo. Dal momento che, nella media, abbiamo ì
simboli binari per lettera originale, le entropie in una unità di
tempo sono le stesse. La massima entropia possibile per l'insieme
originale è log 4 = 2, che si verifica quando A , B, C, D hanno
probabilità !, !, !, !. Pertanto la entropia relativa è -f. Possia
mo tradurre le sequenze binarie nell'insieme di simboli originale
su una base due-a-uno mediante la seguente tabella:
00 A'
01 B'
10 C'
11 D'
69
Questo doppio processo codifica allora il messaggio originale
negli stessi simboli, ma con un rapporto di compressione me-
.
d 1a d"1 -78-
•
Come secondo esempio, consideriamo una sorgente che produce

una sequenza di A e di B con probabilità p per A e q per B.
se p < < q, abbiamo
H = - log pP( 1 - p)1 -p
= - p log p( l - p)O -P>/P
e
=. p log - .
p
In tal caso è possibile costruire una codifica abbastanza buona
del messaggio su un canale di O e l inviando una particolare
sequenza, poniamo 0000, per il poco frequente simbolo A e quindi
una sequenza che indica il numero di B che lo seguono. Questo
potrebbe essere espresso in termini binari eliminando tutti i
numeri contenenti la particolare sequenza ; i numeri fino a 16
sono rappresentati come al solito; 1 6 è rappresentato dal numero
binario successivo a 16 che non contiene quattro zeri, precisa
mente 17 = 1000 1 , ecc .
Si può dimostrare che quando p --+ O la codifica tende all'ideale,
a patto che la lunghezza della particolare sequenza sia opportu
namente adattata.
70
2
Il canale discreto con disturbo
1 1 . Rappresentazione di un canale discreto disturbato
Consideriamo ora il caso in cui il segnale è perturbato da disturbi

durante la trasmissione o all'uno o all'altro dei terminali. Ciò
significa che il segnale ricevuto non è necessariamente quello
stesso emesso dal trasmettitore. Si possono distinguere due casi.
Se un particolare segnale trasmesso produce sempre lo stesso
segnale ricevuto, se cioè il segnale ricevuto è una funzione defi
nita del segnale trasmesso, allora l'effetto può esser chiamato
distorsione. Se questa funzione ha un inverso - non producendo
due segnali trasmessi il medesimo segnale ricevuto - la distor
sione può essere corretta, almeno in via di principio, compiendo
l'operazione funzionalmente inversa sul segnale ricevuto.
Il caso che qui interessa è quello in cui il segnale non subisce
sempre lo stesso cambiamento nel corso della trasmissione. In
questo caso possiamo assumere che il segnale ricevuto E sia una
funzione del segnale trasmesso S e di una seconda variabile, il
disturbo N.
E = f(S, N)
Il disturbo è considerato come una variabile casuale proprio come
lo era precedentemente il messaggio. In generale, esso può essere
rappresentato mediante un idoneo processo stocastico. Il tipo
più generale di canale discreto disturbato che prenderemo in con
siderazione è una generalizzazione del canale a stati finiti privo
di disturbi descritto precedentemente. Assumiamo un numero
71
finito di stati e un insieme di probabilità
P".;({J, j).
Questa è la probabilità che, se il canale si trova in uno stato a
e viene trasmesso il simbolo i, sia ricevuto il simbolo i e che il
canale venga a trovarsi nello stato {3. Pertanto a e {3 si estendo
no ai possibili stati ; i si estende ai possibili segnali trasmessi
e i si estende ai possibili segnali ricevuti. Nel caso in cui sim
boli successivi vengano perturbati in modo indipendente dal di
sturbo, vi è un solo stato e il canale è rappresentato dall'insieme
di probabilità di transizione p;(j), la probabilità che il simbolo i
trasmesso venga ricevuto come simbolo i·
Se un canale disturbato è alimentato da una sorgente vi sono
in azione due processi statistici : la sorgente e il disturbo. In
tal modo vi sono un certo numero di entropie che possono es
sere calcolate. Prima vi è l'entropia H(x) della sorgente o del
l'ingresso al canale (esse saranno uguali se il trasmettitore è
non-singolare). L'entropia dell'uscita del canale, vale a dire dei
segnali ricevuti, sarà indicata con H(y). Nel caso non disturbato
si aveva H(y) = H(x). L'entropia congiunta d'ingresso e di uscita
sarà H(x, y ) Vi sono infine due entropie condizionali H (y) e
.
H1(x), l'entropia di uscita quando è noto l'ingresso e viceversa.

Tra queste quantità abbiamo le relazioni
H(x, y) = H(x) + Hx(Y) = H(y) + Hy(x).
Tutte queste entropie possono venir misurate o come entropia
al secondo oppure come entropia per simbolo.
12. Equivocazione e capacità del canale
Se il canale è disturbato non è, in linea generale, possibile rico

struire con certezza il messaggio originale o il segnale trasmesso
mediante alcuna operazione sul segnale ricevuto E . Vi sono, co
munque, dei modi di trasmettere le informazioni i quali sono
ottimali nel combattere il disturbo. Questo è il problema che
prendiamo ora in considerazione.
Supponiamo che vi siano due possibili simboli O e l e che stiamo
trasmettendo alla velocità di 1000 simboli al secondo con prcr
72
babilità po = p, = ; Pertanto, la nostra sorgente produce infor
.
mazioni al ritmo di 1000 bit al secondo. Durante la trasmissione

il disturbo introduce degli errori cosicché, in media, l simbolo
su 100 viene ricevuto in modo sbagliato (O invece di l , oppure l
invece di O). Quale è la velocità di trasmissione delle informa
zioni? Certamente meno di 1000 bit al secondo, dato che circa
l' l % dei simboli ricevuti non sono esatti. Il nostro primo impulso
potrebbe essere quello di dire che la velocità è di 990 bit al se
condo, semplicemente sottraendo il supposto numero di errori.
Questa soluzione non è affatto soddisfacente dato che trascura di
tener conto della mancanza di conoscenza da parte del destina
tario della localizzazione degli errori. Possiamo arrivare ad un
caso limite ed immaginare che il disturbo sia talmente grande
che i simboli ricevuti sono completamente indipendenti da quelli
trasmessi . La probabilità di ricevere l è !, qualunque sia il sim
bolo trasmesso, e lo stesso dicasi per O. Quindi circa la metà
dei simboli ricevuti sono esatti grazie al solo caso e diremmo
che il sistema trasmette 500 bit al secondo, mentre in realtà non
è stata trasmessa assolutamente alcuna informazione. Si otter
rebbe una trasmissione ugualmente 11 buona » facendo comple
tamente a meno del canale e giocando a testa o croce al terminale
ricevente. Evidentemente la giusta correzione da applicare al
l'ammontare di informazioni trasmesse è costituita dalla quan
tità di queste informazioni che viene persa nel segnale ricevuto,
o alternativamente dall'incertezza riguardo a ciò che è stato ef
fettivamente inviato, quando abbiamo ricevuto un segnale. Te
nendo conto del nostro precedente discorso sulla entropia come
di una misura dell'incertezza, sembra logico servirsi della entro
pia condizionale del messaggio, conoscendo il segnale ricevuto,
come di una misura di questa informazione perduta. Questa è in
dubbiamente la definizione corretta, come vedremo in seguito.
Seguendo questa idea, si otterrebbe la velocità della effettiva tra
smissione, R, col sottrarre dalla velocità di produzione (cioè, dal
l'entropia della sorgente) l'entropia condizionale media :
R = H(x) - Hy(X).
L'entropia condizionale Hy(x) sarà chiamata, per convenienza,
l'equivocazione. Essa misura la ambiguità media del segnale rice
vuto. Nell'esempio considerato prima, se viene ricevuto uno O,
73
la probabilità a posteriori che sia stato trasmesso uno O è
di 0,99, mentre quella che sia stato trasmesso un l è di 0,01 .
Questi valori sono invertiti se viene ricevuto un l . Donde
H1(x) = - [0,99 log 0,99 + 0,01 log 0,01 ]
=0,08 1 bit/ simbolo
ovvero 8 1 bit al secondo.
Possiamo dire che il sistema sta trasmettendo ad una velocità
di 1000 - 8 1 = 919 bit al secondo. Nel caso estremo in cui uno
O ha le stesse probabilità di essere ricevuto come O o come l, e
idem per un l , le probabilità a posteriori sono t, !- . e
H,(x) = - [t log t + t log !- ]
= l bit per simbolo
o 1000 bit al secondo. La velocità di trasmissione è allora O, come
deve essere. Il teorema seguente fornisce una diretta, intuitiva
interpretazione dell'equivocazione e serve anche a giustificarla
come l'unica misura appropriata. Prendiamo in considerazione un
sistema di comunicazione e un osservatore (o un dispositivo ausi
liario) che può vedere sia ciò che viene inviato, sia ciò che viene
recuperato (con gli errori dovuti al disturbo). Questo osservatore
nota gli errori nel messaggio ricostruito e trasmette su un << ca
nale di correzione » i dati al punto di ricezione, onde mettere
in grado il ricevitore di correggere detti errori. La situazione
viene indicata schematicamente nella fig. 8.
Teorema 10: Se il canale di correzione possiede una capacità
uguale ad H,(x) è possibile codificare i dati di correzione in modo
da inviarli tramite questo canale e correggere tutti gli errori meno
una frazione E di essi arbitrariamente piccola. Ciò non è possibile
se la capacità del canale è minore di H,(x).
Approssimativamente, quindi, Hy(x) è l'ammontare di informa
zione supplementare che deve essere fornita, al secondo, al punto
di ricezione per correggere il messaggio ricevuto.
Per provare la prima parte, si considerino lunghe sequenze del
messaggio ricevuto M' e del corrispondente messaggio originale M.
Avremo logaritmicamente THy(x) sequenze M che potrebbero ra
gionevolmente aver prodotto ogni sequenza M'.
Abbiamo pertanto THy(x) cifre binarie da inviare ogni T secondi.
74
dati di
correzione
osservatore
l r2!
�......., f-�
M
l M
sorgente trasmettitore ricevitore dispositivo
per la
correzione
Fig. 8 - Schema di un sistema con correzione.
Ciò può essere fatto con frequenza e di errori su un canale di

capacità H,(x). La seconda parte del teorema la si può dimostrare
notando, innanzitutto, che per qualunque variabile casuale di
screta x, y, z
H,( x, z) � H,(x).
La parte sinistra può essere sviluppata per dare
H,(z) + H1z(x) � H,(x)
H,z(x) � H,(x) - H,( z) � H,(x) - H( z)
Se identifichiamo x come l'uscita della sorgente, y come il se
gnale ricevuto e z come il segnale inviato sul canale di corre
zione, allora la parte destra costituisce l'equivocazione meno la
velocità di trasmissione sul canale di correzione. Se la capacità
di questo canale è minore dell'equivocazione, la parte destra della
disuguaglianza sarà maggiore di zero e H,z(x) >O. Ma questa è
l'incertezza di ciò che è stato inviato, conoscendo sia il segnale
ricevuto che il segnale di correzione. Se essa è maggiore di zero
la frequenza di errori non può essere arbitrariamente piccola.
Esempio :
Supponiamo che gli errori si verifichino a caso in una sequenza di cifre
binarie: sia p la probabilità che una cifra sia errata e sia q = l - p la
probabilità che sia esatta. Questi errori possono venir corretti se la loro
posizione è nota. Pertanto il canale di correzione deve soltanto inviare
75
informazioni riguardo a queste posizioni. Questo equivale a trasmettere
da una sorgente che produce cifre binarie con probabilità p per l (sba
gliato) e q per O (esatto). Ciò richiede un canale di capacità
- [ p log p + q log q]
che è l'equivocazione del sistema originale.
La velocità di trasmissione R può essere scritta in altre due forme

dovute alle identità sopra notate. Abbiamo
R = H(x) - H1(x)
= H(y) - Hx(Y)
= H(x) + H(y) - H(x, y).
La prima espressione è una definizione ed è già stata interpretata

come l'ammontare di informazioni inviate meno l'incertezza su
ciò che è stato inviato. La seconda misura l'ammontare ricevuto
meno la parte di esso dovuta al disturbo. La terza è la somma
delle due quantità meno l'entropia congiunta e perciò in un certo
senso è il numero di bit al secondo comune alle due. Pertanto
tutte e tre le espressioni hanno un certo significato intuitivo.
La capacità C di un canale disturbato dovrebbe essere la massima
velocità di trasmissione possibile, vale a dire la velocità quando
la sorgente è opportunamente messa in rapporto col canale.
Definiamo perciò la capacità del canale con
C = Max (H(x) - H1(x))
dove la differenza massima è con riferimento a tutte le possibili
sorgenti di informazioni usate come ingressi al canale. Se il ca
nale è non disturbato, H1(x) = O . La definizione è allora equiva
lente a quella già data per un canale non disturbato, dato che
l'entropia massima per il canale è la sua capacità, come risulta
dal teorema 8.
13. Il teorema fondamentale per un canale discreto con disturbo
Può apparire sorprendente definire una capacità C determinata

per un canale disturbato, dal momento che in questo caso non
possiamo mai inviare informazioni sicure. E' chiaro, comunque,
che inviando le informazioni in una forma ridondante la proba
bilità di errori può venir ridotta. Per esempio, ripetendo più volte
76
il messaggio e mediante uno studio statistico delle differenti ver
sioni del messaggio che si sono ricevute, la probabilità di errori
potrebbe essere resa molto piccola. Ci si aspetterebbe, comun
que, che, per fare tendere a zero questa probabilità di errori,
debba aumentare indefinitamente la ridondanza della codifica,
e perciò tendere a zero la velocità di trasmissione. Questo non
è assolutamente vero. Se lo fosse non esisterebbe una capacità
molto ben definita, ma solamente una capacità per una data fre
quenza di errori, o per una data equivocazione ; la capacità di
minuirebbe quando i requisiti di errore fossero resi più strin
genti. In realtà la capacità C sopra definita ha un significato
molto preciso. E' possibile inviare informazioni alla velocità C
attraverso il canale con una frequenza di errori o una equivoca
zione piccola quanto si vuole mediante una opportuna codifica.
Questa affermazione non è vera per alcuna velocità superiore a C.
Se si opera un tentativo di trasmettere ad una velocità superiore
a C, poniamo C + R1, allora vi sarà necessariamente una equivo
cazione uguale o maggiore della eccedenza R1. La natura si prende
la contropartita col richiedere proprio quella incertezza, cosicché
otteniamo, in effetti, di completamente esatto, non altro che C.
La situazione è presentata nella fig. 9. La velocità di informazione
entro il canale è riportata in ascisse e l'equivocazione in ordinate.
Qualsiasi punto sopra la linea in grassetto nella regione tratteg
giata può essere raggiunto, mentre i punti al di sotto della stessa,
no. I punti della linea non possono in generale essere raggiunti,
salvo, normalmente, due di essi. Questi risultati costituiscono la
principale giustificazione per la definizione di C e saranno ora
provati.
Teorema 11 : Si abbia un canale discreto con capacità C e si abbia
una sorgente discreta con entropia al secondo H. Se H � C, esi
ste un sistema di codifica tale che l'uscita della sorgente può es-
C H (x)
Fig. 9 - L'equivocazione possibile per una data entropia di ingresso ad
un canale.
77
sere trasmessa sul canale con una frequenza di errori arbitraria
mente piccola (o una equivocazione arbitrariamente piccola). Se
H > C, è possibile codificare la sorgente in modo che l'equivo
cazione sia minore di H - C + E, dove E è arbitrariamente piccola.
Non esiste alcun metodo di codifica che consenta una equivoca
zione minore di H - C.
Il metodo per dimostrare la prima parte di questo teorema non
consiste nell'esporre un metodo di codifica che abbia le proprietà
desiderate, bensì nel mostrare che un tale codice deve esistere
in un certo gruppo di codici. Infatti faremo la media della fre
quenza di errori in questo gruppo e mostreremo che questa media
può essere resa minore di E. Se la media di un insieme di numeri
è minore di E deve esistere almeno uno dei componenti dell'in
sieme che è minore di E. Questo confermerà il risultato desiderato.
La capacità C di un canale disturbato è stata definita come
C = Max (H(x) - Hy(x))
dove x è l'ingresso e y l'uscita. Il calcolo della differenza mas·
sima avviene fra tutte le sorgenti che potrebbero essere usate
come ingresso al canale.
Sia So una sorgente che raggiunge la massima capacità C. Se que
sta capacità massima non è in realtà raggiunta da alcuna sorgente
(ma soltanto avvicinata come limite), So sarà una sorgente che si
approssima a fornire la velocità massima. Supponiamo che So sia
usata come ingresso al canale. Consideriamo le possibili sequenze
di lunga durata T, trasmesse e ricevute. Sarà vero quanto segue:
l. le sequenze trasmesse si suddividono in due classi, un gruppo
ad alta probabilità con circa 2TH<x> membri e le restanti sequenze
di bassa probabilità totale;
2. analogamente, le sequenze ricevute si suddividono in un in
sieme ad alta probabilità di circa 2TH <yJ membri e in un insieme
a bassa probabilità delle restanti sequenze;
3. ogni uscita ad alta probabilità potrebbe essere prodotta da
circa 2TH,<x> ingressi. La probabilità totale di tutti gli altri casi
è piccola ;
4. ogni ingresso ad alta probabilità potrebbe dar luogo a circa
2TH,<x> uscite. La probabilità totale di tutti gli altri casi è piccola.
78
E
•
•
M
• •
• •
2H(:x)T •
messaggi
2H(y)T
ad alta
• segnali rice-
probabilità
vuti ad alta
•
probabilità
• •
• •
: cz;zee:
• effetti ragio-
nevoli per
•
•
ciascun M
Fig. 10 - Rappresentazione schematica delle relazioni tra ingressi e uscite

di un canale.
Tutte le E e le ò implicate dai termini « bassa ( o piccola) )) e

« circa )) in questa esposizione tendono a zero quando lasciamo
aumentare T e quando So si avvicina ad essere la sorgente che
rende massima la capacità.
La situazione è sintetizzata nella fig. 10 dove le sequenze di in
gresso sono rappresentate da punti sulla sinistra e le sequenze
di uscita da punti sulla destra. Il ventaglio superiore di linee
trasversali rappresenta la serie di possibili cause per una uscita
tipica. Il ventaglio inferiore rappresenta la serie di possibili ri
sultati derivanti da un ingresso tipico. In entrambi i casi ven
gono ignorati gli insiemi a « bassa probabilità )).
Supponiamo ora di avere un'altra sorgente S, che produce in
formazioni alla velocità R, con R < C. Nel periodo T questa sor
gente avrà 2TR messaggi ad alta probabilità. Vogliamo associare
79
questi messaggi con una selezione di possibili ingressi del canale
in modo tale da ottenere una piccola frequenza di errori. Fisse
remo questa associazione in tutti i modi possibili (utilizzando,
comunque, solamente il gruppo di ingressi ad alta probabilità,
quale è determinato dalla sorgente So) e calcoleremo la frequenza
media di errori per questa ampia classe di possibili sistemi di
codifica. Ciò equivale a calcolare la frequenza di errori per una
associazione fatta a caso dei messaggi e degli ingressi del canale
di durata T. Supponiamo di osservare una particolare uscita y,.
Qual è la probabilità di più di un messaggio proveniente da S,
nell'insieme di possibili cause di y, ? Vi sono 2TR messaggi distri
buiti a caso in 2T81"> punti. La probabilità di un particolare punto
di essere un messaggio è pertanto
2 T(R -H (x)) .
La probabilità che nessuno dei punti del ventaglio sia un mes
saggio ( a prescindere da quello effettivo che dà origine al mes
saggio) è
Ora, R < H(x)- H,(x), quindi R -H(x) = - H,(x) - TJ , con 'Y}, po
sitivo. Di conseguenza
p = [ l _ 2 -TH,C.<l-T1J ] 2J'B1U)
si avvicina ( quando T ___,. oo ) a
1 - 2- T11•
Quindi la probabilità di un errore si avvicina a zero e la prima
parte del teorema è dimostrata.
La seconda parte del teorema è facilmente dimostrata sulla base
della considerazione che potremmo semplicemente inviare dalla
sorgente C bit al secondo, trascurando completamente la re
stante informazione prodotta. Al ricevitore, la parte tralasciata
dà una equivocazione H(x) - C e alla parte trasmessa bisogna
solo aggiungere e. Questo limite può essere ottenuto in molti
altri modi, come mostreremo quando prenderemo in considera
zione il caso continuo.
L'ultima affermazione del teorema è una semplice conseguenza
della nostra definizione di C. Supponiamo di poter codificare
80
una sorgente con H(x) = C + a in modo tale da ottenere una
equivocazione H,(x) = a - E, con E positiva. Allora
H(x) - H,(x) = C + E
con E positiva . Questo contraddice alla definizione di C come

valore massimo di H(x) - H,(x).
In realtà si è dimostrato più di quanto affermato nel teorema.
Se la media di un insieme di numeri positivi differisce da zero
per un valore E, una frazione di al massimo {E può avere valori
maggiori di {E. Dal momento che E è arbitrariamente piccolo,
possiamo dire che quasi tutti i sistemi sono arbitrariamente pros
simi all'ideale.
14. Discussione
La dimostrazione del teorema 1 1 , mentre non costituisce una

semplice dimostrazione di esistenza, ha qualcuna delle deficienze
di tali dimostrazioni. Un tentativo di ottenere una buona ap
prossimazione alla codifica ideale seguendo il procedimento della
dimostrazione è generalmente poco pratico. Infatti, a prescin
dere da alcuni casi piuttosto banali e da certe situazioni limite,
non è stata trovata alcuna descrizione esplicita di una serie di
approssimazione all'ideale. Probabilmente questo non è un fatto
casuale, ma è in relazione con la difficoltà di fornire una espli
cita elaborazione per una buona approssimazione ad una sequen
za fatta a caso.
Una approssimazione all'ideale dovrebbe avere la proprietà per
cui, se il segnale viene alterato dal disturbo in modo ragione
vole, è possibile ricostruire l'originale. In altre parole, l'altera
zione non comporterà in generale che un segnale divenga più
simile ad un altro segnale possibile che non all'originale . Ciò
viene realizzato a costo di una certa quantità di ridondanza nella
codifica. La ridondanza deve essere introdotta nel modo oppor
tuno per combattere la particolare struttura del disturbo in que
stione. Comunque, qualsiasi ridondanza della sorgente sarà nor
malmente di aiuto se viene utilizzata nel punto di ricezione. In
particolare, se la sorgente già possiede una certa ridondanza e
non si cerca di eliminarla nel collegarla al canale, questa ridon-
81
danza sarà di aiuto per combattere il disturbo. Per esempio, in
un canale telegrafico non disturbato sarebbe possibile rispar
miare circa il SO% del tempo mediante una opportuna codifica
dei messaggi. Ciò non viene fatto e la maggior parte della ri
dondanza dell'inglese rimane nei simboli del canale. Questo pre
senta il vantaggio, comunque, di rendere tollerabile un conside
revole disturbo del canale. Una frazione piuttosto grande delle
lettere possono essere ricevute in modo non corretto e nondi
meno ricostruite mediante il contesto. In effetti, in molti casi
questa non è probabilmente una cattiva approssimazione al
l'ideale, dal momento che la struttura statistica dell'inglese è
piuttosto complessa e le sequenze inglesi ragionevoli non sono
troppo lontane (nel senso richiesto dal teorema) da una sele
zione fatta a caso.
Come nel caso di assenza di disturbo, è generalmente necessario
un ritardo per realizzare una codifica vicina all'ideale. Tale ri
tardo ha ora l'ulteriore funzione di consentire che diversi disturbi
intacchino il segnale prima che al terminale ricevente venga
emesso alcun giudizio riguardo al messaggio originale. Aumen
tando i campioni di disturbo, si rendono sempre più esatte le
possibili affermazioni statistiche.
Il contenuto del teorema 1 1 e la sua dimostrazione possono essere
formulati in un modo alquanto diverso che mette più chiara
mente in luce la relazione con il caso di assenza di disturbi. Si
considerino i possibili segnali di durata T e si supponga di sce
gliere e usare un sottoinsieme di essi. Siano tutti i segnali del
sottoinsieme usati con uguale probabilità e poniamo che il rice
vitore sia costruito per individuare come segnale originale la
causa più probabile tra quelle del sottoinsieme, quando viene
ricevuto un segnale disturbato. Definiamo N(T, q) essere il mas
simo numero di segnali che possiamo scegliere dal sottogruppo,
tali che la probabilità di una interpretazione sbagliata sia mi
nore o uguale a q.
log N(T, q)
Teorema 12 : lim = C, dove C è la capacità del
T
canale, a condizione che q non sia uguale a O oppure a l .
In altre parole, indipendentemente da come stabiliamo i nostri
limiti di attendibilità, possiamo distinguere in modo attendibile
82
simboli simboli
trasmessi ricevuti
Fig. 11 - Esempio di un canale discreto.
nel tempo T abbastanza messaggi da corrispondere a circa CT

bit, quando T è sufficientemente grande. Il teorema 12 può es
sere messo a confronto con la definizione della capacità di un
canale non disturbato data nel par. l .
1 5. Esempio di un canale discreto e sua capacità
Un semplice esempio di canale discreto è indicato nella fig. 1 1 .

Vi sono tre possibili simboli. Il primo non viene mai intaccato
dal disturbo. Il secondo e il terzo hanno ciascuno probabilità p
di attraversare il canale indisturbati e probabilità q di essere
scambiati l'uno nell'altro. Sia a = - [p log p + q log q] e siano
P, Q e Q le probabilità di usare rispettivamente il primo, il se
condo e il terzo simbolo (essendo le ultime due uguali per con
siderazioni di simmetria). Abbiamo :
H(x) = - P log P - 2Q log Q
Hy(x) = 2Qa
Vogliamo scegliere P e Q in modo tale da rendere massima la
differenza H(x) - H.,(x), subordinatamente alla condizione impo
sta P + 2Q = l . Donde consideriamo
U = - P log P - 2Q log Q - 2Qa + l(P + 2Q)
au
ap = - 1 - log P + À. = O
au
= - 2 - 2 log Q - 2a + 2À. = o.
aQ
83
Eliminando À.
log P log Q + a
=
p = Qea = Q{3
l
Q = - +2 '
{3
La capacità del canale è allora
{3 + 2
C = log
{3
Si noti come questo confermi i valori evidenti nei casi di p = l
e p = t. Nel primo caso, {3 = l e C = log 3, il che è esatto dal
momento che allora il canale è non disturbato con tre possibili
simboli. Se p = t, {3 = 2 e C = log 2. Qui il secondo e il terzo
simbolo non possono essere affatto distinti e si comportano come
un solo simbolo. Il primo simbolo è usato con probabilità P = t
e il secondo e il terzo insieme con probabilità t. Questa può
essere distribuita tra essi in qualunque modo si voglia e nondi
meno raggiungere la capacità massima.
Per valori intermedi di p, la capacità del canale sarà compresa
tra log 2 e log 3. La distinzione tra il secondo ed il terzo sim
bolo convoglia qualche informazione, ma non in misura pari a
quella del caso non disturbato. Il primo simbolo è usato un
po' più frequentemente degli altri due, a causa della sua immu
nità dal disturbo.
16. La capacità del canale in certi casi speciali
Se il disturbo colpisce in modo indipendente simboli successivi

del canale, esso può essere descritto mediante un insieme di
probabilità di transizione Pii· Questa è la probabilità che sia ri
cevuto il simbolo j, quando viene inviato il simbolo i . La capa
cità del canale è allora data dal valore massimo di
- l: Pi Pii log l: Pi Pii + l: Pi Pii log Pii
L/ i LI
dove variamo l e Pi subordinatamente a r,pi = l . Ciò porta, me

diante il metodo di Lagrange, alle equazioni,
84
Ps; l , 2,
t Ps; log l: P; p;;
= JL s = . . .
i
Moltiplichiamo per P. e sommando rispetto all'indice s risulta che

JL = - C. Sia (se esiste) h., l'inverso di p.;, cosicché l: h., Ps; = o,;.
Allora:
l: hsr Ps; log Ps; log l: P; Pii = C l: h.,.
s, l l s
- -
Donde :
l: P; p;r = esp [C l: hsr + l: h., Psi log Ps; ]

l s s. /
oppure,
P; = l: h;, esp [C l: hsr + l: h., Psi log Ps; ] .
t s s, j
Questo è il sistema di equazioni per determinare i valori mas
simizzanti di P; , con C che deve essere determinato in modo che
'f.P; = l Fatto questo, C sarà la capacità del canale e le P; sa
.
ranno le particolari probabilità dei simboli del canale per otte

nere questa capacità.
Se ciascun simbolo di entrata ha lo stesso insieme di probabi
lità sulle linee che da esso si dipartono, e lo stesso dicasi di
ogni simbolo di uscita, la capacità può essere facilmente cal
colata. Degli esempi sono presentati nella fig. 12. In un tale
caso H,:{y) è indipendente dalla distribuzione di probabilità tra
i simboli di entrata, ed è data da - l: p; log p;, dove p; sono i
valori delle probabilità di transizione da qualsiasi simbolo di
entrata. La capacità del canale è
Max [H(y) - H..(y) ]
= Max H(y) + r, p; log p;.
Il valore massimo di H(y) è chiaramente log m, dove m è il nu
mero di simboli di uscita, dato che è possibile renderli tutti
ugualmente probabili, col rendere ugualmente probabili i sim
boli di entrata. La capacità del canale è perciò
C = log m + 'f. p; log p;.
85
a b c
Fig. 12 - Esempi di canali discreti con alcune probabilità di transizione per

ciascun ingresso e per ciascuna unità.
Nella fig. 1 2 a sarebbe C = log 4 - log 2 = log 2.

Si potrebbe ottenere lo stesso risultato servendosi solamente del
l" e del 3• simbolo. Nella fig. 12b
C = log 4 - t log 3 - t log 6
= log 4 - log 3 - t log 2
= log t 2513•
Nella fig. 1 2 c abbiamo
C = log 3 - -! log 2 - t log 3 - ! log 6
3
= log
Supponiamo che i simboli si dividano in diversi gruppi in modo

che il disturbo non comporti mai che un simbolo compreso in
un gruppo sia confuso con un simbolo di un altro gruppo. Sia
C,. (in bit al secondo) la capacità per l'ennesimo gruppo quando
usiamo soltanto i simboli di questo gruppo. Si dimostra allora
facilmente che, per il miglior impiego dell'intero insieme, la pro
babilità totale P,. di tutti i simboli dell'ennesimo gruppo deve
essere
86
All'interno di un gruppo la probabilità è distribuita proprio come
lo sarebbe se questi fossero i soli simboli che vengono usati. La
capacità del canale è
C = log L2c •.
17. Esempio di codifica ad alto rendimento
L'esempio seguente, sebbene un poco artificioso, rappresenta un

caso in cui è possibile un adattamento esatto ad un canale di
sturbato. Vi sono due simboli del canale, O e l , e il disturbo li
colpisce entro blocchi di sette simboli. O un blocco di sette sim
boli è trasmesso senza errore, oppure uno dei sette simboli non
è giusto. Queste otto possibilità sono ugualmente probabili.
Abbiamo
C = Max [H(y) - H.(y)]
= + [7 + + log -!- ]
= +bit/ simbolo.
Un codice efficiente, che consente una completa correzione degli
errori e che trasmette alla velocità C, è il seguente (trovato me
diante un metodo dovuto a R. Hamming).
Prendiamo un blocco di sette simboli X�, Xz, . . . , X1. Di questi, X3,
Xs, X6 e X1 sono simboli del messaggio e sono scelti arbitraria
mente dalla sorgente. Gli altri tre sono ridondanti e calcolati
come segue :
X4 è scelto in modo di rendere a = X4 + Xs + X6 + X1 pari
Xz ,, » » » » » p = X2 + x3 + x6 + X1 »
X1 » » » » » » r = X 1 + x3 + Xs + X1 »
Quando viene ricevuto un blocco di sette simboli vengono cal

colati a, P e y e, se pari, chiamati zero, se dispari chiamati uno.
Il numero binario a P y dà allora l'indice sottoscritto dello X;
che non è esatto (se O, non c'era errore)13 •
13Per ulteriori esempi di codici auto-correttori, si veda M. J. Golay, << Notes

on Digitai Coding 11, Proceedtngs oj the Institute oj Radio Engineers, v. 37,
No. 6, giugno 1949, p. 637.
87
3
Informazioni continue
Consideriamo ora il caso in cui i segnali o i messaggi, o entrambi,

sono continuamente variabili, in contrasto con la natura discre
ta assunta prima. In misura notevole il caso continuo può essere
ricavato attraverso un procedimento limite dal caso discreto, di
videndo il continuo dei messaggi e dei segnali in un grande, ma
finito, numero di regioni e calcolando i diversi parametri rela
tivi ad una base discreta. Quando diminuiamo la dimensione
delle regioni, questi parametri in generale si avvicinano, come
limiti, ai valori propri del caso continuo. Compaiono, comunque,
alcuni nuovi effetti e anche un generale cambiamento di accen
tuazione, nella direzione della specializzazione dei risultati ge
nerali verso i casi particolari.
Non cercheremo, nel caso continuo, di ottenere i risultati con
la massima generalità, o con l'estremo rigore della matematica
pura, dato che ciò comporterebbe una gran mole di teoria su
misure astratte e renderebbe oscuro il filo essenziale dell'analisi.
Uno studio preliminare, comunque, indica che la teoria può es
sere formulata in una maniera completamente assiomatica e rigo
rosa che includa sia il caso discreto, sia quello continuo, e molti
altri. Le occasionali libertà che ci si è presi nei confronti dei pro
cedimenti di limite, nella presente analisi, possono essere giu
stificate in tutti i casi di interesse pratico.
18. Insiemi e complessi di funzioni

Ci dovremo occupare, nel caso continuo, di insiemi di funzioni
88
e complessi di funzioni. Un insieme di funzioni, come implica
il nome, è semplicemente una classe o raccolta di funzioni, ge
neralmente in una variabile, il tempo. Esso può essere specificato
mediante una rappresentazione esplicita delle varie funzioni del
l'insieme, oppure, in modo implicito, tramite una proprietà che
le funzioni dell'insieme posseggono e le altre no. Alcuni esempi
sono :
1. L'insieme di funzioni :
fe(t) = sen ( t + 8).
Ciascun particolare valore di 8 determina una particolare fun
zione dell'insieme.
2. L'insieme di tutte le funzioni del tempo che contengono fre
quenze non superiori a W cicli al secondo.
3. L'insieme di tutte le funzioni limitate nella banda entro W e
nell'ampiezza fino ad A.
4. L'insieme di tutti i segnali del discorso inglese come funzioni
del tempo.
Un complesso14 di funzioni è un insieme di funzioni unitamente
ad una misura di probabilità mediante la quale possiamo deter
minare la probabilità di una funzione dell'insieme avente certe
proprietà15• Per esempio, con l'insieme,
fe(t) = sen (t + 8),
possiamo dare una distribuzione di probabilità per 8, poniamo
P(8). L'insieme diviene allora un complesso.
Ulteriori esempi di complessi di funzioni sono:
1. Un insieme finito di funzioni Mt) (k = l , 2, . . . , n), essendo
Pk la probabilità di /k.
2. Un raggruppamento a dimensioni finite di funzioni
f(a,, az, . . . , an ; t)
•• 81 è reso con complesso il termine inglese 11 ensamble 11 non disponendo l'ita

liano di un sinonimo della parola insieme, utilizzata per tradurre la parola 11 set >>.
Si osservi che un complesso di funzioni descrive sostanzialmente un processo
stocastico.
•• Nella terminoiogia matematica le funzioni appartengono ad uno spazio con

misura la cui misura totale è unitaria.
89
con una distribuzione di probabilità per i parametri a; :
p( al, . . • , an).
Per esempio potremmo considerare il complesso definito da
n
f( a l, , an, 81, . . , On ; t) = l: an sen n (fùt + On)
n• l
. . • .
con le ampiezze a; distribuite normalmente e indipendentemente,

e le fasi 0; distribuite uniformemente (da O a 2 n) e indipen
pendentemente.
3. L'esempio
f( a; , t) = +i an ___-;:::-3c:-:-_�
s en n (2W t --')'-
n
n·-- n(2Wt - n)
con le a; normali e indipendenti e tutte con la stessa deviazione
standard .[!il. Questa è una rappresentazione di rumore « bianco »,
limitato nella banda da O a W Hz e con potenza media N 16•
4. Si considerino i punti distribuiti lungo l'asse t secondo una
distribuzione di Poisson. In ogni punto scelto è posta la funzione
f(t) e le differenti funzioni vengono sommate, dando il com
plesso
dove tk sono i punti della distribuzione di Poisson. Questo com

plesso può essere considerato come un tipo di impulso o di
rumore impulsivo in cui tutti gli impulsi sono identici.
S. L'insieme di funzioni della lingua inglese con misura di pro
babilità data dalla frequenza di occorrenza nell'uso comune.
Un complesso di funzioni fa(t) è stazionario se, quando tutte le
funzioni sono spostate nel tempo di una qualsiasi quantità fis
sata, ne risulta il medesimo complesso. Il complesso
•• Questa rappresentazione può essere usata come una definizione di rumore

bianco a banda limitata. Essa presenta certi vantaggi per il fatto che implica
un minor numero di operazioni con i limiti di quanto non avvenisse con le
definizioni che sono state usate in precedenza. Il nome (( rumore bianco 11, già
saldamente acquisito in letteratura, è forse un po' infelice. In ottica, per luce
bianca si intende sia qualunque spettro continuo in contrasto con uno spettro
limitato in un punto, sia uno spettro che è uniforme nella lunghezza d'onda
( che non è Io stesso di uno spettro uniforme nella frequenza).
90
fe(t) = sen ( t + O)
è stazionario se O è distribuito uniformemente da O a 2n. Se spo
stiamo ciascuna funzione di un valore ti otteniamo
fe(t + ti) = sen ( t + ti + O)
= sen ( t + tp)
con tp distribuito uniformemente da O a 2n. Ciascuna singola fun

zione è cambiata, ma il complesso inteso come un tutto è inva
riante rispetto alla traslazione. Gli altri esempi precedentemente
esposti sono pure stazionari.
Un complesso è ergodico se è stazionario e se non vi è alcun
sottoinsieme con una probabilità differente da O e da l che sia
stazionario. Il complesso
sen (t + O)
è ergodico. Nessun sottoinsieme di queste funzioni di probabilità
� 0,1 viene trasformato in se stesso con tutte le traslazioni nel
tempo. D'altra parte, il complesso
a sen (t + O)
con a distribuito normalmente e O uniforme, è stazionario ma
non ergodico. Il sottoinsieme di queste funzioni con a compreso
tra O e l , per esempio, è stazionario ed ha una probabilità di
versa da O e da l . Degli esempi dati, il 3 e il 4 sono ergodici, e
il 5 può essere forse considerato tale. Se un complesso è ergo
dico, possiamo approssimativamente dire che ogni funzione del
l'insieme è tipica del complesso. Più precisamente, è noto che in
un complesso ergodico una media di qualunque statistica riguar
dante il complesso è uguale (con probabilità l ) ad una media
valutata su tutte le traslazioni nel tempo di una particolare fun
zione dell'insiemei7• Parlando in modo poco preciso, ci si può
17 E' questo il famoso teorema ergodico, o piuttosto un aspetto di questo teo·

rema, che fu dimostrato In formulazioni In parte differenti da Birkhoff, von
Neumann e Koopman, e successivamente generalizzato da Wiener, Hopf, Hure
wicz ed altri. La letteratura sulla teoria ergodica è decisamente vasta e il
lettore è rinviato agli scritti di questi autori per formulazioni precise e di
carattere generale ; p. s., E. Hopf cc Ergodentheorie 11, Ergebnisse der Mathematik
und threr Grenzgebiete, v. 5 : cc On Casuality Statistics and Probabllity )) , Journal
of Mathematics and Phystcs, v. XIII, No. l, 1934 ; N. Wiener, cc The Ergodic
Theorem )), Duke Mathematical Journal, v. 5, 1939.
91
aspettare che ciascuna funzione, nel procedere del tempo, attra
versi, con l'opportuna frequenza, tutte le convoluzioni di qualun
que delle funzioni dell'insieme.
Proprio come possiamo compiere diverse operazioni su numeri e
funzioni per ottenere nuovi numeri o nuove funzioni, possiamo
compiere operazioni sui complessi per ottenere nuovi complessi.
Supponiamo, per esempio, di avere un complesso di funzioni
fa(t) e un operatore T che dà per ciascuna funzione fa( t) una
funzione risultante g.( t) :
ga( t) = T/.( t).
La misura di probabilità è definita per l'insieme ga( t) per mezzo
di quella per l'insieme /a( t). La probabilità di un certo sottoin
sieme delle funzioni ga( t) è uguale a quella del sottoinsieme delle
funzioni /a( t) che producono, quando sottoposte all'operazione
T, componenti del dato sottoinsieme di funzioni g. Fisicamente
questo corrisponde a far passare il complesso attraverso qualche
dispositivo, per esempio un filtro, un raddrizzatore o un modu
latore. Le funzioni di uscita del dispositivo formano l'insieme
g,.( t). Un dispositivo o un operatore T saranno detti invarianti se,
traslando l'ingresso, semplicemente si trasla l'uscita, se, cioè,
implica
gJ.. t + t 1 ) = Tfa( t + t 1 )
per ogni f.( t) e per ogni t •. Si dimostra facilmente che (v. appen
dice 5), se T è invariante e il complesso di entrata è stazionario,
allora il complesso di uscita è stazionario. Parimenti, se l'ingresso
è ergodico, l'uscita sarà a sua volta ergodica.
Un filtro o un raddrizzatore sono invarianti per qualsiasi trasla
zione nel tempo. L'operazione di modulazione non lo è, dato
che la fase della portante determina una certa struttura tem
porale. Comunque, la modulazione è invariante per tutte le tra
stazioni che sono multiple del periodo della portante.
Wiener ha posto in luce l'intima relazione tra l'invarianza di
92
dispositivi fisici per traslazioni nel tempo e la teoria di Fourier18•
Egli ha dimostrato, infatti, che se un dispositivo è lineare ed in
variante, l'analisi di Fourier è l'idoneo strumento matematico
per trattare il problema.
Un complesso di funzioni è la appropriata rappresentazione ma
tematica dei messaggi prodotti da una sorgente continua (per
esempio, il parlare), dei segnali prodotti da un trasmettitore, e
del disturbo perturbatore. La teoria delle comunicazioni corret
tamente si occupa, come è stato sottolineato da Wiener, non di
operazioni su funzioni particolari, bensì di operazioni su com
plessi di funzioni. Un sistema di comunicazione non è progettato
per una particolare funzione del parlare e ancor meno per una
onda sinusoidale, ma per il complesso di funzioni del discorso.
19. Complessi di funzioni a banda limitata
Se una funzione del tempo f(t) è limitata alla banda da O a W Hz,

essa viene determinata completamente specificando le sue ordi-
nate in una serie di punti distinti distanziati di

2
� secondi, nel
modo indicato dal seguente teorema19•
Teorema 13: Non contenga f(t) frequenze superiori a W. Allora
.. sen n (2Wt - n)
f( t) = L Xn ---:-=-:c:-:---.,....-'-
-.. n(2Wt - n)
18 La teoria delle comunicazioni deve molto a Wlener per gran parte dei con·
cetti e della teoria d! base. Il suo classico rapporto NDRC, The Interpolatton,
Extrapolation, and Smoothing of Stationary Time Series ( Wiley, 1949 ) , contiene
la prima formulazione chiara e precisa della teoria delle comunicazioni come
problema statistico, lo studio di operazioni su serle temporali. Questo lavoro ,
sebbene riguardasse principalmente Il problema della predizione e del filtro
lineare, è un importante riferimento collaterale in relazione al presente scritto.
Possiamo anche far riferimento all'opera di Wiener, Cybernetics ( Wiley, 1948),
che tratta dei problemi generali della comunicazione e del controllo.
19 Per una dimostrazione di questo teorema ed un ulteriore approfondimento si

veda lo scritto dell'Autore cc Communication in the Presence of Noise » in PTo
ceedings of the Jnstitute ot Radio Engineers, v. 37, No. 7, gennaio 1949, pp. 10·21.
93
dove
Xn =
f ( 7v
2 ).
In questo sviluppo f(t) è rappresentata come una somma di fun
zioni ortogonali. I coefficienti Xn dei vari termini possono essere
considerati come coordinate in uno « spazio delle funzioni ,, a
infinite dimensioni. In questo spazio ciascuna funzione corrispon
de precisamente ad un punto e ciascun punto ad una funzione.
Una funzione si può considerare come sostanzialmente limitata
entro un tempo T se tutte le ordinate Xn al di fuori di questo
intervallo di tempo sono zero. In questo caso tutte le coordinate
meno 2TW saranno zero. Pertanto funzioni limitate ad una banda
W e ad una durata T corrispondono a punti in uno spazio di
2TW dimensioni. Un sottoinsieme delle funzioni di banda W e
durata T corrisponde ad una regione di questo spazio. Per esem
pio, le funzioni la cui energia totale è minore o uguale ad E cor
rispondono a punti in una sfera di 2TW dimensioni con raggio
r = ..[L:WE.
..
Un complesso di funzioni di durata e banda limitata sarà rap
presentato da una distribuzione di probabilità p(x,, . , Xn) nel
corrispondente spazio n-dimensionale. Se il complesso non è li
mitato nel tempo possiamo considerare che le 2TW coordinate
in un dato intervallo T rappresentino sostanzialmente la parte
della funzione nell'intervallo T e che la distribuzione di proba
bilità p(x,, . . . , Xn) determini la struttura statistica del complesso
per intervalli di quella durata.
20. Entropia di una distribuzione continua

L'entropia di un insieme discreto di probabilità p,, . . . , Pn è stata
definita come:
H = - :E p; log p;.
In maniera analoga definiamo l'entropia di una distribuzione con
tinua avente la funzione densità di distribuzione (densità di pro
babilità) p(x):
H = -J�_ p(x) log p(x) dx.
94
Con una distribuzione n-dimensionale p(x1 , . . . , x,) abbiamo
H = - J . . .J p(x1 , . . . , x,) log p(x1 , . . . , x,) dx1 . . . dx,.

Se abbiamo due argomenti x e y (che possono essi stessi essere
multidimensionali) le entropie congiunta e condizionale di p(x,y)
sono date da
H(x, y) = - JJp(x, y) log p(x, y) dx dy

e
H.(y) = - JJp(x, y) log p(x, y) dx dy

p( x)
- JJp(x, y) log
p(x, y)
Hy(x) = dx dy
p(y)
dove
p(x) = Jp(x, y) dy
p(y) = J p(x, y) dx.
Le entropie di distribuzioni continue hanno la maggior parte (ma
non tutte) delle proprietà del caso discreto . In particolare ab
biamo quanto segue :
1. Se x è limitato nella sua estensione ad un certo volume v, allora
H( x) è massima ed uguale a log v, quando p(x) è costante (�)

nel volume.
2. Con due qualsiasi variabili x, y abbiamo
H(x, y) :::;; H(x) + H(y)

con uguaglianza se (e solo se) x e y sono indipendenti, se, cioè,
p(x, y)= p(x) p(y) (a meno di un insieme di punti di probabilità
zero).
3. Si consideri una operazione generalizzata di calcolo della me
dia del tipo seguente:
p'(y) = J a(x, y) p(x) dx
95
con
Ja(x, y) dx Ja(x, y) dy
= = l, a(x, y ) ;;:;: O.
Allora l'entropia della distribuzione media calcolata, p'(y), è ugua

le o maggiore di quella della distribuzione originale p(x).
4. Abbiamo
H(x, y) = H(x) + H.(y) = H(y) + H,(x)

e
H.(y) ::;; H(y ).
5. Sia p(x) una distribuzione unidimensionale. La forma di p(x)
che determina una entropia massima, subordinatamente alla con
dizione che la deviazione standard di x sia fissata in a, è quella
gaussiana. Per dimostrare ciò dobbiamo rendere massima
H(x) = - Jp(x) log p(x) dx

con le condizioni :
fil = J p(x)x2 dx, e l = Jp(x) dx.

Ciò richiede, mediante il calcolo delle variazioni, di rendere mas
simo
J [- p(x) log p(x) + À.p(x)x2 + JLp(x) ] dx.

La condizione per questo è che
- l - log p(x) + À.x2 + JL = O
e di conseguenza (determinando le costanti in modo da soddisfare
alle condizioni imposte)
l
---.,=- e-<:r2/2 a2 J
p(x) =
{!i a
.
Similmente in n-dimensioni, supponiamo che i momenti del se-

condo ordine di p(x1, . . . , Xn) siano fissati in A;i :
A;l = J . . . J X;Xjp(x;, . . . , Xn) dx1 . . . dxn.

96
Allora l'entropia massima si verifica (con un calcolo analogo)
quando p(x1, . . . , Xn) è la distribuzione n-dimensionale gaussiana
con i momenti del secondo ordine A ii·
6. L'entropia di una distribuzione unidimensionale gaussiana la
cui deviazione standard è a è data da
H(x) = log -Y5e a.
Essa è calcolata come segue :
p(x) = l_ e;- <:r.•/2 v•>

{'Er (j
___
x2
- log p(x) = log -{'Ii a +
-2a2-
H(x) = - Jp(x) log p(x) dx
= Jp(x) log {!1r a dx + J p{x) ;� dx
=
al
log -{'5 a +
-2Gi-
=
log ..['Ei"a + log {e
=
log -{'Iie a.
Similmente la distribuzione n-dimensionale gaussiana con la for
ma quadratica associata aii è data da
J aii J lf2
p(x1 , . . . , Xn) = exp (- ! r.aiiXiXi)
(2,.)"12
e l'entropia può essere calcolata come
H = log (2n-e )"12 JaiiJ - 1 12
dove Jaiil è il determinante i cui elementi sono aii·
7. Se x è limitato a una semiretta (p(x) = O per x � O) e se il
primo momento di x è a :
a = J; p(x)x dx,
allora l'entropia massima si verifica quando
97
p( x) = _l_ e- <xfa)
a
ed è uguale a log ea.
8. Vi è una importante differenza tra le entropie continua e di
screta. Nel caso discreto l'entropia misura in modo assoluto la
casualità della variabile casuale. Nel caso continuo la misura è
relativa al sistema di coordinate. Se cambiamo coordinate l'en
.
tropia in generale cambierà . Infatti se passiamo a coordinate
y, . . Yn la nuova entropia è data da
H(y) = J J p(Xi
· · · • • • Xn) J (T)
log p(x, . . . Xn) 1( ; )dy, . . . dyn
dove J ( �- ) è lo j acobiano della trasformazione delle coordi
nate. Sviluppando il logaritmo e cambiando le variabili in
x, . . . Xn, otteniamo :
H(y) = H(x) -J . . . J p(x,, . . . , Xn) log ( ; ) dx1 J • • • dx.,.
Pertanto la nuova entropia è uguale alla vecchia entropia meno il

valore atteso del logaritmo dello jacobiano. Nel caso continuo
l'entropia può essere considerata una misura della casualità rela
tiva ad uno standard assunto, precisamente il sistema di coor
dinate scelto con pesi uguali dati a ogni elemento di volume
dx, . . . dxn. Quando cambiamo il sistema di coordinate, l'entro
pia nel nuovo sistema misura la casualità quando ad elementi
di egual volume dy, . . . dy" nel nuovo sistema è dato peso uguale.
Malgrado questa dipendenza dal sistema di coordinate, il con
cetto di entropia è altrettanto importante nel caso continuo che
in quello discreto. Ciò è dovuto al fatto che i concetti derivati
di velocità di informazione e di capacità del canale dipendono
dalla differenza di due entropie e questa differenza non dipende
dal sistema di coordinate, essendo ciascuno dei due termini mo
dificato della stessa quantità.
L'entropia di una distribuzione continua può essere negativa. La
98
scala di grandezze stabilisce uno zero arbitrario corrispondente
ad una distribuzione uniforme su un'unità di volume.
Una distribuzione che sia più limitata di questa ha meno entropia
e sarà negativa. Le velocità e le capacità saranno sempre, comun
que, non negative.
9. Un caso particolare di trasformazione di coordinate è quello
lineare
y; = :I: a;1x;
i
In questo caso lo jacobiano è il determinante Ja;1J- 1 e

H(y) = H(x) + log Ja;1J.
Nel caso di una rotazione di coordinate (o di qualunque trasfor
mazione che preservi la misura) J = l e H(y) = H(x).
2 1 . Entropia di un complesso di funzioni
Si consideri un complesso ergodico di funzioni limitate ad una

certa banda di ampiezza W Hz. Sia
p (X ! , . . . , Xn )
la funzione densità di distribuzione per le ampiezze X1 • • • Xn in

n successivi punti campione. Definiamo la entropia del complesso
per grado di libertà con
H' = - lim
"� ""
-1-J . . . J p(x�,
n
. . . , Xn )
log p(x !, . . . , Xn ) dx1 . . . dxn .

Possiamo anche definire un'entropia H al secondo dividendo non
per n, ma per il tempo T in secondi per n campioni. Dato che
n = 2TW, H = 2WH'. Col rumore bianco termico, p è gaussiana
e abbiamo
H' = log �,
H = W log 27reN.
Per una data potenza media N, il rumore bianco ha la massima
entropia possibile. Ciò discende dalle proprietà, sopra notate,
massimizzanti della distribuzione gaussiana.
99
La entropia per un processo stocastico continuo possiede molte
proprietà analoghe a quelle dell'entropia per i processi discreti.
Nel caso discreto l'entropia era in rapporto con il logaritmo della
probabilità delle lunghe sequenze, e con il numero di sequenze di
lunga estensione ragionevolmente probabili. Nel caso continuo
essa è in rapporto in modo analogo col logaritmo della densità
di probabilità per una lunga serie di campioni, e con il volume
di probabilità ragionevolmente alta nello spazio delle funzioni.
Più precisamente, se assumiamo p(x1, . . . , Xn) continue in tutti
gli X; per ogni n, allora per n sufficientemente grande
I !p - l
lo
H' < E
per ogni scelta di (x1, ..

. , Xn), a parte un insieme la cui proba
bilità totale è minore di o, con o e E arbitrariamente piccoli.
Ciò discende dalla proprietà ergodica se dividiamo lo spazio in
un grande numero di piccole celle.
La relazione di H con il volume può essere stabilita come segue.
..
Sotto le stesse assunzioni, si consideri lo spazio n-dimensionale
corrispondente a p(x1, . , Xn). Sia Vn(q) il più piccolo volume
in questo spazio che comprende al suo interno una probabilità
totale q. Allora
log V,.( q)
lim = H'
"- - n
a patto che q non sia uguale a O o a l .
Questi risultati mostrano che, per n grande, esiste un abbastanza
ben definito volume (almeno in senso logaritmico) di alta pro
babilità, e che all'interno di questo volume la densità di proba
bilità è relativamente uniforme ( ancora in senso logaritmico).
Nel caso di rumore bianco la funzione di distribuzione è data da
p(XJ, • • • , Xn ) =
l
( 27rN)n/2 exp - l
2N ...
� 2
xl .
Dato che questa dipende solamente da �x� , le superfici di den

sità di probabilità uguale sono sfere e l'intera distribuzione ha
simmetria sferica. La regione di alta probabilità è una sfera di
100
raggio � nN. Quando n-+oo la probabilità di trovarsi al di fuori
di una sfera di raggio � n (N + E) tende a zero comunque sia pie
l
colo E e -- volte il logaritmo del volume della sfera si avvi-
n
cina a log {I7ieN.
Nel caso continuo è conveniente lavorare non con la entropia H
di un complesso, bensì con una quantità derivata che chiame
remo potenza dell'entropia o potenza entropica. Questa è definita
come la potenza in un rumore bianco, limitato alla stessa banda
del complesso originale ed avente la medesima entropia. In altre
parole, se H' è l'entropia di un complesso la sua potenza en
tropica è
l
exp 2H'.
2 ne
Geometricamente ciò equivale a misurare il volume ad alta pro

babilità mediante il quadrato del raggio di una sfera avente lo
stesso volume. Dal momento che il rumore bianco ha il massimo
di entropia per una potenza data, la potenza entropica di qua
lunque rumore è minore o uguale alla sua potenza effettiva.
22. Perdita di entropia nei filtri lineari
Teorema 14: Se un complesso avente una entropia H1 per grado

di libertà nella banda W è fatto passare attraverso un filtro con
caratteristica Y(f), il complesso di uscita ha un'entropia
H2 = H1 +
�f w
log l Y(f) 1 2 df.
L'operazione del filtro consiste essenzialmente in una trasfor

mazione lineare delle coordinate. Se pensiamo alle componenti
di differente frequenza come all'originale sistema di coordinate,
le nuove componenti di frequenza sono semplicemente le vecchie
moltiplicate per dei fattori. La matrice di trasformazione delle
coordinate è pertanto essenzialmente diagonalizzata in termini
di queste coordinate. Lo j acobiano della trasformazione è (per
n componenti sinusoidali e per n componenti cosinusoidali)
101
n
l = Il l Y(f;) 1 2 = exp L log l Y(f;) 1 2

i� l
dove l e f; sono ugualmente spaziate nella banda W. Esso diviene
al limite
exp �J w
log l Y(f) 1 2 df.
Dato che l è costante il suo valore medio è la stessa quantità

ed applicando il teorema sulla variazione di entropia con un
cambiamento di coordinate, ne consegue il risultato. Possiamo
Tabella l
guadagno
fattore di
di potenza risposta
guadagno potenza
entropica all'ùnpulso
entropica
in decibel
·-
·
l�
- -
- -
o (Il
� l
-
l
ez
- 8, 6 1
51N 2 11't
(11't)2
· - ··
��---
(t)
4
,
- 5 32 2
[ !li N
tl
t _ COS t
t2
]
o (Il l
�
D_
•-
•'
--
-
0. 314 -4,15
l [ COS t - l _ CO!I t + SIN t ]
t4 2 tz tl
o
(Il l
;,:o<-- {�� (t t 11' Jl (t)

- 2,66 --
2 t
o
(Il l
·� o
(Il l
ez
l
• -I,H tr
1
tr t2 [ cos (1 -tr) t- cos t ]
esprimere ciò anche in termini di potenza entropica. Pertanto,
se la potenza entropica del primo complesso è N1 , quella del
secondo è
N1 exp �J w
log l Y(f) 12 df.
La potenza entropica finale è data dalla potenza entropica iniziale

moltiplicata per il guadagno medio geometrico del filtro. Se il
guadagno è misurato in decibel (db), allora la potenza entro
piea di uscita aumenterà del guadagno medio aritmetico in db
su w.
Nella tabella l la perdita di potenza entropica è stata calcolata
(ed anche espressa in db) per un certo numero di caratteristiche
ideali di guadagno. Le risposte impulsive di questi filtri sono
anche date per W = 2n, con fase assunta uguale a O.
La perdita di entropia per molti altri casi può essere ottenuta
partendo da questi risultati. Per esempio il fattore di potenza
entropica � per il primo caso si applica anche a qualsiasi ca
ratteristica di guadagno ottenuta da l - w mediante una misu
ra che prc::serva la trasformazione dell'asse w. In particolare un
guadagno linearmente crescente G(w) = w, o una caratteristica
a << dente di sega )) tra O e l hanno la medesima perdita di entro-
1
pia. Il guadagno reciproco ha il fattore reciproco pertanto
w
--
ha il fattore e2 • Elevando il guadagno a qualsivoglia potenza si

eleva il fattore a questa potenza.
23. Entropia della somma di due complessi
Se abbiamo due complessi di funzioni M t) e gp( t) possiamo for

mare un nuovo complesso mediante « addizione )) , Poniamo che
il primo complesso abbia la funzione densità di probabilità
p(x1, . . . , Xn) e il secondo q(x1 , . . . , Xn). Allora la funzione di den
sità per la somma è data dalla convoluzione :
r(xl, . . . , Xn) = f . . . f p(yl, . , Yn)

· ·
• q(XJ - Y1, . . . , Xn - Yn) dy1 dyz . . . dyn.
103
Fisicamente ciò corrisponde a sommare i disturbi o segnali rap
presentati dagli originali complessi di funzioni.
Il seguente risultato è derivato nella appendice 6.
Teorema 15: Siano N1 e Nz, rispettivamente, la potenza media
di due complessi e siano N1 e Nz le loro potenze entropiche. Al
lora la potenza entropica della somma, NJ, è delimitata da
N1 + Nz � NJ � N1 + Nz .
Il rumore bianco gaussiano ha la peculiare proprietà di poter
assorbire qualunque altro complesso, di rumori o segnali, che
può essere sommato ad esso e con una potenza entropica risul
tante che è approssimativamente uguale alla somma della po
tenza del rumore bianco e della potenza del segnale (misurata
dal valore medio del segnale, che è normalmente zero), a patto
che la potenza del segnale sia piccola, in un certo senso, rispetto
al rumore.
Si consideri lo spazio delle funzioni relativo a questi complessi
avente n dimensioni. Il rumore bianco corrisponde alla distri
buzione sferica gaussiana in questo spazio. Il complesso di se
gnali corrisponde ad un'altra distribuzione di probabilità, non
necessariamente gaussiana o sferica. Siano a;i i momenti di se
condo ordine di questa distribuzione intorno al suo centro di
gravità. Ciò significa che, se p(x1 , . . . , Xn) è la funzione densità
di distribuzione
a;i = J . J p(X; - a;) (xi - ai) dx1 . . . dxn

. .
dove a; sono le coordinate del centro di gravità. Ora a;i è una

forma quadratica positiva e definita e possiamo ruotare il nostro
sistema di coordinate per allinearlo con le direzioni principali
di questa forma. a;i è allora ridotto alla forma diagonale bii. Ri
chiediamo che ciascun bu sia piccolo rispetto a N, il raggio al
quadrato della distribuzione sferica.
In questo caso la convoluzione del rumore e del segnale produ
ce approssimativamente una distribuzione gaussiana, cui corri
sponde la forma quadratica.
N + b;;.
104
La potenza entropica di questa distribuzione è
[II(N + b ;; )Jifn
o approssimativamente
= [(N )" + � b;; (N)"- 1 ] 1/"
= N + -1- � b;;.
n
L'ultimo termine è la potenza del segnale, mentre il primo è la

potenza del rumore.
105
4
Il canale continuo
24. La capacità di un canale continuo
In un canale continuo i segnali di ingresso, o trasmessi, saranno

funzioni continue del tempo f(t) appartenenti ad un certo in
sieme, e i segnali di uscita, o ricevuti, saranno versioni pertur
bate di queste. Prenderemo in considerazione solamente il caso
in cui sia i segnali trasmessi che quelli ricevuti sono limitati ad
una certa banda W. In tal caso essi possono venir specificati, per
un tempo T, mediante 2TW numeri, e la loro struttura statistica
mediante funzioni di distribuzione di dimensioni finite. Pertanto
il carattere statistico del segnale trasmesso sarà determinato da
P(x1 , . . . , x,) = P(x)
e quello del disturbo dalla distribuzione di probabilità condi
zionale
Pzl , . . . , z" (yl, . . . , y,) = P:.( y ) .
La velocità di trasmissione di informazioni per un canale continuo

è definita in modo analogo a quello usato per un canale discreto,
precisamente
R = H(x) - H,(x)
dove H(x) è l'entropia dell'ingresso e H,(x) l'equivocazione. La
capacità C del canale viene definita come il massimo di R quando
variamo l'ingresso su tutti i possibili complessi. Ciò significa che
106
in una approssimazione a dimensioni finite dobbiamo variare
P(x) = P(x1, . . . , Xn) e massimizzare
- J P(x) log P(x) dx + JJP(x, y) log p��) dx dy.
Oppure possiamo scrivere
JJP(x, y) log P(x, y)

P(x)P(y)
dx dy
approfittando del fatto che
JJP(x, y) log P(x) dx dy J P(x) log P(x) dx.

=
La capacità del canale è pertanto espressa come segue :
C = lim Max - -
T-+ - Pc">
1
T
JJP(x, y) log P(x, y)
P(x)P(y)
dx dy.
E' ovvio in questa forma che R e C sono indipendenti dal sistema

di coordinate dato che il numeratore ed il denominatore di
log ;��/c�) saranno moltiplicati per gli stessi fattori quando
x e y vengano trasformati in qualsiasi modo biunivoco. Questa
espressione integrale per C è più generale di H(x) - Hy(x). Cor
rettamente interpretata (v. appendice 7) essa esisterà sempre,
mentre H(x) - Hy(X) può in alcuni casi assumere una forma in
determinata oo oo
-
Questo si verifica, ad esempio, se x è limi
.
tato ad una superficie avente un numero di dimensioni inferiore

ad n nella sua approssimazione n-dimensionale.
Se la base dei logaritmi usata nel calcolare H(x) e Hy(X) è 2,
allora C è il massimo numero di cifre binarie che possono es
sere inviate in un secondo sul canale con equivocazione piccola
a piacere, proprio come nel caso discreto. Possiamo vedere fisi
camente quanto sopra dividendo lo spazio dei segnali in un gran
numero di piccole celle, sufficientemente piccole perché la den
sità di probabilità P.. (y) che il segnale x sia perturbato al punto y
sia sostanzialmente costante in una cella ( sia di x che di y). Se
le celle vengono considerate come punti distinti, la situazione
è essenzialmente la stessa di un canale discreto e vi si appli
cheranno le dimostrazioni là usate. Ma è chiaro fisicamente che
107
questa quantizzazione del volume in singoli punti non puo m
alcuna situazione pratica alterare in modo significativo la soluzi�
ne finale, a condizione che le regioni siano sufficientemente piccole.
Pertanto la capacità sarà il limite delle capacità per le suddivi
sioni discrete e questa è proprio la capacità continua preceden
temente definita.
Dal lato matematico si può dimostrare (v. appendice 7) che se
u è il messaggio, x il segnale, y il segnale ricevuto (perturbato dal
disturbo) e v il messaggio ricostruito, allora
H(x) - Hy(x) � H(u) - H.(u)
senza riguardo per le operazioni compiute su u per ottenere x,
o su y per ottenere v. Pertanto, indipendentemente da come met
tiamo in codice le cifre binarie per ottenere il segnale, o da come
decodifichiamo il segnale ricevuto per ricostruire il messaggio,
la velocità discreta per le cifre binarie non eccede la capacità del
canale che abbiamo definito. D'altra parte, è possibile, sotto con
dizioni molto generali, trovare un sistema di codifica per trasmet
tere cifre binarie alla velocità C con una equivocazione o fre
quenza di errori piccola a piacere. Questo è vero, per esempio,
se, quando prendiamo uno spazio che si approssima ad uno spazio
a dimensioni finite per le funzioni dei segnali, P(x, y ) è continua
sia in x che in y, eccetto che in un insieme di punti di probabilità
zero.
Un importante caso speciale si verifica quando al segnale si som
ma un disturbo da esso indipendente (nel senso della probabilità).
Allora P..(y ) è funzione solamente della differenza (vettoriale)
n = (y - x),
P..(y) = Q( y - x)
e possiamo assegnare una entropia definita al disturbo ( indipen
dente dai caratteri statistici del segnale), precisamente l'entropia
della distribuzione Q(n) . Questa entropia sarà indicata con H(n).
Teorema 16: Se il segnale e il disturbo sono indipendenti e il
segnale ricevuto è la somma del segnale trasmesso e del disturbo,
allora la velocità di trasmissione è
R = H(y ) - H(n),
108
vale a dire, l'entropia del segnale ricevuto meno l'entropia del
disturbo. La capacità del canale è
C = Max H(y) - H(n).
P(z)
Abbiamo, dato che y = x + n:

H(x, y ) = H(x, n)
Sviluppando la parte sinistra e valendosi del fatto che x ed n
sono indipendenti
H(y) + H,(x) = H(x) + H(n).
Donde
R = H(x) - HJ.. x ) = H(y) - H(n).
Dal momento che H(n) è indipendente da P(x), per rendere mas
sima R bisogna rendere massima H( y), l'entropia del segnale ri
cevuto. Se vi sono certe restrizioni riguardo al complesso di
segnali trasmessi, l'entropia del segnale ricevuto deve essere resa
massima subordinatamente a queste restrizioni.
25. Capacità del canale con una limitazione di potenza media
Una semplice applicazione del teorema 16 si presenta quando il

disturbo è un rumore termico bianco e i segnali trasmessi sono
limitati ad una certa potenza media P. Allora i segnali ricevuti
hanno una potenza media P + N dove N è la potenza media del
disturbo. La entropia massima per i segnali ricevuti si verifica
quando essi costituiscono altresì un complesso con le caratteri
stiche del rumore bianco, dato che questo presenta la maggiore
entropia possibile per una potenza P + N e che può essere ot
tenuto mediante una opportuna scelta del complesso di segnali
trasmessi, precisamente quando essi costituiscono un complesso
con le caratteristiche del rumore bianco di potenza P. L'entropia
(al secondo) del complesso ricevuto è allora
H(y ) = W log 2xe(P + N),
e l'entropia del disturbo è
H(n) = W log 2xeN.
109
La capacità del canale è
C = H(y) - H(n) = W log p �N

Riassumendo abbiamo il seguente :
La capacità di un canale di banda W disturbato
N
Teorema 17:
da rumore bianco termico di potenza quando la potenza me
dia del trasmettitore è limitata a P è data da
N .
P+N
C = W log
Ciò significa che mediante sistemi di codifica sufficientemente

elaborati possiamo trasmettere cifre binarie alla velocità di
W lo� p �N bit al secondo, con frequenza di errori arbitra
riamente piccola. Non è possibile trasmettere ad una velocità più
elevata con alcun sistema di codifica senza avere una determinata
frequenza positiva di errori .
Per avvicinarsi a questa velocità limite di trasmissione i segnali
trasmessi devono approssimare, nelle proprietà statistiche, un
rumore bianco20• Un sistema che si avvicina alla velocità ideale
può essere descritto come segue : si siano costruiti M = 2s cam
pioni di rumore bianco, tutti di durata T. Ad essi sono assegnati
numeri binari da O a ( M - l ). Al punto di trasmissione le se
quenze del messaggio sono suddivise in gruppi di s e per cia
scun gruppo il corrispondente campione di rumore viene tra
smesso come il segnale. Al punto di ricezione gli M campioni
sono noti e l'effettivo segnale ricevuto ( alterato dal disturbo)
viene confrontato con ciascuno di essi. Il campione che rivela la
minor differenza R.M.S.21 dal segnale ricevuto viene scelto come
segnale trasmesso e viene ricostruito il corrispondente numero
binario. Questo processo equivale a scegliere il segnale più pro
babile (a posteriori). Il numero M di campioni di disturbo usati
dipenderà dalla frequenza di errori E tollerabile, ma per quasi
ogni scelta di campioni abbiamo
20Queste ed altre proprietà del caso di rumore bianco sono discusse dal pwtto
di vista geometrico in 11 Communication in the Presence of Noise >>, loc. cit.
21 «Root Mean Square » ( radice quadrata dei valori medi al quadrato ) . (N.d.T. ).
1 10
. log M (e, T) P+N
l1m 1 1m
. --=--=::-'---'-':...._ W log ,
._.o T-+ - T N
cosicché, indipendentemente da quanto sia piccola e, possiamo,

prendendo T sufficientemente grande, trasmettere un numero di
. . . . P+N
CI'fre b'mane ch e SI avvtcma quanto vogl'1amo a TW l og nel ,
tempo T. Formule simili a C = W log

P N
� per il caso di rumo
re bianco sono state sviluppate in modo indipendente da parecchi
altri autori, sebbene con interpretazioni un poco differenti. Pos
siamo menzionare a questo proposito l 'opera di N. Wiener22,
W. G. Tuller23 e di H . Sullivan.
Nel caso di perturbazioni dovute ad un disturbo arbitrario (non
necessariamente rumore bianco termico) non sembra che sia
possibile risolvere esplicitamente il problema di massimizzazione
relativo alla determinazione della capacità C del canale. Si pos
sono, comunque, stabilire limiti inferiori e superiori per C in
termini di potenza media N del disturbo e di potenza entropica
N, del disturbo. Questi limiti nella maggior parte dei casi sono
sufficientemente vicini da fornire una soddisfacente soluzione
del problema.
Teorema 18: La capacità di un canale di banda W perturbato da
un dis turbo arbitrario è determinata dalle disuguaglianze
P + N1 P+N
W log � C � W log --:-::--
N, N,
dove
P = potenza media del trasmettitore
N = potenza media del disturbo
N, = potenza entropica del disturbo.
22 Cybernetics, loc. cit.
23(( Theoretical Lirnitations on the Rate of Transmission of Infonnation >>,

Proceedings oj the Institute oj Radio Engineers, v. 37, No. 5, maggio 1949,
pp. 468-78.
111
Anche qui la potenza media dei segnali disturbati sarà P + N.
Il massimo di entropia per questa potenza lo si avrebbe se il
segnale ricevuto fosse rumore bianco e sarebbe W log 2TCe(P +N).
Può non essere possibile raggiungere questo massimo; cioè, può
non esserci alcun complesso di segnali trasmessi che, aggiunto
al disturbo perturbatore, produca un rumore bianco termico al
punto di ricezione, ma quanto meno esso stabilisce un limite
superiore per H(y). Abbiamo perciò
C = Max H(y) - H(n)
:;::; W log 2TCe(P + N) - W log 2TCeNI .
Questo è il limite superiore dato dal teorema. Si ottiene il limite
inferiore considerando la velocità quando il segnale trasmesso
è un rumore bianco, di potenza P. In questo caso la potenza en
tropica del segnale ricevuto deve essere grande almeno quanto
quella di un rumore bianco di potenza P + N1 , dato che abbiamo
dimostrato nel teorema 1 5 che la potenza entropica della somma
di due complessi è maggiore o uguale alla somma delle singole
potenze entropiche. Donde
Max H(y) � W log 2TCe(P + N1)
e
C � W log 2TCe(P + N1)
P + N1
- W log 2TCeNI
= W l og
N1
Quando P aumenta, i limiti superiore ed inferiore di cui al teo
rema 18 si avvicinano l'un l'altro ; si ha quindi una velocità asin
totica
P+N
W log
N1 •
Se il disturbo è esso stesso un rumore bianco, N = N1 e il risul

tato si riduce alla formula precedentemente dimostrata :
C = W log ( l +
� ).
Se il disturbo è gaussiano ma con uno spettro che non è neces-
1 12
sariamente uniforme, N1 è la media geometrica della potenza del
disturbo alle varie frequenze nella banda W. Perciò
N1 = exp -t-J w
log N(f) df
dove N(f) è la potenza del disturbo alla frequenza f.

Teorema 19: Se poniamo la capacità per una data potenza P del
trasmettitore uguale a
p + N - TJ
C = W log -- --- ,
N1
allora TJ è monotonica decrescente quando P aumenta e tende a
O come limite.
Supponiamo che per una data potenza P1 la capacità del canale
sia
Ciò significa che la migliore distribuzione del segnale, poniamo

p(x), quando è sommata alla distribuzione del disturbo q(x), dà
una distribuzione ricevuta r(y) la cui potenza entropica è
(P1 + N - TJI). Aumentiamo la potenza a P1 + !J.P aggiungendo al
segnale un rumore bianco di potenza !J.P. L'entropia del segnale
ricevuto è ora almeno
H(y) = W log 27re(Pl + N - TJi + !J.P)
in base al teorema sul minimo di potenza entropica di una som

ma. Quindi, dato che possiamo conseguire la H indicata, l'entro
pia della distribuzione massimizzante deve essere almeno altret
tanto grande e TJ deve essere monotonica decrescente. Per dimo
strare che TJ --+ O quando P --+ oo si consideri un segnale che sia
un rumore bianco con una P grande. Qualunque sia il disturbo
perturbatore, se P è sufficientemente grande il segnale ricevuto
sarà approssimativamente un rumore bianco, nel senso che avrà
una potenza entropica tendente a P + N.
1 13
26 . La capacità del canale con una limitazione nella potenza di
picco
In alcune applicazioni il trasmettitore è limitato non dall'uscita
di potenza media, bensì dalla potenza di picco istantanea. Il pro
blema di calcolare la capacità del canale è allora quello di ren
dere massima (mediante variazione del complesso di simboli
trasmessi)
H(y) - H(n)
subordinatamente alla condizione che tutte le funzioni f( t) del
complesso siano minori od uguali a, poniamo, � per ogni t.
Una condizione di questo tipo non risolve la questione, matema
ticamente, altrettanto bene della limitazione di potenza media.
Tutto quanto abbiamo ottenuto per questo caso è un limite infe
riore valido per ogni S/ N, un limite << asintotico )) superiore (va
lido per grandi S/ N) ed un valore asintotico di C per S/N pic
coli.
Teorema 20 : La capacità C di un canale di banda W perturbata
da un rumore bianco termico di potenza N è limitata da
C � W log --2
7re3
s
--
N '
dove S è la potenza di picco del trasmettitore consentita. Per S/N
sufficientemente grande
2 S+N
C � W log
--
'!re
N
(l + E)
dove E è arbitrariamente piccolo. Quando S/N -. O (e a patto che

la banda W parta da O)
C/ W log (l + � ) -. l.
Vogliamo rendere massima l a entropia del segnale ricevuto. Se
S/N è grande ci si avvicinerà molto a questo risultato quando
viene resa massima l'entropia del complesso trasmesso.
Il limite asintotico superiore viene ottenuto mitigando le condi
zioni riguardanti il complesso. Supponiamo che la potenza sia limi-
1 14
tata a S non in ogni istante, ma solamente nei punti campione.
Il massimo di entropia del complesso trasmesso è, sotto queste
condizioni meno restrittive, certamente uguale o maggiore di
quello che si aveva sotto le condizioni originali. Questo proble
ma modificato può essere risolto facilmente. Il massimo di en
tropia si verifica quando i differenti campioni sono indipendenti
e quando hanno una funzione di distribuzione che è costante da
- {S a + -{S. L'entropia può essere calcolata come
W log 4S.
Il segnale ricevuto avrà allora una entropia minore di
W log (4S + 21reN) ( l + E)
con E -+ O quando S/ N -+ = e la capacità del canale viene otte
nuta sottraendo la entropia del rumore bianco, W log 211:eN:
W log (4S + 21reN) ( l + E) - W log ( 21reN)
2
11:e S + N
= W log ----cN-=--- ( l + E) .
Questo è il limite superiore per la capacità del canale .
Per ottenere un limite inferiore si consideri il medesimo com
plesso di funzioni. Siano queste funzioni fatte passare attraverso
un filtro ideale con caratteristica di trasferimento triangolare.
Il guadagno deve essere uguale a l alla frequenza O e diminuire
linearmente fino ad annullarsi alla frequenza W. Dimostriamo
dapprima che le funzioni di uscita del filtro hanno una limita
zione della potenza di picco S in ogni momento (non solamente
sen 7r 2 Wt
nei punti campione). Prima notiamo che un impulso
2 1r Wt
che entra nel filtro produce un'uscita
l sen2 11:Wt
2 (11:Wt)Z
Questa funzione non è mai negativa. Si può pensare alla fun
zione di ingresso (nel caso generale) come alla somma di una
serie di funzioni traslate
sen 21rWt
a
2 1r Wt
1 15
dove a, ampiezza del campione, non è maggiore di {S. Pertanto
l'uscita è la somma delle funzioni traslate della forma non-nega
tiva di cui sopra con i medesimi coefficienti. Essendo queste fun
zioni non-negative, il maggior valore positivo per qualunque t
lo si ottiene quando tutti i coefficienti a hanno il loro massimo
valore positivo, vale a dire � In questo caso la funzione di in
gresso era una costante di ampiezza {S e dato che il filtro ha
guadagno unitario per corrente continua, l'uscita è la stessa. Per
tanto il complesso di uscita ha una potenza di picco S.
L'entropia del complesso di uscita può essere ricavata da quella
del complesso di entrata, mediante il teorema che si occupa di
tale situazione. L'entropia di uscita è uguale alla entropia di en
trata più il guadagno medio geometrico del filtro:
J� log G2 df = J� log ( W
.; f )
2
df = - 2W.
Quindi l'entropia di uscita è

4S
W log 4S - 2W = W log -2-
e
e la capacità del canale è maggiore di

2 s
W log --
3 -.
ne N
Vogliamo ora dimostrare che, per S/N (rapporto tra la potenza
di picco del segnale e la potenza media del rumore bianco) piccolo,
la capacità del canale è approssimativamente
C = W log ( l + !) .
Più precisamente C/W log ( l + S/N) - 1 quando S/N - 0. Dato

che la potenza media P del segnale è minore o uguale al picco S,
ne segue che per ogni S/N.
C � W log ( l + �) � W log ( l + !)
Pertanto, se possiamo trovare un complesso di funzioni tale che
esse corrispondano ad una velocità vicina a W log ( l + S/N) e
1 16
siano limitate ad una banda_ W e a una potenza di picco S, avremo
raggiunto la dimostrazione. Si consideri il complesso di funzioni
-
del tipo seguente. Una serie di t campioni hanno lo stesso valore,
+ -fS o {S, quindi i successivi t campioni hanno lo stesso
valore, ecc. Il valore per una serie è scelto a caso, probabilità -!
per + -{S e t per - {S Se questo complesso viene fatto pas
.
sare attraverso un filtro con caratteristica di guadagno triango

lare ( guadagno unitario in corrente continua), l'uscita è limitata
nella potenza a picco + S. Inoltre la potenza media è presso
ché S ed è possibile farla avvicinare a questa prendendo t suffi
cientemente grande. L'entropia della somma di questa e del ru
more bianco può essere trovata applicando il teorema sulla som
ma di un disturbo e di un piccolo segnale. Questo teorema si
applicherà se
{I _§_
N
è sufficientemente piccolo. Ci si può assicurare di ciò prendendo
S/N abbastanza piccolo (dopo che si è scelto t). La potenza en
tropica sarà vicina a S + N con l'approssimazione che si vuole,
e pertanto la velocità di trasmissione sarà vicina quanto vo
gliamo a
W log
( S+N
N
).
1 17
5
La velocità per una sorgente continua
27. Funzioni per la valutazione della fedeltà
Nel caso di una sor-gente di informazioni discrete eravamo in

grado di determinare una definita velocità di generare informa
zioni, vale a dire l'entropia del processo stocastico che ne è alla
base. Con una sorgente continua la situazione è considerevol
mente più complicata. In primo luogo, una quantità continua
mente variabile può assumere un numero infinito di valori e
richiede, perciò, un numero infinito di cifre binarie per una esat
ta specificazione. Ciò significa che per trasmettere l'uscita di
una sorgente continua ottenendo un recupero esatto al punto di
ricezione si richiede, in generale, un canale di capacità infinita
(in bit al secondo). Dato che, normalmente, i canali hanno un
certo ammontare di disturbo, e pertanto una capacità finita, è
impossibile una trasmissione esatta.
Ciò, comunque, esula dal punto in discussione. Praticamente, non
siamo interessati ad una trasmissione esatta quando abbiamo
una sorgente continua, ma solamente ad una trasmissione conte
nuta entro una certa tolleranza. La questione è se possiamo as
segnare ad una sorgente continua una definita velocità quando
richiediamo solamente una certa fedeltà di riproduzione, misu
rata in maniera adeguata . Naturalmente, quando vengono aumen
tati i requisiti di fedeltà la velocità aumenterà. Mostreremo che
è possibile, in casi molto generali, definire una velocità, tale che
sia possibile trasmettere le informazioni, dopo averle opportu-
1 18
namente messe in codice, su un canale la cui capacità sia uguale
alla velocità in questione, e soddisfare alle esigenze di fedeltà.
Un canale di capacità inferiore è insufficiente.
E' dapprima necessario dare una formulazione matematica ge
nerale del concetto di fedeltà di trasmissione. Si consideri l'in
sieme dei messaggi aventi una lunga durata, poniamo di T se
condi. La sorgente viene descritta fornendo la densità di proba
bilità, P(x), che la sorgente scelga, nello spazio relativo il mes
saggio in questione. Un dato sistema di comunicazione viene de
scritto ( dal punto di vista esterno) dando la probabilità condizio
nale P..(y) che, se dalla sorgente viene prodotto il messaggio x,
il messaggio riprodotto al punto di ricezione sia y. Il sistema nel
suo complesso (comprendente la sorgente ed il sistema di trasmis
sione) viene descritto mediante la funzione di probabilità P(x, y)
di avere un messaggio x ed un'uscita finale y. Se è nota questa
funzione, sono note le caratteristiche complessive del sistema dal
punto di vista della fedeltà. Qualunque valutazione di fedeltà
deve corrispondere, matematicamente, ad una operazione riguar
dante P(x, y ). Questa operazione deve avere almeno le proprietà
di un semplice ordinamento di sistemi ; deve, cioè, essere possi
bile, riguardo a due sistemi rappresentati da P1(x, y) e P2(x, y) ,
affermare che, in conformità al criterio di fedeltà, o ( l ) possiede
maggiore fedeltà il primo, o (2) possiede maggiore fedeltà il se
condo, oppure (3) essi hanno uguale fedeltà. Ciò significa che si
può rappresentare un criterio di fedeltà mediante una funzione di
valutazione numericamente calcolabile
v(P(x, y))
il cui argomento si estende alle possibili funzioni di probabilità
P(x, y ) . La funzione v( P( x, y)) ordina i sistemi di comunicazione in
base alla fedeltà, e per convenienza prendiamo più bassi valori
di v in corrispondenza a « più alta fedeltà >> .
Mostreremo ora che, sotto condizioni molto generali e ragione
voli, è possibile scrivere la funzione v( P( x, y)) in una forma appa
rentemente molto più specifica, precisamente come media di una
funzione p(x , y) tra l'insieme di possibili valori di x e di y :
v(P(x, y)) = JJ P(x, y) p(x, y) dx dy.

119
Per ottenere questo dobbiamo solamente assumere ( l ) che la
sorgente ed il sistema siano ergodici cosicché un campione molto
lungo sarà, con probabilità pressoché l , tipico del complesso, e
(2) che la valutazione sia « ragionevole >>, nel senso che sia pos
sibile, esaminando un ingresso e un'uscita tipici, x, e y,, formu
lare una valutazione di prova sulla base di questi campioni; e
se si aumenta la durata di questi campioni, la valutazione di prova
tenderà, con probabilità l , alla valutazione esatta, basata su una
conoscenza piena di P( x, y ). Sia p(x, y ) la valutazione di prova.
Allora la funzione p(x, y) tende ad essere (quando T -- oo ) una
costante per quasi tutti gli (x, y ) che si trovano nella regione ad
alta probabilità corrispondente al sistema:
p(x, y ) --- v(P(x, y ))
e possiamo anche scrivere
p(x, y ) __. JJ P(x, y) p(x, y) dx dy

dato che
JJ P(x, y ) dx dy = l.
Questo dimostra quanto desiderato.

La funzione p(x, y ) ha la natura di una « distanza » tra x e y24•
Essa misura quanto sia indesiderabile (relativamente al nostro
criterio di fedeltà) ricevere y quando viene trasmesso x. La for
mulazione generale di cui sopra può essere denunciata come
segue : qualunque ragionevole valutazione può essere rappresen
tata come media di una funzione di distanza sull'insieme di mes
saggi e di messaggi ricostruiti x e y , pesata in conformità della
probabilità P(x, y) di ottenere la coppia in questione, a patto che
la durata T dei messaggi sia sufficientemente grande.
I seguenti costituiscono semplici esempi di funzioni di valuta
zione.
2• Non si tratta, comunque, di una distanza 11 metrica 11 in senso stretto, dal

momento che in generale essa non soddisfa né p <x. y )
= p <Y. x> oé
p( X, y ) + p(Y,Z) > p(X, 2).
120
1. Criterio R.M.S.
v = (x( t)- y(t))2

In questa misura di fedeltà, assai comunemente usata, la fun
zione della distanza p(x, y) è (a parte un fattore costante) il qua
drato della normale distanza euclidea tra i punti x e y nel rela
tivo spazio delle funzioni.
p(x, y) =
1
T
fT
0 [x(t) - y(t)] 2 dt
2. Criterio R.M.S. con frequenza pesata. Più generalmente si pos

sono attribuire pesi differenti alle differenti componenti di fre
quenza, prima di applicare una misura R.M.S. di fedeltà. Ciò equi
vale a far passare la differenza x(t) - y(t) attraverso un filtro di
taglio, determinando quindi la potenza media all'unità. Perciò
e(t) = x( t) - y( t)
e
f(t) = f�- e(-r)k(t - -r) d-r
allora
p(x, y) =
i J� f(t)2 dt.
3. Criterio dell'errore assoluto.
p(x , y) =
1
T
fT
o
l x(t) - y(t) l dt
4. La struttura dell'orecchio e del cervello determinano implici

tamente un certo numero di valutazioni, appropriate nel caso di
trasmissione di parole o musica. Vi è, per esempio, un criterio
di « intellegibilità ,, in cui p(x,y) è uguale alla frequenza relativa
delle parole scorrettamente interpretate quando il messaggio x(t)
viene ricevuto come y( t). Pur non potendo in questi casi dare una
rappresentazione esplicita di p(x,y), essa potrebbe essere deter
minata, in linea di principio, mediante una sufficiente sperimen
tazione. Alcune delle sue proprietà discendono da ben noti ri
sultati sperimentali riguardanti l'udito; ad esempio, l'orecchio
121
è relativamente insensibile alla fase e la sensibilità alla ampiezza
ed alla frequenza è pressapoco logaritmica.
5. Il caso discreto può essere considerato come una specializza
zione in cui abbiamo tacitamente assunto una valutazione basata
sulla frequenza di errori. La funzione p(x, y) è allora definita come
il numero di simboli della sequenza y che differiscono dai cor
rispondenti simboli della sequenza x, diviso per il numero totale
di simboli in x.
28. La velocità per una sorgente relativa ad una valutazione di

fedeltà
Siamo ora in condizione di definire la velocità di generazione

delle informazioni di una sorgente continua. Sono dati P(x) per
la sorgente e una valutazione v determinata da una funzione
distanza p(x, y) che sarà assunta continua sia in x che in y. Con
un particolare sistema P(x, y) la fedeltà è misurata da
v = JJ p(x, y) P(x, y) dx dy.

Inoltre la velocità di flusso di cifre binarie corrispondenti a
P(x, y ) è
R = JJ P(x, y) log P(x, y)

P(x)P(y)
dx dy.
Definiamo la velocità Ri di generazione delle informazioni per una

data qualità Vi di riproduzione come il valore minimo di R quan·
do manteniamo v fisso al valore Vi e variamo Px(y). Cioè :
Ri = �!r JJP(x, y) log P(x, y)

P(x)P(y)
dx dy
sotto la condizione che
vi = JJ P(x,y)p(x, y) dx dy.
Ciò significa che prendiamo in considerazione, in effetti, tutti i
sistemi di comunicazione che potrebbero essere usati e che tra
smettono con la fedeltà richiesta. La velocità di trasmissione in
bit al secondo è calcolata per ogni sistema e scegliamo quello
122
avente la più piccola velocità. Quest'ultima velocità è la velocità
che assegnamo alla sorgente per la fedeltà in questione.
La giustificazione di questa definizione si trova nel seguente
teorema :
Teorema 21 : Se una sorgente ha una velocità R1 per una valu
tazione V1 è possibile mettere in codice l'uscita della sorgente e
trasmetterla su un canale di capacità C con fedeltà prossima quan
to vogliamo a v1 a patto che R1 � C. Questo non è possibile se
RI > C.
L'ultima affermazione del teorema discende immediatamente dal
la definizione di R1 e dalle precedenti acquisizioni. Se essa non
fosse vera potremmo trasmettere più di C bit al secondo su un
canale di capacità C. La prima parte del teorema è dimostrabile
mediante un metodo analogo a quello usato per il teorema 1 1 .
Possiamo, in primo luogo, dividere lo spazio (x, y) in un gran
numero di piccole celle e rappresentare la situazione come in
un caso discreto. Ciò non cambierà la funzione di valutazione
altro che di una quantità arbitrariamente piccola (quando le celle
sono molto piccole) a causa della continuità assunta per p(x, y).
Supponiamo che P1(x, y) sia il particolare sistema che rende mi
nima la velocità e dà R1. Scegliamo fra gli y ad alta probabilità
un insieme a caso contenente
membri, dove E - O quando T - <Xl Con T grande ciascun punto

.
scelto sarà collegato tramite linee ad alta probabilità (come nella

fig. 10) ad un insieme di x. Un calcolo simile a quello usato nella
dimostrazione del teorema 1 1 mostra che con T grande quasi
tutti gli x sono coperti dai ventagli che hanno origine nei punti
y prescelti, per quasi tutte le scelte dei detti punti y. Il sistema
di comunicazione da usarsi opera come segue : ai punti scelti
vengono assegnati dei numeri binari ; quando viene data origine
ad un messaggio x esso si verrà a trovare (con probabilità ten
dente a l quando T - <Xl ) all'interno di almeno uno dei venta
gli. Il numero binario corrispondente (oppure uno di essi scelto
a piacere, se sono parecchi) viene trasmesso sul canale, con mezzi
di codifica opportuni per determinare una piccola probabilità
di errore. Dal momento che R1 � C, questo è possibile. Al punto
123
di ricezione la y corrispondente viene ricostruita e usata come
messaggio ricevuto.
La valutazione vl per questo sistema può essere resa prossima
a v1 nella misura che vogliamo prendendo T sufficientemente
grande. Ciò è dovuto al fatto che per ogni lungo campione di
messaggio x(t) e di messaggio ricostruito y(t) la valutazione ten
de a v. (con probabilità 1 ).
E' interessante notare che, in questo sistema, il disturbo nel mes
saggio ricostruito è in realtà prodotto da una specie di quantiz
zazione generale nel trasmettitore e non è prodotto dal disturbo nel
canale. E' più o meno analogo al disturbo quantizzante nel PCM.
29. Il calcolo delle velocità
La definizione di velocità è simile per molti aspetti alla defini

zione di capacità del canale. Nella prima abbiamo
R = �<�� I J P(x, y) log pf��) dx dy
con P(x) e v1 = II P(x, y ) p(x, y) dx dy fissati. Nella seconda
C = Wc�x II P(x, y ) log pf��) dx dy
con PJ.. y ) fissata e possibilmente con una o più altre condizioni

imposte (per es., una limitazione di potenza media) della for
ma K = f f P(x,y) À.(x, y) dx dy.
E' possibile dare una soluzione parziale del problema generale
di massimizzazione per determinare la velocità di una sorgente.
Servendoci del metodo di Lagrange consideriamo
JJ [
P(x, y )
P(x, y) log + l.l P(x, y) p(x, y )
P(x)P( y )
+ v(x)P(x, y ) ] dx dy.
L'equazione variazionale ( quando prendiamo la prima variazione

su P(x, y )) porta a
1 24
Py(X) = B(x) e-}..p (.r.rl
dove À. è determinato per fornire la fedeltà richiesta e B(x) è
scelto per soddisfare
JB(x) e-}..p(-<.rl dx = l .
Questo dimostra che, con la miglior codifica, la probabilità con
dizionale di una certa causa per i vari y ricevuti, Pr(x), dimi
nuirà esponenzialmente con la funzione p(x, y) della distanza tra
gli x e gli y in questione.
Nel caso speciale in cui la funzione p(x, y) della distanza dipende
solamente dalla differenza (vettore) tra x e y,
p(x, y) = p(x - y)
abbiamo
J B(x) e -}..p(-<-rl dx = l.
Allora B(x) è costante, poniamo a , e
Py{x) = ae-}..p(.r-rl.
Sfortunatamente queste soluzioni formali sono difficili da valu
tare in casi particolari e sembrano essere di scarso valore. Infatti,
l'effettivo calcolo delle velocità è stato realizzato soltanto in pochi
casi molto semplici.
Se la funzione della distanza p(x, y) è lo scarto quadratico medio
tra x e y e il complesso del messaggio è un rumore bianco, la
velocità può essere determinata. In questo caso abbiamo
R = Min [H(x) - Hr(x) ] = H(x) - Max Hr(x)
con N = (x - y)2• Ma Max. Hr(x) si verifica quando y - x è un
rumore bianco, ed è uguale a W1 log 2neN dove W1 è l'ampiezza
della banda del complesso del messaggio. Perciò
R = W1 log 2neQ - W 1 log 2neN
= wl log _Q_
N
dove Q è la potenza media del messaggio. Ciò dimostra il se
guente :
125
Teorema 22: La velocità di una sorgente con caratteristica di
rumore bianco, di potenza Q e banda W1 relativamente ad una
misura di fedeltà R . M.S. è
Q
R = W1 log N
dove N è l'errore quadratico medio consentito tra i messaggi

originali e quelli ricostruiti.
Più generalmente con qualsiasi sorgente di messaggi possiamo
ottenere disuguaglianze che delimitano la velocità in rapporto ad
un criterio di errore quadratico medio.
Teorema 23 : La velocità di qualsiasi sorgente di banda W1 è
delimitata da
w! log Ql � R � w! log Q
N N
dove Q è la potenza media della sorgente, QI la sua potenza en
tropica e N il consentito errore quadratico medio.
Il limite inferiore discende dal fatto che Max H1(x) per un dato
(x - y)2 = N si verifica nel caso di rumore bianco. Il limite su
periore si ha se disponiamo i punti (usati nella dimostrazione
del teorema 2 1 ) non nel modo migliore, bensì a caso in una
sfera di raggio �Q- N.
126
Riconoscimenti
L'autore deve ai suoi colleghi dei Laboratori, particolarmente al
Dr. H. W. Bode, al Dr. J. R . Pierce, al Dr. B. McMillan e al Dr.
B. M. Oliver molti suggerimenti e critiche che gli sono stati di
aiuto nel corso di questo lavoro. Va anche reso merito al Prof.
N. Wiener, la cui elegante soluzione dei problemi di filtro e di
predizione di complessi stazionari ha influenzato in misura con
siderevole il pensiero dell'autore in questo campo.
127
Appendice l
L 'aumento del numero di blocchi di simboli

con una condizione a stati finiti
Sia N;(L) il numero di blocchi di simboli di lunghezza L che
vanno a finire nello stato i. Allora abbiamo
N;(L) = l: N;(L - b�'/)
is
dove b)1 , M1 , b'fl rappresentano le lunghezze dei simboli che

• • • ,
possono venir scelti nello stato i e portare allo stato j. Queste

sono equazioni lineari alle differenze finite e il comportamento
quando L -- oo deve essere del tipo
N; = A;WL.
Sostituendo nella equazione alle differenze
Sia
,r.,
A; = l: A; w- ,
iS
,
11r s1
W ,, - Ò;;) A; = O.
lt t
( -
Perché questo sia possibile il determinante
129
D( W ) = l a;; l = I: w-b\? - o;; l
s
deve diventare zero e questo determina W, che è, naturalmente,

la più grande radice reale di D = O. La quantità C è allora data da
log � A; WL 1og
C = l1m
.
W
4- L
e notiamo anche che le stesse proprietà di aumento si hanno se
richiediamo che tutti i blocchi partano nello stesso stato (arbi
trariamente scelto).
130
Appendice 2
Derivazione di H = - l:P i log Pi
Sia H ( ! , ..., ! , � ) = A( n). Per la condizione (3) pos

siamo scomporre una scelta fra sm possibilità egualmente proba
bili in una serie di m scelte ciascuna tra s possibilità egualmente
probabili ed ottenere
Analogamente
A( t" ) = n A( t).
Possiamo scegliere n arbitrariamente grande e trovare un m che
soddisfi
m
s � t" < s (m+l) .
Perciò, prendendo i logaritmi e dividendo per n log s,
...!!!____
n
�
��
log s
�
_!E_
n
+ _l_
n
0 '___!!!___
n
_ log t
log s
l <
E
dove E è arbitrariamente piccolo. Ora dalla proprietà monoto

nica di A(n),
A(sm) � A(t" ) � A(sm+t)
m A(s) � nA(t ) � (m + l ) A(s)
donde, dividendo per nA(s),
131
m
n
+
n
l
ovvero l ___!!'!____
n
-
A(s)
l
_A(t)_ < E
l A(t)
A(s)
- _l�g_!_
log s
l ""'
� 2E A( t) = - K log t
dove K deve essere positiva per soddisfare la condizione (2) .

Supponiamo ora di avere una scelta fra n possibilità con pro·
:-
babilità commensurabili p; = - !_____ dove n; sono numeri interi.
... n;
Possiamo scomporre una scelta fra �n; possibilità in una scelta
fra n possibilità con probabilità P•· . . . , Pn e quindi, se è stata
scelta la ima possibilità, in una scelta tra n; possibilità con pro
babilità uguali. Servendoci nuovamente della condizione (3),
uguagliamo la scelta totale fra �n; calcolata mediante due metodi
K log � n; = H(p. , . . . , Pn) + K�p; log n;.
Di qui
H = K [ �p; log Ln; - Lp; log n;]
n;
= -K�p; log '<;' = - KLp; log p;.
... n;
Se le p; non sono commensurabili, esse possono venir appros
simate mediante numeri razionali e la stessa espressione deve
mantenersi fedele alla nostra assunzione di continuità. Pertanto
l'espressione rimane la stessa in generale. La scelta del coeffi
ciente K è una questione di convenienza e corrisponde alla scelta
di una unità di misura.
13 2
Appendice 3
Teoremi sulle sorgenti ergodiche

Assumiamo che la sorgente sia ergodica, cosicché è possibile ap
plicare la legge forte dei grandi numeri. Così il numero di volte
che una data traiettoria Pii della rete viene attraversata in una
lunga sequenza di lunghezza N è pressappoco proporzionale alla
probabilità, diciamo P;, di trovarsi in i, e di scegliere quindi que
sta traiettoria, P;p;iN. Se N è sufficientemente grande, la pro
babilità di errore percentuale ±o in questa traiettoria è minore
di t, cosicchè per tutti gli insiemi di bassa probabilità eccetto
uno, i numeri effettivi si trovano entro i limiti
(P;p;i + o)N.
Quindi quasi tutte le sequenze hanno una probabilità p data da
log P . .
e -N- e l Imitato da
,
log p
= 'f.(P;p;l + o) log Pii
N
oppure
l log p
N
- '"i.P;p;i log Pii
l< 71
il che prova il teorema 3.

Il teorema 4 discende immediatamente da questo, calcolando li-
133
miti superiori ed inferiori per n(q) basati sulla possibile serie di
valori di p del teorema 3. Nel caso misto (non ergodico) se
L = 'E.p;L;
e se le entropie delle componenti sono H1 � Hz � . . . � H" abbia
mo il
(q )
Z
log
Teorema : lim = cp(q) è una funzione decrescente a sca-
N-+ -
lini,
s-1 s
cp ( q ) = H. nell'intervallo l; ai < q < l: a;.
l l
Per provare i teoremi 5 e 6 si noti in primo luogo che FN è mo

notona decrescente in quanto aumentando N si aggiunge un in
dice sottoscritto a un'entropia condizionale. Una semplice sosti
tuzione di ps;(Si) nella definizione di FN mostra che
FN = N GN - (N - 1 ) GN-1
e facendo la somma per tutti gli N si ha GN = � 'E.FN· Quindi

GN � FN e GN è monotona decrescente. Anche queste funzioni
devono tendere allo stesso limite. Servendoci del teorema 3 ve
diamo che lim GN = H.
N-+ -
134
Appendice 4
Massimizzazione della velocità

in un sistema con restrizioni
Supponiamo di avere un insieme di restrizioni riguardanti se
quenze di simboli che sia del tipo a stati finiti e possa pertanto
essere rappresentato mediante un grafo lineare, come nella fig. 2.
Siano N/ le lunghezze dei vari simboli che possono verificarsi
nel corso del passaggio dallo stato i allo stato j. Quale distribu
zione di probabilità P; per i differenti stati e pltJ per la scelta di
un simbolo s nello stato i e il trasferimento allo stato j rende
massima la velocità di produzione di informazioni sotto queste
condizioni restrittive? Le restrizioni definiscono un canale discre
to e la velocità massima deve essere minore o uguale alla capa
cità C di questo canale, dato che se tutti i blocchi di grande
lunghezza fossero ugualmente probabili, ne risulterebbe questa
velocità, e, se possibile, questa sarebbe la migliore. Mostreremo
che questa velocità può essere raggiunta mediante opportuna
scelta della P; e delle p't}. La velocità in questione è
- l: P;plf} log plf/
i,j,s
l: P;prtJ zrtJ
i,j,s
Sia
,.,
P(�/, -
,
- �
B;
w-r,,
dove B; soddisfano le equazioni
135
Questo sistema omogeneo ha una soluzione non nulla dato che
W è tale che il determinante dei coefficienti è zero:
l I: w-rW - òij l = o.
•
Le p1tj definite sono perciò soddisfacenti probabilità di transizione

perché in primo luogo
= B·
n: = 1
cosicché la somma delle probabilità da qualunque particolare

punto di congiunzione è uguale a 1 (unità). Inoltre esse sono
non-negative, come si può vedere considerando le quantità Ai
date nella appendice 1 . Ogni A1 è necessariamente non-negativa
e ogni Bi soddisfa ad un sistema simile di equazioni, ma con i
e i scambiati. Ciò equivale ad invertire la direzione sulle linee
del grafo.
Sostituendo i valori assunti da plf/ nella equazione generale rela
tiva alla velocità, otteniamo
,,,
I: Pipt:/ log T
B·
w-r,,
I: Piplf/ Iii
log W I: Piplf/ llfl - I: P1p1f/ log Bi + I: P�p�J log B1
I: P1Pii lo/J
= log W = C.
Pertanto la velocità con questo insieme di probabilità di transi
zione è C e, dato che questa velocità non potrebbe mai essere
superata, questo è il valore massimo.
136
Appendice 5
Sia S1 un qualsiasi sottoinsieme misurabile del complesso g, e

sia Sz il sottoinsieme del complesso t che dà S1 sotto l'opera
tore T. Allora
Sia Jll. l'operatore che trasla tutte le funzioni di un insieme del

tempo À.. Allora
dato che T è invariante e perciò si commuta con HÀ . Quindi se

m[S] è la misura di probabilità dell'insieme S
m[H),S1] = m [ TH>..S2 ] = m [IP-Sz]
= m [ Sz] = m[S1]
dove la seconda uguaglianza discende dalla definizione di misura
nello spazio di g, la terza dal fatto che il complesso t è staziona
rio, e l'ultima ancora dalla definizione di misura di g. Questo
mostra che il complesso g è stazionario.
Per provare che la proprietà ergodica viene mantenuta sotto ope

razioni invarianti, sia S1 un sottoinsieme del complesso g che è
invariante sotto H\ e sia Sz l'insieme di tutte le funzioni f che
si trasformano in S1. Allora
137
H).SI = H).TS1 = TH).S1 = SI
cosicché H>..S1 è incluso in S2 per ogni À. . Ora, dato che
m[H>..S 1] = m[S2 ] = m[S1]
ciò comporta che
H>..S1 = S2
Per ogni À. con m[S2 ] ;é O, l . Questa contraddizione mostra che
S1 non esiste.
138
Appendice 6
Il limite superiore, N3 � N1 + N2, è dovuto al fatto che la mas

sima entropia possibile per una potenza N1 + N2 si verifica quan
do abbiamo un rumore bianco di questa potenza. In questo caso
la potenza entropica è N1 + N2.
Per ottenere il limite inferiore, supponiamo di avere due distri
buzioni in n dimensioni p(x;) e q(x;) con potenze entropiche N1
e N2. Ci si chiede che forma dovrebbero avere p e q per rendere
minima la potenza entropica N3 della loro convoluzione r(x;):
r(x;) = Jp(y;)q(x; - y;) dy;

La entropia H3 di r è data da
H3 = - Jr(x;) log r(x;) dx;.

Vogliamo renderla minima subordinatamente alle restrizioni
H1 = - J p(x;) log p{x;) dx;

H2 = - J q(x;) log q(x;) dx;.
Consideriamo quindi
V = - J [ r(x) log r(x) + À.p(x) log p(x) + (.J.q(x) log q(x) ] dx

oU = - f { [ l log r(x) ] or(x) + À. [ l log p(x) ] op(x)
+ +
+ (..L[ l + log q(x) oq(x) ] } dx.
139
Se p(x) viene modificata in un particolare argomento X; = s;, la
variazione in r(x) è
or(x) = q(X; - S;)
e
oU = - J q(x; - S;) log r(x;) dx; - À log p(s;) = o

e analogamente quando viene modificata q. Quindi le condizioni
per un minimo sono
J q(x; - s;) log r(x;) = - À log p(s;)

J p(x; - s;) log r(x;) = - log q(s;). u
Se moltiplichiamo la prima per p(s;) e la seconda per q(si) ed

integriamo rispetto ad s, otteniamo
Hl = - ..l. H,
Hl = - f.J. H2
ovvero risolvendo per À e f.J. e sostituendo nelle equazioni
H, J q(x; - s; ) log r(x;) dx; - Hl log p(s;)

=
H2 J p(x; - s;) log r(x;) dx; = - Hl log p(s;).

Supponiamo ora che p(x;) e q(x;) siano normali
l Aij l n/2
p( x;) =
( Zn )n/2 exp - t EA;iXiXi
l Bij l n/2
q(x;) =
( Zn )nf2 exp - t 'f.B;iXiXi .
Allora r(x; ) sarà a sua volta normale con forma quadratica C;i.
Se gli inversi di queste forme sono a;i, b;i, c;i allora
Vogliamo dimostrare che queste funzioni soddisfano alle condi

zioni minimizzatrici se e solo se a;i = Kb;i e quindi danno il
valore minimo di Hl in presenza delle restrizioni imposte. Innan
zitutto
140
n 1
log r(x;) = log 2,. l C11 l - i 'f.C;�;XJ
n 1
J q(x; - s;) log r(x;) = 2 log 2 ,. l C;; l - ! 'f.C;JS;s1 - ! 'f.C;;b;J.
Questo dovrebbe uguagliare
�: [ n log �
2 l A;; l - ! 'i:.A;JS;SI ]
il che richiede A;1 = �: C;1•
In questo caso A11 = :: B;1 ed entrambe le equazioni si ridu
cono ad identità.
141
Appendice 7
Quanto segue indicherà un accostamento più generale e più ri

goroso alle definizioni centrali della teoria delle comunicazioni.
Si consideri uno spazio di misura di probabilità i cui elementi
siano ordinati in coppie (x, y ). Le variabili x, y devono essere
identificate come i possibili segnali trasmessi e ricevuti di una
certa lunga durata T. Chiamiamo fascia di S1 l'insieme di tutti i
punti i cui x appartengono ad un sottoinsieme S1 di punti x, e
analogamente fascia di S2 l'insieme i cui y appartengono al sotto
insieme S2 . Dividiamo x e y in una raccolta di sottoinsiemi mi
surabili X; e Y; non sovrapponentisi e approssimanti la velocità
di trasmissione R
1 y) P( X;, Y;)
R
l
=
T t: P(X;, ; log
P(X;)P( Y;)
dove
P(X;) è la misura di probabilità della fascia di X;
P(Y;) è la misura di probabilità della fascia di Y;
P(X;, Y;) è la misura di probabilità della intersezione delle fasce.
Una ulteriore suddivisione non può mai diminuire R1 . Infatti sia
X1 diviso in X1 = Xl + Xl' e sia
P(Y1 ) = a P(X,) = b + c
P{Xl) b P(Xl , Y,) = d
P(Xl') = c P(Xl', Y,) = e
P(X, , Y,) = d + e.
142
Ne segue che nella somma (per la intersezione X1, Y1) sostituiamo
d+e d e
(d + e) log a( b con d log ab + e log ac .
+ c)
Si dimostra facilmente che, con la limitazione esistente per b ,
c, d, e,
[ d ]
+ e d+e � dde•
b+c "" b dc•
e di conseguenza la somma è aumentata. Così le varie possibili
suddivisioni formano un insieme ordinato, con R monotona cre
scente con il raffinamento della suddivisione. Possiamo definire
R senza ambiguità come il più piccolo limite superiore per R1
e scrivere
R
=
l
T JJ P(x, y) log P(x, y)
P(x)P(y)
dx dy.
Questo integrale, inteso nel senso di cui sopra, include sia il caso
discreto che quello continuo e naturalmente molti altri che non
possono essere rappresentati né nell'una né nell'altra forma. E'
ovvio in questa formulazione che se x e u sono in corrispon
denza biunivoca, la velocità da u a y è uguale a quella da x a y.
Se v è una qualsiasi funzione di y (non necessariamente con un
inverso) allora la velocità da x a y è maggiore o uguale a quella
da x a v, dato che, nel calcolo delle approssimazioni, le suddivi
sioni di y costituiscono essenzialmente una suddivisione più pre
cisa di quanto non siano quelle di v. Più generalmente se y e v
sono in relazione non funzionale ma statistica, se cioè abbiamo
uno spazio (y, v) di misura di probabilità, allora R(x, v) � R(x, y).
Ciò significa che qualunque operazione effettuata sul segnale ri
cevuto, anche se coinvolge elementi statistici, non incrementa R.
Un altro concetto che dovrebbe essere definito precisamente in
una formulazione astratta della teoria è quello di « flusso delle
dimensioni », che è il numero medio di dimensioni richieste al
secondo per specificare un membro del complesso. Nel caso di
banda limitata sono sufficienti 2W numeri al secondo. Una defi
nizione generale può essere formulata come segue. Sia M t ) un
complesso di funzioni e sia pr[fa(t), fp( t) ] una misura metrica della
<< distanza >> tra f,. e f11 nel tempo T (per esempio la differenza
143
R.M.S. in questo intervallo). Sia N(E, ò, T) il minimo numero di
elementi f che possono venir scelti in modo che tutti gli elementi
del complesso, a parte un insieme di misura ò, sono compresi
entro la distanza E di almeno uno di quelli scelti . Pertanto co
priamo lo spazio compreso entro E, a parte un insieme di pic
cola misura ò . Definiamo il flusso di dimensioni À. del complesso
con il triplice limite
. log =- E,--'
N::-'-(--'- Ò,'-
T.:._
--)
Il.
, 1Im l'Im 1.Im __""=
T log E
=
6_o ._o T_ ..
Questa è una generalizzazione delle definizioni di tipo di misura

della dimensione in topologia, e si accorda con l'intuitivo flusso
delle dimensioni di semplici complessi dove il risultato desiderato
è evidente.
144
Finito di stampare nel mese di aprile 1983 dalla Milanostampa o Farigliano (CN)
per conto del Gruppo Editoriale Fabbri o Bompiani, Sonzogno, Etas S.p.A.,
Via Mecenate, 91 o 20138 Milano

C. E. Shannon, W. Weaver - UnaTeoria Matematica Della Communicazione (Etas Libri, 1971)

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

C. E. Shannon, W. Weaver - UnaTeoria Matematica Della Communicazione (Etas Libri, 1971)

Caricato da

Copyright:

Formati disponibili

: Il mondo dell'informatica

Claude E.Shannon-Warren Weaver

Claude E. Shannon - Warren Weaver

La collana <di mondo dell'informatica» intende approfondire

Questo volume, ormai considerato un classico, riporta il fondamentale

2 - M. Italiani - G. Serazzi, Elementi di informatica

3 - F. Lerda, Algebra moderna e circuiti di commutazione

4 - G. Balhiano, Produrre con l'elaboratore

5 - E. lùlpp, Il sistema "viewdata"

6 - F. Cianflone, L'algebra di Boole e i circuiti logici

8 - H.H. Goldsline, Il computer da Pasca! a von Neumann

9 - P. P. Camussone, Il sistema informativo

10- CE. Shannon - W. Wea��tr, La teoria matematica delle comunicazioni

Originai English-language edition published by the

Traduzione dall'inglese di Paolo Cappelli

Copyright© 1971 Gruppo Editoriale Fabbri - Bompiani, Sonzogno, Etas S.p.A.

I diritti di traduzione, di riproduzione e di adattamento, totale o parziale e con qualsiasi mezzo

Seconda edizione italiana: aprile 1983

IX Presentazione di Lorenzo Lunelli

Recenti contributi alla teoria matematica delle comunicazioni

l Capitolo l - Nota introduttiva sulla impostazione generale

degli studi analitici sulle comunicazioni

6 Capitolo 2 - Problemi della comunicazione al livello A

26 Capitolo 3 - Le interrelazioni dei tre livelli dei problemi del­

La teoria matematica delle comunicazioni

39 Capitolo l - Sistemi discreti non disturbati

71 Capitolo 2 - Il canale discreto con disturbo

88 Capitolo 3 - Informazioni continue

1 06 Capitolo 4 - Il canale continuo

118 Capitolo 5 - La velocità per una sorgente continua

con una condizione a stati finiti

131 Appendice 2 - Derivazione di H = - r.pi log pi

135 Appendice 4 Massimizzazione della velocità in un sistema

La teoria dell'informazione si può affermare sia nata con il lavoro di

Lo stile dell'opera di C. E. Shannon è assai stringato mirando all'esposi­

Il breve trattato è da considerarsi ormai un classico; per chiarezza e

' C. E. Shannon, Communication in the Presence ot Noise, Proceeding of the IRE,

Sulla scia delle considerazioni svolte dallo Shannon si è sviluppata una

A chi desiderasse vedere una esposizione più distesa e completa della

Va segnalato che la teoria dell'informazione può venir applicata anche ad

Chi desiderasse infine una esposizione divulgativa della teoria dell'infor­

' R. G. Gallager, Information Th.eorg and Reltable Communtcation, J. Wlley and

Gli ultimi anni hanno visto una rilevante attività di ricerca

Nota introduttiva sulla impostazione generale

Il termine comunicazione sarà da noi usato in un senso

In relazione all'ampio campo della comunicazione, sembrano

2 (( Quando Pfgunst (1911) dimostrò che i cavalli di Elberfeld, che mostra­

Detto questo, si potrebbe essere indotti a ritenere che il livello

cavalli se potevano vedere tali piccoli movimenti ed essi compitarono un enfa­

Problemi della comumcaztone al livello A

2.1. Un sistema di comunicazione e i problemi relativi

Il sistema di comunicazione considerato può essere rappre­

La sorgente di informazione sceglie un messaggio desiderato

3 Si è tradotto con disturbo il termine inglese « noise » dato il più ampio

Il termine informazione, in questa teoria, viene usato in una

• Quando m• = y, si dice che x è il logaritmo di y in base m.

• Non ci si meravigli del segno meno. Qualunque probabilità è un numero

2.3. Capacità di un canale di comunicazione

Dopo la discussione del precedente paragrafo, non stupisce

All'inizio si è posto in rilievo che il trasmettitore accetta il

7 Ricordiamo che la capacità C implica l'idea d i informazione trasmessa a l

Che incidenza ha il disturbo sulla informazione? L'informa­

2.6. Messaggi continui

Fino a questo punto ci siamo occupati di messaggi compo­

26 Capitolo 3 - Le interrelazioni dei tre livelli dei problemi del

Lo stile dell'opera di C. E. Shannon è assai stringato mirando all'esposi

Chi desiderasse infine una esposizione divulgativa della teoria dell'infor

2 (( Quando Pfgunst (1911) dimostrò che i cavalli di Elberfeld, che mostra

cavalli se potevano vedere tali piccoli movimenti ed essi compitarono un enfa

Il sistema di comunicazione considerato può essere rappre

Che incidenza ha il disturbo sulla informazione? L'informa

Fino a questo punto ci siamo occupati di messaggi compo

Sono sicuro che Eddington avrebbe voluto includere il ter

una cifra decimale corrisponde a circa 3t bit. Una ruota nume

Telescrivente e telegrafo sono due semplici esempi di un ca

Abbiamo visto che sotto condizioni molto generali il loga

Come esempio specifico, supponiamo che VI s1ano tre let

Processi stocastici del tipo sopra descritto sono noti mate

Come abbiamo indicato precedentemente, possiamo considera

Abbiamo descritto una sorgente di informazioni di tipo di

Questo teorema, e le condizioni richieste per la sua dimostra

Definiamo l'entropia condizionale di y, H.(y), come la media del

Questa quantità misura quanta incertezza di y in media noi ab

Questa è l'entropia della sorgente per simbolo di testo. Se il pro

Questi risultati sono derivati nella appendice 3. Essi mostra