Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
LA TEORIA
MATEMATICA DELLE
COMUNICAZIONI
ETAS LIBRI
><
,..
Cl
""'
""
Cl
L 12.000
IVA compresa
Il mondo dell'informatica l 10
Il mondo dell'informatica
l - M. Ri«iardi, Informatica e azienda
La teoria matematica
delle comunicazioni
ETAS LIBRI
The Mathematical Theory of Communication
by Claude E. Shannon and Warren Weaver
XI Prefazione
le comunicazioni
3.1. Premessa; 3.2. Carattere generale della teoria al livello A.
127 Riconoscimenti
129 Appendice l L'aumento del numero di blocchi di simboli
-
con restrizioni
137 Appendice 5
139 Appendice 6
142 Appendice 7
Presentazione
IX
dei satelliti più lontani) o di trasmettere dati numerici con particolare
sicurezza.
Si sono ricordati qui alcuni volumi oltre che per suggerire qualche ulte
riore lettura anche per far presente il grandissimo sviluppo che ha avuto
in circa 25 anni la teoria dell'informazione, che ancor oggi costituisce
un campo di intensi studi, ma i cui fondamenti sono tutti contenuti
nell'aureo libretto qui tradotto.
Lorenzo Lunelli
x
Prefazione
XI
Ci è gradito esprimere i nostri ringraziamenti a Dean Ride
nour per aver reso possibile questo libro e alle edizioni dell'Uni
versità dell'Illinois per la loro magnifica collaborazione.
C. E. SHANNON
W. WEAVER
Settembre 1 949
Recenti contributi alla
teoria matematica delle comunicazioni
di Warren Weaver
l
1.1. Comunicazione
1 Questo lavoro è suddiviso in tre capitoli. Nel primo e nel terzo Warren
Weaver è responsabile sia delle idee che della forma. L'altro capitolo cc Problemi
della comunicazione al livello A », costituisce una interpretazione degli scritti
matematici di Claude Shannon dei Beli Telephone Laboratories. Il lavoro di
Shanno n trae origine, come ha fatto rilevare Von Neumann, dalla osservazione
l
1 .2. Tre livelli di problemi riguardanti le comunicazioni
fatta da Boltzmann, nel suo lavoro di fisica statistica ( 1 894), che entropia è
affine a cc informazione mancante 11, considerando che è in relazione con il
numero di alternative ancora possibili per un sistema fisico, una volta che
tutte le informazioni che lo riguardano e che siano osservabili in modo macro
scopico siano state registrate. L. Szilard <Zsch. f. Phis. Vol. 53, 1925) estese
questa idea ad una discussione generale della informazione nella fisica, e von
Neumann <Math. Foundation oj Quantum Mechanics, Berlin, 1932, Cap. V) ha
trattato l'informazione in termini di meccanica quantistica e di fisica delle par·
ticelle. L'opera di Shannon si collega più direttamente a certe idee sviluppate
circa venti anni or sono da H. Nyquist e R. V. L. Hartley, entrambi dei
Beli Telephone Laboratories; Shannon stesso ha inoltre messo in evidenza che
la teoria delle comunicazioni deve molto a Norbert Wiener per gran parte della
concezione che ne è alla base. Wiener, d'altra parte, mette in rilievo che il
primo lavoro di Shannon sulla teoria della commutazione e sulla logica e ma·
tematica è antecedente al suo interesse in questo campo e generosamente ag.
giunge che a Shannon spetta il merito di uno sviluppo indipendente di aspetti
fondamentali della teoria, come l'introduzione del concetto di entropia. Ovvia
mente Shannon si è particolarmente dedicato a sviluppare le applicazioni nel
campo tecnico, mentre Wiener si è prevalentemente dedicato alle applicazioni
In campo biologico (fenomeni del sistema nervoso centrale, ecc.).
2
I problemi semantici riguardano la identità, o una appros
simazione soddisfacente nell'interpretazione del significato da
parte del ricevente, confrontata con il significato inteso da chi
ha inviato la comunicazione. E' questa una situazione molto se
ria e complessa, anche quando si tratti dei problemi, relativa
mente più semplici, della comunicazione tramite parole.
Una complicazione fondamentale è illustrata dalla osservazio
ne che se c'è il dubbio che Tizio non comprende ciò che dice
Caio, allora non è teoricamente possibile, se Caio si limita a
parlare nuovamente con Tizio, chiarire completamente questa
situazione in un tempo finito. Se Caio dice « Mi capisci adesso? »
e Tizio dice « Certamente, sì > ciò non costituisce necessaria
mente una garanzia che si sia giunti alla comprensione. Può
semplicemente essere che Tizio non abbia capito la domanda.
Se ciò non appare convincente si provi con « Czy paii mnie ro
zumie >> e con la risposta (( Hai wakkate imasu >> . Ritengo che
questa difficoltà di fondo2 sia, almeno nel ristretto campo della
comunicazione linguistica, ridotta in termini tollerabili (ma mai
completamente eliminata) da (( spiegazioni>> che (a) non sono
presumibilmente niente più che approssimazioni rispetto alle
idee che vengono esposte, ma che (b) sono comprensibili dal
momento che sono formulate in un linguaggio che è stato prece
dentemente reso ragionevolmente chiaro mediante mezzi opera
zionali. Per esempio, non ci vuole molto a costruire il simbolo
equivalente a (( sì >> in qualunque linguaggio operazionalmente
comprensibile.
Il problema semantico presenta vaste ramificazioni se si pensa
alle comunicazioni in generale. Si consideri, per esempio, il si
gnificato per un russo di un cinegiornale statunitense.
I problemi della efficacia concernono l'esito con cui il signifi
cato trasmesso al destinatario induce questi alla condotta desi
derata. Può sembrare, a prima vista, spiacevolmente limitato vo
ler affermare che lo scopo di tutte le comunicazioni è quello
di influenzare la condotta di chi questa comunicazione riceve,
3
ma per qualsiasi definizione sufficientemente ampia di compor
tamento, appare chiaro che o la comunicazione determina un
comportamento oppure risulta del tutto priva di qualsivoglia
comprensibile e probabile effetto.
Il problema della efficacia implica considerazioni di estetica
nel caso delle belle arti. Nel caso del linguaggio, scritto o par
lato, implica considerazioni che vanno dai meri aspetti di stile,
attraverso tutti gli aspetti psicologici ed emozionali della teoria
della propaganda, fino a quei giudizi di merito che sono neces
sari per attribuire un significato reale alle parole ''esito >> e '' de
siderata » nella frase iniziale di questa sezione sulla efficacia.
Il problema della efficacia è in stretto rapporto con il pro
blema semantico e in un certo qual modo lo comprende; e, in
effetti, esiste sovrapposizione fra tutte le sopraindicate categorie
di problemi.
1.3. Osservazioni
4
precisioni di segnali che risultano possibili quando vengono ana
lizzate al livello A. In tal modo qualunque limitazione trovata
nella teoria al livello A si applica ai livelli B e C. Ma una più
larga parte di questo significato discende dal fatto che l'ana
lisi al livello A mostra che questo livello abbraccia gli altri due
più di quanto si possa superficialmente ritenere. Pertanto la teo
ria del livello A, almeno ad uno stadio significativo, costituisce
una teoria anche per i livelli B e C. Spero che le successive parti
di questo scritto serviranno a chiarire ed a giustificare questa
ultima osservazione.
5
2
sorgente
d i disturbi
6
tuito dall'insieme di dispositivi (trasmettitore del telefono, ecc.),
che converte l'intensità del suono della voce nella corrente elet
trica variabile. In telegrafia, il trasmettitore codifica parole
scritte in sequenze di impulsi elettrici di durata variabile (punti,
linee, spazi). Nel parlare, la sorgente di informazioni è il cer
vello, e il trasmettitore è il meccanismo vocale che emette le di
verse intensità di suono (il segnale) le quali vengono trasmesse
attraverso l'aria. Nel caso della radio, il canale è semplicemente
lo spazio (o l'etere, se qualcuno preferisce ancora questo ter
mine antiquato e ingannevole) mentre il segnale è l'onda elettro
magnetica che viene trasmessa.
Il ricevitore è una specie di trasmettitore alla rovescia, il
quale riconverte i segnali trasmessi in un messaggio e che invia
questo messaggio fino a destinazione. Quando io vi parlo, il mio
cervello è la sorgente di informazioni, il vostro è la destina
zione delle stesse; il mio sistema vocale è il trasmettitore, men
tre il vostro orecchio e il nervo auditivo collegato costituiscono
il ricevitore.
E' purtroppo caratteristico che nel corso della trasmissione
si aggiungano al segnale certe cose non volute dalla sorgente
di informazioni. Queste aggiunte non volute possono essere di
storsioni del suono (per esempio nella telefonata) o disturbi
atmosferici (nella radio), oppure deformazioni riguardanti la
forma o il contrasto di figure (televisione), o errori nella tra
smissione (telegrafia o teleriproduzione), ecc. Ogni alterazione
nel segnale trasmesso viene detta disturbd'.
Domande tipiche che ci si pone su un tale sistema di comuni
cazione sono :
a. Come si misura la quantità di informazione?
b . Come si misura la capacità di un canale di comunicazione?
c. L'operazione del trasmettitore di convertire il messaggio in
segnali spesso comporta un processo di codifica. Quali sono
le caratteristiche di un processo di codifica ad alto rendi-
7
mento ? E quando la codifica sia la più valida possibile, a
quale velocità può il canale convogliare informazioni?
d. Quali sono le caratteristiche generali del disturbo? In che
modo influenza, il disturbo, la precisione del messaggio che
giunge a destinazione ? Come si possono rendere minimi gli
indesiderabili effetti del disturbo, e sino a che punto possono
venire eliminati?
e. Se il segnale trasmesso è continuo ( come nel parlare o nella
musica) invece che formato da simboli discreti (come nella
scrittura, nel telegrafo, ecc.), che conseguenze ha questo fatto
per il problema?
Enunceremo ora, senza alcuna dimostrazione e con un mi
nimo di terminologia matematica, i principali risultati ottenuti
da Shannon.
2.2. Informazione
8
situazione, equivale ad una unità. Si noti che è ingannevole ( an
che se spesso conveniente) dire che l'uno o l'altro messaggio
trasferisce una unità di informazione. Il concetto di informazione
non si applica ai messaggi particolari (come vorrebbe il con
cetto di significato), ma piuttosto all'informazione intesa come
un tutto, l'unità di informazione stando ad indicare che in questa
situazione si ha una quantità di libertà nella scelta del messag
gio che è conveniente considerare come una quantità standard
o unitaria.
I due messaggi tra i quali si deve optare, in una tale scelta,
possono essere qualunque cosa si desideri. Uno potrebbe essere
il testo della Versione della Bibbia di Re Giacomo, mentre l'altro
potrebbe e ssere « sì )), Il trasmettitore potrebbe codificare questi
due messaggi in modo che << zero )) sia il segnale per il primo dei
due e « uno )) quello per il secondo; oppure in modo che un cir
cuito chiuso (con passaggio di corrente) sia il segnale per il primo,
ed un circuito aperto ( senza passaggio di corrente) il segnale per
il secondo. In questo modo le due posizioni, chiuso ed aperto,
di un semplice relè possono corrispondere ai due messaggi.
Per maggior chiarezza, la quantità di informazione è determi
nata, nei casi più semplici, dal logaritmo del numero di scelte
possibili. Essendo conveniente usare logaritmi4 in base 2, piutto
sto che il logaritmo comune o di Brigg in base 10, l'informazione,
quando vi sono solo due alternative, è proporzionale al logaritmo
di 2 in base 2. Ma questo equivale ad una unità ; cosicché una
situazione a due alternative è caratterizzata da una unità di in
formazione, come si è precedentemente affermato. Questa unità
di informazione è detta bit, termine proposto da John W. Tukey,
in luogo dell'espressione completa binary digit ( cifra binaria).
Quando i numeri sono espressi nel sistema binario vi sono sola
mente due cifre, precisamente O e l ; proprio come dieci cifre,
da O a 9, vengono usate nel sistema decimale che impiega 10
come base. Zero e uno possono venir presi simbolicamente per
rappresentare due qualsiasi alternative, come si è notato prima ;
cosicché è naturale associare la cifra binaria o bit con la situa
zione a due alternative che possiede informazione unitaria.
9
Se si hanno a disposizione, poniamo, sedici messaggi alter
nativi tra i quali si è completamente liberi di scegliere, allora,
dato che 16 = 24, cosicché logzl6 = 4, si dice che questa situa
zione è caratterizzata da 4 bit di informazione.
Appare senza dubbio strano, a prima vista, che l'informa
zione venga definita come il logaritmo del numero di alterna
tive. Ma nel corso dello svolgimento della teoria appare sempre
più evidente che le misure logaritmiche sono di fatto quelle na
turali. Al momento, daremo solamente una indicazione di questo.
Si è già rilevato che un semplice relè chiuso o aperto, con le due
posizioni definite rispettivamente O e l, può trattare una situa
zione di unità di informazione, nella quale non vi sono che due
alternative di messaggi. Se un relè può trattare una situazione
unitaria, quante ne possono essere trattate da, poniamo, tre
relè? Sembra molto sensato affermare che tre relè potrebbero
trattare tre volte tanto l'informazione trattata da uno solo. In
dubbiamente è questo il modo di calcolare se si usa la defini
zione logaritmica di informazione. Infatti, tre relè sono in grado
di far fronte a 23, ovvero 8, alternative, che simbolicamente pos
sono venir scritte come 000, 001, 011, 010, 100, 1 10, 101, 1 1 1,
nella prima delle quali tutti e tre i relè sono aperti, e nell'ultima
delle quali sono tutti e tre chiusi. Il logaritmo in base 2 di 23 è 3,
cosicché il calcolo logaritmico assegna tre unità di informazione
a questa situazione, proprio come si è detto. In modo simile, rad
doppiando il tempo utilizzabile si eleva al quadrato il numero
di messaggi possibili e si raddoppia il logaritmo; pertanto, se
viene misurata logaritmicamente, l'informazione raddoppia.
Le osservazioni fino a questo punto si riferiscono a situa
zioni artificialmente semplici, in cui la sorgente di informazioni
è libera di scegliere solo tra diversi messaggi definiti, come un
uomo che scelga tra un insieme di telegrammi d'auguri già pre
parati quello che fa al caso suo. Una situazione più comune e
più importante è quella in cui la sorgente di informazioni forma
una sequenza di simboli scelti tra qualche insieme di simboli
elementari, venendo quindi la sequenza prescelta a formare il
messaggio. Così una persona può scegliere una parola dopo l'al
tra e in seguito formare il messaggio mettendo insieme queste
parole scelte separatamente.
10
A questo punto viene in primo piano una importante consi
derazione che è rimasta sullo sfondo e che merita maggiore at
tenzione. Ci riferiamo al ruolo che gioca la probabilità nella for
mazione del messaggio. Dal momento che i simboli successivi
vengono scelti, queste scelte sono, almeno dal punto di vista
del sistema di comunicazione, governate da probabilità; e in
realtà da probabilità che non sono indipendenti, ma che dipen
dono, a ciascuno stadio del processo, dalle scelte precedenti.
Così, se facciamo riferimento alla lingua inglese e l'ultimo sim
bolo scelto è « the ) ) (il), allora la probabilità che la parola suc
cessiva sia un articolo o un verbo, piuttosto che un sostantivo,
è molto piccola. Questa rilevanza della probabilità si estende in
realtà oltre due parole. Dopo le tre parole << sia il caso )) la
'
probabilità che la parola seguente sia « di )) è abbastanza alta,
mentre la probabilità che sia « elefante )) è molto bassa.
Che ci siano probabilità che esercitano un certo grado di
controllo sulla lingua appare anche ovvio se si considera, per
esempio, il fatto che nella lingua in questione non esistono asso·
lutamente parole in cui la lettera iniziale j sia seguita da b, c, d,
f, g, j, k, l, q, r, t, v, w, x, z ; pertanto la probabilità che ad una
iniziale j segua una di queste lettere è uguale a zero. Similmente
chiunque sarebbe disposto a convenire che la probabilità di avere
la sequenza di parole « pescando a Costantinopoli del salmone
puzzolente )) è bassa. Incidentalmente, è bassa, ma non zero; in
fatti è perfettamente possibile pensare ad un brano in cui una
frase termini con « pescando a Costantinopoli )) e la successiva
cominci con « del salmone puzzolente )). Inoltre potremmo osser
vare, per inciso, che la improbabile sequenza di sei parole di
cui discutiamo si è verificata in una frase in lingua corretta,
precisamente quella da noi formulata.
Un sistema che produce una sequenza di simboli ( che pos
sono, naturalmente, essere lettere o note musicali, piuttosto che
parole) conformemente a certe probabilità è detto processo sto
castico, mentre il caso particolare di un processo stocastico in
cui le probabilità dipendono dagli eventi precedenti è detto pro
cesso markoviano (o di Markoff) o catena markoviana. Tra i
processi markoviani che possono generare messaggi in modo con
cepibile, vi è una classe speciale che è di importanza primaria per
la teoria delle comunicazioni, quella cioè dei cosiddetti processi
11
ergodici. I dettagli analitici sono a questo proposito complessi e
il ragionamento così impegnativo e complicato da aver richiesto
da parte dei migliori matematici un serio impegno per formu
lare la relativa teoria ; ma la natura di un processo ergodico nelle
linee fondamentali è facile da comprendere. Esso è tale che pro
duce una sequenza di simboli che sarebbero il sogno di uno sta
tistico, giacché ogni campione ragionevolmente ampio tende ad
essere rappresentativo dell'intera sequenza. Supponiamo che due
persone scelgano dei campioni in modi differenti e studino quali
orientamenti mostrano le loro proprietà statistiche, man mano
che i campioni diventano sempre più ampi. Se la situazione è
ergodica, allora quelle due persone, comunque possano aver scelto
i loro campioni, concorderanno nelle loro valutazioni sulle pro
prietà del complesso. I sistemi ergodici, in altri termini, rivelano
una specie di regolarità statistica particolarmente sicura e con
fortante.
Torniamo ora all'idea di informazione. Quando abbiamo una
sorgente di informazioni che produce un messaggio scegliendo
uno dopo l'altro dei simboli discreti (lettere, parole, note musi
cali, segni di una certa grandezza, ecc.), la probabilità di scelta
dei vari simboli ad uno stadio del processo essendo dipendente
dalle scelte precedenti (vale a dire un processo di Markoff),
che dire della informazione relativa a questo procedimento ?
La sola quantità che risponde ai requisiti indispensabili sta
biliti per (( informazione » risulta essere esattamente quella che
è conosciuta in termodinamica sotto il nome di entropia. Essa è
espressa in termini delle varie probabilità comportate - quelle
di pervenire a certi stadi nel processo di formazione dei mes
saggi, e le probabilità che, a questi stadi, siano successivamente
scelti certi simboli. La formula, inoltre, comprende il logaritmo
delle probabilità, cosicché costituisce una naturale generalizza
zione del calcolo logaritmico di cui si è parlato in relazione ai
casi semplici.
A coloro che hanno studiato le scienze fisiche, apparirà estre
mamente significativo che una espressione come l'entropia com
paia nella teoria come una misura della informazione. Intro
dotto da Clausius circa cento anni or sono, strettamente legato
al nome di Boltzmann, e approfondito da Gibbs nel suo classico
12
lavoro di meccanica statistica, il concetto di entropia è divenuto
così basilare e penetrante che Eddington rileva : « La legge se
condo cui l'entropia aumenta continuamente - la seconda legge
della termodinamica - assume, ritengo, la posizione principale
tra le leggi della natura ,,,
Nelle scienze fisiche, l'entropia relativa ad una situazione è
una misura del grado di casualità, o di « confusione,, se prefe
rite, presente nella situazione stessa ; e la tendenza dei sistemi
fisici a divenire sempre meno organizzati, sempre più caotici,
è talmente fondamentale che Eddington arguisce che è in primo
luogo questa tendenza che indica la direzione del tempo - che
ci rivelerebbe, per esempio, se una « pellicola,, del mondo fisico
sta correndo in avanti oppure indietro.
Così quando ci si imbatte nel concetto di entropia nella
teoria delle comunicazioni si può rimanere piuttosto sorpresi,
si può a buon diritto avere l'impressione di avere a che fare con
qualcosa che può risultare importante e fondamentale. Che l'in
formazione sia misurata dall'entropia è, dopotutto, naturale,
quando si ricordi che l'informazione, nella teoria delle comuni
cazioni è in rapporto con l'ammontare di libertà di scelta che
si ha nel costruire un messaggio. Pertanto si può affermare, ri
guardo ad una sorgente di informazioni, proprio come per un
complesso termodinamico: cc Questa situazione è estremamente
organizzata, non è caratterizzata da un ampio grado di casualità
o di scelta - vale a dire che la informazione (o la entropia) è
bassa ,,, Torneremo in seguito su questo punto, perché, a meno
che io non sia completamente fuori strada, rappresenta un aspet
to importante del significato più generale della teoria delle co
municazioni.
Avendo calcolato l'entropia (o l'informazione, o la libertà di
scelta) di una certa sorgente di informazioni, si può mettere a
confronto questa entropia col valore massimo che essa potrebbe
assumere, alla sola condizione che la sorgente continui ad im
piegare gli stessi simboli. Il rapporto tra l'entropia effettiva e
l'entropia massima è detto entropia relativa della sorgente. Se
l'entropia relativa di una certa sorgente è, poniamo, 0,8, ciò più
o meno significa che questa sorgente possiede, nella scelta dei
simboli che essa compie per formare un messaggio, una libertà
13
pari a circa l'ottanta per cento di quella possibile con gli stessi
simboli. La differenza tra l e l'entropia relativa costituisce la
ridondanza. Questa è la frazione del messaggio che è determi
nata non dalla libera scelta del mittente, ma piuttosto dalle accet
tate regole statistiche che governano l'uso dei simboli in que
stione. Essa è giustamente detta ridondanza, perché questa fra
zione del messaggio è di fatto ridondante in qualcosa che è
vicino al senso comune di questo termine; vale a dire che questa
frazione del messaggio non è necessaria (e pertanto ripetitiva e
ridondante) nel senso che, se pure mancasse, il messaggio sa
rebbe comunque essenzialmente completo, o almeno potrebbe
essere completato .
E' molto interessante notare che la ridondanza della lingua in
glese è circa del SO per cento5, cosicché circa metà delle let
tere o delle parole che scegliamo nello scrivere e nel parlare
dipendono dalla nostra libera scelta, e circa metà (sebbene nor
malmente non ne siamo consapevoli) sono in realtà controllate
dalla struttura statistica del linguaggio. A prescindere da più
serie implicazioni, che nuovamente rinviamo alla discussione fi
nale, è interessante notare che una lingua deve avere almeno il
SO per cento di libertà reale (o entropia relativa) nella scelta delle
lettere, affinché sia possibile formare delle soddisfacenti parole
crociate. Qualora la libertà fosse totale, allora ogni lista di let
tere sarebbe un gioco di parole crociate. Se avesse il venti per
cento di libertà sarebbe impossibile costruire parole crociate di
complessità e numero tale da rispondere alle esigenze del popo
lare gioco. Shannon ha calcolato che se l'inglese avesse sola
mente il trenta per cento di ridondanza sarebbe possibile costrui
re parole crociate tridimensionali.
Prima di chiudere questa parte sulla informazione, va notato
che l'effettiva ragione per cui l'analisi del livello A si occupa di
un concetto di informazione che caratterizza l'intera natura sta
tistica della sorgente di informazioni e non si interessa di singoli
messaggi (e assolutamente non si interessa del significato dei sin
goli messaggi), è che, dal punto di vista tecnico, un sistema di co
municazione deve affrontare il problema di trattare qualunque
• La stima del 50 per cento riguarda solamente la struttura statistica fino a circa
otto lettere, cosicché il valore definitivo è presumibilmente lievemente maggiore.
14
messaggio che la sorgente può produrre. Se non è possibile o fatti
bile progettare un sistema che possa trattare perfettamente ogni
cosa, allora il sistema dovrebbe essere progettato per svolgere
bene i compiti che gli saranno con maggior probabilità assegnati,
accettando che esso sia meno efficiente per quanto riguarda i com
piti insoliti. Questo tipo di considerazione conduce subito alla
necessità di caratterizzare la natura statistica dell'intero com
plesso di messaggi che una data sorgente può e vuole produrre .
E l 'informazione, come viene intesa nella teoria delle comuni
cazioni, fa proprio questo.
Sebbene non sia affatto scopo di questo scritto occuparsi dei
dettagli matematici, sembra cionondimeno essenziale avere una
idea il più possibile precisa dell'entropia che misura l'informa
zione. Se si ha a che fare, come in un caso semplice, con un
insieme di n simboli indipendenti, o di n messaggi indipendenti
completi riguardanti l'argomento, le cui probabilità di scelta sono
p1, pz, . .. , p,., allora la formula dell'informazione è
H = - [p, log p, + pz log pz + . + p ,.log p ,.],
. .
ovvero
H = - 'J:.p; log p;.
dove6 il simbolo r. indica, come usa in matematica, che bisogna
sommare tutti i termini come quello tipico, p; log p;, scritto come
modello di espressione generale.
Ciò sembra abbastanza complicato; ma vediamo come opera
questa formula in qualche semplice caso.
Supponiamo dapprima di scegliere tra due soli messaggi pos
sibili, le cui probabilità sono quindi p, per il primo e Pz = 1 - p,
per il secondo. Se si calcola, per questo caso, il valore numerico
di H, risulta che H assume il suo valore massimo, precisamente
l , quando i due messaggi sono ugualmente probabili, quando
cioè p, = Pz = t ; vale a dire quando si è completamente liberi
di scegliere tra i due messaggi . Non appena un messaggio di
viene più probabile dell'altro (p, maggiore di pz, poniamo) il va-
15
lore di H diminuisce. E quando un messaggio è molto probabile
(diciamo, P• pressoché uguale ad l e pz pressoché O), il valore
H è molto piccolo (quasi zero).
Nel caso limite in cui una probabilità è uguale a l (certezza)
e tutte le altre a zero ( impossibilità), allora H è zero (assoluta·
mente nessuna incertezza - nessuna libertà di scelta - nessuna
informazione).
Pertanto H ha il valore massimo quando le due probabilità
sono uguali {cioè: quando si è completamente l iberi ed impar
ziali nella scelta) e si riduce a zero quando non esiste più libertà
di scelta.
La situazione appena descritta è di fatto tipica. Se vi sono
parecchie alternative, invece di due, allora H è massima quando
le probabilità delle varie scelte sono il più poss ibile equivalenti
date le circostanze - quando si ha la maggior libertà possibile
nel fare una scelta, trovandosi il meno possibile condizionati in
direzione di certe scelte che posseggono una probabilità mag
giore delle altre. Supponiamo, d'altra parte, che una scelta abbia
probabilità di verificarsi vicina ad l e di conseguenza tutte le
altre abbiano probabilità vicine allo zero. Questa è chiaramente
una situazione in cui si è decisamente portati verso una parti
colare scelta, donde una scarsa libertà di scelta. In tal caso H
viene ad assumere un valore molto piccolo - l'informazione (la
libertà di scelta, l'incertezza) è scarsa.
Abbiamo appena visto che, quando il numero dei casi è de
terminato, quanto più tende ad essere uguale la probabilità dei
diversi casi tanto maggiore è l'informazione. C'è un altro im
portante modo di incrementare il valore di H, precisamente au
mentando il numero dei casi. Più precisamente, se tutte le alter
native sono ugualmente probabili, quante più alternative ci sono,
tanto maggiore sarà H. Si ha maggiore « informazione )) se si
sceglie liberamente fra cinquanta messaggi possibili, che se si
sceglie fra venticinque.
16
di numero di simboli che può trasmettere, ma in termini di
informazioni che trasmette. O meglio, dato che questa ultima
frase si presta particolarmente bene ad una interpretazione er
ronea del termine informazione, la capacità di un canale viene
descritta nei termini della sua idoneità a trasmettere quanto è
prodotto dalla sorgente di una data informazione.
Se la sorgente è di un tipo semplice in cui tutti i simboli
hanno la stessa durata temporale (è il caso, per esempio, della
telescrivente), se la sorgente è tale che ogni simbolo scelto rap
presenta s bit di informazione (liberamente scelti fra 2' simboli)
e se il canale può trasmettere, poniamo, n simboli al secondo,
allora la capacità C del canale è definita da ns bit al secondo.
In un caso più generale bisogna tener conto della durata
variabile dei diversi simboli. Così la formula generale per la ca
pacità di un canale comprende il logaritmo dei numeri di simboli
di una certa durata temporale (che introduce, naturalmente,
l'idea di informazione e corrisponde al fattore s nel semplice
caso del precedente capoverso); nel caso generale, la capacità
misura non il numero di simboli trasmessi ogni secondo, quanto
piuttosto l'ammontare di informazione trasmesso al secondo,
usando i bit al secondo come unità di misura.
2.4. Codifica
17
care il messaggio. La teoria si occupa di trasmettitori e di rice
vitori molto complessi - dotati, per esempio, di « memoria )) -
cosicché il modo in cui essi codificano un certo simbolo del mes
saggio dipende non solamente da questo stesso simbolo, ma an
che dai simboli precedenti del messaggio e dal modo in cui sono
stati messi in codice.
Siamo ora in condizione di enunciare il teorema fondamen
tale, frutto di questa teoria, riguardante un canale non disturbato
che trasmette simboli discreti. Questo teorema si riferisce ad
un canale di comunicazione di capacità C bit al secondo, che
accetta segnali da una sorgente avente un'entropia (o informa
zione) di H bit al secondo. Il teorema afferma che, adottando
particolari procedure di codifica per il trasmettitore, è possibile
trasmettere simboli sul canale ad una velocità media prossima
a C/H, ma che, indipendentemente dalla ingegnosità della co
difica, non può mai superare C/H.1
L'importanza di questo teorema sarà discussa più utilmente
un po' più avanti, quando avremo considerato il caso più gene
rale in cui è presente il disturbo. Per il momento, tuttavia, è im
portante notare il ruolo decisivo che gioca la codifica.
Ricordiamo che l'entropia (o informazione) relativa al pro
cesso che genera messaggi o segnali è determinata dal carat
tere statistico del processo - dalle diverse probabilità di arrivare
a certe situazioni del messaggio e di scegliere, una volta in quelle
situazioni, i simboli successivi. La natura statistica dei messaggi
è interamente determinata dal carattere della sorgente. Ma il ca
rattere statistico del segnale quale viene effettivamente trasmesso
tramite un canale, e pertanto l'entropia del canale, è determinato
sia da ciò che si cerca di immettere nel canale, sia dalla idoneità
del canale a trattare differenti configurazioni di segnali. Per
esempio, nella telegrafia devono esservi degli spazi tra punto e
punto, tra punto e linea e tra linea e linea, altrimenti i punti e
le linee non sarebbero riconoscibili.
18
Ora, accade che quando un canale possiede costrizioni di
questo tipo, che limitano la completa libertà del segnale, vi sono
certe caratteristiche statistiche del segnale che comportano una
entropia di questo maggiore di quella che si avrebbe per ogni
sua altra struttura statistica, e in questo importante caso l'en
tropia del segnale è esattamente uguale alla capacità del canale.
Tenendo presenti queste idee, è ora possibile definire con pre
cisione il più efficiente tipo di codifica. Il miglior trasmetti
tore, infatti, è quello che codifica i messaggi in modo tale che
il segnale possieda proprio quelle caratteristiche statistiche ot
time che meglio convengono al canale che deve venir impiegato -
le quali rendono di fatto massima l'entropia del segnale (o, si
potrebbe dire del canale) e la rendono uguale alla capacità C
del canale.
Questo genere di codifica comporta, per il teorema fonda
mentale di cui sopra, la massima velocità C/H nella trasmis
sione di simboli. Ma per questo guadagno nella velocità di tra
smissione si paga un prezzo. Accade, infatti, e sembra proprio un
dispetto, che quanto più si costruisce una forma di codifica vicina
all'ideale, si è costretti a ritardi sempre più lunghi nel processo
di codifica. In parte questo dilemma è ridimensionato dal fatto
che « lungo 11, in una apparecchiatura elettronica, può significare
una piccola frazione di secondo, e in parte dal fatto che si rag
giunge un compromesso, bilanciando il guadagno nella velocità
di trasmissione con la perdita di tempo nella codifica.
2.5. Disturbo
19
rivela una accresciuta incertezza. Ma, se l'incertezza è aumen
tata, anche l'informazione è aumentata e sembrerebbe che il di
sturbo sia stato vantaggioso.
E' generalmente vero che in presenza di un disturbo il se
gnale ricevuto rivela una informazione maggiore - o meglio, il
segnale ricevuto è selezionato tra un insieme più vario di quello
del segnale trasmesso. Questa è una situazione che illustra per
fettamente la trappola semantica in cui si può cadere se non si
rammenta che il termine cc informazione » è qui usato in una
accezione speciale in cui sta ad indicare la misura di libertà di
scelta e pertanto l'incertezza attinente alla scelta che è stata com
piuta. E' perciò possibile avere, per quanto riguarda il termine
informazione, dei contenuti impliciti positivi o negativi. L'incer
tezza che sorge a causa di errori o a causa dell'influenza di un
disturbo è una incertezza indesiderabile.
E' pertanto chiaro dove sta l'inganno nel dire che il segnale
ricevuto contiene maggior informazione. Parte di questa infor
mazione è falsa ed indesiderabile ed è stata introdotta a causa del
disturbo. Per ottenere l'informazione utile bisogna eliminare dal
segnale ricevuto questa parte falsa.
Prima di poter chiarire questo punto dobbiamo procedere
ad una piccola digressione. Supponiamo di avere due insiemi di
simboli, quelli del messaggio formulato dalla sorgente di infor
mazioni, e i simboli dei segnali che vengono effettivamente rice
vuti. Le probabilità di questi due insiemi di simboli sono corre
late, in quanto la probabilità di ricevere un certo simbolo di
pende da quale simbolo è stato inviato. Senza errori dovuti a
disturbi o ad altre cause, il segnale ricevuto corrisponderebbe
precisamente ai simboli del messaggio inviati ; in presenza di un
possibile errore, le probabilità per quanto riguarda i simboli rice
vuti dipenderebbero evidentemente in misura notevole da quelli
che corrispondono, o sono molto simili, ai simboli del messaggio
inviati .
Ora, in una tale situazione si può calcolare quella che è
chiamata l'entropia di un insieme di simboli relativo all'altro .
Consideriamo, per esempio, l'entropia del messaggio in rapporto
al segnale. Purtroppo non è possibile comprendere le questioni
20
qu1 m discussione senza entrare in qualche particolare. Supp o
niamo per il momento di sapere che è stato effettivamente rice
vuto un certo simbolo del segnale. In questo caso ogni simbolo
del messaggio assume una certa probabilità - relativamente am
pia per il simbolo identico o per i simboli simili a quello rice
vuto e relativamente piccola per tutti gli altri. Servendosi di que
sto insieme di probabilità, si calcola un valore di stima dell'en
tropia. Questa è l'entropia del messaggio fondata sulla assun
zione di un determinato dato ricevuto o simbolo del segnale. In
qualunque buona condizione, il suo valore è basso, dato che le
probabilità implicate non riguardano in modo abbastanza uni
forme i diversi casi, ma praticamente sono fondate su uno o
pochi casi. Il valore di questa entropia sarebbe zero (v. pag . 13)
in ogni caso, essendo noto il simbolo del segnale, tutte le proba
bilità del messaggio sarebbero zero, eccezion fatta per un simbolo
(precisamente quello ricevuto) che avrebbe una probabilità ugua
le ad uno.
Per ogni assunzione riguardo al simbolo del segnale rice
vuto, si può calcolare una di queste entropie di stima del mes
saggio. Si calcolino tutte queste entropie e se ne faccia quindi
la media, pesando ognuna di esse in conformità alla probabilità
del simbolo del segnale assunto nel calcolarla. Le entropie in
tal modo calcolate, quando vi sono due insiemi di simboli da
prendere in considerazione, vengono dette entropie relative. Quel
la appena descritta è l'entropia del messaggio relativa al segnale
e Shannon l'ha anche chiamata equivocazione.
Dal modo in cui questa equivocazione viene calcolata, pos
siamo intendere in che cosa consiste il suo significato. Essa mi
sura la incertezza media nel messaggio quando il segnale è noto.
Se non fosse presente alcun disturbo, allora non vi sarebbe
incertezza concernente il messaggio, essendo noto il segnale. Se
la sorgente di informazioni possiede qualche residuo di incer
tezza una volta noto il segnale, questa è purtroppo dovuta a di
sturbi.
La discussione si è svolta intorno alla quantità : « l'incertezza
media nella sorgente del messaggio quando è noto il segnale rice
vuto » ; ci si può ugualmente bene riferire alla analoga quantità :
" l'incertezza media riguardante il segnale ricevuto, quando sia
21
noto il messaggio inviato » . Naturalmente quest'ultima incertezza
sarebbe uguale a zero in assenza di disturbi.
Quanto alle interdipendenze tra questa quantità, è semplice di
mostrare che
H(x) - H,.(x) = H(y) - Hx(Y)
dove H(x) è l'entropia o informazione della sorgente dei messag
gi ; H(y) l'entropia o informazione dei segnali ricevuti ; H,.(x)
l'equivocazione, o l'incertezza nella sorgente dei messaggi quan
do il segnale è noto; Hx(Y) l'incertezza nei segnali ricevuti se sono
noti i messaggi inviati, ovvero la parte falsa di informazione del
segnale ricevuto, dovuta al disturbo. La parte destra di questa
equazione è l'informazione utile che viene trasmessa malgrado
le nocive conseguenze del disturbo.
E' ora possibile spiegare cosa si intende per capacità C di
un canale disturbato. Essa, infatti, è definita essere uguale alla
velocità massima (in bit al secondo) a cui l'informazione utile
(il che equivale a : incertezza totale meno incertezza dovuta al
disturbo) può essere trasmessa tramite il canale.
Perché si parla, qui, di velocità (( massima » ? Cosa si può fare,
cioè, per ridurre o aumentare questa velocità? La risposta è
che si può influenzare questa velocità scegliendo una sorgente
le cui caratteristiche statistiche siano opportunamente rapportate
ai limiti imposti dalla natura del canale. Si può, cioè, rendere
massima la velocità di trasmissione di informazione utile usando
una opportuna codifica (v. pagg. 17-1 8).
Consideriamo ora, finalmente, il teorema fondamentale per
un canale disturbato. Supponiamo che questo canale disturbato
abbia, nel senso appena descritto, una capacità C, supponiamo
che accetti i segnali da una sorgente di informazioni caratteriz
zata da una entropia di H(x) bit al secondo, mentre sia di H(y)
bit al secondo l'entropia dei segnali ricevuti. Se la capacità C
del canale è uguale o maggiore di H(x), allora, predisponendo
appropriati sistemi di codifica, quanto viene prodotto dalla sor
gente può essere trasmesso tramite il canale con un errore pic
colo a piacere. Per quanto piccola sia la frequenza di errore che
si vuole ottenere, esiste un codice che soddisfa questa richiesta.
Ma nel caso che la capacità C del canale sia minore di H(x),
22
entropia della sorgente da cui accetta i messaggi, è impossibile
progettare codici che riducano alla misura desiderata la frequen
za di errore.
Per quanto si sia abili nel processo di codifica, sarà sempre
vero che, una volta ricevuto il segnale, resterà qualche incertezza
indesiderabile (perché dovuta al disturbo) su ciò che era il mes
saggio ; e questa indesiderabile incertezza - questa equivoca
zione - sarà sempre uguale o maggiore di H(x) - C. Inoltre,
esiste sempre almeno un codice in grado di ridurre questa inde
siderabile incertezza, concernente il messaggio, fino ad un valore
che eccede H(x) - C di una quantità arbitrariamente piccola.
L'aspetto più importante naturalmente è che il minimo inde
siderabile di false incertezze non può venire ulteriormente ridot
to, indipendentemente da quanto complicato o appropriato sia
il processo di codifica. Questo importante teorema fornisce una
precisa e quasi eccezionalmente semplice descrizione della sicu
rezza estrema di funzionamento che si può sempre ottenere da un
canale di comunicazione che operi in presenza di disturbi.
E' da notare una conseguenza pratica, posta in rilievo da
Shannon. Dal momento che l'inglese ha una ridondanza di circa
il 50 per cento, sarebbe possibile risparmiare circa la metà del
tempo impiegato nel normale uso del telegrafo mediante un par
ticolare processo di codifica, a condizione di trasmettere su un
canale non disturbato. Quando vi sono disturbi nel canale, co
munque, vi è qualche vantaggio effettivo nel non usare un pro
cesso di codifica che elimini del tutto la ridondanza. Infatti, la
restante ridondanza serve a combattere i disturbi. E' molto sem
plice verificare questa asserzione, in quanto, proprio per il fatto
che la ridondanza dell'inglese è elevata, si hanno poche o punte
esitazioni, per esempio, nel correggere errori di ortografia che
siano sorti durante la trasmissione.
23
a mezza tinta da un numero finito di punti separati. Che ne è
della teoria, se si considera un messaggio continuo, quale una
voce, con il suo continuo variare di tonalità e di intensità?
Molto approssimativamente si può dire che la teoria ampliata
è un poco più difficile e complicata dal punto di vista matema
tico, ma non sostanzialmente differente. Molte delle precedenti
affermazioni riguardanti il caso di simboli discreti non richie
dono alcuna modifica, mentre altre esigono solo cambiamenti
minori.
Una circostanza che favorisce l'analogia tra i due casi è la
seguente. Dal punto di vista pratico, ci si interessa sempre di un
segnale continuo costituito di semplici componenti armoniche
non di tutte le frequenze, ma di frequenze comprese in una banda
che va dalla frequenza zero fino a, poniamo, una frequenza di
W Hz. Così, sebbene la voce umana contenga in effetti frequenze
più alte, è possibile ottenere una comunicazione molto buona tra
mite un canale telefonico che consenta frequenze fino a, diciamo,
quattromila Hz. Con frequenze fino a dieci o dodicimila è pos
sibile la trasmissione radio ad alta fedeltà di musica sinfoni
ca, ecc.
Un teorema matematico afferma che un segnale continuo, di
T secondi di durata e limitato nella frequenza ad una banda da
zero a W, può essere completamente specificato fissando 2TW
numeri. E' questo un teorema veramente notevole. Normalmente,
una curva continua può solo approssimativamente venir caratte
rizzata determinando un qualunque numero finito di punti attra
verso cui essa passa e, in generale, per una completa conoscenza
della curva sarebbe richiesto un numero infinito di punti. Ma
se la curva è composta di semplici costituenti armoniche di un
numero limitato di frequenze, così come un suono complesso è
costituito da un numero limitato di toni semplici, allora è suffi
ciente un numero finito di parametri. Ciò comporta il grande
vantaggio di ridurre il carattere del problema della comunica
zione, nel caso di segnali continui, da una situazione complicata,
in cui si ha a che fare con un numero infinito di variabili, ad
una situazione considerevolmente più semplice in cui si opera
con un numero di variabili finito (anche se grande).
24
Nella teoria riguardante il caso continuo sono state svilup
pate delle formule che descrivono la massima capacità C di un
canale avente banda di frequenza W, quando : la potenza media
usata per trasmettere sia P, il canale sia soggetto ad un disturbo
di potenza N, e questo disturbo sia un « rumore bianco ter
mico )), di un genere speciale dallo Shannon definito. Questo ru
more bianco termico è esso stesso limitato nella banda delle fre
quenze e le ampiezze delle componenti alle varie frequenze sono
soggette ad una distribuzione di probabilità normale (gaussiana).
Sotto queste condizioni Shannon ricava il teorema, ancora una
volta veramente notevole nella sua semplicità e nella sua por
tata, secondo cui è possibile, con il miglior sistema di codifica,
trasmettere cifre binarie alla velocità di:
P + N
W log2
N
bit al secondo ed avere una frequenza di errore arbitrariamente
piccola. Ma questa velocità non può essere assolutamente supe
rata, indipendentemente dalla adeguatezza del codice, senza che
si dia origine ad una precisa frequenza di errori. Nel caso di
disturbo di altro tipo, invece che del particolare « rumore bianco
termico )) assunto prima, Shannon non riesce a ricavare una for
mula esplicita per la capacità del canale, ma ottiene, per quanto
riguarda la stessa, utili limiti massimi e minimi. Egli ricava an
che dei limiti per la capacità del canale quando si specifichi non
la potenza media del trasmettitore, bensì la potenza istantanea
di picco.
In conclusione, va detto che Shannon ottiene dei risultati
che sono necessariamente un po' meno precisi, ma che sono pa
lesemente di una significatività profonda ed assoluta e che defi
niscono, per un tipo generale di messaggio o segnale continuo,
la fedeltà del messaggio ricevuto e i concetti di velocità con cui
una sorgente dà origine alle informazioni, di velocità di trasmis
sione e di capacità del canale, essendo tutti questi in relazione
coi requisiti di sicura fedeltà.
25
3
3.1. Premessa
26
livelli è talmente notevole, che consente di trarre la conclusione
finale che la distinzione in tre livelli è, in realtà, artificiale e
da scartare.
27
In secondo luogo, appare chiaro come sia stato portato un
importante contributo ad ogni possibile teoria generale delle co
municazioni dalla formalizzazione su cui è fondata la presente
teoria. Sembra dapprima ovvio fare lo schema di un sistema di
comunicazioni, come si è fatto all'inizio di questa teoria; ma que
sta suddivisione della situazione deve essere assai giudiziosa e ap
propriata, come ci si convince allorché si vede quanto facilmente
e in modo generale questo punto di vista conduca ai punti essen
ziali. E' quasi certamente vero che un esame delle comunicazioni
ai livelli B e C richieda aggiunte allo schema di pag. 7, ma sembra
altrettanto probabile che si richiedano aggiunte di carattere mi
nore e nessuna fondamentale revisione.
Pertanto quando ci si sposta ai livelli B e C, può dimostrarsi
indispensabile tenere conto delle caratteristiche statistiche della
destinazione. Possiamo immaginare, come aggiunta allo schema,
un altro rettangolo definito << ricevitore semantico » , collocato tra
il ricevitore meccanico (che cambia i segnali in messaggi) e la
destinazione. Questo ricevitore semantico sottopone il messaggio
ad una seconda decodifica, richiedendoglisi di adeguare le caratte
ristiche statistiche semantiche del messaggio alle capacità seman
tiche statistiche della totalità dei ricevitori, o di quel sottogruppo
di ricevitori che costituiscono l'auditorio che si vuole influenzare.
Analogamente è possibile immaginare un altro elemento nello
schema che, inserito tra la sorgente di informazioni ed il tra
smettitore, verrebbe denominato « disturbo semantico » , chia
mando ora di conseguenza « disturbo meccanico >> quello che pre
cedentemente era stato definito semplicemente come « disturbo >>.
Da questa fonte vengono introdotte nel segnale le perturbazioni o
alterazioni che non sono volute dalla sorgente, ma che inevita
bilmente sono presenti a destinazione. E il problema della deco
difica semantica deve tener conto di questo disturbo semantico.
E' anche possibile pensare ad una rettifica del messaggio origi
nale tale che la somma del significato del messaggio e del disturbo
semantico sia uguale a destinazione al desiderato significato to
tale del messaggio.
In terzo luogo, sembra altamente significativo per il proble
ma a tutti i livelli il fatto che l'errore e la confusione aumen
tano e la fedeltà diminuisce quando, indipendentemente dalle ca
ratteristiche della codifica, si cerca di sovraccaricare un canale
28
( cioè, H > C). Qui nuovamente una teoria generale a tutti i livelli
dovrà tener sicuramente conto non solamente delle capacità del
canale, ma anche (persino se le parole sono giuste ! ) della capa
cità del destinatario. Se si cerca di eccedere la capacità del desti
natario è probabilmente vero, per analogia diretta, che non si sa
turerà, per così dire, l'ascoltatore sprecando solo quanto non può
essere recepito, perché di troppo ; più verosimilmente, ed ancora
per analogia diretta, se si sovraccarica la capacità dell'ascoltatore
si determinerà inevitabilmente un errore e una confusione ge
nerali.
In quarto luogo, è difficile credere che i livelli B e C non
abbiano molto da ricavare e che i loro problemi non siano giu
stamente indirizzati dallo sviluppo in questa teoria delle idee en
tropiche in relazione al concetto di informazione.
Il concetto di informazione sviluppato in questa teoria sem
bra dapprima deludente e strano - deludente perché non ha
nulla a che fare col significato e strano in quanto si occupa non
di un singolo messaggio, ma piuttosto del carattere statistico di
un intero complesso di messaggi ; strano anche perché in questi
termini statistici le due parole informazione e incertezza si tro
vano associate.
Io credo, comunque, che si tratti di reazioni passeggere e
che, alla fine, si possa dire che questa analisi ha dissipato i
dubbi al punto che si è ora, forse per la prima volta, in condi
zione di affrontare una teoria del significato. Una teoria mec
canica delle comunicazioni è proprio come una ragazza molto a
modo e riservata che accetti un vostro telegramma. Ella non
presta attenzione al significato, se è triste, gioioso o imbarazzan
te. Ma deve essere preparata ad occuparsi di tutto ciò che arriva
al suo tavolo. Questa idea secondo cui un sistema di comunica
zioni dovrebbe cercare di trattare tutti i messaggi possibili, e
che il modo intelligente di mirare a questo è quello di fondarne
il progetto sul carattere statistico della sorgente, non è certa
mente priva di importanza per le comunicazioni in generale. Il
linguaggio deve essere progettato (o sviluppato) avendo di mira
la totalità di cose che si può desiderare dire; ma non essendo
in grado di realizzare tutto, dovrebbe tuttavia operare nel mi
glior modo possibile il più spesso possibile. Ciò equivale a dire
che si dovrebbe occupare del suo compito statisticamente.
29
Il concetto di associazione tra informazione e sorgente porta
direttamente, come abbiamo veduto, ad uno studio della strut
tura statistica del linguaggio; e questo studio, per esempio, ri
vela riguardo alla lingua inglese delle informazioni che sembrano
decisamente importanti per gli studiosi di ogni fase del linguag
gio e della comunicazione. L'idea di utilizzare la potente teoria
riguardante i processi di Markoff sembra particolarmente pro
mettente per gli studi semantici, dal momento che questa teoria
è particolarmente adatta a trattare uno dei più importanti, ma
difficili, aspetti del significato, precisamente l'influenza del con
testo. Si ha la vaga sensazione che informazione e significato
possano dimostrare di essere come un paio di variabili canoni
camente coniugate nella teoria dei quanti, essendo soggette ad
alcune restrizioni interdipendenti che ci impongono di sacrifi
care parte dell'una per avere più dell'altro.
Oppure è forse possibile rappresentare il significato come ana
logo ad una delle quantità da cui dipende l'entropia di un
complesso termodinamico. La presenza della entropia nella teo
ria, come abbiamo prima rilevato, è sicuramente estremamente
interessante ed importante. Eddington è stato già citato a questo
proposito, ma vi è un altro passo in The Nature of the Physical
World che sembra particolarmente significativo:
Supponiamo di dover ordinare in due categorie quanto segue : distan
za, massa, forza elettrica, entropia, bellezza, melodia.
Ritengo che vi siano i più validi motivi per collocare l'entropia
accanto a bellezza e melodia, e non con le prime tre. L'entropia
compare solamente quando le parti sono viste in associazione, ed
è con l'osservare od ascoltare le parti come associate che bellezza
e melodia vengono percepite. Tutte e tre sono modi di disposizione.
E' una considerazione significativa quella secondo cui una di queste
tre quantità dello stesso tipo pot rebbe figurare pacificamente come
oggetto di studio scientifico. La ragione per cui questo estraneo
può introdursi tra gli aborigeni del mondo fisico è che è in grado
di parlare il loro linguaggio, cioè il linguaggio della aritmetica.
30
La teoria matematica delle comumcaztom
di Claude E . Shannon
Introduzione
1 Nyquist H., « Certain Factors Affecting Telegra.ph Speed 11, Bell System Technf.
caz Journal, aprile 1924, p. 324 ; 11 'Certain Topics 1n Telegraph Transmlsslon
Theory >>, A.I.E.E. Trans. , v. 47, aprlle 1928, p. 617.
2 Hartley
R. V. L., 11 Transmisslon of Information 11, Bell System Technical
Journal, luglio 1928, p. 535.
33
zione a qualunque scelta possibile, e non solo per quella che
sarà effettivamente attuata, dal momento che questa non è nota
in fase di progetto.
Se il numero dei messaggi dell'insieme è finito, allora questo
numero, o ogni funzione monotona di questo numero, può es
sere considerato come una misura della informazione prodotta
quando un messaggio è scelto dall'insieme e tutte le scelte sono
ugualmente probabili. Come fu posto in rilievo da Hartley, la
scelta più naturale è la funzione logaritmica. Sebbene questa de
finizione debba venir considerevolmente generalizzata quando
prendiamo in considerazione l'influenza dei caratteri statistici
del messaggio e quando abbiamo a che fare con una serie con
tinua di messaggi, useremo in ogni caso una misurazione essen
zialmente logaritmica.
La misura logaritmica è più conveniente per varie ragioni.
l . E' praticamente più vantaggiosa. Parametri di rilevanza tec
nica quali tempo, larghezza della banda, numero di relè, ecc.,
tendono a variare linearmente con il logaritmo del numero di
possibilità. Per esempio, aggiungendo un altro relè ad un
gruppo di relè si raddoppia il numero di stati possibili dei
relè. Ciò aumenta di l il logaritmo in base 2 di questo nu
mero. Raddoppiando il tempo si eleva approssimativamente al
quadrato il numero di messaggi possibili, o si raddoppia il
logaritmo, ecc.
2. E' più vicina alla nostra intuizione come la misura adatta. Ciò
è in stretta relazione con quanto al punto l , dal momento che
noi intuitivamente misuriamo delle entità mediante confronto
lineare con modelli o unità comuni. Si intuisce, per esempio,
che due schede perforate possiederebbero due volte la capa
cità di una sola per quanto riguarda l'immagazzinamento di
informazioni, e che due canali identici avrebbero il doppio
della capacità di uno solo per la trasmissione di informazioni.
3. E' più conveniente dal punto di vista matematico. Molte delle
operazioni con i limiti sono semplici in termini di logaritmo,
ma richiederebbero una complicata rielaborazione in termini
di numero delle possibilità.
La scelta di una base logaritmica corrisponde alla scelta di
34
una unità per misurare le informazioni. Se viene usata la base 2
le unità risultanti possono essere chiamate cifre binarie o più
brevemente bit, termine questo suggerito da J. W. Tukey. Un
dispositivo con due posizioni stabili, quali un relè o un circuito
flip-flop, può immagazzinare un bit di informazione. N disposi
tivi di questo tipo possono immagazzinare N bit, dal momento
che il numero complessivo degli stati possibili è 2N e che
lo� 2N = N . Se si usa la base 10, le unità possono essere deno
minate cifre decimali. Dal momento che
lo� M = log1o M/logJo 2
= 3,32 logJo M,
35
sorgente della
informazione trasmettitore
sorgente
d i disturbi
3 Si è tradotto con disturbo il termine inglese 11 noise 11 dato il più ampio si
gnificato che non la parola italiana rumore, limitata solitamente al campo acu-
36
Questo fatto viene schematicamente indicato nella fig. l dalla sor
gente del disturbo che opera sul segnale trasmesso per produrre
il segnale ricevuto.
4. Il ricevitore compie di solito l'operazione inversa di quella
compiuta dal trasmettitore, ricostruendo il messaggio dal se
gnale.
5.La destinazione è la persona (o la cosa) cui è diretto il
messaggio.
Desideriamo prendere in considerazione certi problemi generali
riguardanti i sistemi di comunicazione. Per fare ciò è prima neces
sario descrivere i vari elementi implicati come entità matematiche,
opportunamente idealizzati rispetto ai loro componenti fisici. Pos
siamo grosso modo classificare i sistemi di comunicazione in tre
categorie principali : discreti, continui e misti. Per sistema di
screto intendiamo un sistema in cui sia il messaggio che il se
gnale consistono in una sequenza di simboli distinti. Un caso
tipico è costituito dal telegrafo, in cui il messaggio è una se
quenza di lettere ed il segnale una sequenza di punti, linee e
spazi. Un sistema continuo è quello in cui il messaggio ed il se
gnale sono entrambi trattati come funzioni continue, per esem
pio la radio o la televisione. Un sistema misto è quello in cui
compaiono variabili sia discrete che continue, per esempio la tra
smissione della parola col sistema PCM.
Considereremo dapprima il caso del sistema discreto. Questo
caso possiede applicazioni non solamente nella teoria delle comu
nicazioni, ma anche nella teoria delle macchine calcolatrici, nella
progettazione di centralini telefonici e in altri campi. Oltre a ciò,
il caso del sistema discreto costituisce un presupposto per i casi
continuo e misto, che verranno trattati nella seconda parte del
lavoro.
stico. Si fa presente però che nel linguaggio tecnico spesso si usa la parola
rumore nel significato più ampio (N.d. T. ).
37
l
39
quanto, se due spazi fra lettere sono adiacenti essi sono identici
ad uno spazio fra parole). La questione che ora prendiamo in
considerazione è quella di come è possibile misurare la capacità
di trasmettere informazioni con un canale di questo tipo.
Nel caso della telescrivente in cui tutti i simboli sono della
stessa durata, ed è consentita qualunque sequenza di 32 simboli,
la risposta è semplice. Ciascun simbolo rappresenta cinque bit
di informazione. Se il sistema trasmette n simboli al secondo è
logico affermare che il canale possiede una capacità di Sn bit al
secondo. Ciò non significa che il canale della telescrivente trasmet
terà sempre informazioni a questa velocità - questa è la mas
sima velocità possibile e il fatto che la velocità effettiva raggiunga
o meno questo massimo dipende dalla sorgente di informazioni
che alimenta il canale, come si vedrà in seguito.
Nel caso più generale di simboli con differenti durate e con
limitazioni riguardo alle sequenze ammesse, diamo la seguente
definizione : la capacità C di un canale discreto è data da
40
x-r, + x-r, + . . . + x-r. = l
e perciò
log AX�
C = lim = log Xo
7'-+ .. T
Nel caso vi siano limitazioni riguardo alle sequenze consen
tite possiamo spesso ottenere ancora una equazione alle diffe
renze di questo tipo e ricavare C dalla equazione caratteristica.
Nel caso della telegrafia, sopra menzionata,
N( t) = N( t - 2) + N( t - 4) + N(t - 5) + N(t - 7)
+ N (t - B) + N(t - 10)
come vediamo contando sequenze di simboli in conformità con
l'ultimo o penultimo simbolo che si incontra. Pertanto C è uguale a
- log {.lo dove {.lo è la radice positiva di l = f.L2 + f.L4 + ,; +
f.l1
+ f.L8 + f.l10• Risolvendo, troviamo che C = 0,539.
Un tipo molto generale di limitazione che può essere posta
riguardo alle sequenze consentite è il seguente : immaginiamo
un certo numero di possibili stati a1, a2, . . . , am . Per ciascuno
stato possono venir trasmessi solamente certi simboli dell'in
sieme St, . . . , S,. (differenti sottoinsiemi per i differenti stati).
Quando uno di questi è stato trasmesso lo stato viene a cambiarsi
in un nuovo stato che dipende sia dal vecchio stato che dal par
ticolare simbolo trasmesso. Il caso del telegrafo rappresenta un
semplice esempio di questo. Vi sono due stati, a seconda che
l'ultimo simbolo trasmesso sia o no uno spazio. Se era uno spazio,
allora possono venir trasmessi subito dopo soltanto un punto o
una linea e lo stato cambia comunque. Se non era uno spazio,
può venir trasmesso qualunque simbolo e lo stato cambia se è
inviato un segnale di spazio (tra lettere o tra parole), in caso
contrario rimane lo stesso. Le condizioni possono venir indicate
in un grafo lineare, come si vede nella fig. 2. I punti di congiun
zione corrispondono agli stati, mentre le linee indicano i sim
boli possibili in uno stato e lo stato risultante. Nell'appendice l
si dimostra che, se le condizioni riguardanti le sequenze ammesse
possono essere descritte in questa forma, C esiste e può essere
calcolato in base al seguente teorema.
41
Teorema l: Sia blfl la durata del smo simbolo che è ammesso
quando ci si trova nello stato i e porta allo stato j. In tal caso
la capacità C del canale è uguale a log W, dove W è la più grande
radice reale della equazione in forma di determinante :
1 •1
1 I: w-b,, - 8ij 1 = o
•
linea
punto
linea
spazio tra
parole
42
informazioni, e quanta informazione, in bit al secondo, viene pro
dotta in una data sorgente ? Il punto principale in discussione è
l'effetto della conoscenza statistica della sorgente nel ridurre la
capacità del canale necessaria, mediante l'uso di una opportuna
codifica delle informazioni . Nella telegrafia, ad esempio, i mes
saggi da trasmettere sono costituiti da sequenze di lettere. Queste
sequenze, comunque, non sono formate completamente a caso.
In generale, esse formano delle frasi e hanno la struttura stati
stica, poniamo, dell'inglese. La lettera E si presenta più fre
quentemente della lettera Q, la sequenza TH più frequentemente
della sequenza XP, ecc. L'esistenza di questa struttura consente
di attuare un risparmio nel tempo (o capacità del canale) me
diante una appropriata codifica delle sequenze dei messaggi in
sequenze di segnali. Ciò viene già fatto in misura limitata nella
telegrafia, usando il più breve simbolo del canale, un punto, al
posto della più comune lettera inglese, la E; mentre le poco fre
quenti lettere Q , X, Z sono rappresentate da sequenze più lunghe
di punti e linee. Questo principio viene ancor più sviluppato in
certi codici commerciali in cui parole e frasi comuni sono rap
presentate da gruppi di codice di quattro o cinque lettere, con
un notevole risparmio sul tempo medio. I telegrammi, ora in
uso, di congratulazioni e di auguri formulati in modo standard
estendono questo metodo fino al punto di codificare una o due
frasi in una sequenza relativamente breve di numeri.
Possiamo pensare ad una sorgente discreta come a un gene
ratore del messaggio simbolo dopo simbolo. Essa sceglierà i sim
boli successivi in conformità a certe probabilità dipendenti, in
generale, dalle scelte precedenti come anche dai particolari sim
boli in questione. Un sistema fisico, o un modello matematico
di sistema che produce una tale sequenza di simboli governati da
un insieme di probabilità, è detto un processo stocastico4• Pos
siamo, pertanto, considerare una sorgente discreta come rappre
sentata da un processo stocastico. Viceversa, qualunque processo
stocastico che produce una sequenza discreta di simboli scelti
da un insieme finito, può essere considerato una sorgente discreta.
Essa comprenderà casi come :
1. linguaggi scritti naturali, quali l'inglese, il tedesco, il cinese;
43
2. sorgenti di informazione continue che siano state rese discrete
mediante qualche processo di quantificazione. Per esempio, il
parlare quantizzato mediante un trasmettitore PCM, o un se
gnale televisivo quantizzato ;
3. casi matematici in cui definiamo semplicemente in modo
astratto un processo stocastico che genera una sequenza di
simboli. I seguenti sono esempi di quest'ultimo tipo di sor
gente:
(A) immaginiamo di avere cinque lettere A, B, C, D, E che sono
scelte ciascuna con probabilità 0,2, e le scelte successive sia
no indipendenti. Ciò condurrà a sequenze delle quali la se
guente è un esempio tipico.
B D C B C E C C C A D C B D D A A E C E E AA B B DAEE
C A C E E B A E E C B C E A D.
Essa è stata ottenuta con l'uso di una tavola di numeri ca
suali5;
(B) usando le medesime cinque lettere, siano però le probabilità,
rispettivamente, 0,4; 0,1 ; 0,2 ; 0,2 ; 0,1 , essendo indipendenti
l'una dall'altra le scelte successive. Un messaggio tipico di
questa sorgente è allora :
A A A C D C B D C E A A D A D A C E D A E A D C A B EDA
D D C E C AA A A A D;
(C) una struttura più complicata la si ottiene se i simboli in
successione non sono scelti indipendentemente, ma se le loro
probabilità dipendono dalle lettere precedenti. Nel più sem
plice caso di questo tipo, una scelta dipende esclusivamente
dalla lettera precedente e non da quelle ancora precedenti.
La struttura statistica può allora venir descritta mediante un
insieme di probabilità di transizione p;(j), la probabilità che
la lettera i sia seguita dalla lettera j. Gli indici i e j si ap
plicano a tutti i simboli possibili. Un altro modo, equivalente,
di determinare la struttura è quello di dare le probabilità
del « digramma 11 p( i, j), vale a dire la frequenza relativa
del digramma i j. Le frequenze delle lettere p(i), (la proba
bilità della lettera i), le probabilità di transizione p;(j) e le
44
probabilità di digramma p( i, j ) sono legate fra di loro dalle
relazioni espresse dalle seguenti formule :
p(i) = l: p( i, j ) = l: p( j , i) = l: p(j }p,(i)
l l l
p( i, j ) = p( i}pi(j )
l: p;(j ) = l: p( i) = l: p( i, j ) = 1
l l i, i
p;(j ) i i p( i) p( i, j) i
A B c A B c
4 l 9 4 l
A o "T -5- A -rr A o 15 -1.5
16 8 8
i B t t o B
-r,- i B ii -ri o
c t
2
s
l
lo c 2-
'Il
c l l
-ri
4
135
l
135
45
0 , 10 A 0,16 BEBE 0,1 1 CABED 0,04 DEB
0 ,04 ADEB 0 ,04 BEO 0,05 CEED 0,15 DEED
0,05 ADEE 0,02 BEED 0,08 DAB 0,01 EAB
0 ,01 BADO 0,05 CA 0,04 DAD 0 ,05 EE
Supponiamo che le « parole >> in successione siano scelte in
modo indipendente e siano separate da uno spazio. Un mes
saggio tipico potrebbe essere : DAB EE A BEBE DEED DEB
ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BEO
DEED DEED CEED ADEE A DEED DEED BEBE CABED
BEBE BED DAB DEED ADEB.
Se tutte le parole sono di lunghezza finita questo processo
è equivalente ad uno del tipo precedente, ma la descrizione
in termini di struttura delle parole e di probabilità può risul
tare più semplice. A questo punto possiamo anche genera
lizzare e introdurre le probabilità di transizione tra parole,
ecc.
Questi linguaggi artificiali risultano utili nella costruzione di
semplici problemi ed esempi per illustrare diverse possibilità.
Possiamo anche avvicinarci con successive approssimazioni ad
un linguaggio naturale per mezzo di una serie di semplici lin
guaggi artificiali. L'approssimazione di grado zero viene ottenuta
scegliendo tutte le lettere con la stessa probabilità e in modo
indipendente. L'approssimazione di primo grado si ottiene sce
gliendo indipendentemente l'una dall'altra le lettere in succes
sione, avendo però ciascuna lettera la stessa probabilità che pos
siede nel linguaggio naturale6• Così, nella approssimazione di pri
mo grado alla lingua inglese, la lettera E viene scelta con pro
babilità 0,12 (la sua normale frequenza in inglese) e la W con
probabilità 0,02, ma non esiste rapporto tra le lettere consecu
tive e pertanto non vi è tendenza a formare i digrammi più co
muni, come TH, ED, ecc . Nella approssimazione di secondo grado
viene introdotta la struttura del digramma. Dopo che una lettera
è stata scelta, la successiva viene scelta in conformità delle fre-
46
quenze con cui le diverse lettere seguono la prima. Ciò richiede
una tavola di frequenze di digramma p;(j). Nella approssimazio
ne di terzo grado, viene introdotta la struttura del trigramma.
Ciascuna lettera viene scelta in base a probabilità che dipendono
dalle due lettere precedenti.
47
S. Approssimazione di primo grado, con riguardo alle parole.
Piuttosto che continuare con la struttura dei tetragrammi, . . . ,
degli n-grammi, risulta più semplice e più proficuo, a questo
punto, saltare alle unità di parola. Qui le parole sono scelte
indipendentemente l'una dall'altra, ma con frequenze appro
priate.
REPRESENTING AND SPEEDILY IS AN GOOD APT OR
COME CAN DIFFERENT NATURAL HERE HE THE A
IN A CAME THE TO OF TO EXPERT GRAY COME TO
FURNISHES THE LINE MESSAGE HAD BE THESE.
6. Approssimazione di secondo grado, con riguardo alle parole.
Le probabilità di transizione delle parole sono corrette, ma
non è inclusa alcuna ulteriore struttura.
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH
WRITER THAT THE CHARACTER OF THIS POINT IS
THEREFORE ANOTHER METHOD FOR THE LETTERS
THAT THE TIME OF WHO EVER TOLD THE PROBLEM
FOR AN UNEXPECTED.
La rassomiglianza con un normale testo inglese aumenta in
maniera notevole ad ognuno dei suesposti passaggi. Si noti che
questi esempi hanno una struttura ragionevolmente buona fino a
circa due volte l 'estensione che è presa in considerazione nella
loro costruzione. Così, al punto 3 il processo statistico assicura
un testo comprensibile per sequenze di due lettere, ma sequenze
di quattro lettere possono normalmente essere inserite, previo
adattamento, in frasi corrette. Nel caso di cui al punto 6, sequenze
di quattro o più parole possono facilmente venir inserite entro
delle frasi, senza ricorrere a costruzioni strane o forzate. La par
ticolare sequenza di dieci parole << attack on an English writer
that the character of this ,,s non è affatto assurda. E' chiaro dun
que che un processo stocastico sufficientemente complesso for
nirà una soddisfacente rappresentazione di una sorgente discreta.
I primi due esempi sono stati formati mediante l'uso di ta
belle di numeri casuali, unitamente (per l'esempio 2) ad una
tavola di frequenze di lettere. Questo metodo avrebbe potuto es
sere adoperato anche per i casi 3 , 4 e 5, dato che sono disponibili
" cc Attacco ad uno scrittore inglese sul fatto che il carattere di questo 11 (N.d. T. ) .
48
tavole di frequenza di digrammi, trigrarnrni e parole, ma ci si è
serviti di un metodo equivalente e più semplice. Per fonnare
l'esempio 3, poniamo, si apre un libro a caso e, sempre a caso,
si sceglie una lettera nella pagina. Questa lettera viene quindi
registrata. Si apre quindi il libro ad un'altra pagina e si legge
fino a quando non ci si imbatte in questa lettera. Si procede
quindi alla registrazione della lettera che la segue. Passando ad
una nuova pagina, si cerca questa seconda lettera e si registra
quella ad essa successiva, ecc. Sarebbe interessante se si potesse
procedere ad ulteriori approssimazioni, ma allo stadio successivo
il lavoro diventa enorme.
49
A O l B
o
0,2
E
0,1 c
D 0,2
50
al massimo n2 stati corrispondenti al possibile paio di lettere
precedenti a quella che viene scelta. La fig. 5 rappresenta un grafo
per il caso di struttura di parole di cui all'esempio (D). Qui S cor
risponde al simbolo di « spazio ».
51
ghezza » di un circuito è data dal numero delle sue linee . Così
nella fig. 5, la serie BEBES è un circuito di lunghezza S. La
seconda proprietà richiesta è che il massimo comun divisore
delle lunghezze di tutti i circuiti del grafo sia l .
Se è soddisfatta la prima condizione, ma l a seconda è vio
lata, essendo il massimo comun divisore d > l , le sequenze hanno
un certo tipo di struttura periodica. Le varie sequenze si suddi
vidono in d differenti classi che sono statisticamente le stesse a
parte uno spostamento dell'origine (cioè, della lettera della se
quenza chiamata lettera l ). Mediante uno spostamento compreso
tra O e d - l , qualsiasi sequenza può essere resa statisticamente
equivalente a qualunque altra. Un semplice esempio con d = 2 è
il seguente : vi sono tre possibili lettere a, b, c. La lettera a è se
guita sia da b che da c, rispettivamente con probabilità t e f .
Sia b che c sono sempre seguite dalla lettera a. Pertanto una se
quenza tipica è
abacacacabacababaca�
Questo tipo di situazione non è molto importante per il nostro
lavoro.
Se viene meno la prima condizione il grafo può venir sepa
rato in diversi sottografi, ciascuno dei quali soddisfa questa prima
condizione. Assumeremo che la seconda condizione sia pure sod
disfatta per ogni sottografo. In questo caso abbiamo ciò che può
venir denominato una sorgente « mista », costituita da un certo
numero di semplici componenti. Le componenti corrispondono ai
diversi sottografi . Se L1, Lz, L1, . . . , sono le sorgenti componenti,
possiamo scrivere
L = p1L1 + P2Lz + P1L1 + . . .
dove p; è la probabilità della sorgente componente L;.
Fisicamente la situazione rappresentata è questa: vi sono
parecchie differenti sorgenti L1, Lz, L1, . . . , ognuna di struttura
statistica omogenea (sono, cioè, ergodiche). Non sappiamo a priori
quale deve essere utilizzata, ma una volta che la sequenza ha ini
zio con una data componente semplice L;, essa prosegue indefi
nitamente in conformità della struttura statistica di quella com
ponente.
52
A titolo di esempio, si possono prendere due dei processi
sopra definiti e assumere P1 = 0,2 e Pz = 0,8. Si otterrebbe una
sequenza scaturente dalla sorgente mista
L = 0,2 LI + 0,8Lz
con lo scegliere dapprima L1 o Lz con probabilità 0,2 e 0,8 e con
il generare quindi una sequenza avente come origine la scelta
fatta, qualunque sia.
Assumeremo una sorgente come ergodica ogniqualvolta non
si stabilisca il contrario. Questa assunzione mette in grado di
identificare medie lungo una sequenza con medie dell'insieme di
sequenze possibili (essendo zero la probabilità che vi siano dif
ferenze). Per esempio, la frequenza relativa della lettera A in una
particolare sequenza infinita sarà, con probabilità uno (certezza),
uguale alla sua frequenza relativa nella totalità delle sequenze.
Se P; è la probabilità dello stato i e p;(j) la probabilità di
transizione allo stato j, allora è chiaro che P;, affinché il pro
cesso sia stazionario, deve soddisfare alle condizioni di equilibrio :
pi = l: P;p;(j) .
l
53
Se una tale misura, H(pt , p,., . . . , Pn), esiste, è ragionevole
richiedere che abbia le seguenti proprietà :
l . H dovrebbe essere continua nelle p;;
2. se tutte le probabilità p; sono uguali, p; = l /n, allora H do
vrebbe essere una funzione monotonica crescente di n. Nel
caso di eventi egualmente probabili, quanti più eventi possi
bili ci sono, tanta maggior scelta, o incertezza, si ha ;
3. se una scelta viene scomposta in due scelte successive, la H
originale dovrebbe essere la somma pesata dei singoli valori
di H. Il significato di ciò è illustrato nella fig. 6. A sinistra
abbiamo tre possibilità Pt = ! , P2 = t, PJ = i. A destra, dap
prima scegliamo tra due possibilità, ciascuna con probabilità
! , e se si realizza la seconda possibilità, scegliamo ancora, con
probabilità i, t. I risultati finali hanno le stesse probabilità
di prima. Richiediamo, in questo caso speciale, che
H( ! t , i) = H(!, !) + ! H(t , t).
,
54
1 ,0
0,9 / �
0,8 l Ì\.
v '\
0,7
H 0,6
l 1\
H bits
0,5 1/ \
0,4
0,3 l \
0,2 l \
o, 1 1 / \
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
p
55
Noi chiameremo H = - l: Pi log Pi l'entropia dell'insieme di
probabilità P1, , p,.. ·Se x è una variabile casuale, scriveremo
. . •
mentre
H(x) = - l: p(i, j) log l: p(i, j)
l, f l
H(y) = - l: p( i, j) log l: p( i, j)
l, f l
56
4. Ogni mutamento nella direzione del livellamento delle proba
bilità p,, !J2, . . . , Pn incrementa in valore di H. Pertanto, se
p, < Pz e incrementiamo p,, diminuendo Pz di un uguale ammon
tare in modo che p, e pz vengono ad assumere valori più pros
simi, allora H diventa più grande. Più generalmente, se compia
mo qualunque operazione di « livellamento )) sulle p; della forma
p; = :E a;i Pi
i
dove :E a;i = :E a;i = l , dove ogni a;i � O, allora H aumenta (ad ec-
; i
= H(x, y) - H(x)
oppure
H(x, y) = H(x) + H"(y).
L'incertezza (o entropia) dell'evento congiunto x, y è l'incertezza
di x più l'incertezza di y quando x è noto .
6. Dai punti 3 e 5 abbiamo
57
H(x) + H( y) � H(x, y) = H(x) + H,(y).
Donde
H( y) � H,:(y).
L'incertezza di y non viene mai aumentata dalla conoscenza di x.
Essa diminuirà, a meno che x e y siano eventi indipendenti, nel
qual caso non subisce variazioni.
58
secondo, ecc . Di conseguenza, la probabilità di questo partico
lare messaggio sarà approssimativamente
p = Pf•N p�,N . . . P�·N
ovvero
log p == N l: Pi log Pi
i
log p == - NH
log l/p
H ==
N
H , pertanto, è approssimativamente il logaritmo del reciproco
della probabilità di una tipica lunga sequenza diviso per il nu
mero dei simboli della sequenza. La medesima conclusione vale
per qualunque sorgente. Espresso con maggior precisione abbia
mo (vedi appendice 3):
o
Teorema 3 : Scelti a piacere E > O e >O, possiamo trovare un
No tale che le sequenze di qualsivoglia lunghezza N � No vengono
a cadere in due classi :
l . un insieme la cui probabilità totale è minore di E.
2. la parte restante, tutti i membri della quale hanno probabi
lità che soddisfano alla disuguaglianza
l vlo -1
- H l<o.
In altre parole siamo quasi certi di avere �
lo p -1
molto vicino a
H, quando N è grande.
Un teorema strettamente in rapporto con questo tratta del nu
mero di sequenze di varie probabilità. Si considerino nuovamente
le sequenze di lunghezza N e siano esse disposte in ordine di
probabilità decrescente. Definiamo n(q) il numero di sequenze
che dobbiamo prendere da questo insieme iniziando con la più
probabile, al fine di ottenere per quelle prese una probabilità
totale q.
Teorema 4 :
lim log n(q) =
H
N-+ oo N
59
quando q non è uguale nè a O nè a l .
Possiamo interpretare log n( q ) come i l numero di bit richiesto
per specificare la sequenza quando prendiamo in considerazione
solamente le sequenze più probabili aventi una probabilità to-
tale q . Quindi ;
log (q)
è il numero di bit per simbolo necessari
per la specificazione. Il teorema afferma che per N grande, esso
sarà indipendente da q ed uguale a H. La velocità di aumento
del logaritmo del numero di sequenze ragionevolmente proba
bili è data da H, indipendentemente dalla interpretazione di
« ragionevolmente probabile ». Grazie a questi risultati, che sono
GN = -
N
l
f p(B;) log p(B;)
dove la sommatoria è estesa a tutte le sequenze B, che conten
gono N simboli. Allora GN è una funzione monotona decrescente
di N e
lim GN = H.
N� -
60
FN NGN - (N - 1) GN-1,
=
1 N
GN = - I:. FN,
N 1
FN � GN,
e
lim FN = H.
N-+ -
61
essere maggiore del SO% . Un terzo metodo si basa su certi risul
tati noti in crittografia.
Due estremi di ridondanza nella prosa inglese sono rappresentati
dall'inglese essenziale (Basic English) e dal libro di James Joyce,
Finnegans Wake. Il vocabolario di Basic English è limitato a 850
parole e la ridondanza è molto elevata. Ciò si riflette nella espan
sione che si verifica quando si traduce un passo in Basic English.
Joyce, dall'altra parte, amplia il vocabolario ed è costretto a com
piere una compressione del contenuto semantico.
La ridondanza di una lingua è in rapporto con l'esistenza di pa
role crociate. Se la ridondanza è zero, qualunque sequenza di let
tere costituisce un accettabile testo della lingua e qualunque
schema bidimensionale di lettere forma una cruciverba. Se la
ridondanza è troppo elevata, la lingua impone troppe restrizioni
perché siano possibili ampie parole crociate. Un'analisi più det
tagliata mostra che, se assumiamo che le limitazioni imposte dalla
lingua siano di natura piuttosto caotica e casuale, vaste parole
crociate sono appena possibili quando la ridondanza è del 50%.
S e l a ridondanza fosse del 33% sarebbero possibili parole cro
ciate tridimensionali, ecc.
62
y,. = f(x,., a,. )
a,.+ l = g(x,. , a,. )
dove:
x,. è l'ennesimo simbolo di ingresso;
a,. è lo stato del trasduttore quando viene introdotto l'n-mo
simbolo d'ingresso ;
y,. è il simbolo di uscita (o sequenza di simboli di uscita) pro-
dotto allorché viene introdotto x,. se lo stato è a,..
Se i simboli di uscita di un trasduttore possono venir identificati
con i simboli di ingresso di un secondo trasduttore, questi pos
sono essere collegati in cascata e ne risulta ancora un trasdut
tore. Se esiste un secondo trasduttore che opera sull'uscita del
primo e riproduce i dati di ingresso originali, il primo trasdut
tore sarà detto non-singolare e il secondo sarà detto il suo inverso.
Teorema 7: L'uscita di un trasduttore a stati finiti azionato da
una sorgente statistica a stati finiti è una sorgente statistica a
stati finiti, con entropia (per unità di tempo) minore od eguale
a quella dell'ingresso. Se il trasduttore è non-singolare esse sono
uguali.
Sia a lo stato della sorgente che produce una sequenza di simboli
xi ; e sia P lo stato del trasduttore che produce, nella sua uscita,
blocchi di simboli Yi· Il sistema combinato può essere rappre
sentato dallo << spazio dello stato del prodotto » delle coppie ( a, p).
Due punti nello spazio ( at, Pt ) e ( az, Pz ) sono collegati da una li
nea se a1 può produrre una x che cambia Pt in Pz e a questa linea
viene data la probabilità di tale x in questo caso. La linea è con
traddistinta con il blocco di Yt simboli prodotti dal trasduttore.
L'entropia dell'uscita può essere calcolata come la somma pesata
degli stati. Se facciamo dapprima la somma su p ciascun termine
risultante è minore o uguale al termine corrispondente per a,
quindi l'entropia non è aumentata . Se il trasduttore e non-sin
golare ammettiamo che la sua uscita sia collegata al trasduttore
inverso. Se H:, H;, e H; sono l'entropia di uscita della sorgente,
del primo e del secondo trasduttore, rispettivamente, allora
Hl � Hi � H; = Hl e perciò Hl = H;.
Supponiamo di avere a che fare con un sistema di limitazioni
per le sequenze possibili, del tipo rappresentabile mediante
un grafo lineare, come nella fig. 2. Se si assegnassero probabi-
63
lità plf/ alle varie linee che collegano lo stato i allo stato j, que
sto diverrebbe una sorgente. Vi è un particolare valore assegna
bile che rende massima la conseguente entropia (v. appendice 4).
Teorema 8 : Abbia il sistema di limitazioni considerato come un
canale una capacità C = log W. Se poniamo
Bi
r•J
Pii = B. W_,r•l
'1
'
dove l't} è la durata del smo simbolo che porta dallo stato i allo
stato j e B; soddisfa:
64
La prima parte del teorema sarà dimostrata in due differenti
maniere. Il primo metodo consiste nel prendere in considera
zione l'insieme di tutte le sequenze di N simboli prodotte dalla
sorgente. Se N è grande possiamo dividere le sequenze in due
gruppi, uno contenente meno di 2<H+T)JN membri e il secondo con
tenente meno di 2RN membri (dove R è il logaritmo del numero di
simboli differenti) e avente una probabilità complessiva minore di
p.. All'aumentare di N, 71 e p. tendono a zero. Il numero di segnali di
durata T nel canale è maggiore di 2<c-o)T con O piccolo quando T
è grande. Se poniamo
T = (� + À ) N
T. = ( {- + ) N Q]
[ ( 1 - ò) N +
T
ò
T
�
]-•
All'aumentare di N, ò, À e rp tendono a zero e la velocità si avvi-
. c
cma a '
H
Un altro metodo di operare questa codifica e perciò di dimostrare
il teorema può venir descritto come segue: si ordinino nel senso
di probabilità decrescente i messaggi di lunghezza N e si sup
p onga che le loro probabilità siano P• � Pz � P3 . . . � p,.. Sia
65
s-l
P. = �l p; ; cioè P. è la probabilità cumulativa fino a p. esclusa.
!.
2 , � Ps < 2 ,_, 2 •
66
Da ciò vediamo che l'inefficienza nella codifica, quando viene
usato soltanto un « ritardo ,, finito di N
simboli, non è necessario
che sia maggiore di � più la differenza tra la reale entropia
Hpercentuale
e la entropia GN calcolata per sequenze di lunghezza N. La
di tempo in eccesso rispetto all'ideale necessario è
perciò minore di
HN- - 1 .
GN 1
+
H
Questo metodo di codifica è sostanzialmente il medesimo di quello
ideato in modo indipendente da R. M. Fano12 • Il suo metodo con
siste nel porre i messaggi di lunghezza N
in ordine di probabilità
decrescente. Si divide questa serie in due gruppi aventi proba
1.
bilità il più possibile equivalenti. Se il messaggio è nel primo
gruppo la sua prima cifra binaria sarà O, altrimenti sarà I grup
pi vengono similarmente divisi in sottoinsiemi di probabilità
pressoché uguale e il particolare sottoinsieme determina la se
conda cifra binaria. Si continua con questo procedimento fino
a quando ciascun sottoinsieme non contiene che un solo mes
saggio. Si vede facilmente che, a parte differenze minori (gene
ralmente nell'ultima cifra), questo metodo corrisponde al pro
cesso aritmetico prima descritto.
67
siamo approssimarci ad esso nella misura che desideriamo. Il
rapporto tra la effettiva velocità di trasmissione e la capacità C
può essere chiamato efficienza del sistema di codifica. Questa è
naturalmente uguale al rapporto tra l'effettiva entropia dei sim
boli del canale e la maggior entropia possibile.
In generale, una codifica ideale o vicina all'ideale richiede un
lungo ritardo nel trasmettitore e nel ricevitore. Nel caso di assenza
di disturbi, che stiamo considerando, la principale funzione di
questo ritardo è quella di permettere un adattamento ragione
volmente buono delle probabilità alle corrispondenti lunghezze
delle sequenze. Con un buon codice, il logaritmo della probabi
lità reciproca di un lungo messaggio deve essere proporzionale
alla durata del segnale corrispondente ; infatti
l log p -1
T
-C l
deve essere piccolo per tutti, all'infuori che per una piccola parte
dei messaggi lunghi.
Se una sorgente può produrre solamente un particolare mes
saggio, la sua entropia è zero e non vi è bisogno di alcun canale.
Per esempio, una macchina calcolatrice predisposta per calcolare
le cifre successive di 1r produce una sequenza definita senza alcun
elemento di casualità. Non è necessario alcun canale per « tra
smettere ,, questa sequenza ad un altro punto. Si potrebbe co
struire una seconda macchina per calcolare la stessa sequenza
in quel punto. Comunque ciò può risultare poco pratico. In tal
caso possiamo preferire ignorare tutte o parte delle cono
scenze statistiche che abbiamo riguardo alla sorgente. Potremmo
considerare le cifre di 1r come se fossero una sequenza fatta a
caso in quanto costruiamo un sistema in grado di inviare qua
lunque sequenza di cifre. In modo simile, possiamo decidere di
usare qualcuna delle nostre conoscenze statistiche riguardanti
l'inglese, ma non tutte, nel costruire un codice. In tal caso con
sideriamo la sorgente con la massima entropia soggetta alle con
dizioni statistiche che desideriamo mantenere. L'entropia di que
sta sorgente determina la capacità del canale che è necessaria e
sufficiente. Nell'esempio del 1r la sola informazione conservata è
che tutte le cifre sono scelte dall'insieme O, l , . . . , 9. Nel caso
68
dell'inglese potremmo desiderare di servirei del risparmio stati
stico possibile grazie alle frequenze delle lettere, ma niente altro.
La sorgente di massima entropia è allora l'approssimazione di
primo grado all'inglese e la sua entropia determina la richiesta
capacità del canale.
Come semplice esempio di qualcuno di questi risultati, conside
riamo una sorgente che produce una sequenza di lettere scelte
tra A, B, C, D con probabilità ! , !, l, l essendo scelti in modo in
dipendente i simboli in successione. Abbiamo
H = (! log ! + ! log ! + i log l)
! bit per simbolo.
-
69
Questo doppio processo codifica allora il messaggio originale
negli stessi simboli, ma con un rapporto di compressione me-
.
d 1a d"1 -78-
•
70
2
71
finito di stati e un insieme di probabilità
P".;({J, j).
Questa è la probabilità che, se il canale si trova in uno stato a
e viene trasmesso il simbolo i, sia ricevuto il simbolo i e che il
canale venga a trovarsi nello stato {3. Pertanto a e {3 si estendo
no ai possibili stati ; i si estende ai possibili segnali trasmessi
e i si estende ai possibili segnali ricevuti. Nel caso in cui sim
boli successivi vengano perturbati in modo indipendente dal di
sturbo, vi è un solo stato e il canale è rappresentato dall'insieme
di probabilità di transizione p;(j), la probabilità che il simbolo i
trasmesso venga ricevuto come simbolo i·
Se un canale disturbato è alimentato da una sorgente vi sono
in azione due processi statistici : la sorgente e il disturbo. In
tal modo vi sono un certo numero di entropie che possono es
sere calcolate. Prima vi è l'entropia H(x) della sorgente o del
l'ingresso al canale (esse saranno uguali se il trasmettitore è
non-singolare). L'entropia dell'uscita del canale, vale a dire dei
segnali ricevuti, sarà indicata con H(y). Nel caso non disturbato
si aveva H(y) = H(x). L'entropia congiunta d'ingresso e di uscita
sarà H(x, y ) Vi sono infine due entropie condizionali H (y) e
.
72
babilità po = p, = ; Pertanto, la nostra sorgente produce infor
.
73
la probabilità a posteriori che sia stato trasmesso uno O è
di 0,99, mentre quella che sia stato trasmesso un l è di 0,01 .
Questi valori sono invertiti se viene ricevuto un l . Donde
H1(x) = - [0,99 log 0,99 + 0,01 log 0,01 ]
=0,08 1 bit/ simbolo
ovvero 8 1 bit al secondo.
Possiamo dire che il sistema sta trasmettendo ad una velocità
di 1000 - 8 1 = 919 bit al secondo. Nel caso estremo in cui uno
O ha le stesse probabilità di essere ricevuto come O o come l, e
idem per un l , le probabilità a posteriori sono t, !- . e
H,(x) = - [t log t + t log !- ]
= l bit per simbolo
o 1000 bit al secondo. La velocità di trasmissione è allora O, come
deve essere. Il teorema seguente fornisce una diretta, intuitiva
interpretazione dell'equivocazione e serve anche a giustificarla
come l'unica misura appropriata. Prendiamo in considerazione un
sistema di comunicazione e un osservatore (o un dispositivo ausi
liario) che può vedere sia ciò che viene inviato, sia ciò che viene
recuperato (con gli errori dovuti al disturbo). Questo osservatore
nota gli errori nel messaggio ricostruito e trasmette su un << ca
nale di correzione » i dati al punto di ricezione, onde mettere
in grado il ricevitore di correggere detti errori. La situazione
viene indicata schematicamente nella fig. 8.
Teorema 10: Se il canale di correzione possiede una capacità
uguale ad H,(x) è possibile codificare i dati di correzione in modo
da inviarli tramite questo canale e correggere tutti gli errori meno
una frazione E di essi arbitrariamente piccola. Ciò non è possibile
se la capacità del canale è minore di H,(x).
Approssimativamente, quindi, Hy(x) è l'ammontare di informa
zione supplementare che deve essere fornita, al secondo, al punto
di ricezione per correggere il messaggio ricevuto.
Per provare la prima parte, si considerino lunghe sequenze del
messaggio ricevuto M' e del corrispondente messaggio originale M.
Avremo logaritmicamente THy(x) sequenze M che potrebbero ra
gionevolmente aver prodotto ogni sequenza M'.
Abbiamo pertanto THy(x) cifre binarie da inviare ogni T secondi.
74
dati di
correzione
osservatore
l r2!
�......., f-�
M
l M
sorgente trasmettitore ricevitore dispositivo
per la
correzione
Esempio :
Supponiamo che gli errori si verifichino a caso in una sequenza di cifre
binarie: sia p la probabilità che una cifra sia errata e sia q = l - p la
probabilità che sia esatta. Questi errori possono venir corretti se la loro
posizione è nota. Pertanto il canale di correzione deve soltanto inviare
75
informazioni riguardo a queste posizioni. Questo equivale a trasmettere
da una sorgente che produce cifre binarie con probabilità p per l (sba
gliato) e q per O (esatto). Ciò richiede un canale di capacità
- [ p log p + q log q]
che è l'equivocazione del sistema originale.
76
il messaggio e mediante uno studio statistico delle differenti ver
sioni del messaggio che si sono ricevute, la probabilità di errori
potrebbe essere resa molto piccola. Ci si aspetterebbe, comun
que, che, per fare tendere a zero questa probabilità di errori,
debba aumentare indefinitamente la ridondanza della codifica,
e perciò tendere a zero la velocità di trasmissione. Questo non
è assolutamente vero. Se lo fosse non esisterebbe una capacità
molto ben definita, ma solamente una capacità per una data fre
quenza di errori, o per una data equivocazione ; la capacità di
minuirebbe quando i requisiti di errore fossero resi più strin
genti. In realtà la capacità C sopra definita ha un significato
molto preciso. E' possibile inviare informazioni alla velocità C
attraverso il canale con una frequenza di errori o una equivoca
zione piccola quanto si vuole mediante una opportuna codifica.
Questa affermazione non è vera per alcuna velocità superiore a C.
Se si opera un tentativo di trasmettere ad una velocità superiore
a C, poniamo C + R1, allora vi sarà necessariamente una equivo
cazione uguale o maggiore della eccedenza R1. La natura si prende
la contropartita col richiedere proprio quella incertezza, cosicché
otteniamo, in effetti, di completamente esatto, non altro che C.
La situazione è presentata nella fig. 9. La velocità di informazione
entro il canale è riportata in ascisse e l'equivocazione in ordinate.
Qualsiasi punto sopra la linea in grassetto nella regione tratteg
giata può essere raggiunto, mentre i punti al di sotto della stessa,
no. I punti della linea non possono in generale essere raggiunti,
salvo, normalmente, due di essi. Questi risultati costituiscono la
principale giustificazione per la definizione di C e saranno ora
provati.
Teorema 11 : Si abbia un canale discreto con capacità C e si abbia
una sorgente discreta con entropia al secondo H. Se H � C, esi
ste un sistema di codifica tale che l'uscita della sorgente può es-
C H (x)
Fig. 9 - L'equivocazione possibile per una data entropia di ingresso ad
un canale.
77
sere trasmessa sul canale con una frequenza di errori arbitraria
mente piccola (o una equivocazione arbitrariamente piccola). Se
H > C, è possibile codificare la sorgente in modo che l'equivo
cazione sia minore di H - C + E, dove E è arbitrariamente piccola.
Non esiste alcun metodo di codifica che consenta una equivoca
zione minore di H - C.
Il metodo per dimostrare la prima parte di questo teorema non
consiste nell'esporre un metodo di codifica che abbia le proprietà
desiderate, bensì nel mostrare che un tale codice deve esistere
in un certo gruppo di codici. Infatti faremo la media della fre
quenza di errori in questo gruppo e mostreremo che questa media
può essere resa minore di E. Se la media di un insieme di numeri
è minore di E deve esistere almeno uno dei componenti dell'in
sieme che è minore di E. Questo confermerà il risultato desiderato.
La capacità C di un canale disturbato è stata definita come
C = Max (H(x) - Hy(x))
dove x è l'ingresso e y l'uscita. Il calcolo della differenza mas·
sima avviene fra tutte le sorgenti che potrebbero essere usate
come ingresso al canale.
Sia So una sorgente che raggiunge la massima capacità C. Se que
sta capacità massima non è in realtà raggiunta da alcuna sorgente
(ma soltanto avvicinata come limite), So sarà una sorgente che si
approssima a fornire la velocità massima. Supponiamo che So sia
usata come ingresso al canale. Consideriamo le possibili sequenze
di lunga durata T, trasmesse e ricevute. Sarà vero quanto segue:
l. le sequenze trasmesse si suddividono in due classi, un gruppo
ad alta probabilità con circa 2TH<x> membri e le restanti sequenze
di bassa probabilità totale;
2. analogamente, le sequenze ricevute si suddividono in un in
sieme ad alta probabilità di circa 2TH <yJ membri e in un insieme
a bassa probabilità delle restanti sequenze;
3. ogni uscita ad alta probabilità potrebbe essere prodotta da
circa 2TH,<x> ingressi. La probabilità totale di tutti gli altri casi
è piccola ;
4. ogni ingresso ad alta probabilità potrebbe dar luogo a circa
2TH,<x> uscite. La probabilità totale di tutti gli altri casi è piccola.
78
E
•
•
M
• •
• •
2H(:x)T •
messaggi
2H(y)T
ad alta
• segnali rice-
probabilità
vuti ad alta
•
probabilità
• •
• •
: cz;zee:
• effetti ragio-
nevoli per
•
•
ciascun M
79
questi messaggi con una selezione di possibili ingressi del canale
in modo tale da ottenere una piccola frequenza di errori. Fisse
remo questa associazione in tutti i modi possibili (utilizzando,
comunque, solamente il gruppo di ingressi ad alta probabilità,
quale è determinato dalla sorgente So) e calcoleremo la frequenza
media di errori per questa ampia classe di possibili sistemi di
codifica. Ciò equivale a calcolare la frequenza di errori per una
associazione fatta a caso dei messaggi e degli ingressi del canale
di durata T. Supponiamo di osservare una particolare uscita y,.
Qual è la probabilità di più di un messaggio proveniente da S,
nell'insieme di possibili cause di y, ? Vi sono 2TR messaggi distri
buiti a caso in 2T81"> punti. La probabilità di un particolare punto
di essere un messaggio è pertanto
2 T(R -H (x)) .
La probabilità che nessuno dei punti del ventaglio sia un mes
saggio ( a prescindere da quello effettivo che dà origine al mes
saggio) è
Ora, R < H(x)- H,(x), quindi R -H(x) = - H,(x) - TJ , con 'Y}, po
sitivo. Di conseguenza
p = [ l _ 2 -TH,C.<l-T1J ] 2J'B1U)
si avvicina ( quando T ___,. oo ) a
1 - 2- T11•
Quindi la probabilità di un errore si avvicina a zero e la prima
parte del teorema è dimostrata.
La seconda parte del teorema è facilmente dimostrata sulla base
della considerazione che potremmo semplicemente inviare dalla
sorgente C bit al secondo, trascurando completamente la re
stante informazione prodotta. Al ricevitore, la parte tralasciata
dà una equivocazione H(x) - C e alla parte trasmessa bisogna
solo aggiungere e. Questo limite può essere ottenuto in molti
altri modi, come mostreremo quando prenderemo in considera
zione il caso continuo.
L'ultima affermazione del teorema è una semplice conseguenza
della nostra definizione di C. Supponiamo di poter codificare
80
una sorgente con H(x) = C + a in modo tale da ottenere una
equivocazione H,(x) = a - E, con E positiva. Allora
H(x) - H,(x) = C + E
14. Discussione
81
danza sarà di aiuto per combattere il disturbo. Per esempio, in
un canale telegrafico non disturbato sarebbe possibile rispar
miare circa il SO% del tempo mediante una opportuna codifica
dei messaggi. Ciò non viene fatto e la maggior parte della ri
dondanza dell'inglese rimane nei simboli del canale. Questo pre
senta il vantaggio, comunque, di rendere tollerabile un conside
revole disturbo del canale. Una frazione piuttosto grande delle
lettere possono essere ricevute in modo non corretto e nondi
meno ricostruite mediante il contesto. In effetti, in molti casi
questa non è probabilmente una cattiva approssimazione al
l'ideale, dal momento che la struttura statistica dell'inglese è
piuttosto complessa e le sequenze inglesi ragionevoli non sono
troppo lontane (nel senso richiesto dal teorema) da una sele
zione fatta a caso.
Come nel caso di assenza di disturbo, è generalmente necessario
un ritardo per realizzare una codifica vicina all'ideale. Tale ri
tardo ha ora l'ulteriore funzione di consentire che diversi disturbi
intacchino il segnale prima che al terminale ricevente venga
emesso alcun giudizio riguardo al messaggio originale. Aumen
tando i campioni di disturbo, si rendono sempre più esatte le
possibili affermazioni statistiche.
Il contenuto del teorema 1 1 e la sua dimostrazione possono essere
formulati in un modo alquanto diverso che mette più chiara
mente in luce la relazione con il caso di assenza di disturbi. Si
considerino i possibili segnali di durata T e si supponga di sce
gliere e usare un sottoinsieme di essi. Siano tutti i segnali del
sottoinsieme usati con uguale probabilità e poniamo che il rice
vitore sia costruito per individuare come segnale originale la
causa più probabile tra quelle del sottoinsieme, quando viene
ricevuto un segnale disturbato. Definiamo N(T, q) essere il mas
simo numero di segnali che possiamo scegliere dal sottogruppo,
tali che la probabilità di una interpretazione sbagliata sia mi
nore o uguale a q.
log N(T, q)
Teorema 12 : lim = C, dove C è la capacità del
T
canale, a condizione che q non sia uguale a O oppure a l .
In altre parole, indipendentemente da come stabiliamo i nostri
limiti di attendibilità, possiamo distinguere in modo attendibile
82
simboli simboli
trasmessi ricevuti
au
= - 2 - 2 log Q - 2a + 2À. = o.
aQ
83
Eliminando À.
log P log Q + a
=
p = Qea = Q{3
l
Q = - +2 '
{3
La capacità del canale è allora
{3 + 2
C = log
{3
Si noti come questo confermi i valori evidenti nei casi di p = l
e p = t. Nel primo caso, {3 = l e C = log 3, il che è esatto dal
momento che allora il canale è non disturbato con tre possibili
simboli. Se p = t, {3 = 2 e C = log 2. Qui il secondo e il terzo
simbolo non possono essere affatto distinti e si comportano come
un solo simbolo. Il primo simbolo è usato con probabilità P = t
e il secondo e il terzo insieme con probabilità t. Questa può
essere distribuita tra essi in qualunque modo si voglia e nondi
meno raggiungere la capacità massima.
Per valori intermedi di p, la capacità del canale sarà compresa
tra log 2 e log 3. La distinzione tra il secondo ed il terzo sim
bolo convoglia qualche informazione, ma non in misura pari a
quella del caso non disturbato. Il primo simbolo è usato un
po' più frequentemente degli altri due, a causa della sua immu
nità dal disturbo.
84
Ps; l , 2,
t Ps; log l: P; p;;
= JL s = . . .
i
Donde :
85
a b c
= log t 2513•
Nella fig. 1 2 c abbiamo
C = log 3 - -! log 2 - t log 3 - ! log 6
3
= log
86
All'interno di un gruppo la probabilità è distribuita proprio come
lo sarebbe se questi fossero i soli simboli che vengono usati. La
capacità del canale è
C = log L2c •.
= +bit/ simbolo.
Un codice efficiente, che consente una completa correzione degli
errori e che trasmette alla velocità C, è il seguente (trovato me
diante un metodo dovuto a R. Hamming).
Prendiamo un blocco di sette simboli X�, Xz, . . . , X1. Di questi, X3,
Xs, X6 e X1 sono simboli del messaggio e sono scelti arbitraria
mente dalla sorgente. Gli altri tre sono ridondanti e calcolati
come segue :
X4 è scelto in modo di rendere a = X4 + Xs + X6 + X1 pari
Xz ,, » » » » » p = X2 + x3 + x6 + X1 »
X1 » » » » » » r = X 1 + x3 + Xs + X1 »
87
3
Informazioni continue
88
e complessi di funzioni. Un insieme di funzioni, come implica
il nome, è semplicemente una classe o raccolta di funzioni, ge
neralmente in una variabile, il tempo. Esso può essere specificato
mediante una rappresentazione esplicita delle varie funzioni del
l'insieme, oppure, in modo implicito, tramite una proprietà che
le funzioni dell'insieme posseggono e le altre no. Alcuni esempi
sono :
1. L'insieme di funzioni :
fe(t) = sen ( t + 8).
Ciascun particolare valore di 8 determina una particolare fun
zione dell'insieme.
2. L'insieme di tutte le funzioni del tempo che contengono fre
quenze non superiori a W cicli al secondo.
3. L'insieme di tutte le funzioni limitate nella banda entro W e
nell'ampiezza fino ad A.
4. L'insieme di tutti i segnali del discorso inglese come funzioni
del tempo.
Un complesso14 di funzioni è un insieme di funzioni unitamente
ad una misura di probabilità mediante la quale possiamo deter
minare la probabilità di una funzione dell'insieme avente certe
proprietà15• Per esempio, con l'insieme,
fe(t) = sen (t + 8),
possiamo dare una distribuzione di probabilità per 8, poniamo
P(8). L'insieme diviene allora un complesso.
Ulteriori esempi di complessi di funzioni sono:
1. Un insieme finito di funzioni Mt) (k = l , 2, . . . , n), essendo
Pk la probabilità di /k.
2. Un raggruppamento a dimensioni finite di funzioni
f(a,, az, . . . , an ; t)
89
con una distribuzione di probabilità per i parametri a; :
p( al, . . • , an).
Per esempio potremmo considerare il complesso definito da
n
f( a l, , an, 81, . . , On ; t) = l: an sen n (fùt + On)
n• l
. . • .
f( a; , t) = +i an ___-;:::-3c:-:-_�
s en n (2W t --')'-
n
n·-- n(2Wt - n)
con le a; normali e indipendenti e tutte con la stessa deviazione
standard .[!il. Questa è una rappresentazione di rumore « bianco »,
limitato nella banda da O a W Hz e con potenza media N 16•
4. Si considerino i punti distribuiti lungo l'asse t secondo una
distribuzione di Poisson. In ogni punto scelto è posta la funzione
f(t) e le differenti funzioni vengono sommate, dando il com
plesso
90
fe(t) = sen ( t + O)
è stazionario se O è distribuito uniformemente da O a 2n. Se spo
stiamo ciascuna funzione di un valore ti otteniamo
fe(t + ti) = sen ( t + ti + O)
= sen ( t + tp)
91
aspettare che ciascuna funzione, nel procedere del tempo, attra
versi, con l'opportuna frequenza, tutte le convoluzioni di qualun
que delle funzioni dell'insieme.
Proprio come possiamo compiere diverse operazioni su numeri e
funzioni per ottenere nuovi numeri o nuove funzioni, possiamo
compiere operazioni sui complessi per ottenere nuovi complessi.
Supponiamo, per esempio, di avere un complesso di funzioni
fa(t) e un operatore T che dà per ciascuna funzione fa( t) una
funzione risultante g.( t) :
ga( t) = T/.( t).
La misura di probabilità è definita per l'insieme ga( t) per mezzo
di quella per l'insieme /a( t). La probabilità di un certo sottoin
sieme delle funzioni ga( t) è uguale a quella del sottoinsieme delle
funzioni /a( t) che producono, quando sottoposte all'operazione
T, componenti del dato sottoinsieme di funzioni g. Fisicamente
questo corrisponde a far passare il complesso attraverso qualche
dispositivo, per esempio un filtro, un raddrizzatore o un modu
latore. Le funzioni di uscita del dispositivo formano l'insieme
g,.( t). Un dispositivo o un operatore T saranno detti invarianti se,
traslando l'ingresso, semplicemente si trasla l'uscita, se, cioè,
implica
gJ.. t + t 1 ) = Tfa( t + t 1 )
per ogni f.( t) e per ogni t •. Si dimostra facilmente che (v. appen
dice 5), se T è invariante e il complesso di entrata è stazionario,
allora il complesso di uscita è stazionario. Parimenti, se l'ingresso
è ergodico, l'uscita sarà a sua volta ergodica.
Un filtro o un raddrizzatore sono invarianti per qualsiasi trasla
zione nel tempo. L'operazione di modulazione non lo è, dato
che la fase della portante determina una certa struttura tem
porale. Comunque, la modulazione è invariante per tutte le tra
stazioni che sono multiple del periodo della portante.
Wiener ha posto in luce l'intima relazione tra l'invarianza di
92
dispositivi fisici per traslazioni nel tempo e la teoria di Fourier18•
Egli ha dimostrato, infatti, che se un dispositivo è lineare ed in
variante, l'analisi di Fourier è l'idoneo strumento matematico
per trattare il problema.
Un complesso di funzioni è la appropriata rappresentazione ma
tematica dei messaggi prodotti da una sorgente continua (per
esempio, il parlare), dei segnali prodotti da un trasmettitore, e
del disturbo perturbatore. La teoria delle comunicazioni corret
tamente si occupa, come è stato sottolineato da Wiener, non di
operazioni su funzioni particolari, bensì di operazioni su com
plessi di funzioni. Un sistema di comunicazione non è progettato
per una particolare funzione del parlare e ancor meno per una
onda sinusoidale, ma per il complesso di funzioni del discorso.
18 La teoria delle comunicazioni deve molto a Wlener per gran parte dei con·
cetti e della teoria d! base. Il suo classico rapporto NDRC, The Interpolatton,
Extrapolation, and Smoothing of Stationary Time Series ( Wiley, 1949 ) , contiene
la prima formulazione chiara e precisa della teoria delle comunicazioni come
problema statistico, lo studio di operazioni su serle temporali. Questo lavoro ,
sebbene riguardasse principalmente Il problema della predizione e del filtro
lineare, è un importante riferimento collaterale in relazione al presente scritto.
Possiamo anche far riferimento all'opera di Wiener, Cybernetics ( Wiley, 1948),
che tratta dei problemi generali della comunicazione e del controllo.
93
dove
Xn =
f ( 7v
2 ).
In questo sviluppo f(t) è rappresentata come una somma di fun
zioni ortogonali. I coefficienti Xn dei vari termini possono essere
considerati come coordinate in uno « spazio delle funzioni ,, a
infinite dimensioni. In questo spazio ciascuna funzione corrispon
de precisamente ad un punto e ciascun punto ad una funzione.
Una funzione si può considerare come sostanzialmente limitata
entro un tempo T se tutte le ordinate Xn al di fuori di questo
intervallo di tempo sono zero. In questo caso tutte le coordinate
meno 2TW saranno zero. Pertanto funzioni limitate ad una banda
W e ad una durata T corrispondono a punti in uno spazio di
2TW dimensioni. Un sottoinsieme delle funzioni di banda W e
durata T corrisponde ad una regione di questo spazio. Per esem
pio, le funzioni la cui energia totale è minore o uguale ad E cor
rispondono a punti in una sfera di 2TW dimensioni con raggio
r = ..[L:WE.
..
Un complesso di funzioni di durata e banda limitata sarà rap
presentato da una distribuzione di probabilità p(x,, . , Xn) nel
corrispondente spazio n-dimensionale. Se il complesso non è li
mitato nel tempo possiamo considerare che le 2TW coordinate
in un dato intervallo T rappresentino sostanzialmente la parte
della funzione nell'intervallo T e che la distribuzione di proba
bilità p(x,, . . . , Xn) determini la struttura statistica del complesso
per intervalli di quella durata.
94
Con una distribuzione n-dimensionale p(x1 , . . . , x,) abbiamo
- JJp(x, y) log
p(x, y)
Hy(x) = dx dy
p(y)
dove
p(x) = Jp(x, y) dy
p(y) = J p(x, y) dx.
Le entropie di distribuzioni continue hanno la maggior parte (ma
non tutte) delle proprietà del caso discreto . In particolare ab
biamo quanto segue :
1. Se x è limitato nella sua estensione ad un certo volume v, allora
zero).
3. Si consideri una operazione generalizzata di calcolo della me
dia del tipo seguente:
p'(y) = J a(x, y) p(x) dx
95
con
Ja(x, y) dx Ja(x, y) dy
= = l, a(x, y ) ;;:;: O.
x2
- log p(x) = log -{'Ii a +
-2a2-
H(x) = - Jp(x) log p(x) dx
= Jp(x) log {!1r a dx + J p{x) ;� dx
=
al
log -{'5 a +
-2Gi-
=
log ..['Ei"a + log {e
=
log -{'Iie a.
Similmente la distribuzione n-dimensionale gaussiana con la for
ma quadratica associata aii è data da
J aii J lf2
p(x1 , . . . , Xn) = exp (- ! r.aiiXiXi)
(2,.)"12
e l'entropia può essere calcolata come
H = log (2n-e )"12 JaiiJ - 1 12
dove Jaiil è il determinante i cui elementi sono aii·
7. Se x è limitato a una semiretta (p(x) = O per x � O) e se il
primo momento di x è a :
a = J; p(x)x dx,
allora l'entropia massima si verifica quando
97
p( x) = _l_ e- <xfa)
a
ed è uguale a log ea.
8. Vi è una importante differenza tra le entropie continua e di
screta. Nel caso discreto l'entropia misura in modo assoluto la
casualità della variabile casuale. Nel caso continuo la misura è
relativa al sistema di coordinate. Se cambiamo coordinate l'en
.
tropia in generale cambierà . Infatti se passiamo a coordinate
y, . . Yn la nuova entropia è data da
H(y) = J J p(Xi
· · · • • • Xn) J (T)
log p(x, . . . Xn) 1( ; )dy, . . . dyn
dove J ( �- ) è lo j acobiano della trasformazione delle coordi
nate. Sviluppando il logaritmo e cambiando le variabili in
x, . . . Xn, otteniamo :
98
scala di grandezze stabilisce uno zero arbitrario corrispondente
ad una distribuzione uniforme su un'unità di volume.
Una distribuzione che sia più limitata di questa ha meno entropia
e sarà negativa. Le velocità e le capacità saranno sempre, comun
que, non negative.
9. Un caso particolare di trasformazione di coordinate è quello
lineare
y; = :I: a;1x;
i
H' = - lim
"� ""
-1-J . . . J p(x�,
n
. . . , Xn )
99
La entropia per un processo stocastico continuo possiede molte
proprietà analoghe a quelle dell'entropia per i processi discreti.
Nel caso discreto l'entropia era in rapporto con il logaritmo della
probabilità delle lunghe sequenze, e con il numero di sequenze di
lunga estensione ragionevolmente probabili. Nel caso continuo
essa è in rapporto in modo analogo col logaritmo della densità
di probabilità per una lunga serie di campioni, e con il volume
di probabilità ragionevolmente alta nello spazio delle funzioni.
Più precisamente, se assumiamo p(x1, . . . , Xn) continue in tutti
gli X; per ogni n, allora per n sufficientemente grande
I !p - l
lo
H' < E
..
Sotto le stesse assunzioni, si consideri lo spazio n-dimensionale
corrispondente a p(x1, . , Xn). Sia Vn(q) il più piccolo volume
in questo spazio che comprende al suo interno una probabilità
totale q. Allora
log V,.( q)
lim = H'
"- - n
a patto che q non sia uguale a O o a l .
Questi risultati mostrano che, per n grande, esiste un abbastanza
ben definito volume (almeno in senso logaritmico) di alta pro
babilità, e che all'interno di questo volume la densità di proba
bilità è relativamente uniforme ( ancora in senso logaritmico).
Nel caso di rumore bianco la funzione di distribuzione è data da
p(XJ, • • • , Xn ) =
l
( 27rN)n/2 exp - l
2N ...
� 2
xl .
100
raggio � nN. Quando n-+oo la probabilità di trovarsi al di fuori
di una sfera di raggio � n (N + E) tende a zero comunque sia pie
l
colo E e -- volte il logaritmo del volume della sfera si avvi-
n
cina a log {I7ieN.
Nel caso continuo è conveniente lavorare non con la entropia H
di un complesso, bensì con una quantità derivata che chiame
remo potenza dell'entropia o potenza entropica. Questa è definita
come la potenza in un rumore bianco, limitato alla stessa banda
del complesso originale ed avente la medesima entropia. In altre
parole, se H' è l'entropia di un complesso la sua potenza en
tropica è
l
exp 2H'.
2 ne
H2 = H1 +
�f w
log l Y(f) 1 2 df.
101
n
Tabella l
guadagno
fattore di
di potenza risposta
guadagno potenza
entropica all'ùnpulso
entropica
in decibel
·-
·
l�
- -
- -
o (Il
� l
-
l
ez
- 8, 6 1
51N 2 11't
(11't)2
· - ··
��---
(t)
4
,
- 5 32 2
[ !li N
tl
t _ COS t
t2
]
o (Il l
�
D_
•-
•'
--
-
0. 314 -4,15
l [ COS t - l _ CO!I t + SIN t ]
t4 2 tz tl
o
(Il l
o
(Il l
·� o
(Il l
ez
l
• -I,H tr
1
tr t2 [ cos (1 -tr) t- cos t ]
esprimere ciò anche in termini di potenza entropica. Pertanto,
se la potenza entropica del primo complesso è N1 , quella del
secondo è
N1 exp �J w
log l Y(f) 12 df.
103
Fisicamente ciò corrisponde a sommare i disturbi o segnali rap
presentati dagli originali complessi di funzioni.
Il seguente risultato è derivato nella appendice 6.
Teorema 15: Siano N1 e Nz, rispettivamente, la potenza media
di due complessi e siano N1 e Nz le loro potenze entropiche. Al
lora la potenza entropica della somma, NJ, è delimitata da
N1 + Nz � NJ � N1 + Nz .
Il rumore bianco gaussiano ha la peculiare proprietà di poter
assorbire qualunque altro complesso, di rumori o segnali, che
può essere sommato ad esso e con una potenza entropica risul
tante che è approssimativamente uguale alla somma della po
tenza del rumore bianco e della potenza del segnale (misurata
dal valore medio del segnale, che è normalmente zero), a patto
che la potenza del segnale sia piccola, in un certo senso, rispetto
al rumore.
Si consideri lo spazio delle funzioni relativo a questi complessi
avente n dimensioni. Il rumore bianco corrisponde alla distri
buzione sferica gaussiana in questo spazio. Il complesso di se
gnali corrisponde ad un'altra distribuzione di probabilità, non
necessariamente gaussiana o sferica. Siano a;i i momenti di se
condo ordine di questa distribuzione intorno al suo centro di
gravità. Ciò significa che, se p(x1 , . . . , Xn) è la funzione densità
di distribuzione
104
La potenza entropica di questa distribuzione è
[II(N + b ;; )Jifn
o approssimativamente
= [(N )" + � b;; (N)"- 1 ] 1/"
= N + -1- � b;;.
n
105
4
Il canale continuo
106
in una approssimazione a dimensioni finite dobbiamo variare
P(x) = P(x1, . . . , Xn) e massimizzare
C = lim Max - -
T-+ - Pc">
1
T
JJP(x, y) log P(x, y)
P(x)P(y)
dx dy.
107
questa quantizzazione del volume in singoli punti non puo m
alcuna situazione pratica alterare in modo significativo la soluzi�
ne finale, a condizione che le regioni siano sufficientemente piccole.
Pertanto la capacità sarà il limite delle capacità per le suddivi
sioni discrete e questa è proprio la capacità continua preceden
temente definita.
Dal lato matematico si può dimostrare (v. appendice 7) che se
u è il messaggio, x il segnale, y il segnale ricevuto (perturbato dal
disturbo) e v il messaggio ricostruito, allora
H(x) - Hy(x) � H(u) - H.(u)
senza riguardo per le operazioni compiute su u per ottenere x,
o su y per ottenere v. Pertanto, indipendentemente da come met
tiamo in codice le cifre binarie per ottenere il segnale, o da come
decodifichiamo il segnale ricevuto per ricostruire il messaggio,
la velocità discreta per le cifre binarie non eccede la capacità del
canale che abbiamo definito. D'altra parte, è possibile, sotto con
dizioni molto generali, trovare un sistema di codifica per trasmet
tere cifre binarie alla velocità C con una equivocazione o fre
quenza di errori piccola a piacere. Questo è vero, per esempio,
se, quando prendiamo uno spazio che si approssima ad uno spazio
a dimensioni finite per le funzioni dei segnali, P(x, y ) è continua
sia in x che in y, eccetto che in un insieme di punti di probabilità
zero.
Un importante caso speciale si verifica quando al segnale si som
ma un disturbo da esso indipendente (nel senso della probabilità).
Allora P..(y ) è funzione solamente della differenza (vettoriale)
n = (y - x),
P..(y) = Q( y - x)
e possiamo assegnare una entropia definita al disturbo ( indipen
dente dai caratteri statistici del segnale), precisamente l'entropia
della distribuzione Q(n) . Questa entropia sarà indicata con H(n).
Teorema 16: Se il segnale e il disturbo sono indipendenti e il
segnale ricevuto è la somma del segnale trasmesso e del disturbo,
allora la velocità di trasmissione è
R = H(y ) - H(n),
108
vale a dire, l'entropia del segnale ricevuto meno l'entropia del
disturbo. La capacità del canale è
C = Max H(y) - H(n).
P(z)
109
La capacità del canale è
N .
P+N
C = W log
20Queste ed altre proprietà del caso di rumore bianco sono discusse dal pwtto
di vista geometrico in 11 Communication in the Presence of Noise >>, loc. cit.
21 «Root Mean Square » ( radice quadrata dei valori medi al quadrato ) . (N.d.T. ).
1 10
. log M (e, T) P+N
l1m 1 1m
. --=--=::-'---'-':...._ W log ,
._.o T-+ - T N
111
Anche qui la potenza media dei segnali disturbati sarà P + N.
Il massimo di entropia per questa potenza lo si avrebbe se il
segnale ricevuto fosse rumore bianco e sarebbe W log 2TCe(P +N).
Può non essere possibile raggiungere questo massimo; cioè, può
non esserci alcun complesso di segnali trasmessi che, aggiunto
al disturbo perturbatore, produca un rumore bianco termico al
punto di ricezione, ma quanto meno esso stabilisce un limite
superiore per H(y). Abbiamo perciò
C = Max H(y) - H(n)
:;::; W log 2TCe(P + N) - W log 2TCeNI .
Questo è il limite superiore dato dal teorema. Si ottiene il limite
inferiore considerando la velocità quando il segnale trasmesso
è un rumore bianco, di potenza P. In questo caso la potenza en
tropica del segnale ricevuto deve essere grande almeno quanto
quella di un rumore bianco di potenza P + N1 , dato che abbiamo
dimostrato nel teorema 1 5 che la potenza entropica della somma
di due complessi è maggiore o uguale alla somma delle singole
potenze entropiche. Donde
Max H(y) � W log 2TCe(P + N1)
e
C � W log 2TCe(P + N1)
P + N1
- W log 2TCeNI
= W l og
N1
Quando P aumenta, i limiti superiore ed inferiore di cui al teo
rema 18 si avvicinano l'un l'altro ; si ha quindi una velocità asin
totica
P+N
W log
N1 •
C = W log ( l +
� ).
Se il disturbo è gaussiano ma con uno spettro che non è neces-
1 12
sariamente uniforme, N1 è la media geometrica della potenza del
disturbo alle varie frequenze nella banda W. Perciò
N1 = exp -t-J w
log N(f) df
1 13
26 . La capacità del canale con una limitazione nella potenza di
picco
In alcune applicazioni il trasmettitore è limitato non dall'uscita
di potenza media, bensì dalla potenza di picco istantanea. Il pro
blema di calcolare la capacità del canale è allora quello di ren
dere massima (mediante variazione del complesso di simboli
trasmessi)
H(y) - H(n)
subordinatamente alla condizione che tutte le funzioni f( t) del
complesso siano minori od uguali a, poniamo, � per ogni t.
Una condizione di questo tipo non risolve la questione, matema
ticamente, altrettanto bene della limitazione di potenza media.
Tutto quanto abbiamo ottenuto per questo caso è un limite infe
riore valido per ogni S/ N, un limite << asintotico )) superiore (va
lido per grandi S/ N) ed un valore asintotico di C per S/N pic
coli.
Teorema 20 : La capacità C di un canale di banda W perturbata
da un rumore bianco termico di potenza N è limitata da
C � W log --2
7re3
s
--
N '
dove S è la potenza di picco del trasmettitore consentita. Per S/N
sufficientemente grande
2 S+N
C � W log
--
'!re
N
(l + E)
C/ W log (l + � ) -. l.
Vogliamo rendere massima l a entropia del segnale ricevuto. Se
S/N è grande ci si avvicinerà molto a questo risultato quando
viene resa massima l'entropia del complesso trasmesso.
Il limite asintotico superiore viene ottenuto mitigando le condi
zioni riguardanti il complesso. Supponiamo che la potenza sia limi-
1 14
tata a S non in ogni istante, ma solamente nei punti campione.
Il massimo di entropia del complesso trasmesso è, sotto queste
condizioni meno restrittive, certamente uguale o maggiore di
quello che si aveva sotto le condizioni originali. Questo proble
ma modificato può essere risolto facilmente. Il massimo di en
tropia si verifica quando i differenti campioni sono indipendenti
e quando hanno una funzione di distribuzione che è costante da
- {S a + -{S. L'entropia può essere calcolata come
W log 4S.
Il segnale ricevuto avrà allora una entropia minore di
W log (4S + 21reN) ( l + E)
con E -+ O quando S/ N -+ = e la capacità del canale viene otte
nuta sottraendo la entropia del rumore bianco, W log 211:eN:
W log (4S + 21reN) ( l + E) - W log ( 21reN)
2
11:e S + N
= W log ----cN-=--- ( l + E) .
Questo è il limite superiore per la capacità del canale .
Per ottenere un limite inferiore si consideri il medesimo com
plesso di funzioni. Siano queste funzioni fatte passare attraverso
un filtro ideale con caratteristica di trasferimento triangolare.
Il guadagno deve essere uguale a l alla frequenza O e diminuire
linearmente fino ad annullarsi alla frequenza W. Dimostriamo
dapprima che le funzioni di uscita del filtro hanno una limita
zione della potenza di picco S in ogni momento (non solamente
sen 7r 2 Wt
nei punti campione). Prima notiamo che un impulso
2 1r Wt
che entra nel filtro produce un'uscita
l sen2 11:Wt
2 (11:Wt)Z
Questa funzione non è mai negativa. Si può pensare alla fun
zione di ingresso (nel caso generale) come alla somma di una
serie di funzioni traslate
sen 21rWt
a
2 1r Wt
1 15
dove a, ampiezza del campione, non è maggiore di {S. Pertanto
l'uscita è la somma delle funzioni traslate della forma non-nega
tiva di cui sopra con i medesimi coefficienti. Essendo queste fun
zioni non-negative, il maggior valore positivo per qualunque t
lo si ottiene quando tutti i coefficienti a hanno il loro massimo
valore positivo, vale a dire � In questo caso la funzione di in
gresso era una costante di ampiezza {S e dato che il filtro ha
guadagno unitario per corrente continua, l'uscita è la stessa. Per
tanto il complesso di uscita ha una potenza di picco S.
L'entropia del complesso di uscita può essere ricavata da quella
del complesso di entrata, mediante il teorema che si occupa di
tale situazione. L'entropia di uscita è uguale alla entropia di en
trata più il guadagno medio geometrico del filtro:
J� log G2 df = J� log ( W
.; f )
2
df = - 2W.
C = W log ( l + !) .
C � W log ( l + �) � W log ( l + !)
Pertanto, se possiamo trovare un complesso di funzioni tale che
esse corrispondano ad una velocità vicina a W log ( l + S/N) e
1 16
siano limitate ad una banda_ W e a una potenza di picco S, avremo
raggiunto la dimostrazione. Si consideri il complesso di funzioni
-
del tipo seguente. Una serie di t campioni hanno lo stesso valore,
+ -fS o {S, quindi i successivi t campioni hanno lo stesso
valore, ecc. Il valore per una serie è scelto a caso, probabilità -!
per + -{S e t per - {S Se questo complesso viene fatto pas
.
{I _§_
N
è sufficientemente piccolo. Ci si può assicurare di ciò prendendo
S/N abbastanza piccolo (dopo che si è scelto t). La potenza en
tropica sarà vicina a S + N con l'approssimazione che si vuole,
e pertanto la velocità di trasmissione sarà vicina quanto vo
gliamo a
W log
( S+N
N
).
1 17
5
1 18
namente messe in codice, su un canale la cui capacità sia uguale
alla velocità in questione, e soddisfare alle esigenze di fedeltà.
Un canale di capacità inferiore è insufficiente.
E' dapprima necessario dare una formulazione matematica ge
nerale del concetto di fedeltà di trasmissione. Si consideri l'in
sieme dei messaggi aventi una lunga durata, poniamo di T se
condi. La sorgente viene descritta fornendo la densità di proba
bilità, P(x), che la sorgente scelga, nello spazio relativo il mes
saggio in questione. Un dato sistema di comunicazione viene de
scritto ( dal punto di vista esterno) dando la probabilità condizio
nale P..(y) che, se dalla sorgente viene prodotto il messaggio x,
il messaggio riprodotto al punto di ricezione sia y. Il sistema nel
suo complesso (comprendente la sorgente ed il sistema di trasmis
sione) viene descritto mediante la funzione di probabilità P(x, y)
di avere un messaggio x ed un'uscita finale y. Se è nota questa
funzione, sono note le caratteristiche complessive del sistema dal
punto di vista della fedeltà. Qualunque valutazione di fedeltà
deve corrispondere, matematicamente, ad una operazione riguar
dante P(x, y ). Questa operazione deve avere almeno le proprietà
di un semplice ordinamento di sistemi ; deve, cioè, essere possi
bile, riguardo a due sistemi rappresentati da P1(x, y) e P2(x, y) ,
affermare che, in conformità al criterio di fedeltà, o ( l ) possiede
maggiore fedeltà il primo, o (2) possiede maggiore fedeltà il se
condo, oppure (3) essi hanno uguale fedeltà. Ciò significa che si
può rappresentare un criterio di fedeltà mediante una funzione di
valutazione numericamente calcolabile
v(P(x, y))
il cui argomento si estende alle possibili funzioni di probabilità
P(x, y ) . La funzione v( P( x, y)) ordina i sistemi di comunicazione in
base alla fedeltà, e per convenienza prendiamo più bassi valori
di v in corrispondenza a « più alta fedeltà >> .
Mostreremo ora che, sotto condizioni molto generali e ragione
voli, è possibile scrivere la funzione v( P( x, y)) in una forma appa
rentemente molto più specifica, precisamente come media di una
funzione p(x , y) tra l'insieme di possibili valori di x e di y :
JJ P(x, y ) dx dy = l.
120
1. Criterio R.M.S.
p(x, y) =
1
T
fT
0 [x(t) - y(t)] 2 dt
allora
p(x, y) =
i J� f(t)2 dt.
p(x , y) =
1
T
fT
o
l x(t) - y(t) l dt
121
è relativamente insensibile alla fase e la sensibilità alla ampiezza
ed alla frequenza è pressapoco logaritmica.
5. Il caso discreto può essere considerato come una specializza
zione in cui abbiamo tacitamente assunto una valutazione basata
sulla frequenza di errori. La funzione p(x, y) è allora definita come
il numero di simboli della sequenza y che differiscono dai cor
rispondenti simboli della sequenza x, diviso per il numero totale
di simboli in x.
vi = JJ P(x,y)p(x, y) dx dy.
Ciò significa che prendiamo in considerazione, in effetti, tutti i
sistemi di comunicazione che potrebbero essere usati e che tra
smettono con la fedeltà richiesta. La velocità di trasmissione in
bit al secondo è calcolata per ogni sistema e scegliamo quello
122
avente la più piccola velocità. Quest'ultima velocità è la velocità
che assegnamo alla sorgente per la fedeltà in questione.
La giustificazione di questa definizione si trova nel seguente
teorema :
Teorema 21 : Se una sorgente ha una velocità R1 per una valu
tazione V1 è possibile mettere in codice l'uscita della sorgente e
trasmetterla su un canale di capacità C con fedeltà prossima quan
to vogliamo a v1 a patto che R1 � C. Questo non è possibile se
RI > C.
L'ultima affermazione del teorema discende immediatamente dal
la definizione di R1 e dalle precedenti acquisizioni. Se essa non
fosse vera potremmo trasmettere più di C bit al secondo su un
canale di capacità C. La prima parte del teorema è dimostrabile
mediante un metodo analogo a quello usato per il teorema 1 1 .
Possiamo, in primo luogo, dividere lo spazio (x, y) in un gran
numero di piccole celle e rappresentare la situazione come in
un caso discreto. Ciò non cambierà la funzione di valutazione
altro che di una quantità arbitrariamente piccola (quando le celle
sono molto piccole) a causa della continuità assunta per p(x, y).
Supponiamo che P1(x, y) sia il particolare sistema che rende mi
nima la velocità e dà R1. Scegliamo fra gli y ad alta probabilità
un insieme a caso contenente
123
di ricezione la y corrispondente viene ricostruita e usata come
messaggio ricevuto.
La valutazione vl per questo sistema può essere resa prossima
a v1 nella misura che vogliamo prendendo T sufficientemente
grande. Ciò è dovuto al fatto che per ogni lungo campione di
messaggio x(t) e di messaggio ricostruito y(t) la valutazione ten
de a v. (con probabilità 1 ).
E' interessante notare che, in questo sistema, il disturbo nel mes
saggio ricostruito è in realtà prodotto da una specie di quantiz
zazione generale nel trasmettitore e non è prodotto dal disturbo nel
canale. E' più o meno analogo al disturbo quantizzante nel PCM.
JJ [
P(x, y )
P(x, y) log + l.l P(x, y) p(x, y )
P(x)P( y )
+ v(x)P(x, y ) ] dx dy.
1 24
Py(X) = B(x) e-}..p (.r.rl
dove À. è determinato per fornire la fedeltà richiesta e B(x) è
scelto per soddisfare
JB(x) e-}..p(-<.rl dx = l .
Questo dimostra che, con la miglior codifica, la probabilità con
dizionale di una certa causa per i vari y ricevuti, Pr(x), dimi
nuirà esponenzialmente con la funzione p(x, y) della distanza tra
gli x e gli y in questione.
Nel caso speciale in cui la funzione p(x, y) della distanza dipende
solamente dalla differenza (vettore) tra x e y,
p(x, y) = p(x - y)
abbiamo
J B(x) e -}..p(-<-rl dx = l.
Allora B(x) è costante, poniamo a , e
Py{x) = ae-}..p(.r-rl.
Sfortunatamente queste soluzioni formali sono difficili da valu
tare in casi particolari e sembrano essere di scarso valore. Infatti,
l'effettivo calcolo delle velocità è stato realizzato soltanto in pochi
casi molto semplici.
Se la funzione della distanza p(x, y) è lo scarto quadratico medio
tra x e y e il complesso del messaggio è un rumore bianco, la
velocità può essere determinata. In questo caso abbiamo
R = Min [H(x) - Hr(x) ] = H(x) - Max Hr(x)
con N = (x - y)2• Ma Max. Hr(x) si verifica quando y - x è un
rumore bianco, ed è uguale a W1 log 2neN dove W1 è l'ampiezza
della banda del complesso del messaggio. Perciò
R = W1 log 2neQ - W 1 log 2neN
= wl log _Q_
N
dove Q è la potenza media del messaggio. Ciò dimostra il se
guente :
125
Teorema 22: La velocità di una sorgente con caratteristica di
rumore bianco, di potenza Q e banda W1 relativamente ad una
misura di fedeltà R . M.S. è
Q
R = W1 log N
w! log Ql � R � w! log Q
N N
dove Q è la potenza media della sorgente, QI la sua potenza en
tropica e N il consentito errore quadratico medio.
Il limite inferiore discende dal fatto che Max H1(x) per un dato
(x - y)2 = N si verifica nel caso di rumore bianco. Il limite su
periore si ha se disponiamo i punti (usati nella dimostrazione
del teorema 2 1 ) non nel modo migliore, bensì a caso in una
sfera di raggio �Q- N.
126
Riconoscimenti
L'autore deve ai suoi colleghi dei Laboratori, particolarmente al
Dr. H. W. Bode, al Dr. J. R . Pierce, al Dr. B. McMillan e al Dr.
B. M. Oliver molti suggerimenti e critiche che gli sono stati di
aiuto nel corso di questo lavoro. Va anche reso merito al Prof.
N. Wiener, la cui elegante soluzione dei problemi di filtro e di
predizione di complessi stazionari ha influenzato in misura con
siderevole il pensiero dell'autore in questo campo.
127
Appendice l
Sia
,r.,
A; = l: A; w- ,
iS
,
11r s1
W ,, - Ò;;) A; = O.
lt t
( -
129
D( W ) = l a;; l = I: w-b\? - o;; l
s
130
Appendice 2
Analogamente
A( t" ) = n A( t).
Possiamo scegliere n arbitrariamente grande e trovare un m che
soddisfi
m
s � t" < s (m+l) .
Perciò, prendendo i logaritmi e dividendo per n log s,
...!!!____
n
�
��
log s
�
_!E_
n
+ _l_
n
0 '___!!!___
n
_ log t
log s
l <
E
131
m
n
+
n
l
ovvero l ___!!'!____
n
-
A(s)
l
_A(t)_ < E
l A(t)
A(s)
- _l�g_!_
log s
l ""'
� 2E A( t) = - K log t
13 2
Appendice 3
log P . .
e -N- e l Imitato da
,
log p
= 'f.(P;p;l + o) log Pii
N
oppure
l log p
N
- '"i.P;p;i log Pii
l< 71
133
miti superiori ed inferiori per n(q) basati sulla possibile serie di
valori di p del teorema 3. Nel caso misto (non ergodico) se
L = 'E.p;L;
e se le entropie delle componenti sono H1 � Hz � . . . � H" abbia
mo il
(q )
Z
log
Teorema : lim = cp(q) è una funzione decrescente a sca-
N-+ -
lini,
s-1 s
cp ( q ) = H. nell'intervallo l; ai < q < l: a;.
l l
134
Appendice 4
l: P;prtJ zrtJ
i,j,s
Sia
,.,
P(�/, -
,
- �
B;
w-r,,
dove B; soddisfano le equazioni
135
Questo sistema omogeneo ha una soluzione non nulla dato che
W è tale che il determinante dei coefficienti è zero:
l I: w-rW - òij l = o.
•
= B·
n: = 1
I: Piplf/ Iii
log W I: Piplf/ llfl - I: P1p1f/ log Bi + I: P�p�J log B1
I: P1Pii lo/J
= log W = C.
Pertanto la velocità con questo insieme di probabilità di transi
zione è C e, dato che questa velocità non potrebbe mai essere
superata, questo è il valore massimo.
136
Appendice 5
137
H).SI = H).TS1 = TH).S1 = SI
cosicché H>..S1 è incluso in S2 per ogni À. . Ora, dato che
m[H>..S 1] = m[S2 ] = m[S1]
ciò comporta che
H>..S1 = S2
Per ogni À. con m[S2 ] ;é O, l . Questa contraddizione mostra che
S1 non esiste.
138
Appendice 6
139
Se p(x) viene modificata in un particolare argomento X; = s;, la
variazione in r(x) è
or(x) = q(X; - S;)
e
l Aij l n/2
p( x;) =
( Zn )n/2 exp - t EA;iXiXi
l Bij l n/2
q(x;) =
( Zn )nf2 exp - t 'f.B;iXiXi .
Allora r(x; ) sarà a sua volta normale con forma quadratica C;i.
Se gli inversi di queste forme sono a;i, b;i, c;i allora
140
n 1
log r(x;) = log 2,. l C11 l - i 'f.C;�;XJ
n 1
J q(x; - s;) log r(x;) = 2 log 2 ,. l C;; l - ! 'f.C;JS;s1 - ! 'f.C;;b;J.
�: [ n log �
2 l A;; l - ! 'i:.A;JS;SI ]
il che richiede A;1 = �: C;1•
cono ad identità.
141
Appendice 7
142
Ne segue che nella somma (per la intersezione X1, Y1) sostituiamo
d+e d e
(d + e) log a( b con d log ab + e log ac .
+ c)
Si dimostra facilmente che, con la limitazione esistente per b ,
c, d, e,
[ d ]
+ e d+e � dde•
b+c "" b dc•
e di conseguenza la somma è aumentata. Così le varie possibili
suddivisioni formano un insieme ordinato, con R monotona cre
scente con il raffinamento della suddivisione. Possiamo definire
R senza ambiguità come il più piccolo limite superiore per R1
e scrivere
R
=
l
T JJ P(x, y) log P(x, y)
P(x)P(y)
dx dy.
Questo integrale, inteso nel senso di cui sopra, include sia il caso
discreto che quello continuo e naturalmente molti altri che non
possono essere rappresentati né nell'una né nell'altra forma. E'
ovvio in questa formulazione che se x e u sono in corrispon
denza biunivoca, la velocità da u a y è uguale a quella da x a y.
Se v è una qualsiasi funzione di y (non necessariamente con un
inverso) allora la velocità da x a y è maggiore o uguale a quella
da x a v, dato che, nel calcolo delle approssimazioni, le suddivi
sioni di y costituiscono essenzialmente una suddivisione più pre
cisa di quanto non siano quelle di v. Più generalmente se y e v
sono in relazione non funzionale ma statistica, se cioè abbiamo
uno spazio (y, v) di misura di probabilità, allora R(x, v) � R(x, y).
Ciò significa che qualunque operazione effettuata sul segnale ri
cevuto, anche se coinvolge elementi statistici, non incrementa R.
Un altro concetto che dovrebbe essere definito precisamente in
una formulazione astratta della teoria è quello di « flusso delle
dimensioni », che è il numero medio di dimensioni richieste al
secondo per specificare un membro del complesso. Nel caso di
banda limitata sono sufficienti 2W numeri al secondo. Una defi
nizione generale può essere formulata come segue. Sia M t ) un
complesso di funzioni e sia pr[fa(t), fp( t) ] una misura metrica della
<< distanza >> tra f,. e f11 nel tempo T (per esempio la differenza
143
R.M.S. in questo intervallo). Sia N(E, ò, T) il minimo numero di
elementi f che possono venir scelti in modo che tutti gli elementi
del complesso, a parte un insieme di misura ò, sono compresi
entro la distanza E di almeno uno di quelli scelti . Pertanto co
priamo lo spazio compreso entro E, a parte un insieme di pic
cola misura ò . Definiamo il flusso di dimensioni À. del complesso
con il triplice limite
. log =- E,--'
N::-'-(--'- Ò,'-
T.:._
--)
Il.
, 1Im l'Im 1.Im __""=
T log E
=
6_o ._o T_ ..
144
Finito di stampare nel mese di aprile 1983 dalla Milanostampa o Farigliano (CN)
per conto del Gruppo Editoriale Fabbri o Bompiani, Sonzogno, Etas S.p.A.,
Via Mecenate, 91 o 20138 Milano