Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
L. P.
Giugno 2007
Riporto qui una breve rassegna dellapproccio alla Meccanica Statistica mediante la
teoria dellinformazione. Partiamo dalla considerazione che la probabilit`a pi associata
allo stato i per un sistema termodinamico non pu`
o essere interpretata in senso
frequentistico. In effetti, anche per un sistema piccolo, il numero di stati possibili
`e talmente grande che, per poter valutare la frequenza relativa di occupazione dello
stato i, sarebbe necessario aspettare tempi incredibilmente lunghi.
Consideriamo un sistema di Ising con N spin. Il numero di stati possibili `e
pari a 2N ' 1000N/10 . Con un milione di spin (un cubetto di lato 100), abbiamo 1015
stati. Supponendo di esplorare uno stato ogni picosecondo (a una frequenza di 1 GHz)
dobbiamo aspettare 106 secondi, cio`e circa 4 mesi, per passare in rassegna ciascuno
stato in media una volta. Questo tempo cresce esponenzialmente con la taglia del
sistema.
Viceversa le pi possono essere interpretate come una rappresentazione della nostra
conoscenza del sistema. Esse ci permettono di valutare i valori attesi delle osservabili
Xi del sistema, tramite la relazione
X
hXi i =
pi Xi .
(1)
i
dove la costante k viene di solito presa uguale alla costante di Boltzmann kB . Con
questa scelta, si pu`o mostrare che la distribuzione canonica peq
i = exp(Ei /kB T )/Z
soddisfa il seguente principio di massimo:
P
Il funzionale di Gibbs S(p) = kB i pi log pi assume il valore massimo
per
P
p = peq , fra tutte le distribuzioni per cui il valore medio hEi = i pi Ei ha
un valore fissato.
Inoltre, il valore assunto dal funzionale di Gibbs per p = peq `e uguale al valore
dellentropia termodinamica per lo stato di equilibrio termodinamico determinato da
quel valore di hEi.
Nellapproccio di Jaynes, questo risultato viene interpretato in termini di
informazione mancante. Si richiede cio`e che la scelta delle probabilit`a p sia tale
da massimizzare linformazione mancante sul sistema, associata alla distribuzione
P di
probabilit`a, fra tutte le distribuzioni
che
soddisfano
i
vincoli
di
normalizzazione
i =1
P
e di valor medio dellenergia i pi Ei = E = cost.
1. Teorema di Shannon
In questo paragrafo, mostriamo che il funzionale di Gibbs, definito su una distribuzione
di probabilit`a discreta p = (p1 , . . . , pn ), pu`o essere interpretato come una misura
dellinformazione mancante sulla descrizione di un evento che pu`o verificarsi in una
fra n alternative, e tali che pi `e la probabilit`a che si verifichi lalternativa i. Il fatto
che questa sia lespressione dellinformazione mancante `e noto come teorema di
Shannon.
Si supponga che un evento debba verificarsi in una fra n alternative, e che
allalternativa i sia associata la probabilit`a pi . Vogliamo associare alla distribuzione
p = (p1 , . . . , pn ) una misura In (p) della quantit`a di informazione mancante, tale che
siano soddisfatti i seguenti postulati:
Irrilevanza: Alternative che hanno probabilit`a nulla di verificarsi non modificano
linformazione mancante. In formule:
In+` (p1 , p2 , . . . , pn , pn+1 = 0, . . . , pn+` = 0) = In (p1 , . . . , pn ). (3)
Monotonicit`
a: Se tutte le alternative hanno la stessa probabilit`a, linformazione
mancante deve crescere al crescere del numero di alternative. Si deve cio`e avere,
per n < m,
1
1
1
1
In
,...,
< Im
,...,
.
(4)
n
n
m
m
Simmetria: Linformazione mancante non dipende da come vengono ordinate le
alternative: per ogni permutazione P degli n indici, si deve avere
pi0 ,
se i j,
pi
p(i | j) =
(6)
i0 j
0,
altrimenti.
(9)
1
1
S n = In
,...,
.
n
n
Notiamo che si deve avere, per ladditivit`a
Snm = Sn + Sm .
(10)
(11)
(13)
(14)
(17)
0
(18)
0
dove abbiamo sfruttato la (17). Baster`a quindi scegliere m in modo che (kk ) log m >
k 0 log p per violare la monotonicit`a.
Possiamo adesso valutare In (p1 , p2 , . . . , pn ) per delle probabilit`a arbitrarie p =
(p1 , . . . , pn ). Sfruttando la continuit`a, potremo limitarci al caso in cui le pi sono
razionali. Supponiamo quindi di scrivere pi = mi /N , dove N `e un determinato intero.
Allora potremo rappresentare le alternative supponendo che abbiamo a che fare con
N alternative equiprobabili, di cui m1 stanno nel primo gruppo, m2 nel secondo, ecc.
In questo modo avremo, per ladditivit`a,
n
X
1 1
1
1
1
IN
, ,...,
= In (p1 , p2 , . . . , pn ) +
pi Imi
,...,
N N
N
mi
mi
i=1
= In (p1 , p2 , . . . , pn ) +
n
X
pi k log mi .
(19)
i=1
Ma
IN
1 1
1
, ,...,
N N
N
= k log N,
(20)
e quindi
In (p1 , p2 , . . . , pn ) = k
= k
= k
n
X
i=1
n
X
i=1
n
X
pi log mi + k log N
pi log mi + k
pi log N
pi log pi .
(21)
i=1
k = (log 2)
(22)
1
1
In (p1 , . . . , pn ) In
,...,
= k log n.
(23)
n
n
Questa disuguaglianza discende dalla ben nota relazione soddisfatta dal logaritmo:
log x x 1.
(24)
n
X
i=1
1
1
=k
k
pi
1
pi log
np
np
i
i
i=1
i=1
n
X
1
1
=k
pi = k n 1 = 0.
n
n
i=1
(25)
n
X
pi log pi .
(26)
i=1
i=1
Per giustificare questo principio, indichiamo con peq la distribuzione che lo soddisfa
(per un dato valore di E), e consideriamo unaltra distribuzione p che soddisfa i
vincoli, ma che corrisponde a un valore I(p) inferiore al massimo I(peq ). Allora,
per definizione, la conoscenza che avremmo dello stato del sistema dalla distribuzione
p sar`
a pi`
u precisa di quella corrispondente alla distribuzione peq . Ma, per ipotesi, tutta
la nostra conoscenza dello stato del sistema `e contenuta nel valore E di hEi, vincolo
che `e soddisfatto dalla peq . Quindi questa maggiore conoscenza sullo stato del sistema
non `e giustificata dallo stato delle nostre informazioni, ed `e fuorviante.
Vediamo adesso di valutare peq . Introduciamo i moltiplicatori di Lagrange e
per imporre i vincoli. Cerchiamo quindi il massimo dellespressione
X
X
X
= I(p)
pi
pi Ei =
pi [log pi + + Ei ] . (28)
i
= [log pi + + Ei ] 1.
(29)
pi
Quindi, imponendo /pi = 0, otteniamo
pi exp(Ei ).
(30)
otteniamo
eEi
.
Z
Daltra parte, il valore di viene determinato dalla condizione
X
hEi =
pi Ei = E.
pi = peq
i =
(32)
(33)
Inoltre si ha
D
E
hEi
2
= (E hEi) < 0.
(35)
= E.
(36)
(37)
(38)
pi log pi + k
=k
X
i
pi log
pi
.
peq
i
pi (log Z + Ei )
(39)
(41)
Tuttavia, si vede facilmente che essa non `e mai negativa, e si annulla solo se p = peq .
Si ha infatti
X
peq
DKL (p | peq ) =
pi log i
pi
i
X peq
X eq
i
pi
1 =
(pi pi ) = 0.
(42)
pi
i
i
Bibliografia
[1] E. T. Jaynes, Information theory and statistical mechanics, Phys. Rev. 106 (1957) 620.
[2] E. T. Jaynes, Probability: The Logic of Science (Cambridge: Cambridge U. P, 2003).