Sei sulla pagina 1di 58

Capitolo 3

Introduzione alla Teoria


Ergodica
1. Introduzione. La teoria ergodica, come disciplina matematica,
attualmente trova la sua collocazione nellambito della teoria della proba-
bilit`a e della teoria dei sistemi dinamici. Per`o la sua origine si riconduce al
tentativo di spiegare i fenomeni termodinamici macroscopici mediante una
teoria atomistica microscopica, compiuta a partire dalla seconda met`a del-
lottocento da alcuni sici (Helmholtz, Maxwell, e Boltzmann a cui si deve
il termine ergodico, su tutti). In questa introduzione cercheremo di spie-
gare appunto quale sia il legame tra la teoria ergodica ed i fondamenti della
termodinamica.
Ricordiamo innanzitutto che la termodinamica tratta la materia come
un continuo, e si pone come obbiettivo di inquadrare in una teoria unitaria i
fenomeni che avvengono in conseguenza degli scambi di calore tra i vari corpi.
Notiamo che la nozione di calore viene assunta come primitiva, e quindi ci
fa uscire dallambito puramente meccanico. La teoria si basa essenzialmente
su quattro assiomi che possono essere enunciati nel modo seguente:
1. Principio zero. Un sistema isolato raggiunge uno stato di equilibrio,
nel quale i valori delle variabili macroscopiche (pressione, volume, etc.)
sono costanti nel tempo.
2. Primo Principio, o principio di conservazione dellenergia. In
un processo ciclico,
1
la quantit`a di calore assorbita da un sistema `e
pari al lavoro compiuto dallo stesso. Detto in un modo equivalente,
esiste una funzione di stato (lenergia interna U) la cui variazione tra
due stati A e B, `e pari alla somma del calore assorbito meno il lavoro
compiuto dal sistema, per passare da A a B.
1
Si dice ciclico un processo alla ne del quale il sistema ritorna nellidentico stato di
partenza.
115
116 Andrea Carati e Luigi Galgani
3. Secondo Principio, o esistenza dellentropia. Nella formulazione
di Caratheodory, il secondo principio si enuncia dicendo che non `e pos-
sibile, partendo da uno stato A, raggiungere tutti gli altri possibili stati
mediante un processo adiabatico
2
. In altre parole, mediante trasfor-
mazioni adiabatiche, certi stati non sono accessibili al sistema. Ad
esempio, mediante trasformazioni cicliche adiabatiche (irreversibili)
posso riscaldare un sistema isolato, ma non posso rareddarlo. Da
questo principio segue lesistenza dellentropia e dei vari potenziali
termodinamici (energia libera, eccetera).
A questi principi classici si aggiunge poi il cosiddetto Terzo Principio
(di Nernst, 1906), secondo il quale per ogni sistema esiste una temperatura
critica, al di sotto della quale lenergia interna e lenergia libera coincidono,
e dunque lentropia `e nulla. Di questo ultimo principio (che `e strattamente
connesso al passaggio dalla meccanica classica alla meccanica quantistica)
qui non ci occuperemo, e faremo riferimento ai principi classici.
Da tali principi, in particolare si pu`o giungere a dimostrare (vedi Lan-
ford...) ad esempio che esiste una nuova grandezza, la temperatura assoluta,
che caratterizza gli stati di equilibrio, nel senso che sistemi diversi tutti alla
medesima temperatura, se posti in contatto termico, permangono nel loro
stato di equilibrio (sono in mutuo equilibrio).
Il programma atomistico ottocentesco (che in larga misura `e corrente-
mente adottato ancora oggi in Fisica) si proponeva di dedurre come teoremi
i tre principi sopra enunciati, a partire dalla dinamica (retta dalle equazioni
di Newton) di un sistema composto da un grandissimo numero (dellordine
di 10
23
) di minuscole unit`a (gli atomi o le molecole) non accessibili speri-
mentalmente. Per comprendere come sia possibile introdurre una grandezza
come la temperatura in un contesto meccanico discuteremo il caso del gas
perfetto.
2. Il gas perfetto. Nello studio del comportamento dei gas pi` u comuni
(aria, ossigeno, idrogeno, etc.), si `e giunti sperimentalmente a stabilire che
la pressione p risulta essere con buona approssimazione proporzionale alla
temperatura T del gas, ed inversamente proporzionale al volume V del re-
cipiente in cui `e racchiuso (per ssare le idee si pensi alla comune pompa da
bicicletta). La legge si stato
3
(detta legge dei gas perfetti) si pu`o scrivere
come
pV = nRT (1)
dove n `e la quantit`a di gas in esame (usualmente espressa in moli), ed R una
costante dimensionale che viene detta costante dei gas. Questa legge viene
2
Si dice adiabatico un processo in cui non vi sia scambio di calore.
3
La legge di stato `e una relazione tra pressione, volume e temperatura, caratteristica
di ogni sistema
Introduzione alla Teoria Ergodica 117
seguita con molta accuratezza dai gas che si trovino abbastanza lontani dal
punto di liquefazione (cio`e a temperature sucientemente alte, e densit`a
non troppo grandi).
Un modello atomistico risalente a Clausius, che riproduce la legge dei gas
perfetti, consiste di N particelle non interagenti che urtano elasticamente le
pareti di un contenitore cubico di lato L. Questo a patto che si denisca
opportunamente in termini microscopici il concetto di pressione. Conside-
riamo inizialmente la particella iesima, che urta elasticamente una parete
del contenitore, per esempio quella posta ad x = 0, perpendicolare allasse
delle x. Se indichiamo con v
i
x
`e la componente lungo lasse delle x della
velocit`a prima dellurto, dopo lurto tale componente varr`a v
i
x
, le altre
rimangono invariate.
4
La variazione della quanti`a di moto della particella
nella direzione x sar`a dunque Q
i
= 2m
i
v
i
x
, e tale variazione sar`a dovuta
allimpulso
5
della forza esercitata dalla parete sulla particella. Lintervallo
di tempo tra due successive collisioni con la parete considerata sar`a dato
da 2L/v
i
x
, per cui in un certo intervallo di tempo

t, la particella subir`a un
numero di urti pari a v
i
x

t/2L, sicche limpulso della forza esercitata dalla


parete sulla particella nellintervallo di tempo

t, sar`a
Q
i
tot
=
m
i
(v
i
x
)
2
L

t .
Quindi limpulso totale delle forze che la parete esercita sul gas sar`a sem-
plicemente la somma dei singoli impulsi, cio`e trovo
Q
tot
=

i
m
i
(v
i
x
)
2
L

t .
Poiche limpulso `e denito come lintegrale nel tempo della forza, la relazione
precedente si scrive anche come
1

t
_

t
0
F
x
dt =

i
m
i
(v
i
x
)
2
L
.
Se deniamo ora come pressione p la media temporale della componente
normale della forza per unit`a di supercie che la parete esercita sul gas
6
,
4
Questa legge di riessione `e lunica compatibile con la conservazione dellenergia e la
conservazione della quantit` a di moto parallela alla supercie.
5
Ricordiamo che lequazione di Newton per una particella ma = F comporta per la
quantit` a di moto Q = mv la relazione
Q(t
1
) Q(t
0
) =
_
t
1
t
0
Fdt .
Lintegrale a secondo membro viene detto impulso della forza nellintervallo (t
0
, t
1
).
6
Per il principio di azione e reazione la forza media che la parete esercita sul gas `e
eguale a quella che il gas esercita sulla parete, solo cambiata di verso.
118 Andrea Carati e Luigi Galgani
ovvero mediante la relazione
1

t
_

t
0
F
x
dt = pL
2
,
otteniamo allora
pV =

i
m
i
(v
i
x
)
2
. (2)
A questo punto facciamo una ipotesi di natura statistica sulle velocit`a v
i
delle particelle, che `e unipotesi che riguarda la scelta dei possibili dati in-
iziali.
`
E chiaro che `e possibile scegliere le velocit`a iniziali in modo che siano
tutte dirette per esempio nel piano yz in modo che la pressione sulla parete
ortogonale allasse delle x risulti nulla, ma tutti sentiamo istintivamente che
tale scelta `e particolarissima ed altamente improbabile. Ci appare pi` u natu-
rale pensare che le velocit`a iniziali delle particelle abbiano un orientamento
casuale, cio`e che valga
7

i
m
i
(v
i
x
)
2
=

i
m
i
(v
i
y
)
2
=

i
m
i
(v
i
z
)
2
.
Risulta allora che la (2) si pu`o riscrivere in termini dellenergia cinetica
totale
8
del gas nel modo seguente
pV =
2
3
K
tot
. (3)
Questa fornisce lequazione del gas perfetto una volta che si identichi la
temperatura T con lenergia cinetica media per particella, cio`e si ponga
T =
K
tot
k
B
N
,
con una opportuna costante dimensionale k
B
, detta costante di Boltzmann.
3. Il teorema del viriale: un modello pi` u realistico di gas perfet-
to. Nel paragrafo precedente si `e visto che la pressione, che `e una variabile
macroscopica, deve essere pensata come una media temporale di una quan-
tit`a microscopica. Questo daltra parte e ragionevole, perche si e supposto
che i tempi della dinamica microscopica siano molto pi` u brevi delle scale di
tempo su cui si eettuano le misure macroscopiche. Ad esempio si stima
che una molecola di gas subisca un urto in media ogni 10
10
secondi, da
7
In accordo con il principio idrostatico di Pascal, che la pressione sia ovunque la
medesima nel uido.
8
Denita da
K
tot
=

i
1
2
m
i
_
(v
i
x
)
2
+ (v
i
y
)
2
+ (v
i
z
)
2
_
.
Introduzione alla Teoria Ergodica 119
confrontarsi con la durata di un secondo tipica delle misure macroscopiche.
Nellesempio seguente, in cui si analizza un modello pi` u realistico di gas,
dove sono presenti anche forze tra le molecole di questo, e dunque lenergia
cinetica non `e pi` u costante del moto, la legge di stato conterr`a non lenergia
cinetica stessa, ma la sua media temporale.
Consideriamo dunque il moto delle N molecole descritto dal sistema delle
equazioni di Newton
m
i
x
i
= F
ext
i
+

i=j
F
ij
,
dove m
i
`e come prima la massa delliesima particella, F
ext
i
la forza dovuta
alle pareti del contenitore, F
ij
la forza sulliesima particella esercitata dalla
jesima. Lequazione di stato si ottiene nel modo seguente. Dalle equazioni
di moto
9
si ottiene la relazione
d
dt
_

i
m
i
x
i
x
i
_
2K
tot
=

i
F
ext
i
x
i
+

j,i=j
F
ij
x
i
. (4)
Ora si noti che la media temporale di una derivata e trascurabile, in quanto
10
1

t
_

t
0
d
dt
f(t) dt =
f(

t) f(0)

t
0 , per

t + .
Dunque, mediando nel tempo entrambi i membri della (4), si ottiene
2K
tot
=

i
F
ext
i
x
i
+

i,j=i
F
ij
x
i
, (5)
dove il primo addendo del termine a destra `e detto viriale delle forze esterne,
ed il secondo viriale delle forze interne, e con la barra si e indicata loper-
azione di media temporale. Per ricavare lequazione di stato del gas perfetto,
per prima cosa si ammette che il viriale delle forze interne sia trascurabile, in
quanto si ammette che per densit`a sucientemente basse le molecole urtino
pi` u frequentemente con le pareti che non fra di loro.
11
Per valutare il viriale
delle forze esterne, ricordiamo che avevamo denito la pressione mediante
la media temporale della componente normale della forza che una porzione
9
Basta moltiplicare ogni equazione del moto scalarmente per x
i
, usare lidentit a x
i
x =
d
dt
_
x
i
x
i
_
x
i
x
i
e poi sommare su i.
10
Si ammette che la funzione f sia limitata.
11
Tener conto delle mutue interazioni tra molecole `e il principale problema della teoria
dei gas reali. La teoria (fenomenologica) pi` u semplice porta allequazione di stato di van
Der Waals, che `e nella forma
nRT =
_
V nb
__
p
an
2
V
2
_
,
dove i coecienti a e b sono appunto legati alla natura delle forze interne del gas.
120 Andrea Carati e Luigi Galgani
di parete d esercita sul gas, cioe, detta n la normale alla parete, avevamo
posto
pnd
k
def
=

i
F
ext
i,k
,
dove F
ext
i,k
e la forza che lareola d
k
esercita sulliesima particella. Divi-
dendo la supercie del contenitore in un certo numero di areole d
k
locate
nei punti r
k
, si otterra

i
F
ext
i
x
i
=

k
pr
k
nd
k

_
V
pr nd ,
dove, ricordando che la forza F
ext
i,k
e non nulla solo in prossimita dellareola,
si e posto x
i
= r
k
.
12
Ora, se ammettiamo che i dati iniziali generici diano
una pressione p costante sulla supercie del contenitore, usando il teorema
di Stokes, otteniamo
_
V
pr nd = p
_
V
r nd = p
_
V
div r d
3
r = 3pV .
Sostituendo nella (5) si ottiene lequazione di stato nella forma
pV =
3
2
K
tot
, (6)
che e analoga alla (3).
Questi due esempi giusticano la seguente
Denizione 1 Le variabili macroscopiche si devono identicare con le me-
die temporali di opportune variabili dinamiche.
Dunque, dato un generico sistema dinamico (/,
t
) (
t
essendo un grup-
po ad un parametro di dieomorsmi dello spazio delle fasi /), la teoria
ergodica ha come oggetto di studiare le medie temporali delle variabili di-
namiche. Nei paragra seguenti esporremo i risultati pi u elementari di tale
studio.
4. Dipendenza delle Medie Temporali dai dati iniziali. Come
detto nel paragrafo precedente, si assume che le quantita macroscopiche
siano le medie temporali di opportune variabili dinamiche
F(x
0
) =
1

t
_

t
0
F
_
x(t)
_
dt ,
dove x
0
= x(0) `e il dato iniziale che determina la traettoria, cio`e linsieme
delle velocit`a e posizioni iniziali di tutte le particelle che compongono il
12
Ricordo che le medie temporali sono integrali lungo lorbita del sistema, ma
lintegrando e nullo se x(t)
i
,= r
k
perche allora le forze sono nulle.
Introduzione alla Teoria Ergodica 121
sistema. Qui x(t)
def
=
t
x
0
denota il movimento con dato iniziale x
0
. Le-
spressione precedente mostra che le medie temporali dovrebbero dipendere
da un gran numero di parametri (cio`e dallo stato microscopico del sistema),
mentre sperimentalmente si osserva che le medie in realt`a dipendono da
pochi parametri macroscopici (ad esempio lenergia totale che sappiamo
essere associata alla temperatura ed il volume). Come si puo risolvere
questa contraddizione?
Storicamente la prima risposta `e stata data da Boltzmann, che a tal ne
introdusse la cosiddetta ipotesi ergodica. Per illustrarla incominceremo con
una discussione euristica del problema. Notiamo innanzitutto che, per quan-
to detto sulle dierenze tra scale di tempo microscopiche e macroscopiche,
si puo ritenere che valga
F(x
0
) lim

t+
1

t
_

t
0
F
_
x(t)
_
dt ;
lipotesi ergodica postula che le medie temporali su tempo innito dipendano
unicamente dallenergia del sistema, in quanto, per i sistemi interessanti per
la termodinamica, Boltzmann riteneva che le orbite fossero in qualche modo
dense sulla supercie dellenergia.
13
Torneremo nel seguito ad una analisi pi u
approfondita di questa ipotesi; mostriamo ora la tremenda semplicazione
che una ipotesi di questo tipo comporta, supponendo (per ssare le idee)
che la media temporale F(x
0
) sia costante in una certa regione A, e nulla
nel suo complementare.
Faremo uso del Teorema di Liouville, che `e una fondamentale proprieta
della dinamica Hamiltoniana. Nel caso in cui / = R
3N
R
3N
(che `e
quello dei sistemi che stiamo considerando, costituiti da N particelle), esso
si formula al modo seguente
14
Teorema 1 (di Liouville) Per i sistemi hamiltoniani, il volume di ogni
insieme A (misurabile) dello spazio delle fasi e un invariante del moto, ossia,
detto
t
A levoluto dellinsieme A mediante il usso, vale
_
A
dx =
_

t
A
dx , (7)
dove dx e lusuale misura di Lebesgue. In altri termini vale
[ det D
t
x[ = 1 t . (8)
13
Anzi, Boltzmann riteneva che le superci di energia costante fosssero costituite da
ununica orbita (ipotesi ergodica in senso stretto).
14
Nel caso generale in cui lo spazio delle fasi sia una variet`a, risulta pi` u complesso
denire lintegrale, perche ci` o richiede lintroduzione di quelle che vengono chiamate le
forme di volume.
122 Andrea Carati e Luigi Galgani
Osservazione. In questo caso si dice anche che la misura di Lebesgue e
invariante per il usso
t
. In generale una misura
15
si dira invariante
per il usso se vale (A) = (
t
A), per ogni tempo t e per ogni insieme
misurabile A.
Dimostrazione. Una dimostrazione elementare si puo trovare nel capitolo secondo
delle dispense di Meccanica Razionale 1 dei medesimi autori. Una dimostrazione
meno elementare ma pi u breve e la seguente. La relazione (7) equivale alla relazione
d
dt
_

t
A
dx = 0 . (9)
Sia B
def
=
t
A, allora si ha (essendo
B
(x) la funzione caratteristica dellinsieme
B)
16
_

dt
B
dx =
_
M

dt
B
(x) dx =
_
M

B
_

dt
x
_
dx ,
o anche, denotando con v(x) il campo vettoriale hamiltoniano,
_

dt
B
dx =
_
M

B
_
x v(x) dt +O( dt
2
)
_
dx ,
in quanto vale
dt
x = x v(x) dt + O( dt
2
). Sia ora F
n
(x) una successione di
funzioni regolari a supporto conpatto che converge (in norma L
1
) alla funzione

B
(x). Ora
_
M
F
n
_
xv(x) dt+O( dt
2
)
_
dx =
_
M
F
n
(x) dxdt
_
M
v
i
(x)
x
i
F
n
(x) dx+O( dt
2
) .
Essendo per i campi hamiltoniani divv = 0, si ha v
i

x
i
F
n
= div(vF
n
), e troviamo
quindi
_
M
v
i
(x)
x
i
F
n
(x) dx =
_
M
div
_
v(x)F
n
(x)
_
dx = 0 ,
dove lultima egualianza segue dal teorema di Stokes e dal fatto che F
n
, essendo a
supporto compatto `e nulla allinnito. Passando al limite trovo
_

dt
B
dx =
_
M

B
(x) dx +O( dt
2
) =
_
B
dx +O( dt
2
)
ovvero la derivata
d
dt
_
B
dx e nulla, che `e la (9).
Inne, dalla (7) segue immediatamente la (8) eettuando il cambiamento di
variabile y =
t
x. Vale infatti
_
A
dx =
_

t
A
dx =
_
A
[ det D
t
x[ dy ,
per ogni insieme A, da cui segue appunto [ det D
t
x[ = 1. Q.E.D.
15
Una misura e una funzione che assegna un valore positivo ad ogni insieme A / di
una famiglia / di insiemi. La famiglia / di insiemi deve godere di alcune propriet a (essere
chiusa per intersezione, unione e complementazione), mentre deve essere numerabilmente
additiva, cioe deve valere (

+
n=0
A
n
) =

n=0
(A
n
) se gli insiemi A
n
sono a due a due
disgiunti.
16
Si usa
B
(x) =
B
(
1
x).
Introduzione alla Teoria Ergodica 123
Torniamo ora al problema di valutare la media temporale

F(x
0
) utiliz-
zando lipotesi ergodica. Preliminarmente, usando il Teorema di Liouville,
si mostra facilmente che lintegrale della media temporale di una qualunque
funzione F(x) (a supporto compatto) risulta eguale allintegrale della fun-
zione medesima, si ha cioe
_
M
F(x
0
) dx
0
=
_
M
F(x) dx . (10)
Infatti, scambiando lintegrale rispetto al tempo con lintegrale sui dati
iniziali otteniamo
_
M
F(x
0
) dx
0
=
1

t
_
M
dx
0
_

t
0
dtF
_
x(t)
_
=
1

t
_

t
0
dt
_
M
F
_
x(t)
_
dx
0
;
ora, operiamo nellultimo integrale il cambiamento di variabile x =
t
x
0
, e
poiche per il teorema di Liouville vale dx
0
= dx, si ottiene
_
M
F(x
0
) dx
0
=
1

t
_

t
0
dt
_
M
F(x) dx =
_
M
F(x) dx ,
dato che
_
M
F(x) dx `e indipendente dal tempo.
Usiamo ora lipotesi provvisoria fatta sopra che F(x
0
) sia indipendente
dal dato iniziale x
0
in una certa regione A /, e nulla nel complementare.
Allora si ha che per ogni x
0
A vale
_
M
F(x
0
) dx
0
= Vol(A) F(x
0
) ,
e quindi usando la relazione (10) ottenuamo
F = F
def
=
_
M
F(x) dx
Vol(A)
. (11)
Detto a parole, otteniamo che la media temporale coincide con la media in
fase, cioe lintegrale temporale lungo una traettoria del sistema coincide con
lintegrale della funzione sullo spazio delle fasi. Lenorme semplicazione
consiste nel fatto che non e necessario conoscere levoluzione del sistema (la
soluzione delle equazioni del moto) per poter calcolare le medie temporali,
ma basta saper calcolare degli integrali deniti, un compito molto meno com-
plicato. Inoltre questa semplicazione e ecace proprio dove e impossibile
determinare le orbite del sistema. Si pensi allesempio dello standard map
discusso nel Capitolo 1, per un valore del parametro tale che ogni orbita
riempia uniformemente il quadrato (vedi ad esempio la gura ...). Mentre
evidentemente non si riesce a dare unespressione per lorbita, e molto nat-
urale ritenere che la media temporale coincida con la media della funzione
sul quadrato.
124 Andrea Carati e Luigi Galgani
In denitiva Boltzmann propone di sostituire le medie temporali con le
medie in fase. Uno dei problemi matematici della teoria ergodica consiste
nel caratterizzare i sistemi per cui cio `e possibile. Una risposta e fornita
dal teorema ergodico di Birkho che ora andiamo ad enunciare. Prima pero
abbiamo bisogno di una denizione.
Denizione 2 Il usso
t
e detto metricamente indecomponibile se ogni
sottoinsieme invariante A (cioe con
t
A = A) di /`e banale, cio`e ha misura
nulla oppure ha misura nulla il suo complementare //A.
In sostanza il usso `e metricamente indecomponibile se
t
non ammette
costanti del moto (misurabili). Infatti se f e una costante del moto (cio`e
se f(
t
x
0
) = f(x
0
) per tutti i t, e quasi tutti gli x
0
), gli insiemi del tipo
A = x / : f(x) < cost sono insiemi invarianti misurabili ed in generale
di misura non nulla. Sembrerebbe allora che i ussi hamiltoniani (quelli di
interesse per la termodinamica) non siano metricamente indecomponibili, in
quanto ammettono sempre lhamiltoniana stessa come costante del moto.
Rimandiamo questa discussione ad una osservazione dopo lenunciato del
seguente Teorema.
Teorema 2 (Ergodico di Birkho) Sia una misura invariante per il
usso hamiltoniano
t
, con (/) < +. Allora per ogni funzione integra-
bile f(x) il limite

f(x
0
)
def
= lim

t+
1

t
_

t
0
f(
t
x
0
) dt
esiste per quasi ogni x
0
. Inoltre, se
t
e metricamente indecomponibile,
allora per quasi ogni x
0
la media temporale coincide con la media in fase,
vale cio`e

f(x
0
) = f
def
=
_
M
f(x) d
(/)
.
Osservazione (Il Teorema di Birkho per i sistemi Hamiltoniani.).
Come abbiamo detto, sembrerebbe che il teorema di Birkho non si applichi
ai ussi hamiltoniani. Notiamo per`o che ci possiamo restringere alla super-
ci di energia costante, ed introdurre su queste superci una misura ereditata
da quella di Lebesgue, che risulta essere invariante
17
. Questa misura viene
chiamata misura microcanonica o insieme microcanonico. Allora, se non
esistono altre costanti del moto oltre lenergia, il usso risulta indecomponi-
bile sulla supercie E = cost, per cui le medie temporali risulteranno eguali
alle medie in fase ristrette alla supercie dellenergia. Ne segue dunque
che le medie temporali risulteranno funzioni solamente dellenergia totale,
che nella nostra interpretazione risulta essere un parametro macroscopico.
17
Senza dimostrazione riportiamo che questa misura e data da d/[gradH[ dove d e
lordinaria misura di supercie.
Introduzione alla Teoria Ergodica 125
Lapplicabilita del teorema di Birkho ai sistemi hamiltoniani risulta quindi
ricondotto alla domanda se esistano altri integrali primi oltre allenergia.
Lapproccio al problema delle medie temporali tramite il teorema di
Birkho (considendole cio`e come medie su di un tempo innito) non e luni-
co possibile. Inoltre esso non risulta soddisfacente per trattare il problema
dellavvicinamento allequilibrio. Infatti sperimentalmente si osserva che i
valori delle variabili macroscopiche generalmente variano nel tempo no a
portarsi al loro valore di equilibrio, mentre la dipendenza temporale viene
persa se il loro valore viene denito tramite una media temporale su tempo
innito. Dunque, `e giocoforza denire i valori delle quantit`a macroscopiche
come medie temporali su un tempo lungo, ma nito, ed allora il teorema
di Birkho non si applica pi u. E possibile pero un altro approccio che si
riconduce al teorema ergodico di Von Neumann, che per gli autori risulta
pi u soddisfacente. Esso verra illustrato nei prossimi paragra.
5. Distribuzione di Probabilita dei dati iniziali. Vogliamo dunque
considerare le medie temporali no ad un tempo

t grande (rispetto ai tempi
microscopici) ma ssato, cio`e considerare le quantita

f(x
0
) =
1

t
_

t
0
f(
t
x
0
) dt ,
dove sottointendiamo la dipendenza dal parametro

t. Ora, i dati iniziali
x
0
non risultano accessibili sperimentalmente, e potremo solamente fornire
la valutazione della probabilita che essi si trovino in una data regione del-
lo spazio delle fasi. In questo modo anche la

f(x
0
) diventa una variabile
stocastica
18
, perch`e i suoi valori non risultano essere ssati, ma vengono
assunti con diversa probabilita (in dipendenza della distribuzione di proba-
bilita che assegnamo ai dati iniziali x
0
). Ci si deve aspettare quindi che, se
eettuiamo misure a tempi diversi, anche in uno stato di equilibrio, si riscon-
treranno valori (leggermente) diversi. In altre parole ci si deve attendere che
anche allequilibrio le variabili macroscopiche uttuino leggermente attorno
al loro valore medio. Quello che richiediamo allora `e che, allequilibrio, la
distribuzione di probabilita di

f(x
0
) sia indipendente dal tempo. Questo in
particolare implica che la distribuzione di equilibrio
eq
per i dati iniziali sia
indipendente dal tempo. Bisogna dunque risolvere i due problemi seguenti:
1. Come dare sui dati iniziali delle distribuzioni di probabilita che siano
indipendenti dal tempo, cio`e siano di equilibrio.
2. Se la distribuzione iniziale
0
non `e di equilibrio, e quindi d`a luogo
ad una distribuzione di probabilit`a
t
dipendente dal tempo, mostrare
sotto quali condizioni
t
converga alla distribuzione di equilibrio.
18
I termini variabile stocastica, variabile casuale e random variable sono sinonimi.
126 Andrea Carati e Luigi Galgani
Esempio:
Supponiamo di mescolare un bicchiere di acqua con un cucchiaino. Allora,
appena tolgo il cucchiaio dallacqua ho un vortice al centro del bicchiere.
Dunque la distribuzione di probabilita che scelgo per i dati iniziali micro-
scopici deve tenere conto del fatto che la velocita v del uido e la posizione
x non sono scorrelate, ma si deve avere v(x) = x ( e la vorticita). Ce
un moto dassieme del uido, e i dati microscopici devono tenerne conto;
ho un vincolo sulle possibili congurazioni microscopiche, che deve rispec-
chiarsi nella scelta della distribuzione iniziale
0
. Col passare del tempo la
vorticita, che inizialmente e concentrata al centro del bicchiere, comincia
a diondere no a che la velocita (macroscopica) del uido si annulla. In
questa situazione lunico vincolo e quello dellenergia ssata. Dal punto di
vista macroscopico devo ritenere che tutte le possibili congurazioni micro-
scopica che rispettano questo vincolo siano egualmente probabili.

E questa
la distribuzione di equilibrio.
In tutti questi ragionamenti risulta essenziale sapere come evolve la prob-
abilita. Per determinare la legge di evoluzione di , ricorriamo al seguente
ragionamento dovuto a Poincare. Se supponiamo che ad un evento E
1
al
tempo t = 0 segua necessariamente levento E
2
al tempo t, ed inoltre che
levento E
2
non possa accadere senza che prima accada E
1
(ad esempio
non ci puo essere il tuono senza che prima ci sia stato il lampo), dobbiamo
assegnare agli eventi E
1
ed E
2
la medesima probabilita, cio`e
p(E
1
) = p(E
2
) .
Ora allevento E
1
corrisponde un certo insieme A / e si ha p(E
1
) =

0
(A), dove
0
e la distribuzione di probabilita al tempo t = 0. Analoga-
mente ad E
2
corrisponde un insieme B / con p(E
2
) =
t
(B), essendo
t
la distribuzione di probabilita al tempo t. In una visione deterministica, gli
eventi E
1
ed E
2
sono equivalenti solo se B =
t
A, per cui da p(E
1
) = p(E
2
)
segue
0
(A) =
t
(B), e poiche A =
t
B, si ottiene la legge fondamentale
di evoluzione

t
(B) =
0
(
t
B) . (12)
Osservazione. Non vorremmo enfatizzare troppo il ragionamento che ci
ha portato alla relazione (12). Di fatto essa viene postulata e non dedotta.
La (12) rappresenta un particolarissimo processo stocastico, in particolare
a diusione nulla. Se vogliamo, essa non `e altro che la denizione di pro-
cesso stocastico deterministico. In teoria delle probabilit`a vengono studiati
processi stocastici pi u generali, come ad esempio il famoso moto browniano.
Introduzione alla Teoria Ergodica 127
Dalla (12) segue un utilissimo teorema che, per i ussi hamiltoniani,
caratterizza completamente le misure di probabilita che ammettono densita
(rispetto alla misura di Lebesgue)
Teorema 3 La densit`a di una distribuzione di probabilit` a `e una costante
del moto (dipendente in generale dal tempo), soddisfa cio`e a

t
+, H = 0 , (13)
dove abbiano indicato con ., . la parentesi di Poisson, e con H lhamilto-
niana del sistema.
Dimostrazione. Nel caso in cui la misura di probabilit`a ammette densit`a
, la (12) si scrive come
_

t
A
(x, t) dx =
_
A
(x, 0) dx ,
oppure, operando il cambiamento di variabile x =
t
x
0
al membro di sinis-
tra, nel modo seguente (con x(t) =
t
x
0
)
_
A
(x(t), t) dx
0
=
_
A
(x, 0) dx ,
poiche per il Teorema di Liouville si ha dx = dx
0
. Allora, prendendo la
derivata rispetto al tempo otteniamo
_
A
_

t
+, H
_
dx
0
= 0 ,
e poiche linsieme A e arbitrario segue la tesi. Q.E.D.
Come utile corollario ricaviamo che le distribuzioni stazionarie (cio`e con

t
= 0) sono costanti del moto, soddisfano cio`e la relazione , H = 0.
In particolare ogni funzione di H fornisce una distribuzione stazionaria di
probabilita. Le due distribuzioni pi u usate sono la cosidetta distribuzione
microcanonica e quella canonica. La distribuzione microcanonica si ot-
tiene assumendo che lenergia del sistema sia nota e pari ed E, mentre per il
resto tutte le congurazioni compatibili siano equiprobabili: la distribuzione
assume la forma = (H(x)E) dove con (x) abbiamo indicato la funzione
delta di Dirac. La distribuzione canonica `e invece denita dalla densita
19
=
exp(H(x))
Z()
, (14)
dove Z() e una costante di normalizzazione evidentemente data da
Z() =
_
M
exp(H(x)) dx ,
19
NOTA PER GLI AUTORI. Discussione di Renyi sulla probabilita condizionata.
128 Andrea Carati e Luigi Galgani
mentre e un parametro legato allenergia media, che viene interpretato
come
=
1
k
B
T
.
Osservazione (Il teorema di KrylovBogolubov). Si deve notare
che le misure costruite nella maniera sopra indicata non sono le pi` u generali
misure invarianti. Vi sono innite altre misure invarianti che non sono as-
solutamente continue rispetto alla misura di Lebesgue, cio`e non si possono
esprimere mediante una densita che sia integrabile (rispetto alla misura di
Lebesgue). Un esempio tipico di misura non assolutamente continua `e for-
nito dalla delta di Dirac. Lesistenza di innite misure invarianti appare
come corollario del teorema di Krylov e Bogolubov (1937) il quale stabilisce
lesistenza di almeno una misura invariante per dieomorsmi generici di
variet`a. Tale risultato `e illustrato nellappendice A. Lessenza del metodo
di Krilov e Bogolubov per la costruzione di tali misure invarianti consiste
nel prendere la media temporale di una qualunque misura di partenza, e nel
dimostrare che tale media temporale di misure converge in un senso oppor-
tuno. Quindi tale teorema costituisce in un certo senso un ampliamento del
teorema ergodico di Birkho.
6. Il teorema del ritorno di Poincare. Discuteremo qui una pro-
prieta generale della dinamica che discende solamente dallesistenza di una
distribuzione di probabilita invariante. Si tratta del Teorema del ritorno di
Poincare. Lenunciato e il seguente:
20
Teorema 4 (del ritorno di Poincare) Per ogni insieme A di misura pos-
itiva, lorbita di ogni punto di A con certezza ritorna innite volte nellin-
sieme A.
La locuzione con certezza nellenunciato del teorema, ha il signicato con-
sueto della teoria delle probabilit`a, cio`e signica che linsieme dei punti per
cui lorbita visita solo un numero nito di volte linsieme A ha misura nulla.
Altrimenti detto, scelto a caso un dato iniziale, con probabilita pari ad uno,
lorbita tornera innite volte nellinsieme A. Questo mostra che per una
generica funzione f, la funzione f(
t
x) non converge a niente, in quanto i
suoi valori continuano ad oscillare per sempre, tornando ad avere ogni volta
il valore che aveva allinizio. Da qui la necessita di considerare la media
temporale, se vogliamo avere quantita macroscopiche che ammettano limite
al crescere del tempo.
Inoltre, ci si convince che lenunciato del Teorema di Birkho sullesisten-
za della media temporale su tempi inniti e tuttaltro che banale.
20
H. Poincare, Les metodes nouvelles de la mecanique celeste, Blanchard (Paris, 1987),
tomo 3

paragrafo 297, pagine 155157; C. Caratheodory,



Uber den Wiederkehrsatz von
Poincare, Berl. Ber. 1919, 580-584.
Introduzione alla Teoria Ergodica 129
Diamo ora la dimostrazione del Teorema del ritorno per le mappe (ussi
discreti), che risulta pi u chiara. La dimostrazione richiede la conoscenza di
alcuni fatti relativi alla teoria della misura e non e quindi elementare; risulta
pero molto intuitiva e puo quindi essere seguita facilmente
Dimostrazione. Cominciamo a considerare il sottoinsieme N
1
dei punti
di A che non ritornano mai in A, e mostriamo che esso ha misura (prob-
abilita) nulla. Notiamo anzitutto che gli insiemi
n
N
1
evoluti di N
1
, con
n N, sono a due a due disgiunti. Infatti se esistesse x
n
N
1

m
N
1
allora
m
x
nm
N
1

N
1
,
21
cio`e
m
x sarebbe un punto di N
1
che ri-
torna, dopo n m iterazioni, di nuovo in N
1
cio`e in A (perche N
1
`e un
sottoinsieme di A), contro lipotesi che i punti di N
1
non ritornano. Poiche
conserva la misura vale (
n
N
1
) = (N
1
).
Mostriamo ora che (N
1
) = 0. Consideriamo lunione

n
N
1
degli
evoluti
n
N
1
dellinsieme N
1
. Poich`e tali insiemi sono a due a due disgiunti
la misura dellunione (che `e nita, minore di (/) = 1) sar`a eguale alla
somma delle misure dei singoli evoluti. Si ha quindi
1 (
+
_
n=0

n
N
1
) =
+

n=0
(
n
N
1
) =
+

n=0
(N
1
) ,
e quindi deve essere (N
1
) = 0. Se deniamo ora A
1
= A N
1
, cio`e il
complementare di N
1
in A, ovvero linsieme dei punti di A che ritornano
almeno una volta, allora abbiamo mostrato che si ha (A
1
) = (A).
Iteriamo ora il procedimento, denendo, per ogni intero k, linsieme N
k
dei punti di A
k1
che non ritornano in A
k1
, e linsieme A
k
def
= A
k1
N
k
dei punti che ritornano almeno k volte in A. Con un ragionamento analogo
al precedente si trova che (N
k
) = 0 e dunque (A
k
) = (A).
Allore linsieme A

= A

k
N
k
risulta essere linsieme dei punti che
ritornano un numero innito di volte in A, e poiche lunione (numerabile)
di insiemi di misura nulla ha misura nulla, segue che (A

) = (A), cio`e la
tesi. Q.E.D.
Il teorema del ritorno ha sempre creato molti dubbi sulla possibilit`a di in-
terpretare la termodinamica mediante una teoria microscopica (reversibile).
A questo proposito dobbiamo ricordare il paradosso di Zermelo, che ora
illustriamo.
Consideriamo un contenitore separato in due cavit`a che possono essere
messe in collegamento mediante un rubinetto. Supponiamo che inizialmente
in una cavit`a sia contenuto del gas, mentre laltra cavit`a sia vuota. Se ad
un certo punto si apre il rubinetto che collega le due cavit`a, il gas uisce
verso la cavit`a vuota no a quando si raggiunge nelle due cavit`a la medesima
pressione. Ora allo stato di partenza (il gas tutto in una cavit`a) corrisponde
21
Si usa la propriet` a che limmagine inversa dellintersezione coincide con lintersezione
delle immagini inverse.
130 Andrea Carati e Luigi Galgani
una certa regione dello spazio delle fasi, per cui, secondo il Teorema del
ritorno, con certezza il sistema ritorner`a (ed innite volte) in questa regione
dello spazio delle fasi. In altri termini il gas ritorner`a a ricomprimersi da solo
nella cavit`a di partenza, contro lintuizione, contro i risultati sperimentali e
contro il secondo principio della termodinamica.
La risposta che di solito si oppone, seguendo Boltzmann,
22
ha il suo
fondamento nel teorema
23
che ora andiamo ad enunciare (per le mappe).
Teorema 5 (Kac (1947)) Sia un dieomorsmo dello spazio delle fasi
/, con misura invariante , che sia ergodico. Fissato un insieme A /,
per ogni x A indichiamo con n(x) il tempo di primo ritorno in A per
lorbita con dato iniziale x, ovvero il pi` u piccolo intero per cui si ha
n
x A.
Allora si ha
_
A
n(x) d = 1 . (15)
La relazione (15) (dividendo ambedue i membri per (A)) si pu`o rileggere
dicendo che il tempo medio di primo ritorno in un insieme A `e inversamente
proporzionale alla misura dellinsieme stesso (pi` u linsieme `e piccolo, pi` u
i tempi si allungano). Nellesempio di Zermelo del gas, se si prendono le
cavit`a uguali risulta che la misura della regione in cui il gas `e tutto in una
cavit`a ha probabilit`a pari a 1/2
N
, dove N `e il numero di particelle che
compongono il gas.
24
Questo numero `e molto pi` u che astronomicamente
piccolo (dellordine di 10
10
23
), per cui in media bisogner`a aspettare un
tempo astronomicamente lungo perch`e si abbia il ritorno. Viceversa ssata
una scala di tempi (la durata della vita umana), la probabilit`a che il tempo
di primo ritorno sia minore di questo tempo, `e astronomicamente piccola.
Se si accetta il punto di vista che gli eventi di probabilit`a trascurabile non
accadono, il paradosso di Zermelo si dissolve.
Riporteremo la dimostrazione del teorema nellAppendice 1. Nellar-
ticolo citato in nota, Kac da una dimostrazione di natura essenzialmente
probabilistica, che risulta particolarmente intuitiva. Poich`e per`o non tutti i
lettori sono familiari con la teoria dei processi stocastici noi la riscriveremo
usando gli insiemi e la teoria della misura.
7. Levoluzione come operatore unitario sulle osservabilli. Nel
teorema ergodico di von Neumann, si cambia un po la prospettiva, perche
22
Si veda L. Boltzmann, La teoria cinetica dei gas, parte nale .....
23
M. Kac, On the notion of recurrence in discrete stochastic processes, Bull. Amer.
Math. Soc. 53, 10021010 (1947).
24
Infatti ogni molecola del gas ha probabilit`a 1/2 di essere in una delle due met` a del
contenitore. Se assumiamo che nel gas le probabilit` a delle molecole siano essenzialmente
indipendenti, allora la probabilit` a che ogni molecola sia nella stessa cavit` a `e semplicemente
il prodotto delle probabilit` a, da cui segue il valore dato nel testo.
Introduzione alla Teoria Ergodica 131
invece di concentrarsi sul usso
t
nello spazio delle fasi (che risulta in-
osservabile per ipotesi) ci si concentra sullevoluzione delle osservabili, cio`e
sul cambiamento dei valori delle variabili dinamiche dovuto allevoluzione
del sistema. Lapproccio non risulta dei pi` u elementari perch`e si fa un cer-
to uso di propriet`a degli spazi di Hilbert, che sono presupposte conosciute.
In realt`a, pero, la presentazione diviene del tutto intuitiva se si pensa ogni
formula come ambientata in uno spazio di Hilbert nito dimensionale (come
ad esempio il familiare spazio euclideo tridimensionale).
Gli spazi di Hilbert entrano in gioco perch`e ci si concentra sullinsieme
delle funzioni che siano a quadrato sommabile (o quadrato integrabile), tali
cio`e che
_
M
[f(x)[
2
d < + .
Le funzioni a quadrato integrabile sono signicative nel nostro caso, perch`e
per tali funzioni la media temporale

f(x
0
), come variabile stocastica, risulta
avere niti non solo la media, ma anche lo scarto.
25
Come `e noto, lo spazio vettoriale delle funzioni L
2
( d) diviene uno spazio
di Hilbert se si introduce il prodotto interno
f, g
def
=
_
M
f(x)g

(x) d ,
dove abbiamo indicato con g

(x) il complesso coniugato di g(x). Notiamo


che il prodotto interno, dal punto di vista probabilistico, `e strettamente
collegato alla correlazione delle funzioni f(x
0
), g(x
0
) viste come variabili
stocastiche (si veda pi` u avanti). Lambientazione in uno spazio di Hilbert
risulta quindi del tutto naturale in un ambito stocastico.
Nel seguito considereremo solo ussi discreti, cio`e orbite generate dalla
iterazioni di una mappa. Tutte le considerazioni che faremo valgono anche
per i ussi continui, anche se le dimostrazioni diventano tecnicamente pi` u
complicate.
Deniamo ora loperatore

|
n
di evoluzione delle funzioni, in modo nat-
urale, valutando come evolvono i loro valori lungo le traiettorie del sistema,
ponendo cio`e

|
n
f(x) = f
_

n
x
_
. (16)
25
Si osservi anzitutto che, poiche / ha misura totale nita, le funzioni a quadrato
integrabile, sono anche integrabili (a dierenza di quanto succede per esempio per le
funzioni su R.) Infatti usando la disuguaglianza di Schwartz si ha
_
M
[f(x)[ d
_
_
M

f(x)

2
d
_
1/2
_
_
M
d
_
1/2
[[f[[
Dunque esiste nita la media f) =
_
M
f(x) d. Anche lo scarto quadratico medio, dato
da
2
f
=
_
M
f
2
(x) d f)
2
sar` a dunque nito.
132 Andrea Carati e Luigi Galgani
`
E semplice vericare che gli operatori

|
n
godono della propriet`a gruppale,
cio`e che vale

|
n+m
=

|
n

|
m
, proprio in conseguenza dellanaloga propriet`a
gruppale per levoluzione
n
sullo spazio delle fasi. Questo in particolare
implica che

|
n
=

|
n
1
,
cio`e levoluzione (delle funzioni) al tempo n, si ottiene iterando n volte la
trasformazione

|
def
=

|
1
.
Le due propriet`a delloperatore

| che giocheranno un ruolo importante
nel seguito sono:
1. Loperatore

| `e lineare. Infatti se considero la funzione h(x) =
f(x) +g(x), allora vale

|h(x) = h(x) = f(x) +g(x) =

|f(x) +

|g(x) .
Quindi mentre levoluzione del sistema nello spazio delle fasi `e non
lineare, levoluzione nello spazio delle osservabili `e lineare. Loperatore

| inoltre `e invertibile, perche lo `e , cio`e si ha



|
1
f(x) = f(
1
x).
2. Loperatore

| `e unitario, cio`e conserva la norma delle funzioni, ovvero
`e lanalogo di una trasformazione ortogonale nello spazio euclideo tridi-
mensionale. Questo segue dal fatto che la misura `e invariante per .
Infatti vale
[[

|f[[
2
=
_
M
[

|f(x)[
2
d =
_
M
[f(x)[
2
d =
_
M
[f(y)[
2
d = [[f[[
2
,
dove si `e operato il cambiamento di variabile y = x nel secondo
integrale, e si `e usato il fatto che la misura `e invariante. Questo
semplice calcolo mostra che

| `e isometrico.
26
Essendo invertibile,
risulta poi che

| `e anche unitario.
Tutto questo dimostra il seguente
Teorema 6 (di Koopman (1930).) Nello spazio delle osservabili, levoluzione
`e data da un gruppo ad un parametro di operatori lineari unitari.
La parte pi` u suggestiva del lavoro di Koopman sta nel fatto che si crea
un parallelismo fortissimo con levoluzione quantistica come descritta dalle-
quazione di Schrodinger, che fornisce appunto un gruppo ad un parametro
di operatori lineari unitari in un opportuno spazio di Hilbert. Naturalmente
rimane diversa linterpretazione sica degli enti matematici.
26
Negli spazi nito dimensionale non esiste dierenza tra operatori isometrici e unitari.
Negli spazi innito dimensionale vi sono questione pi` u sottili di dominio e codominio per
cui risulta comodo introdurre due nozioni distinte.
Introduzione alla Teoria Ergodica 133
8. Il Teorema ergodico di von Neumann. Usando loperatore

|,
la media temporale di una funzione si scrive in maniera molto suggestiva.
Infatti si ha

f(x
0
) =
1
n
n1

k=0
f(
k
x
0
) =
1
n
n1

k=0

|
k
f(x
0
) =
_
1
n
n1

k=0

|
k
_
f(x
0
) . (17)
Quindi il problema dello studio della media temporale `e ricondotto allo stu-
dio delloperatore (1/n)


|
k
, cio`e alla media della serie geometrica dell-
operatore

|. A questo proposito si ha il seguente fondamentale
Teorema 7 (ergodico di von Neumann (1931)) Loperatore

o
n
def
=
1
n
n1

k=0

|
k
converge, per n , alloperatore

T di proiezione (ortogonale) sul sot-
tospazio delle funzioni f(x) invarianti per .
Osservazione. Notiamo che le convergenze di cui si parla sono sempre
convergenze nello spazio di Hilbert. Quindi con la frase f
n
(x) converge a
f(x) intendiamo dire che
_
M

f
n
(x) f(x)

2
d 0 ,
quando n . In particolare la successione f
n
(x), per x ssato, pu`o
divergere, non ammettere limite, od anche convergere ad un valore diverso da
f(x). Fu Kolmogorov il primo a costruire una successione f
n
(x) convergente
in norma L
2
ad f(x) senza che vi convergesse puntualmente per alcun valore
di x.
Osservazione. Il fatto che la media temporale di un operatore unitario
converga ad un proiettore (che non `e unitario), ha una portata pi` u vasta che
non lambito della teoria ergodica. Infatti esso ha dato origine alla teoria
della decoerenza quantistica, cio`e al problema se sia possibile in Meccanica
Quantistica evitare il ricorso al postulato di precipitazione degli stati, pur
di denire il processo di misura mediante medie temporali di operatori.
Dimostrazione. Si danno due casi semplici in cui il limite si riesce a
calcolare subito. Il primo caso si ha quando f(x) `e una funzione invariante
per

|, cio`e quando

|f(x) = f(x). In questo caso per ogni n si ha

o
n
f(x)
1
n
n

k=0

|
k
f(x) = f(x) ,
134 Andrea Carati e Luigi Galgani
per cui il limite `e f(x). Laltro caso `e quello in cui f pu`o essere scritta nella
forma
f(x) =
_
1I

|
_
g(x) ,
con una opportuna g. Questo caso si presenta spontaneamente quando si
osserva che vale lidentit`a
_
1
n
n

k=0

|
k
_
_
1I

|
_
=
1
n
_
1I

|
n+1
_
,
la quale si ottiene osservando che il prodotto a primo membro d`a una somma-
toria telescopica in cui tutti i termini si elidono tranne il primo `e lultimo.
Allora se esiste una g(x) tale che f(x) =
_
1I

|
_
g(x), usando lidentit`a
precedente trovo
1
n
n1

k=0

|
k
f(x) =
_
1
n
n1

k=0

|
k
_
_
1I

|
_
g(x) =
1
n
_
1I

|
n+1
_
g(x) ,
che tende a zero (in norma L
2
) poiche
[[
_
1I

|
n
_
g(x)[[
_
[[g[[ +[[

|
n
g[[
_
= 2[[g[[ ,
essendo

|
n
un operatore unitario, cio`e che conserva la norma.
Losservazione successiva
`
la seguente: il sottospazio H
1
delle funzioni
invarianti `e il complemento ortogonale del sottospazio H
2
di tutte le funzioni
f(x) che si possono scrivere come f(x) =
_
1I

|
_
g(x): in formule
H
2
= f(x) L
2
( d) : f(x) = (1I

|)g(x), g(x) L
2
( d) .
Infatti il complemento ortogonale H

2
del sottospazio H
2
`e formato dalle fun-
zioni h(x) per cui h, f = 0 per ogni f H
2
, ovvero, usando la denizione
di H
2
, quelle per cui h, (1I

|)g per tutte le funzioni g(x). Se ricordiamo
27
che, per un operatore unitario

|, loperatore aggiunto coincide con il suo in-
verso

|
1
, la condizione `e equivalente a richiedere che (1I

|
1
)h, g = 0
per tutte le g(x). Ma, poiche il prodotto scalare `e non degenere, la con-
dizione comporta (1I

|
1
)h(x) = 0, ovvero

|h(x) = h(x), cio`e h(x) `e
invariante.
27
Nel nostro caso questo si pu` o far vedere direttamente usando la denizione di

| e di
prodotto scalare:
h, (1I

|)g =
_
M
h(x)g

(x) d
_
M
h(x)g

(x) d
=
_
M
h(x)g

(x) d
_
M
h(
1
x)g

(x) d = (1I

|
1
)h, g) .
Introduzione alla Teoria Ergodica 135
Ora la dimostrazione si conclude notando che, come in tutti gli spazi
di Hilbert, una funzione f(x) si pu`o decomporre nella somma delle sue
proiezioni ortogonali su H
1
e su H
2
, cio`e vale
f(x) = h(x) +g(x) , h(x) H
1
, g(x) H
2
.
Ricordiamo che abbiamo mostrato che per le funzioni di H
1
il limite `e la
funzione stessa, mentre per le funzioni di H
2
il limite si annulla, per cui
otteniamo
lim
n+
1
n
n

k=0

|
k
f(x) = h(x) ,
cio`e f(x) viene mandata nella sua proiezione ortogonale sul sottospazio delle
funzioni invarianti, che `e la tesi. Q.E.D.
Osserviamo ora che, se ci mettiamo nel caso ergodico, nel caso cio`e di
un usso metricamente indecomponibile, come gi`a visto nel paragrafo 4 le
uniche funzioni invarianti sono le costanti. Possiamo dunque dire in questo
caso che

f(x
0
) =
1
n
n

k=0

|
k
f(x
0
)

f , (18)
dove

f `e una costante (nel senso di funzione costante sullo spazio delle fasi)
che, come mostreremo subito, coincide con la media in fase di f, cio`e

f = f.
In questo senso il teorema di von Neumann viene chiamato teorema ergodico,
perch`e stabilisce che la media temporale (su tempo innito) coincide con la
media in fase. Occorre per`o puntualizzare che la convergenza di cui parla il
Teorema di von Neumann `e una convergenza in norma L
2
Occupiamoci adesso di calcolare il valore della funzione costante

f. Poich`e,
come abbiamo gia notato (vedi equazione (10), vale
_
M
1
n
n1

k=0

|
k
f(x) d =
_
M
f(x) d ,
passando al limite si ottiene
_
M

f d =
_
M
f(x) d
def
= f ,
cio`e appunto

f = f (perch`e (/) = 1).
28
Torniamo ora al caso di media temporale

f(x
0
) fatta no ad un tempo
nito

t, e chiediamoci il signicato del Teorema di von Neumann dal punto
28
Notiamo che la convergenza dellintegrale (convergenza in norma L
1
) nel nostro caso
`e implicata dalla convergenza in media quadratica (quella che noi abbiamo dimostrato),
essendo la nostra misura nita.
136 Andrea Carati e Luigi Galgani
di vista probabilistico. Ora la relazione (10) ci dice che f `e la media della
variabile stocastica

f(x
0
), per cui
2
f
def
=
_
M


f(x
0
)f

2
d risulta essere lo
scarto quadratico medio di

f(x
0
). Allora il teorema di von Neumann aerma
che
2
f
si annulla per

t che tende allinnito, vale a dire che
2
f
sar`a piccolo
per tempi

t sucientemente lunghi. Si pu`o usare questa informazione per
stimare la probabilit`a che il valore di

f(x
0
) si discosti dalla media f (vedi
pi` u sotto il Teorema di Chebishev), ottenendo
p
_
[

f(x
0
) f[ > k
f
_
1/k
2
,
essendo k una costante positiva. Dunque ci si attende che

f(x
0
) possa
dierire dal suo valore medio f di quantit`a dellordine di
f
, cio`e i valori
di

f(x
0
) uttueranno con una distribuzione molto piccata attorno al valore
f. Peraltro questo `e quanto si osserva empiricamente.
Teorema 8 (di Chebishev) Sia z una variabile stocastica, m la sua media e
2
il suo scarto. Allora per ogni k > 0 vale
p
_
[z m[ > k
_

2
/k
2
.
Dimostrazione. Sia A linsieme per cui [z m[ k. Allora valgono le maggio-
razioni
k(A)
_
A
[z m[ d
_
_
A
[z m[
2
d
_
1/2
_
_
A
d
_
1/2
,
dove, nellultima maggiorazione si `e fatto uso della disuguaglianza di Schwartz.
Ora vale
_
A
[z m[
2
d
2
e
_
A
d = (A), per cui sostituendo nella relazione
precedente otteniamo la tesi. Q.E.D.
9. Lapproccio allequilibrio: proprieta di mixing dei ussi. Ci
proponiamo ora di caratterizzare i ussi per cui la distribuzione
0
dei dati
iniziali, evolvendo secondo la dinamica, tenda alla distribuzione di equilibrio
quando t tende allinnito. Facciamo delle osservazioni macroscopiche
iniziali che ci portano a ritenere che il nostro sistema si trovi nella regione
B dello spazio delle fasi /, come abbiamo discusso nellesempio in cui si
mescoli un bicchiere dacqua con un cucchiaio. Che probabilit`a
0
dobbiamo
assegnare inizialmente ad un evento E (cui corrisponede un sottoinsieme A
di /)? Poich`e sappiamo con certezza che il sistema si trova in una regione
B, possiamo dire che E si vericher`a soltanto se il dato iniziale si trova in
A

B, cio`e dobbiamo assegnare la probabilit`a condizionata

0
(A) =
(A

B)
(B)
=
_
A

B
(x) d
(B)
,
dove si `e indicato con
B
(x) la funzione caratteristica dellinsieme B. In
questo modo vediamo che la misura iniziale
0
risulta essere assolutamente
continua rispetto alla misura di equilibrio . Quanto vale allora
t
(A), evo-
luto di
0
? Usando la relazione (12) che determina levoluzione della misura
Introduzione alla Teoria Ergodica 137
si ottiene
t
(A) =
0
(
t
A) ovvero, in virt` u della relazione precedente

t
(A) =
(
t
A

B)
(B)
.
La richiesta che
t
(A) (A), porta dunque a richiedere che
(
t
A

B) (A)(B) . (19)
I ussi che godono di questa propriet`a sono quelli per cui si avr`a sicuramente
un approccio allequilibrio. Tali ussi sono detti mescolanti o mixing secondo
la seguente denizione
Denizione 3 (di usso mescolante) Un usso
t
`e detto mescolante (o
mixing) se per ogni coppia di insiemi misurabili A e B la relazione (19) `e
soddisfatta.
Il termine mescolante deriva dallanalogia con quando mescoliamo per
esempio dello zucchero nellacqua. Infatti la (19), ricordando che `e una
misura invariante, si pu`o anche scrivere nella forma pi` u comunemente uti-
lizzata, ovvero
(A

t
B) (A)(B) .
Questo mi dice allora che se inizialmente il nostro sistema si trova in una
regione B, man mano che il sistema evolve la regione evoluta di B invade in
modo sempre pi` u uniforme lintero spazio delle fasi, tanto che alla ne in ogni
insieme A troviamo un pezzo di B grande (in misura) proporzionalmente alla
misura di A, come accade quando abbiamo disciolto per bene lo zucchero
nellacqua.
La propriet`a di mixing `e pi` u forte della indecomponibilit`a metrica, nel
senso che se
t
`e mixing allora `e anche indecomponibile metricamente. In-
fatti supponiamo che A sia un insieme invariante per
t
, e consideriamo i
due insiemi A e
t
A: poich`e A `e invariante essi coincidono, daltra parte, per
la propriet`a di mixing deve essere (A

t
A) (A)
2
. Si ottiene dunque
la relazione
(A) = (A)
2
,
cio`e o vale (A) = 0, oppure vale (A) = 1, ma allora `e il complementare di
A che ha misura nulla.
Nel prossimo paragrafo mostreremo che esistono ussi che sono ergod-
ici ma non mixing, ad esempio la rotazione del cerchio di un angolo irro-
tazionale. Mostreremo anche che il gatto di Arnol `e invece un esempio di
trasformazione mixing.
Dal punto di vista in cui ci siamo messi la seguente propriet`a dei sistemi
mixing risulta molto intererssante:
138 Andrea Carati e Luigi Galgani
Teorema 9 (decadimento delle correlazioni) Se un usso
t
`e mixing,
allora per ogni coppia di funzioni a quadrato integrabile f(x), g(x) vale
_
M
f(x)g(
t
x) d
_
M
f(x) d
_
M
g(x) d per t . (20)
La relazione (20) si pu`o riscrivere succintamente come
f(0)g(t) f(0)g(0) 0 ,
dove con g(t) abbiamo indicato g
t
. Questa relazione `e anche equivalente
a
f(0)g(t) f(0)g(t) 0 ,
perch`e le medie in fase sono invarianti (in virt` u dellinvarianza della misura).
Nellambito della Statistica o della teoria delle probabilit`a, la quantit`a
C(a, b) = ab ab
e detta correlazione delle variabili stocastiche a e b, ed `e presa come indica-
tore di dipendenza tra le due variabili. In particolare le due variabili a e b
sono scorrelate se C(a, b) = 0. Duindi si pu`o riformulare il teorema dicendo
che, se il sistema `e mixing, allora le variabili macroscopiche si scorrelano
al crescere del tempo: conoscere il valore di una variabile macroscopica ha
poca inuenza sulla distribuzione di probabilit`a dei valori futuri di unaltra
variabile macroscopica.
Dimostrazione. La dimostrazione richiede di essere familiari su come
viene denito lintegrale di Lebesgue. In caso contrario dovrebbe almeno
dare un idea di come si debba procedere.
Cominciamo col considerare due funzioni semplici, cio`e due funzioni della
forma
f(x) =
n

k=1
f
k

A
k
(x) , g(x) =
m

j=1
g
j

B
j
(x) ,
dove al solito si `e indicato con
C
(x) la funzione caratteristica dellinsieme
C. Allora vale
_
M
f(x)g(
t
x) d =

j,k=1
f
k
g
j
_
M

A
k
(x)
B
j
(
t
x) d .
Utilizziamo ora due propriet`a delle funzioni caratteristiche, ossia che
A
(x)
B
(x) =

B
(x), e che vale
A
(
t
x) =

t
A
(x). Allora troviamo
_
M
f(x)g(
t
x) d =

j,k=1
f
k
g
j
_
M

A
k

t
B
j
(x) d =

j,k=1
f
k
g
j
(A
k

t
B
j
) ,
Introduzione alla Teoria Ergodica 139
ed utilizzando la (19) troviamo alla ne
_
M
f(x)g(
t
x) d

j,k=1
f
k
g
j
(A
k
)(B
j
) =
_
M
f(x) d
_
M
g(x) d ,
cio`e la propriet`a `e vera per le funzioni semplici. Poich`e le funzioni semplici
sono dense nellinsieme delle funzioni integrabili, prendendo opportune suc-
cessioni di funzioni semplici il teorema si dimostra anche per le generiche
funzioni integrabili. Q.E.D.
10. Un esempio di sistema mixing. Come abbiamo detto nel primo
capitolo le rotazioni del cerchio di un angolo irrazionale, sono ergodiche.
Questo si vericha abbastanza semplicemente considerando inizialmente le
funzioni esponenziali f
k
= exp(2ikx). Allora, poich`e vale

f
k
= lim
n
e
2ikx
n

j
e
2ikj
= lim
n
e
2ikx
n
1 e
2i(n+1)
1 e
2ij
= 0 ,
se k ,= 0, oppure

f
0
= 1 per k = 0, si verica che

f
k
= f
k
.
Per linearit`a si verica allora che per i polinomi trigonometrici la media
temporale coincide con la media in fase. Per densit`a si mostra allora che
questo vale per tutte le funzioni misurabili, cio`e la rotazione `e ergodica.
Infatti per ogni funzione misurabile f(x) esiste un polinomio trigonometrico
p
n
(x) tale che
_
[f(x) p
n
(x)[ dx
ed inoltre f = p
n
. Per quanto mostrato vale p
n
= p
n
(x) (e quindi anche f =
p
n
(x)), per cui
_
[

f(x) f[ dx =
_
[

f(x) p
n
(x)[ dx
1
n

k
_
[f(x) p
n
(x)[ dx
ed essendo arbitrario, abbiamo la tesi.
Dallergodicit`a si ottiene subito che lorbita `e uniformemente densa, cio`e
che la frazione di punti che cadono in un dato intervallo A `e proporzionale
(asintoticamente) alla misura (A) dellintervallo. Basta infatti consider-
are la media temporale della funzione caratteristica
A
(X) dellintervallo,
notando che la frazione
A
di punti che cadono in A `e proprio data da

A
=
1
N
N1

n=0

A
(x
n
) .
140 Andrea Carati e Luigi Galgani
P
Q
P
Q

Figura 3.1: Carattere nonmixing della rotazione irrazionale.


Ora passando al limite per N dallergodicit`a segue

A

_

A
(x) d = (A) ,
che era quello che si voleva dimostrare.
Questo sistema non `e per`o mixing. Intuitivamente lo si capisce perch`e
la rotazione manda un arco di cerchio ancora in un arco di cerchio della
medesima ampiezza (vedi gura 3.1), mentre se fosse mixing si dovrebbe
sparpagliare uniformemente lungo tutta la circonferenza. Pi` u formalmente
lo si ottiene calcolando le correlazioni della funzioni f
k
(x) con f
k
(x). Vale
infatti
f
k
(
n
x)f
k
(x) =
1
2
_
2
0
exp
_
2ik(x +n) 2ikx
_
dx = e
2ikn
,
che non converge a zero per n (il prodotto della media di f
k
con la
media di f
k
).
Viceversa, calcolando le correlazioni, si dimostra abbastanza semplice-
mente che il gatto di Arnold `e un sistema mixing. Ricordo che il gatto di
Arnold `e una trasformazione del toro denito da
x

=

Ax x [0, 1] [0, 1]
dove la matrice

A `e data da

A =
_
1 1
1 2
_
.
Introduzione alla Teoria Ergodica 141
Le funzioni
f
k
(x) =
1
2
exp(2ik x) ,
dove k = (k
x
, k
y
) Z
2
, sono una base per lo spazio delle funzioni L
2
sul toro,
a media nulla se k ,= 0. Le loro correlazioni tendono a zero: infatti usando
il fatto che la matrice A `e simmetrica e quindi che vale k
1


A
n
x =

A
n
k
1
x,
per le correlazioni otteniamo
f
k
1
(
n
x)f
k
2
(x) =
1
4
2
_
exp
_
2i(k
1


A
n
x +k
2
x)
_
dx =
=
1
4
2
_
exp
_
2i(

A
n
k
1
+k
2
) x
_
dx = 0 ,
a partire da un certo n in poi. Infatti per n , il vettore

A
n
k
1
tende
allinnito in modo esponenzialmente veloce lungo la direzione instabile di

A, percui denitivamente

A
n
k
1
+ k
2
,= 0 e dunque lintegrale risulta nullo.
Allora per linearit`a segue che si scorrelano anche i polinomi trigonometrici,
e per densit`a si trova che si scorrelano tutte le funzioni L
2
, cio`e il gatto di
Arnold `e mixing.
Infatti se f, g L
2
, per ogni > 0 vi sono due polinomi trigonometrici p
n
e q
n
tali che [[f p
n
[[
2
, [[g q
n
[[
2
. Notiamo anche che vale

|
k
fg

|
k
p
n
q
n

|
k
f

|
k
p
n
)g

|
k
p
n
(g q
n
)


[[p
n
f[[
2
[[g[[
2
+[[g q
n
[[
2
[[p
n
[[
2
,
dove nella seconda linea si `e fatto uso della disuguaglianza di Schwartz e delluni-
tariet`a delloperatore

|. Si ha allora la stima seguente

|
k
fg[ [

|
k
p
n
q
n

|
k
fg

|
k
p
n
q
n

|
k
p
n
q
n

+([[p
n
[[
2
+[[g[[
2
) ,
e passando al limite per k si ottiene
lim
k

|
k
fg

([[f[[
2
+[[g[[
2
) ,
poich`e i polinomi trigonometrici si scorrelano. Essendo arbitrario abbiamo la
tesi.
Nel prossimo paragrafo discuteremo il problema dellirreversibilit`a da un
punto di vista diverso da quello del mixing discusso sopra.
11. Lirreversibilit`a macroscopica tramite la reversibilit`a micro-
scopica. Lirreversibilit`a fenomenologica `e il cuore del secondo principio
della termodinamica. Considerando ad esempio il caso di due corpi a tem-
peratura diversa, lirreversibilit`a macroscopica si manifesta nel fatto che il
calore uisce dal corpo pi` u caldo a quello pi` u freddo. Vogliamo mostrare
come `e possibile descrivere questo fenomeno nellambito della teoria dei sis-
temi dinamici hamiltoniani, nonostante che essi siano microscopicamente re-
versibili, anzi addirittura proprio come conseguenza del fatto che essi siano
microscopicamente reversibili.
142 Andrea Carati e Luigi Galgani
Supponiamo quindi di avere due corpi, il corpo A
1
con hamiltoniana H
1
,
denita sullo spazio delle fasi /
1
(le cui coordinate denoteremo globalmente
con x
1
), ed il corpo A
2
, con hamiltoniana H
2
denita sullo spazio delle fasi
/
2
con coordinate x
2
. Il sistema composto A
1
+ A
2
sar`a allora descritto
nello spazio delle fasi /
def
= /
1
/
2
le cui coordinate denoteremo con
x = (x
1
, x
2
). Supponiamo inizialmente i due corpi isolati termicamente.
Questo implica che le energie dei due corpi sono indipendenti e costanti nel
tempo, per cui il sistema `e denito dallhamiltoniana
H(x) = H
1
(x
1
) +H
2
(x
2
) , x = (x
1
, x
2
)
Ora, se tra i corpi realizzo un contatto termico, ci`o signica che le energie
dei due corpi possono cambiare, e quindi vi deve essere una certa hamil-
toniana di interazione H
int
piccola
29
rispetto ad H
1
ed H
2
, in modo che
lhamiltoniana totale del sistema A
1
+A
2
diventa ora
H(x) = H
1
(x
1
) +H
2
(x
2
) +H
int
(x) , x = (x
1
, x
2
)
Il termine H
int
(x) fa s` che le due hamiltoniane H
1
ed H
2
non siano pi` u
costanti del moto, e che quindi le energie dei due sistemi A
1
e A
2
possano
variare, realizzando cos` lo scambio di calore tra i due sistemi.
In questo modo per`o, il secondo principio della termodinamica non pu`o
essere vericato strettamente se si ammette la reversibilit`a microscpica, che
deniremo in un momento. Infatti supponiamo che, in corrispondenza di
un certo dato iniziale x
def
= (x
1
, x
2
) / e del suo evoluto
t
x al tempo t,
lo scambio di energia (inteso come la variazione di energia del primo corpo)
E
def
= H
1
(
t
x)H
1
(x) sia positivo. Ma allora esiste il movimento inverso
in cui lo scambio di energia `e esattamente uguale in modulo ed opposto di
segno, sicche si conclude che per ogni dato iniziale che conduce in un ssato
tempo ad un certo scambio di energia, ne esiste un altro che conduce nel
medesimo tempo al medesimo scambio di energia, ma di segno opposto.
Ricordiamo che la propriet`a di reversibilit`a viene formulata in
termini della trasformazione di parit`a, T : / /, denita
come quella che inverte il segno di tutti i momenti:
30
se x = (q, p) , Tx
def
= (q, p) .
29
LHamiltoniana di interazione si suppone piccola perche normalmente linterazione
termica dei corpi avviene attraverso le loro superci a contatto, mediante linterazione a
breve range delle particelle che costituiscono i corpi. Questo signica che se i due corpi
sono formati ciascuno da N particelle, avr` o H
1
N e H
2
N, mentre H
int
N
2/3
, cio`e
il contributo di H
int
allenergia `e trascurabile per i corpi macroscopici.
30
La trasformazione T che cambia segno a tutti i momenti `e una trasformazione canon-
ica, avente come generatrice la funzione S = q Q (si devono poi scambiare i nomi di
q.p con Q, P). Evidentemente si ha T
1
= T, ovvero T
2
= 1, dove 1 denota la matrice
identit` a.
Introduzione alla Teoria Ergodica 143
Allora un sistema dinamico, con una corrispondente evoluzione
temporale (ousso)
t
, si dice reversibile se, per ogni dato
iniziale x e per ogni tempo t, si ha

t
T
t
x = Tx , ovvero
t
T
t
= T ,
ovvero: Prendo il punto nale (evoluto al tempo t del dato
iniziale x)
t
x e inverto le velocit` a; faccio poi evolvere ancora
per il tempo t, e devo ottenere un punto che coincide con quello
iniziale x a meno dellinversione delle velocit`a.
`
E ben noto, e si dimostra immediatamente, che nei sistemi hamil-
toniani la dinamica `e reversibile solo se le hamiltoniane sono pari
nei momenti, cio`e se vale
H(Tx) = H(x) .
Dunque la reversibilit`a microscopica sembrerebbe costituire un ostacolo
insormontabile se si vuol dedurre il secondo principio della termodinamica.
`
E questo il cosiddetto Paradosso di Loschmidt, formulato verso la ne del-
l800 (insieme con il paradosso della ricorrenza di Zermelo) come obiezione
contro i procedimenti di Boltzmann. A obiezioni di questo tipo Boltzmann
rispondeva con argomenti di tipo statistico. Riportiamo qui una argomen-
tazione di tipo statistico moderna, formulata secondo la linea dei cosiddetti
Teoremi di uttuazionedissipazione, che cominciarono ad essere usati
poco dopo il 1950, a seguito degli studi di Kubo ed altri, per il calcolo dei
coecienti di trasporto. La versione che qui riportiamo in relazione al calore
specico potrebbe essere una variante di altre reperibili in letteratura, ma
ai presenti autori non ne `e nota nessuna che faccia uso cos` esplicito della
propriet`a di reversibilit`a microscopica.
31
La soluzione al paradosso di Loschmidt mediante metodi statistici, si
ottiene dunque quando si rinuncia allidea di valutare lo scambio di energia
relativo a ogni singolo dato iniziale, e ci si mette invece al livello in cui si
intende per energia scambiata il valore medio degli scambi relativi ai singoli
dati iniziali. Dunque il secondo principio risulta valido, ma solo in senso pi` u
debole, cio`e in senso statistico. Si deve allora stabilire quale sia la corretta
misura con cui pesare i dati inziali (o meglio gli insiemi di dati iniziali, perche
nel continuo ogni dato iniziale ha misura nulla).
32
`
E ben naturale scegliere
31
Si potrebbe dire che si ha qui in qualche modo un antiparadosso di Loschmidt,
perche questo argomento sembrerebbe suggerire la congettura che sia sddirittura impos-
sibile dedurre il secondo principio (irreversibillit` a macroscopica) se non si ammettesse la
reversibilit` a microscopica.
32
Resterebbe anche da stabilire se la misura dellinsieme dei dati iniziali che fa uire
il calore dal corpo pi` u freddo al corpo pi` u caldo sia del tutto trascurabile, come accade
nel caso del paradosso della ricorrenza di Zermelo, oppure no. Di questo problema non ci
occuperemo nel seguito.
144 Andrea Carati e Luigi Galgani
la misura richiedendo che, prima che i due corpi siano posti in contatto
termico, i dati iniziali siano distribuiti secondo Gibbs, a temperatura 1/
per il corpo A
1
ed a temperatura 1/( + ) per il corpo A
2
. Dunque,
denotando ancora x = (x
1
, x
2
) dove x
1
/
1
e x
2
/
2
, supponiamo che
la distribuzione di probabilit`a dei dati iniziali sia data da
p(x) dx =
exp
_
H
1
(x
1
) ( +)H
2
(x
2
)
_
Z
1
()Z
2
( +)
dx
1
dx
2
0 , (3.0.1)
dove Z
i
sono i noti fattori di normalizzazione (funzioni di partizione). De-
noteremo con

_
il valore medio rispetto alla distribuzione di probabilit`a
(3.0.1) nello spazio delle fasi totale. In particolare denoteremo con Q lo
scambio medio di energia (media della variazione di energia del primo corpo),
Q =

H
1
(
t
x) H
1
(x)
_
def
=
_
(H
1
(
t
x) H
1
(x))p(x) dx . (3.0.2)
Che questa quantit`a debba essere identicata con il calore scambiato sembra
naturale, dato che si tratta di una variazione di energia senza che venga
compiuto del lavoro. Si dimostra allora la seguente
Proposizione. Si considerino due sistemi inizialmente a temperatura in-
versa e + d rispettivamente, e si denisca il calore scambiato Q come
valore medio della variazione di energia del primo sistema, calcolato medi-
ante la misura ottenuta come prodotto delle corrispondenti misure di Gibbs,
ovvero mediante la (3.0.2). Allora si trova che lo scambio di calore Q pu`o
anche essere espresso attraverso la formula
Q =
1
2

_
H
1
(
t
x) H
1
(x)
_
2_
eq
+O(
2
) , (3.0.3)
dove
eq
denota la media fatta con la distribuzione di Gibbs allequilibrio,
cio`e con i due corpi alla medesima temperatura (inversa) .
33
Questa formula mostra che lo scambio di calore Q ha un segno ben
denito. In particolare il segno `e tale che, se `e negativo, cio`e se il corpo
A
2
ha temperatura superiore a quella del corpo A
1
, allora lenergia di A
1
in
media cresce, in accordo con il secondo principio della termodinamica. Si
ha quindi una dimostrazione del secondo principio in una delle sue forme
33
La media rispetto alla distribuzione di Gibbs comporterebbe di introdurre come hamil-
toniana quella totale H = H
1
+ H
2
+ H
int
. In realt` a, in virt` u di quanto detto pi` u sopra
riguardo lhamiltoniana di interazione H
int
, la media rispetto ai dati iniziali pu o, senza
sensibili errori, essere calcolata usando la distribuzione canonica relativa allhamiltoni-
ana H
1
+ H
2
in luogo delllhamiltoniana totale. In altri termini, mentre lintroduzione
di H
int
`e essenziale per la dinamica in quanto permette lo scambio di calore per i corpi,
viceversa, per quanto riguarda le medie fatte rispetto ai dati iniziali, essa introduce solo
piccole correzioni che, volnedo, potrebbero comunque (in linea di principio) essere calco-
late perturbativamente.
`
E questo un tratto caratteristico di buona parte della meccanica
statistica.
Introduzione alla Teoria Ergodica 145
pi` u classiche (il calore passa spontanemante dai corpi caldi ai corpi freddi).
Veniamo dunque alla
Dimostrazione della Proposizione. La dimostrazione viene ottenuta in
due passi. Il primo consiste nel trovare per Q una nuova espressione sug-
gerita spontaneamente dalla propriet`a di reversibilt`a, sicche sar`a spontaneo
poi considerare lespressione che si ottiene come semisomma di quelle due.
Laspetto di tale formula suggerisce allora immediatamente di compiere uno
svilupppo al primo ordine in , e questo conduce subito alla formula nale,
che fa riferimento alla misura di Gibbs di equilibrio.
Primo passo. Avendo in mente la propriet`a di reversibilit`a, consideriamo
la trasformazione z
def
= T
t
x nello spazio delle fasi. Sappiamo che si tratta
di una trasformazione canonica, come composizione di due trasformazioni
canoniche, il usso
t
x, e la trasformazione di parit`a T che cambia il segno
di tutti i momenti. Anzi, consideriamo la la trasformazione inversa x z,
che si esprime come
x = T
t
z ,
proprio per il fatto che il moto `e reversibile. Naturalmente questo vale, come
gi`a ribadito sopra, se le hamiltoniane sono tutte pari nei momenti, per cui
si ha anche
H
1
(
t
x) = H
1
(z) , H
1
(x) = H
1
(
t
z) . (3.0.4)
Se eettuiamo il cambiamento di variabile x = x(z) nellintegrale che appare
nella (3.0.2), si ottiene

H
1
(
t
x) H
1
(x)
_
=
_
_
H
1
(
t
x(z)) H
1
(x(z))
_
p(x(z)) dz ,
in quanto la trasformazione x = x(z), essendo canonica, ha Jacobiano uni-
tario. Usando linvarianza di H
1
per inversione dei momenti, espressa nella
forma (3.0.4), si ottiene allora

H
1
(
t
x) H
1
(x)
_
=
_
_
H
1
(z) H
1
(
t
z)
_
p(x(z)) dz .
Riscriviamo ora in una forma appropriata la densit`a di probabilit`a (3.0.1),
facendo uso della conservazione dellenergia, nellapprossimazione in cui si
trascura lenergia di interazione H
iint
, ovvero
H
1
(x) +H
2
(x) = H
1
(z) +H
2
(z) . (3.0.5)
Usando la conservazione dellenergia una prima volta direttamente nella for-
ma (3.0.5), e una seconda volta nella forma H
2
(x) = H
2
(z)+(H
1
(z) H
1
(x))
(ovvero H
2
(x) = H
2
(z) E), si ottiene allora per la distribuzione p(x),
come si vede subito, lespressione
p(x) = p(z) exp
_

_
H
1
(z) H
1
(x)
_
_
.
146 Andrea Carati e Luigi Galgani
In denitiva per lo scambio medio di energia si ottiene

H
1
(
t
x) H
1
(x)
_
=
_
_
H
1
(z) H
1
(
t
z)
_
exp
_

_
H
1
(z) H
1
(
t
z)
_
_
p(z) dz ,
ovvero, denotando la variabile muta di integrazione z con la lettera x (e
operando un banale riaggiustamento)

H
1
(
t
x) H
1
(x)
_
=
_
_
H
1
(
t
x) H
1
(x)
_
exp
_

_
H
1
(
t
x) H
1
(x)
_
_
p(x) dx ,
(3.0.6)
Secondo passo. Abbiamo dunque due espressioni diverse, la (3.0.2) e la
(3.0.6), per la medesima quantit`a Q. Si pu`o allora prenderne la semisomma,
ottenendo per Q linteressante espressione
Q
def
=< H
1
(
t
x) H
1
(x) >=
1
2
_
_
H
1
(
t
1
x) H
1
(x)
_
_
1 exp
_

_
H
1
(
t
x) H
1
(x)
__
p(x) dx .
Questa fornisce, mediante uno svilupppo in serie di al primo ordine, la
relazione (3.0.3) della Proposizione, che fa intervenire la media rispetto alla
distribuzione di Gibbs di equilibrio, in cui `e sparito il fattore . Ovviamente
ci`o `e dovuto al fatto che, per determinare lespressione dello sviluppo al
primo ordine in , nel fattore p(x) ci si dovr`a arrestare allordine zero.
Fine della dimostrazione.
Osserviamo ora che in eetti abbiamo determinato una espressione di-
namica per il calore specico, che tra laltro risulta dipendere dal tempo.
Che risulti determinato il calore specico `e ovvio. Infatti, abbiamo inter-
pretato la quantit`a Q =

H
1
(
t
x) H
1
(x)
_
come calore scambiato (perche
variazione (media) di energia di un sottosistema senza produzione di lavoro)
ed `e allora chiaro che il corrispondente calore specico
34
C
V
debba essere
identicato con la quantit`a Q/T, ovvero (ricordando = 1/kT sicche
dT = kT
2
d)
C
V
(t) =
Q
T
=
1
kT
2
Q

.
Abbiamo dunque il
Corollario (Time dependent specic heat). Per il calore specico
si ha la espressione dinamica
C
V
(t) =
1
2 kT
2

_
H
1
(
t
x) H
1
(x)
_
2_
eq
. (3.0.7)
34
Il calore specico di un corpo `e denito come il rapporto tra la quantit` a di calore assor-
bito e lincremento di temperatura. Lindice V sta ad indicare che i parametri macroscopici
del corpo (il volume per esempio) sono tenuti costanti durante la trasformazione.
Introduzione alla Teoria Ergodica 147
Si nota poi che questo calore specico dipende dal tempo, e dovremmo
dunque parlare di calore specico misurato in una esperienza che
dura un tempo t. Si vedano ad esempio i lavori di Birge e Nagel dal titolo
Observation of time dependent specic heat.
35
Questo fatto dovrebbe essere ovvio per ogni persona familiare con
la termodinamica (quando si opera una trasformazione, ad esem-
pio variando il volume entro cui `e racchiuso un gas, per applicare
la termodinamica bisogna attendere che il corpo sia tornato al-
lequilibrio)
36
, ma in eetti si tratta di un fatto molto spesso
ignorato o comunque sottovalutato. Secondo i presenti autori,
tale fatto potrebbe avere un ruolo rilevante dal punto di vista dei
fondamenti. Su questo punto ritornerempo alla ne di questo
paragrafo.
Relazione con il valore di equilibrio C
eq
V
. Abbiamo dunque detto che
il calore specico deve dipendere dal tempo, perche la misurazione prende
un tempo caratteristico della misura, e questo dovrebbe in principio essere
determinato dalle propriet`a dinamiche del sistema totale, ovvero sistema os-
servato e apparato di misura. Per tempi molto inferiori il calore specico
misurato sar`a trascurabile, e infatti lespressione sopra data di C
V
(t) mostra
che essa tende a zero quando t 0. Pi` u delicato `e il problema dellapproc-
cio allequilibrio quando si compie la misurazione, come ora passiamo a
discutere.
Ricordiamo che in termodinamica, quando `e nota la funzione U(T) che
d`a lenergia interna in funzione della temperatura, il calore specico viene
denito come C
V
=
U
T
. Ci si attenderebbe dunque che per tempi superiori
al tempo caratteristco della misura (spesso si dice: per t +) il calore
specico C
V
(t) denito dalla formula statistica data sopra converga al valore
di equilibrio
U
T
. Qui si avrebbe un problema di principio alquanto delicato
concernente lenergia interna, ma ora non vi entriamo, e compiamo la scelta
che sembrerebbe ovvia assunta in ogni manaule, a partire dal classico
fondamentale testo di Gibbs, secondo la quale si compie lidenticazione
U(T)
def
=

H
1
_
eq
.
Fin dai tempi di Gibbs (1902) e del terzo lavoro di Einstein sui fondamen-
ti della meccanica statistica, la corrispondente formula del calore specico
canonico C
eq
V
allequilibrio alla temperatura T `e nota a tutti gli studenti,
ed `e data da
C
eq
V
def
=
U
T
=
1
kT
2

2
U
, (3.0.8)
35
N.O. Birge, Phys. Rev. B 34, 1631 (1986); N.O. Birge, S.R. Nagel, Phys. Rev. Lett
25, 2674 (1985). Si veda anche A. Carati, L. Galgani, Europhys. Lett. 74, 528 (2006).
36
Questo fatto `e particolarmente sottolineato da G. Wannier, Statisitcal Physics, Dover
(New York, 1966).
148 Andrea Carati e Luigi Galgani
dove
2
U
`e la varianza (scarto quadratico medio) dellenergia H
1
del primo
sottosistema:
37

2
U
=

(H
1
U)
2
=

H
2
1
_
eq
U
2
, dove U
def
=

H
1
_
eq
.
La relazione tra il calore specico dipendente dal tempo e quello di
equilibrio `e data in termini dellautocorrelazione temporale (normalizzata)
Cor
H
1
(t) denita da
Cor
H
1
(t) =

H
1
(
t
x)H
1
(x)
_
eq

H
1
_
2
eq
,

2
U
. (3.0.9)
Per comprendere il signicato di questa relazione, bisogna ricor-
dare che per ogni coppia di variabili aleatorie o casuali ( random
variables) f, g su uno spazio di probabilit`a, la corrispondente
correlazione Cor `e denita da
Cor(f, g) = < fg > < f > < g > ,
ovvero come la dierenza tra valor medio del prodotto, e prodot-
to dei valori medi. La dierenza da zero della correlazione `e
in qualche modo una misura della loro indipendenza, peche la
correlazione di due variabili indipendenti `e nulla. Qui le due
variabili sono lenergia H
1
al tempo t e quella al tempo iniziale;
quindi si parla di autocorrelazione temporale dellenergia del
primo sistema. Il fattore di normalizzazione `e stato aggiunto
in maniera che lautocorrelazione valga 1 al tempo iniziale. Si
intuisce immediatamente che in un moto sucientemente caoti-
co lautocorrelazione temporale di ogni variabile dinamica tende
a zero. Ed in eetti, i sistemi dinamici detti di tipo mixing
(ovvero, mescolanti) vengono deniti proprio come quelli che
hanno tale propriet`a (le correalzioni temporali di ogni coppia di
funzioni tende a zero per t +).
38
37
Infatti si ha
kT
2
C
eq
V
=

U =

__
H
1
exp(H
1
) dy
Z()
_
=
=
__
H
1
exp(H
1
) dy
Z()
_
2

_
H
2
1
exp(H
1
) dy
Z()
=
2
U
,
dove nella seconda eguaglianza si `e usata la relazione

Z() =
_
H
1
exp(H
1
) dy .
38
Dunque la sola propriet` a di ergodicit` a, discussa nel corso di Meccanica Analitica 2,
non basta per recuperare i valori canonici per tutte le quantit` a termodinamiche. Sono
necessarie propriet`a pi` u forti di tipo mixing.
Introduzione alla Teoria Ergodica 149
Si trova subito allora il seguente
Corollario (relazione tra time dependent specic heat e calore
specico di equilibrio). Si ha la relazione
C
V
(t) = C
eq
V
_
1 Cor
H
1
(t)
_
, (3.0.10)
Infatti, basta prendere la formula (3.0.7) per C
V
(t) e sviluppare
il quadrato. Poi si aggiunge e sottrae il prodotto
2 < H
1
(
t
x) >
eq
< H
1
(x >
eq
,
osservando che si ha
< H
1
(
t
x) >
eq
=< H
1
(x >
eq
,
in virt` u dellinvarianza temporale della misura di Lebesgue.
Questa formula mostra che il calore specico misurato (dipendente dal
tempo) tende a quello di equilibrio se il sistema `e abbastanza caotico da far
s` che lautocorrelazione temporale dellenergia del primo sottosistema si an-
nulli per tempi sucientemente lunghi. Il tempo dopo il quale la correlazione
`e praticamente nulla viene allora indenticato con il tempo di rilassamento,
o il tempo in cui caratteristico per il compiersi della misura. Naturalmente,
diventa allora un problema matematico della teoria dei sistemi dinamici
classici determinare se questo avvenga (e dopo quanto tempo) per un dato
sistema.
Il fenomeno o poradosso FPU. Fino agli anni 50 era da-
to per scontato che un approccio allequilibrio abbastanza rapido
si producesse per per i sistemi macroscopici, ovvero nel cosiddet-
to limite termodinamico, in cui divergono sia il numero N dei
gradi di libert`a sia lenergia E, con energia specica E/N nita,
ovvero temperarura nita. Ma questa convinzione venne messa
in dubbio dai risultati dellultimo lavoro di Fermi (il cosiddetto
lavoro FPU, di Fermi, Pasta ed Ulam, del 1954). Si trova che
per temperature abbastanza alte il tempo di rilassamento alle-
quilibrio `e quello che tutti si aspetterebbero. Sembra per`o che
per temperature abbastanza basse le cose non siano altrettanto
chiare, perche le medie temporali di grandezze signicative sem-
brano stabilizzarsi su valori ben diversi da quelli di equilibrio.
Il fenomeno o paradosso di Fermi consiste proprio in questa
scoperta, ed `e un problema aperto della ricerca moderna stabilire
se questo fenomeno persista al limite termodinamico.
39
39
Si veda la rassegna G. Benettin, A. Carati, L. Galgani, A. Giorgilli, The Fermi-Pasta-
Ulam problem and the metastability perspective, in in The Fermi-Pasta-Ulam Problem: A
Status Report, G. Gallavotti editor, Lecture Notes in Physics , Vol. 728, Springer Verlag
(Berlin, 2007), ed il lavoro numerico A. Carati, L. Galgani, A. Giorgilli, S. Paleari, FPU
phenomenon for generic initial data, Phys. Rev. E 76, 022104 (2007).
150 Andrea Carati e Luigi Galgani
Si potrebbe dire che gli studiosi si suddividano in due categorie:
quelli che sperano che si possa dimostrare che il fenomeno scom-
paia al limite termodinamico, e quelli (non molti) che sperano il
contrario. Se si provasse che il fenomeno persiste, questo com-
porterebbe che la meccanica classica presenta un comportamento
similquantistico, nel senso che il calore specico predetto sarebbe
qualitativamente in accordo con quello osservato, che tende a
zero al diminuire della temperatura. Si avrebbe una situazione
simile a quella dei vetri, in cui ci si viene a trovare in stati di
metastabilit`a che persistono fuori dallequilibrio su scale di tem-
po geologiche, con un eventuale approccio allequilibrio solo su
scale di tempo molto pi` u lunghe.
40 41
La tesi che il fenomeno FPU possa permanere al limite ter-
modinamica `e stata recentemente avvalorata dalla dimostrazione
che la teoria perturbativa, la quale assicura che i sistemi molto
ordinati continuano a restare tali anche sotto perturbazione, `e
applicabile anche nel limite termodinamico.
42
Abbiamo visto che se lautocorrelazione temporale dellenergia
del primo sottosistema non tende a zero, ma rilassa a un al-
tro valore, allora il calore specico misurato risulta diverso da
quello di equilibrio. Si ha allora il problema se esista un meto-
do generale per denire la termodinamica statistica facendo uso
delle medie temporali, senza fare riferimento alle medie in fase
alla Gibbs. Questo problema `e stato arontato nel lavoro A.
Carati, Thermodynamics and time averages, Physica A 348,
110 (2005).
40
Il problema dei tempi di misurazione dei calori specici ha una curiosa storia. Quan-
do Nernst nel 1911 cominci` o uno studio sistematico del calore specico dei solidi a bassa
temperatura (perche secondo la sua terza legge si aspettava che i calori specici dovessero
tendere a zero per basse temperature per ogni sistema), egli si imbatte nella dicolt` a sper-
imentale che, quando i valori osservati cominciavano a dimiuire rispetto a quelli classici,
il tempo richiesto per compiere la misurazione (il tempo perche i dati si stabilizzassero)
diventava cos` lungo da fargli temere che il calore specico non fosse neppure misurabile
(citiamo le sue parole a memoria). Poi, abbassando ancora la temperatura, avvenne il
fatto inatteso che invece i tempi richiesti per la misura diminuivano, e si poteva dunque
compiere la misura.
41
NOTA PER GLI AUTORI. Citare i risultati sperimentali sullacqua a bassa
temperatura, dal libro ....
42
A. Carati, An averaging theorem for Hamiltonian dynamical systems in the thermody-
namic limit, J. Stat. Phys. 128, 1057 (2007); A. Carati, A. Maiocchi, Exponentially long
stability times for a nonlinear lattice in the thermodynamical limit, Comm. Math. Phys.
(2011), in corso di stampa.
PARTE II: SISTEMI CON MOLTI GRADI DI LIBERTA
12. La Termodinamica come teoria delle grandi deviazioni. Fi-
nora si sono studiate le propriet`a statistiche del moto di un sistema hamil-
toniano, senza avere mai usato la propriet`a che i sistemi di interesse sono
macroscopici, cio`e con un grandissimo numero di gradi di libert`a. Quali
sono le implicazioni di questo fatto? Il primo che coerentemente si pose
questa domanda fu il Khinchin, nel suo bel libro Mathematical Foundations
of Statistical Mechanics (Dover, New York 1949), suggerendo che i teoremi
limite della statistica debbano avere un importanza fondamentale.
In eetti, pensando in termini puramente probabilistici, la situazione
della termodinamica `e paradossale. Infatti, consideriamo una data misura
sullo spazio delle fasi, ad esempio quella di Lebesgue, e sia E lenergia
media, N il numero dei gradi di libert`a del sistema di modo che
E = N ,
dove con si `e indicata lenergia specica. Inoltre abbiamo visto che il
calore specico C
V
`e lo scarto
2
E
dellenergia, e che il calore specico `e
ordinariamente una quantit`a estensiva, cio`e
C
V
= Nc
V

Se mi chiedo qual`e la probabilit` a che lenergia specica abbia un valore
diverso dalla media, applicando il teorema di Chebyshev otterr`o la stima
seguente
P([ [ > a) = P([E E[ > Na)

2
E
N
2
a
2
=
1
N
c
V
a
2
0 , (21)
per N grandi. In altre parole lenergia specica (cio`e sostanzialmente la
temperatura) `e ssata e non posso usarla come variabile indipendente.
Naturalmente sappiamo che lenergia di un sistema pu`o essere variata in
modo arbitrario, e dunque vi sono due alternative. Si possono considerare
misure diverse
U
al variare dellenergia media U. Questo `e la via usata
nellapproccio microcanonico, in cui si usa una misura concentrata sulla
superce H = U ad energia costante.
Questo modo non risulta per`o naturale allinterno della teoria della prob-
abilit`a, in cui si introduce invece la nozione di probabilit`a condizionata: data
una probabilit`a iniziale o a priori, laccadere con certezza di un evento A
(in questo caso che lenergia media sia U) determina la probabilit`a con-
dizionata
A
o a posteriori. In questo secondo schema interpretativo,
il problema `e dunque ricondotto a determinare la probabilit`a condizionata
una volta data la probabilit`a a priori. Il tratto caratteristico della termod-
inamica consiste nel fatto che gli eventi su cui si deve condizionare stanno
151
152 Andrea Carati e Luigi Galgani
nella coda della distribuzione, come mostra la (21), sono cio`e eventi rari.
La parte della teoria della probabilit`a che tratta di eventi che si discostano
dalla media di quantit`a molto maggiori dello scarto, viene detta teoria delle
grandi deviazioni (deviazioni grandi rispetto allo scarto). In questo senso la
Termodinamica `e una teoria delle grandi deiazioni.
Nei paragra seguenti studieremo alcuni teoremi limite della teoria delle
grandi deviazioni e li applicheremo al caso di sistemi termodinamici. La
conclusione sar`a che genericamente la misura a posteriori coincide con la
distribuzione di Gibbs, se quella a priori e la misura di Lebesgue sullo spazio
delle fasi.
13. Il teorema di CramerGartner. Il primo teorema di grandi devi-
azioni `e dovuto a Cramer nel 1938, generalizzato poi da Gartner nel 1977.
43
Di tale teorema noi daremo una versione adattata allambito che vogliamo
trattare. Il teorema fornisce una stima della probabilit`a che una variabile ca-
suale X appartenga ad un intervallo [a, b] in termini dellestremo superiore,
su tale intervallo, di una opportuna funzione. In tutto il seguito intenderemo
sempre che la variabile casuale X sia lenergia E del sistema in esame, e che
la probabilit`a di [a, b] non sia altro che la misura dello regione (dello spazio
delle fasi) per cui il valore dellenergia sia compreso tra a e b.
La dierenza fondamentale con le stime di tipo Chebishev, sta nel fatto
che le stime sono esatte in un opportuno limite (essenzialmente il limite
termodinamico), cio`e si ha asintoticamente
log ([a, b]) sup
x[a,b]
(x) .
La denizione della funzione in termini della misura `e un pochino invo-
luta dal punto di vista matematico, ma ha un chiaro signicato dal punto
di vista sico: coincide infatti con lentropia termodinamica, come vedremo
in seguito.
Per denire (x), si incomincia con il denire la funzione generatrice
dei momenti (o funzione di partizione con la terminologia della meccanica
statistica)
Z(z)
def
=
_
+
0
e
zx
d ,
cio`e la trasformata di Laplace della misura, e si considera il logaritmo (z)
di questa, cio`e si pone
(z)
def
= log
_
+
0
e
zx
d . (22)
43
Vedi: H. Cramer, Sur un nouveau theor`emelimite de la theorie des probabilite, in
Actualite Scientique et Industrielles, 736, Herman, Paris, 1938, pp. 523;
J. Gartner, On large deviations from the invariant measure, Th. Prob. Appl. 22 (1977),
pp. 2439.
Introduzione alla Teoria Ergodica 153
La funzione (x) risulta allora essere la trasformata di Legendre di questa,
si ha cio`e
(x) = inf
z0
_
zx +(z)
_
. (23)
In un certo senso, la formula di grande deviazione, mi dice che la trasfor-
mata di Legendre eettua linversione della (22), cio`e dalla conoscenza della
trasformata di Laplace riesco a risalire alla misura.
Nei problemi di grande deviazione viene spontaneo associare alla misura
, un altra distribuzione di probabilit`a
z
, denita da
d
z
=
e
xz
Z(z)
d ,
detta trasfomata di Cramer della misura . Se la variabile casuale X `e
lenergia di un sistema hamiltoniano, e `e la misura di Lebesgue sullo
spazio delle fasi di questo, la trasformata di Cramer coincide ovviamente con
la distribuzione di Gibbs. La funzione (z) `e uno strumento molto utile, in
quanto permette di calcolare i momenti della distribuzione
z
semplicemente
prendendone le derivate. In particolare `e facile vericare che

(z) = x
z
=
1
Z(z)
_
+
0
xe
xz
d

(z) =
2
z
=
1
Z(z)
_
+
0
(x x
z
)
2
e
xz
d ,
cioe la derivata prima di (z) (cambiata di segno) coincide con la media, la
derivata seconda lo scarto.
Lenunciato del teorema (adattato alle nostre esigenze) `e il seguente
Teorema 10 (di Grande Deviazione) Sia X una variabile casuale pos-
itiva, e sia la relativa distribuzione di probabilit`a. Deniamo le fun-
zioni (z) e (x) mediante la (22) e la (23) rispettivamente e assumi-
amo che siano sucientemente regolari. Siano le costanti z e soluzione
dellequazioni

( z) = b 2 ,
2
=

( z) .
Valgono allora le stime seguenti
(b) R
m
log ([a, b]) (b) , (24)
dove R
m
`e denito da
R
m
def
= 4 z + 1 . (25)
154 Andrea Carati e Luigi Galgani
Osservazione. Essendo (z) una funzione regolare, allora il minimo del-
lespressione zx+(z) viene raggiunta nel punto z tale che x = ( z). Vale
allora
(x) = x z +( z)
Osservazione. La funzione (x) `e monotona crescente, di modo che (b) =
sup (x) per x [a, b]. In eetti nel caso generale le (24) si dovrebbe scrivere
come
sup
x(a,b)
(x) +O() (a, b) , log [a, b] sup
x[a,b]
(x) .
Nellipotesi di regolarit`a naturalmente lestremo superiore su un aperto o
sulla sua chiusura coincidono, ma nel caso generale possono dierire. La
dimostrazione che (x) sia crescente lo si ottiene nel seguente modo: se
b > b

, allora
(b) = inf
z0
_
zb +(z)
_
= inf
z0
_
(zb/b

)b

+(z)
_
=
= inf
z

0
_
z

+(z

/b)
_
inf
z

0
_
z

+(z

)
_
= (b

)
dove si `e posto z

= zb/b

e si `e usato il fatto che (z) `e monotona


decrescente.
Osservazione. Se la variabile casuale `e lenergia e la misura quella di
Lebesgue nello spazio delle fasi, allora `e il logaritmo della funzione di
partizione, mentre, come tra poco proveremo, la funzione coincide con
lentropia termodinamica S.
44
Allora prendendo a = 0 si ottiene
log [0, b] = S ,
cio`e lentropia coincide con il logaritmo della probabilit`a secondo il celebre
postulato di Boltzmann. Per mostrare che coincide con S incominciamo
notando che nellinsieme canonico, detta U lenergia interna, p la pressione
e V il volume valgono le relazioni
45
U =

log Z , p =
1

V
log Z ,
44
Ammettiamo qui che le medie temporali si possano calcolare con le medie di Gibbs,
ammettiamo cio`e che la dinamica dl sistema sia sucientemente caotica. In realt` a
dovrebbe essere vero in generale. PROVA A DIMOSTRARLO!!
45
La prima non `e altro che la (22) scritta per lenergia. Per quanto riguarda la seconda,
ricordiamo che Come abbiamo pi` u volte detto nei primi paragra, la pressione non `e altro
che la media della forza esterna agente sul sistema, cio`e la media della funzione
V
H,
essendo H lamiltoniana del sistema. Tale media `e appunto fornito dalla seconda elle
espressioni seguenti.
Introduzione alla Teoria Ergodica 155
per cui si ottiene
d(log Z) = U d +p dV = d(U) +( dU +p dV ) .
Poich`e dU +p dV = Q coincide con il calore scambiato, dal secondo prin-
cipio della termodinamica Q = dS, dove S `e lentropia del sistema,
troviamo la relazione seguente
S = U + log Z , con U =

log Z .
Ma allora
S = inf
0
(U + log Z) ,
che coincide con la denizione (23) di (x).
Dimostrazione del Teorema. La maggiorazione nella (24) si ottiene semplice-
mente, operando in modo analogo a quanto fatto nel caso del teorema di Chebyshev.
Si ha infatti
e
bz
([a, b])
_
[a,b]
e
xz
d ([a, b])
1/2
_
_
[a,b]
e
2xz
d
_
1/2

([a, b])
1/2
_
_
+
0
e
2xz
d)
1/2
,
da cui si ottiene
log ([a, b]) 2bz +(2z) .
Passando al inf su z si ottiene la seconda di (24).
Per ottenere la minorazione utilizziamo il teorema di Cheyshev sulla trasformata
di Cramer della misura in questo modo. Come abbiamo detto nel paragrafo
precedente siamo interessati a situazioni in cui lo scarto (cio`e il calore specico)
diverge (essendo una quantit`a estensiva). Se ssiamo prima z in modo che

( z) =
b 2, allora la media della distribuzione ottenuta mediante la trasformata di
Cramer vale proprio b 2. IL teorema di Chebyshev mi assicura allora che essa `e
sostanzialmente concentrata in un intervallo di ampiezza 2 attorno a tale valore.
In altri termini dal teorema di Chebyshev ottengo che

z
_
x : [x b + 2[ > 2
_
<
1
4
,
cio`e

z
[b 4, b] >
3
4
.
Si pu`o ora trovare una minorazione per la misura [a, b] dellintervallo [a, b] in
termini della trasformata di Cramer nel seguente modo. Si ha
[a, b] =
_
[a,b]
d = e
( z)
_
[a,b]
e
zx
d
z
e
( z)
_
[b4,b]
e
zx
d
z

exp
_
( z) + (b 4) z
_

z
[b 4, b]
exp
_
( z) + (b 4) z 1
_
.
156 Andrea Carati e Luigi Galgani
Osserviamo ora che per la denizione di z vale (dalla denizione di trasformata di
Legendre)
( z) + (b 2) z = (b 2) ,
per cui si ha inne la minorazione
[a, b] exp
_
(b 2) 2 z 1
_
,
che e essenzialmente la tesi del teorema. La tesi del teorema si ottiene inne
sviluppando al primo ordine la funzione (b 2) e stimando il resto. Vale infatti
(b 2) = (b) 2

(b

) ,
con un opportuno b 2 < b

< b. Poich`e (x) `e una funzione convessa (essendo


la trasformata di Legendre di una funzione convessa), ha derivata decrescente, vale
cio`e

(b

) <

(b 2) ;
inoltre la dualit`a di Legendre implica che

( z) = b 2 z =

(b 2) ,
per cui in denitiva si ha, sostituendo
[a, b] exp
_
(b) 4 z 1
_
,
cio`e la tesi. Q.E.D.
14. Applicazione: la distribuzione di MaxwellBoltzmann delle
velocit`a. Proponiamoci, come applicazione del teorema precedenta, di
trovare la distribuzione di velocit`a di una generica molecola di in un gas.
Abbiamo visto nei primi due paragra che lenergia cinetica media delle
molecole coincide essenzialmente con la temperatura, cioe si deve aver

K =
1
2
N

i=1
m
i
v
2
i
=
3
2
NkT .
Siamo allora in un regime di grande deviazione, in quanto si ha

m
i
v
2
i

= +dovuto al fatto che usando la distribuzione di Lebesgue v


i
= +.
46
Quindi, mentre a priori ci aspettiamo un valore innito dellenergia cinetica
media, a posteriori troviamo un valore nito. Questo condizionamento `e
cos
`
forte da cambiare totalmente la distribuzione della velocit`a di una parti-
cella, che invece di essere uniformemente distribuita su R
3
, diventa la celebre
distribuzione di MaxwellBoltzmann
P
_
v
2
< x[

K =
3
2
Nk
B
T
_

_
v
2
<x
1
(2)
3/2
exp
_

m
i
v
2
2k
B
T
_
dv
x
dv
y
dv
z
.
46
Naturalmente le velocit` a delle particelle sono distribuite in modo indipendente se
usiamo Lebesgue, per cui la media della somma risulta essere la somma delle medie.
Introduzione alla Teoria Ergodica 157
Per dimostrare cio`o si usa lindipendenza assieme alla stime (24) di grande
deviazione. Per lindipendenza si ha che la probabilit`a condizionata si pu`o
scrivere come
P
_
mv
2
< x[ 2

K K
N

i=1
m
i
v
2
i
2

K
_
=
_
v
2
<x
dv
x
dv
y
dv
z
P
_
2

K K mv
2

i=2
m
i
v
2
i


K mv
2
_
,
(26)
dove la sommatoria nellintegrale a secondo membro si estende alle N 1
particelle rimanenti. Per il Teorema 10 di grande deviazione si ha
P
_
U U mv
2

i=2
v
2
i
U mv
2
_
exp
_
(2

K mv
2
)
_
,
Ora il termine mv
2
`e una piccola perturbazione di 2

K, per cui espandendo
al primo ordine e denito =

(

K) la (26) diventa
P
_
v
2
< x[

K =
3
2
Nk
B
T
_
C
_
v
2
<x
dv
x
dv
y
dv
z
exp(mv
2
) .
dove C
def
= exp
_
(2

K)
_
`e il fattore di normalizzazione. Questa `e evidente-
mente la distribuzione di MaxwellBoltzmann purch`e valga = 1/2k
B
T.
Ci`o si verica semplicemente ricordando che, da una parte, per la dualit`a
di Legendre, vale

() =2

K = 3Nk
B
T, e dallaltra il calcolo esplicito
mostra che
(z) = log
_
R
3N
e
z

v
2
i
d = 3N log
_
R
e
zv
2
dv =
3N
2
log(z/) ,
da cui si ottiene

(z) =
3N
2z
.
Quanto esposto in questo e nel paragrafo precedente, `e sostanzialmente
quanto fatto per la prima volta da Khinchine nel suo gi`a citato libro, in
cui per la prima volta viene mostrato che la distribuzione dellenergia E
1
di
un sottosistema, molto pi` u piccolo del sistema totale, `e canonica. Lasciamo
questo esercizio, che non si discosta molto da quello fatto nel testo per la
sola energia cinetica, al lettore volenteroso.
15. Il lemma di Varadhan.
Un secondo teorema importante della teoria delle grandi deviazioni `e il
cosiddetto Lemma di Varadhan, che permette di dare stime asintotiche ad
integrali del tipo
158 Andrea Carati e Luigi Galgani
log
_
[a,b]
exp
_
F(x)
_
d sup
x[a,b]
_
F(x) + (x)
_
, (27)
in termine del sup della funzione F(x) + (x) sullintervallo [a, b]. Vale
infatti
Teorema 11 (Lemma di Varadhan) Sia X una variabile positiva, la
relativa misura di probabilit`a, e (z) e (x) siano date rispettivamente dalla
(22) e dalla (23) del paragrafo 13. Se (x) `e regolare ed F(x) continua
allora vale
sup
x[a,b]
_
F(x) + (x)
_
R
m

log
_
[a,b]
exp
_
F(x)
_
d sup
x[a,b]
_
F(x) + (x)
_
+R
M
,
(28)
dove R
m
`e dato dalla (25) del teorema 10, mentre R
M
`e denito da
R
M
def
= 1 + log(M m+ 2)
dove
M = sup
x[a,b]
F(x) , m = sup
x[a,b]
_
F(x) + (x)
_
. (29)
Osservazione. Se F ed sono proporzionali al numero di gradi di libert`a
del sistema, come capita usualmente in meccanica statistica o nei comuni
problemi di teoria delle probabilit`a, i termini R
M
ed R
m
nelle stime (28)
sono trascurabili. In questo modo si ottiene che il valore dellintegrale `e dato
dalla (27).
Dalla formula (27) si ottiene direttamente che il calcolo dellintegrale si
pu`o fare genericamente tramite la trasformata di Cramer della misura , cio`e
tramite la distribuzione canonica, se `e la misura di Lebesgue nello spazio
delle fasi. Infatti lestremo superiore di F(x) + (x) sullintervallo [a, b]
verr`a (genericamente) raggiunto sui bordi dellintervallo: si tratta dunque
di trovare un estremo vincolato allinsieme x = a oppure x = b. Se si
utilizza il metodo dei moltiplicatori di Lagrange, si tratta dunque di trovare
lestremo libero di F(x) +(x) x, dove deve essere scelto in modo che
il massimo cada in x = a oppure x = b. Si puo anche scrivere dunque
log
_
[
a, b] exp
_
F(x)
_
d sup
x0
_
F(x) + (x) x
_
,
Introduzione alla Teoria Ergodica 159
pur di prendere per un valore opportuno. Ora losservazione fondamentale
`e la seguente: la funzione

(x)
def
= (x) x ,
`e la trasformata di Legendre della funzione

(z)
def
= (z +) ,
che non `e altro che il logaritmo della funzione caratteristica della misura
47
d = e
x
d .
Si ha dunque il seguente corollario
Corollario 1 Se la funzione F(x) + (x) non ha punti critici allinterno
dellintervallo [a, b], allora vale
log
_
[a,b]
exp
_
F(x)
_
d log
_
+
0
exp
_
F(x)
_
e
x
d , (30)
con un opportuno .
Osservazione. Come detto ripetutamente il simbolo di asintotico si
deve intendere nel limite in cui si possano trascurare i termini R
m
ed R
M
nella formula (28).
Sulla base di questo Corollario, nel paragrafo seguente mostreremo come
il calcolo delle medie condizionate si riduca allusuale calcolo delle medie con
la distribuzione di Gibbs. Diamo ora di seguito la dimostrazione del Lemma
di Varadhan.
Dimostrazione del Lemma di Varadhan. Cominciamo col mostrare la mino-
razione, mostriamo cio`e che vale
log
_
[a,b]
e
F(x)
d sup
x[a,b]
_
F(x) + (x)
_
R
m
.
Considero linsieme (aperto) O
x,
denito da
O
x,
def
=
_
y [a, b] : F(y) > F(x)
_
;
ora O
x,
`e un aperto non vuoto (perch`e x O
x,
) e si ha dunque
_
[a,b]
e
F(y)
d
_
O
x,
e
F(y)
d > e
F(x)
(O
x,
) ,
47
Vale infatti ovviamente:
log
_
R
e
zx
d = log
_
+
0
e
(z+)x
d = (z +) .
160 Andrea Carati e Luigi Galgani
per cui passando ai logaritmi si trova
log
_
[a,b]
e
F(x)
d > F(x) + sup
yO
x,
(y) R
m
.
dove ho minorato la misura di O
x,
usando la stima (24) data dal teorema di grande
deviazione. Poiche vale sicuramente sup (y) (x) trovo alla ne
log
_
[a,b]
e
F(x)
d > F(x) + (x) R
m
,
e passando al sup su x, prendendo poi il limite 0 ritrovo la prima di (28).
Per trovare la maggiorazione bisogna invece operare nel seguente modo. Dividi-
amo lintervallo [a, b] in due parti ne modo seguente: deniti M ed mcome nella (29)
dellenunciato del Lemma, sia I
def
= [a.b]

F
1
_
[m, M]
_
ed I
c
il suo complementare
(in [a, b] ovviamente). Si ottiene allora la prima facile maggiorazione
_
I
C
e
F(x)
d e
m
(I
c
) exp
_
sup
x[a,b]
_
F(x) + (x)
_
_
,
dove lultima maggiorazione segue dalla denizione di m e dal fatto che (I
c
)
1. La maggiorazione dellintegrale sullaltro intervallo richiede un po di lavoro.
Cominciamo col dividere lintervallo [m, M] in un numero n, per ora arbitrario, di
sottointervalli I
j
def
= [m
j
, m
j+1
], j = 0, . . . , n 1, con
m
j
= m+
M m
n
j .
Allora si ha evidentemente
_
I
e
F(x)
d =
n1

j=0
_
I
j
e
F(x)
d
n1

j=0
e
m
j+1
(I
j
)
n1

j=0
exp
_
m
j+1
+sup
xI
j
(x)
_
, (31)
dove nellultima linea si `e usata la maggiorazione (24) del teorema di grande
deviazione. Ora si osserva che
m
j+1
= m
j
+
M m
n
= inf
xI
j
F(x) +
M m
n
,
per cui
m
j
+ sup
xI
j
(x) = inf
xI
j
F(x) + sup
xI
j
(x) +
M m
n

sup
xI
j
_
F(x) + (x)
_
+
M m
n
sup
x[a,b]
_
F(x) + (x)
_
+
M m
n
.
Usando questa maggiorazione nella sommatoria a secondo membro di (31) trovo
dunque
_
I
e
F(x)
d n exp
_
sup
x[a,b]
_
F(x) + (x)
_
+
M m
n
_
,
Introduzione alla Teoria Ergodica 161
che assieme alla maggiorazione dellintegrale sullintervallo I
c
gi`a trovata fornisce
log
_
x[a,b]
e
F(x)
d sup
x[a,b]
_
F(x) + (x)
_
+ log(n + 1) +
M m
n
.
Prendendo ora il valore di n che rende minimo il membro di destra troviamo la
maggiorazione fornita dalla (28). Q.E.D.
16. Probabilit`a condizionata e distibuzione canonica. Siamo ora
giunti al punto in cui `e possibile risolvere il problema del calcolo della prob-
abilit`a condizionata. Nellesempio pecico della termodinamica sappiamo
solo che lenergia del sistema vale U U, dove U `e lincertezza con cui si
conosce lenergia. Naturalmente si suppone che lerrore relativo U/U sia
trascurabile. In alcuni testi di Meccanica Statistica si suppone addirittura
che lerrore relativo sia dellordine di 1/

N, dove N `e il numero dei gra-


di di libert`a del sistema, cio`e sia essenzialmente nullo. Dal punto di vista
sico ci`o `e inaccettabile, perch`e ogni misura ha una precisione nita. Si
pu`o quindi ritenere che i dati iniziali per il sistema siano distribuiti in modo
uniforme (con la misura di Lebesgue cio`e) nellinsieme corrispondente alle
energie appartenenti ad [U U, U +U]
def
= . Allora la media condizionata
di una generica variabile aleatoria F(x) si calcoler`a nel modo seguente
F
U
=
_

F(x) d
_

F(x) d
=

log
_

exp
_
F(x)
_
d

=0
.
Ora utilizzando il Corollario 1 al Lemma di Varadhan, si pu`o anche scrivere
F
U
=

log
_
+
0
exp
_
F(x)
_
e
H
d

=0
=
_
+
0
F(x)e
H
d
Z()
,
cio`e la media condizionata coincide con la media canonica, pur di prendere
un valore di opportuno. Nel paragrafo precedente si `e visto che deve
essere scelto in modo che i punti critici della funzione F(x) + (x) x
cadano sul bordo . Devo dunque scegliere in modo che le soluzioni di
F + (

)x = 0
cadano sul bordo di ; ma tali soluzioni, nel limite 0 diventano soluzione
di

(x) = 0 con x = U U. Se si trascura lerrore, trovo che vale


=

(U) .
Questo risultato si riformula nel modo standard, ricordando che, per la
dualit`a di Legendre, questa relazione `e equivalente a

() = U .
Come detto precedentemente

(z) coincide con la media canonica dellen-


ergia, cio`e deve essere scelto in modo che la media canonica dellenergia
sia U. Questa `e la prescrizione usuale della Meccanica Statistica a patire da
Boltzmann.
162 Andrea Carati e Luigi Galgani
Appendici
A.1 Il teorema di KrylovBogoliubov
Nella nostra esposizione siamo partiti dai sistemi Hamiltoniani, in cui si
conosce almeno una misura invariante (quella di Lebesgue), ed in cui si ri-
esce a caratterizzare completamente le misure invarianti assolutamente con-
tinue rispetto a quella di Lebesgue. Krylov e Bogoliubov sono stati i primi
che negli anni trenta del secolo scorso hanno cercato di estendere i metodi
della teoria ergodica anche ai sistemi dissipativi non hamiltoniani. Il primo
problema da superare e che in tal caso non esiste una misura invariante nat-
urale (come quella di Lebesgue per il caso Hamiltoniano). Il primo sforzo
dei due autori fu dunque indirizzato a determinare una misura invariante
per questi sistemi, enunciando e provando il seguente
48
Teorema 12 (KrylovBogoliubov) Se e un dieomorsmo di una va-
rieta compatta /, allora esiste sempre una misura invariante per .
Lidea, semplice e geniale allo stesso tempo, consiste nel cercare di deter-
minarla a partire da un altra (ad esempio quella di Lebesgue), facendone
la media temporale, cioe nel denire inizialmente
n
mediante la

n
(A) =
1
n
n

k=0
(
k
A) .
e di studiarne poi il limite. Se la misura limite per n esistesse, al-
lora tale misura sarebbe ovviamente invariante. Quello che gli autori
mostrarono fu che esiste almeno una sottosuccesione convergente (in un sen-
so opportuno) ad una misura invariante. Noi non daremo la dimostrazione
seguendo questa linea, perche pur permettendo di approfondire in modo
notevole la struttura delle misure invarianti, richiede delle nozioni abbas-
tanza approfondite di teoria della misura e di analisi funzionale. La di-
mostrazione che daremo si basa sulla caratterizzazione delle misure, data
48
Gli autori citati (vedere N. Krylov, N. Bogolioubo Annals of Math., 38, 65113
(1937)) in eetti dimostrarono il teorema in ipotesi pi u forti, cioe per i semigruppi ad un
parametro di omomorsmi di uno spazio topologico compatto separabile, e non solo per i
gruppi discreti di dieomosmi di una variet a dierenziabile.
163
164 Andrea Carati e Luigi Galgani
dal teorema di RieszRadon, come funzionali lineari limitati sullo spazio
delle funzioni continue a supporto compatto (con la norma dellestremo su-
periore). Per spiegare il signicato di questa frase, cominciamo a considerare
/ un insieme compatto, e lo spazio vettoriale C(/) delle funzioni continue
(a valori reali) su /. Deniamo la norma mediante
[[f[[ = sup
xM
[f(x)[ ,
allora C(/) risulta essere uno spazio di Banach. Notiamo che per ogni
misura , posso denire uno funzionale lineare

limitato in tale spazio


ponendo

[f
def
=
_
M
f(x) d .
La linearita risulta evidente, e la limitatezza segue da
[

[f[
_
M
[f(x)[ d (/)[[f[[ .
Il teorema di RieszRadon aerma che vale anche linverso, cioe che un
funzionale limitato su C(/), mi determina univocamente una misura (nita
e borelliana) su M.
Se la misura e invariante per , allora il funzionale

e invariante,
nel senso che

[f =

[f ;
viceversa un funzionale invariante per , determinera una misura parimenti
invariante.
Dimostrazione. Il candidato pi u naturale per tale funzionale, consiste
nella media temporale di f(x) lungo un orbita
n
x
0
(essendo x
0
un punto
ssato una volte per tutte), cioe denire mediante la
[f
def
= lim
n
1
n
n

j=0
f(
j
x
0
) .
Sicuramente tale funzionale e lineare, limitato
49
ed invariante: lunico prob-
lema e che non e detto che tale limite esista per ogni funzione continua f.
Mostreremo che esiste almeno una successione di interi m
n
con m
n
,
tale per cui, per ogni f(x) la media temporale esiste, cio`e si pu`o denire un
funzionale lineare limitato ed invariante mediante la
[f
def
= lim
n
1
m
n
m
n

j=0
f(
j
x
0
) .
49
La limitratezza segue dalle disuguaglianze

lim
n
1
n
n

j=0
f(
j
x
0
)

lim
n
1
n
n

j=0

f(
j
x
0
)

[[f[[ lim
n
1
n
n

j=0
1 = [[f[[ .
Introduzione alla Teoria Ergodica 165
Per determinare m
n
, cominciamo col notare che lo spazio C(/) e
separabile, cioe esiste un insieme numerabile f
n
(x)
nN
di funzioni tali che
le loro combinazioni lineari sono dense.
50
La strategia consiste nel denire
inizialmente il funzionale per le funzioni f
n
(x), estenderlo per linearita alle
combinazioni lineari di tali funzioni, e poi per continuita a tutto le funzioni
di C(/).
Cominciamo allora a considerare le medie temporali delle sole funzioni
f
k
(x), cio`e consideriamo le successioni s
(k)
n
denite da
s
(k)
n
def
=
1
n
n

j=0
f
k
(
j
x
0
) .
Mostriamo, tramite il procedimento diagonale, che esiste una sequenza di
interi m
n
tale per cui s
(k)
m
n
converge per ogni k.
Cominciamo col notare che s
(1)
n
`e una successione limitata (dalla norma
[[f
1
[[ di f
1
(x)), per cui se non converge, tuttavia ammette sicuramente un
punto limite, cio`e esiste una sottosuccessione s
(1)
n
1
convergente (ad un dato
valore). Consideriamo ora la successione s
(2)
n
1
: `e anchessa limitata (dalla
norma [[f
2
[[), percui esiste una sottosuccessione s
(2)
n
2
convergente. Notiamo
ora che la successioni di interi n
2
`e una sottosuccessione della successione
n
1
, percui anche s
(1)
n
2
converge al medesimo limite cui converge s
(1)
n
1
.
51
Procedento per induzione, per un k arbitrario, possiamo trovare successioni
di interi n
k
, sottosuccessioni di n
j
per ogni j < k, tale per cui s
(k)
n
k

converge, e parimenti s
(j)
n
k
converge per j < k.
Ora applichiamo il procedimento diagonale di Cantor alle successioni
n
k
viste come una tabella innita, cio`e con la kesima riga formata dal-
la successione n
k
. Considero la successione m
n
degli elementi sulla
diagonale della tabella, cio`e lelemento m
n
`e nesimo elemento della riga
nesima. Questa `e la successione di interi cercata, cio`e quella percui s
(k)
m
n

converge per ogni k, in quanto, per ogni k, la successione m


n
per n > k `e
sottosuccessione di ogni n
j
con j k.
Ora `e semplice mostrare, per continuit`a, che le successioni

m
n
def
=
1
m
n
m
n

j=0
f(
j
x
0
) ,
sono convergenti per una funzione f(x) qualunque. Infatti, per ogni > 0,
esiste una combinazione lineare (nita)

k
c
k
f
k
(x) che dista in norma da f
meno di , e questo quindi implica che
[
m
n

k
c
k
s
(k)
n
m
[ m
n
> 0 .
50
Costituiscono cioe lanalogo di un sistema ortonormale completo per uno spazio di
Hilbert.
51
Ogni sottosuccessione di una successione convergente, converge allo stesso limite.
166 Andrea Carati e Luigi Galgani
Allora si avr`a
[
m
n
1

m
n
2
[ 2 +

k
c
k
[s
(k)
m
n
1
s
(k)
m
n
2
[ ,
e passando al limite per n
1
, n
2
si trova
limsup
n
1
,n
2

[
m
n
1

m
n
2
[ 2 > 0 .
La successione
m
n
`e dunque di Cauchy, cio`e convergente. Q.E.D.
Dalla dimostrazione si puo intuire che la misura si concentra sugli attrat-
tori del sistema (punti ssi, cicli limite, od attrattori strani) se ve ne sono.
Nel caso non hamiltoniano risulta quindi che la misura non e assolutamente
continua rispetto a quella di Lebesgue.
Laltro fatto che emerge e la grande arbitrarieta che emerge nella costruzione
della misura invariante. Vi giocano sia la scelta del punto iniziale x
0
, sia
linsieme delle funzioni f
n
(x) di base scelte che il loro ordine. Dunque vi pos-
sono essere molte misure invarianti per un dato sistema dinamico. A questo
proposito, nei due esempi seguenti mostreremo le misure che si ottengono
in due semplici casi in cui il procedimento astratto di costruzione delineato
nella dimostrazione del teorema, pu`o essere esplicitamente compiuto.
Il primo caso `e la rotazione del cerchio di un angolo irrazionale che
abbiamo trattata nel Capitolo 1 e poi nel paragrafo 10 di questo capitolo.
In particolare, nel paragrafo 10, abbiamo mostrato che per ogni x sul cerchio,
la media temporale della funzione f
k
(x) = exp(2ikx) converge alla media in
fase con la misura di Lebesgue. Allora per ogni x
0
il funzionale (introdotto
nella dimostrazione) `e denito da
[f
k
=
_
2
0
f
k
(x) dx k ,
e dunque `e evidente che la misura che denisce, `e la misura di Lebesgue.
Un attimo di riessione, permette di convincersi che la misura di Lebesgue `e
lunica misura invariante per la rotazione irrazionale. Si tratta quindi di
un esempio di sistema dinamico unicamente ergodico secondo la denizione
seguente
Denizione 4 Un sistema dinamico si dice unicamente ergodico, se esiste
un unica misura invariante per il sistema.
Osservazione. Notiamo che se la misura invariante `e unica, allora questa
`e necessariamente ergodica. Infatti la media temporale di una qualunque
funzione determina, usando il teorema di Birkho, una funzione invariante.
Se questultima non fosse una funzione costante q.o. (come accade se il
sistema `e ergodico), usandola come densit`a si potrebbe costruire una misura
invariante diversa da quelle di partenza.
Introduzione alla Teoria Ergodica 167
Potrebbe sembrare che per sistemi molto caotici, debba esistere un unica
misura ergodica. Viceversa sullesempio del gatto di Arnold mostreremo che
esistono innite misure ergodiche. A questo premettiamo il teorema
Teorema 13 Se un sistema dinamico ammette due distinte misure di prob-
abilit`a
1
e
2
ergodiche, allora le due misure sono singolari una rispetto
allaltra. Esiste cio`e un insieme A
1
tale che
1
(A
1
) = 0 ma
2
(A
1
) > 0, e
viceversa, esiste un insieme A
2
tale che
1
(A
2
) > 0 ma
1
(A
2
) = 0.
Dimostrazione. La dimostrazione si fa per assurdo. Se infatti supponiamo
che
2
sia assolutamente continua rispetto a
1
, cio`e che valga

2
(A) =
_
A
f
2
(x) d
1
.
Allora la densit`a f
2
(x) deve essere una funzione invariante per il usso.
Essendo il usso ergodico, risulta allora che la densit`a f
2
`e costante, e
la condizione di normalizzazione delle misure fornisce l assurdo
1
=
2
.
Q.E.D.
Consideriamo ora il gatto di Arnold, denito dalla mappa sul toro bidi-
mensionale
x

=

Ax x [0, 1] [0, 1]
dove la matrice

A `e data da

A =
_
1 1
1 2
_
.
Sappiamo che questo sistema dinamico ammette una variet`a stabile W
+
ed
una variet`a instabile W

dense sul toro. Cominciamo con il considerare


un punto x
0
W
+
sulla variet`a stabile. Allora lorbita corrispondente
j
x
0
converger`a sullorigine per j . Consideriamo adesso le funzioni
f
k
(x) = exp(2ik x) k Z
2
;
essendo funzioni continue allora f
k
(
j
x
0
) f
k
(0) per ogni k. Ora vale la
propriet`a che la media temporale di una quantit`a convergente ad un certo
valore, converge al medesimo valore, cio`e vale
lim
n
1
n
n

j=0
f
k
(
j
x
0
) = f
k
(0) k Z
2
.
Allora il funzionale , `e denito come
[f
k
= f
k
(0) k ,
168 Andrea Carati e Luigi Galgani
cio`e denisce la funzione di Dirac, cio`e una misura concentrata sullo-
rigine. Questa misura `e invariante ed ovviamente ergodica, ed, in accordo
con il teorema precedente, singolare rispetto alla misura di Lebesgue.
Se invece consideriamo il punto iniziale x
0
W

sulla variet`a instabile


otterr`o in generale la misura di Lebesgue. La dimostrazione `e la seguente.
Considerando sempre le funzioni f
k
(x), poich`e x
0
appartiene alla variet`a
instabile ottengo
f
k
(
j
x
0
) = exp(2i
j
+
k x
0
)
dove
+
= 3 +

5/2 `e lautovalore di

A maggiore di 1. Quindi per calcolare
la media temporale devo essere in grado di calcolare il limite dellespressione
S
n
() =
1
n
n

j=0
e
2i
j
+
,
dove si `e posto = k x
0
. Questo non `e aatto facile, mentre `e possibile
dare la minorazione seguente
_

[S
n
()[
2
d
1
n
_
1 +
2
+
(
+
1)
2
_
,
se

< 1. Allora la successione S


n
() converge a zero in norma
L
2
, cio`e converge quasi ovunque al valore nullo. Allora, tranne che per un
insieme di valori x
0
di misura nulla, la media temporale di f
k
`e nulla, e
quindi il funzione assume i valori
[f
k
= 0 =
_
[0,1][0,1]
exp(2ik x) dxdy ,
che mostra appunto come denisca proprio la misura di Lebesgue. Per
mostrare che vale la minorazione data pi` u sopra si osservi che
_

[S
n
()[
2
d =
1
n
2

j
1
,j
2
_

e
2i(
j
1
+

j
2
+
)
d

n
+
1
n
2

j
2
,j
1
>j
2
2

j
1
+

j
2
+
e che le somme a j
2
ssato sono maggiorabili da

j
1
>j
2
1

j
1
+

j
2
+
<

+

+
1

j
1
0
1

j
1
+
<

+
(
+
1)
2
.
Un altro tipo di misure invarianti (e discrete) si ottengono se si consid-
erano le orbite periodiche. Vi sono un numero innito di orbite periodiche
di periodo n arbitrario, che si ottengono risolvendo lequazione
A
n
x = x +b
Introduzione alla Teoria Ergodica 169
dove b `e un vettore a coecienti interi, di modo che x ed

A
n
x rappresentino
il medesimo punto sul toro. Poich`e gli autovettori di A
n
sono diversi da 1,
52
allora la soluzione `e data da
x = (A
n
1I)
1
b .
La misura invariante si ottiene dando un peso 1/n eguale ad ogni punto
dellorbita, o pi` u formalmente ponendo = 1/n

(x
j
x
0
), dove (x) `e
la funzione delta di Dirac.
Come si vede esistono innite misure invarianti. Per poter privilegia-
re una misura rispetto ad un altra occorre un criterio che sia esterno alla
presente teoria.
A.2 Dimostrazione del teorema di Kac.
Introduciamo gli insiemi A
k
dei punti dellinsieme A, che ritornano in A
esattamente dopo k iterazioni
A
k
= x A :
k
x A ,
j
x A
c
1 j < k ,
essendo A
c
il complementare di A, allora evidentemente vale
_
A
n(x) d =
+

k=0
k(A
k
) . (32)
Gli insiemi A
k
vengono ben caratterizzati introducendo gli insieme C
k
deni-
ti da
C
k
=
1
A
c
. . .
k
A
c
, C
0
def
== / .
Allora segue
A
k
= A C
k1

k
A ,
in quanto, se x A C
k

k
A, allora innanzitutto x A, e poi, per ogni
1 j < k esistono x
j
A
c
tali che x =
j
x
j
cio`e
j
x A
c
, mentre
x =
k
x
k
con x
k
A, cio`e
k
x A. Dunque lorbita x
j
di x, rimane in A
c
no alla k1esima iterazione e poi torna in A. Ci si convince facilmente che
come gli A
k
sono i punti che ritornano in A, C
k
rappresentano le orbite che
partendo fuori da A (nel suo complementare), rimangono nel complementare
per k 1 iterazioni.
Un semplice ragionamento probabilistico mostra che la misura di A
k
si
pu`o esprimere mediante la misura degli insiemi C
k
, vale cio`e
(A
k
) = (C
k+1
) 2(C
k
) +(C
k1
) . (33)
52
Gli autovettori di

A
n
, sono ovviamente
n
+
ed
n

, con

=3

5/2 gli autovalori


di

A.
170 Andrea Carati e Luigi Galgani
Il vantaggio di tale espressione consiste nel fatto che le somme parziali n
esime della serie che compare a secondo membro della (32) si calcolano
esplicitamente. Posponiamo la dimostrazione della (33), e calcoliamo le
somme parziali. Si ottiene
n

k=0
k (A
k
) =
n

k=0
k
_
(C
k+1
) 2(C
k
) +(C
k1
)
_
= 1 n
_
(C
n
) (C
n+1
)
_
(C
n
) ,
che si ottiene ricordando che (C
0
) = 1, e notando che se nel secondo mem-
bro si pone lindice k

= k + 1 nella prima sommatoria e k

= k 1 nella
terza i termini si annullano (esclusi quelli al bordo).
Per prima cosa notiamo che le somme parziali

n
k=0
k (A
k
) formano una
sequenza nondecrescente, dunque la successione n
_
(C
n
)(C
n+1
)
_
+(C
n
)
forma una successione non crescente che ammette quindi limite. Ora, gli in-
sieme C
k
formano una successione discendente (cio`e C
k
C
k1
) per cui
(C
n
) forma una successione positiva monotona decrescente, quindi conver-
gente. Allora anche n
_
(C
n
) (C
n+1
)
_
ammette limite, e questo limite
deve essere nullo. Se per assurdo non fosse nullo, la serie

(C
n
)(C
n+1
)
non convergerebbe (essendo asintotica ad una serie armonica), mentre le sue
somme parziali sono eguali ad 1 (C
n
) e dunque convergenti.
Si ottiene allora
+

k=0
k(A
k
) = 1 lim
n
(C
n
) ,
che immostra innanzitutto che il tempo medio di ritorno `e nito. Inoltre,
poich`e, come mostreremo pi` u sotto, se `e metricamente indecomponibile
vale (C
n
) 0, in denitiva otteniamo
+

k=0
k(A
k
) = 1 ,
cio`e la tesi.
Per mostrare dunque che (C
n
) 0, cominciamo col considere linsieme
C =
+

k=0

k
A
c
;
evidentemente vale (C
n
) C. Notiamo che si ha

n
C =
+

k=n

k
A
c
,
Introduzione alla Teoria Ergodica 171
per cui segue che
n1
C
n
C, cio`e
n
C `e una sequenza crescente di
insiemi, tutti della stessa misura (perch`e `e invariante per ). Se

C `e il
limite di tale sequenza di insiemi
53
allora evidentemente

C =

C ed inoltre
(C) = (

C). Ora per un usso metricamente indecomponibile, la misura
di un insieme invariante `e sempre nulla oppure piena, per cui ne deriva pure
che `e (C) = 0, oppure (C) = 1. Il caso (C) = 1 `e escluso perch`e essendo
C A
c
risulterebbe (A
c
) = 1, contro lipotesi che A sia di misura non
nulla. Resta dunque dimostrato che (C
n
) 0.
Per completare la dimostrazione del teorema non resta che dimostrare
la (33). A tal ne si pu`o operare nel modo seguente. Notiamo che vale
A C
k1
= A C
k1

_

k
A
k
A
c
_
= A
k

_
A C
k
_
,
in quanto nella seconda si pu`o far uso di
k
A
k
A
c
= / e nella terza
della propriet`a distributiva dellunione rispetto allintersezione. Allora per
le propriet`a della misura otteniamo
(A
k
) =
_
A C
k1
_

_
A C
k
_
, (34)
in quanto gli insiemi A
k
AC
k
sono disgiunti. Ora, valgono le due relazioni

_
A C
k1
_
= (C
k
) (C
k1
) ,
_
A C
k
_
= (C
k+1
) (C
k
) , (35)
che sostituite nella (34), forniscono appunto la (33).
Mostriamo ad esempio la seconda, la prima si dimostra in modo analogo.
Vale
C
k
= (A A
c
) C
k
= (A C
k
) (A
c
C
k
) ,
percui la misura di C
k
`e data da
(C
k
) = (A C
k
) +(A
c
C
k
.
A questo punto, notando che
1
(A
c
C
k
= C
k+1
, e che la misura `e invari-
ante, trovo
(C
k
) = (A C
k
) +(C
k+1
) ,
che `e la seconda di (34). Con questo la dimostrazione `e conclusa.
53
Se B
n
`e una successione crescente di insiemi, tali cio`e per cui B
n
B
n+1
, allora si
denisce linsieme limite come linsieme
B =
+
_
n=n
0
B
n
.
Notiamo che il valore dellindice inferiore da cui parte lunione innita non ha importanza,
perch`e i prime n
0
insiemi sono comunque contenuti nellinsieme B
n
0
. Nel nostro caso
questo si traduce appunto nellinvarianza di

C.
172 Andrea Carati e Luigi Galgani