Teorerg PDF

G.
Benettin
I. Introduzione alla teoria ergodica
(2001/2002)
1. Prologo: il problema ergodico in Boltzmann e Gibbs
1.1. Motivazioni
La teoria ergodica è un ramo della matematica, oggi molto sviluppato e a sua volta ben
ramicato, il cui inizio si fa comunemente risalire ai lavori di Von Neuman e Birkho,
verso la ne degli anni 20. Le motivazioni e alcune idee di fondo provengono tuttavia da
Boltzmann e Gibbs, fondatori assieme a Maxwell della meccanica statistica, che in diverso
modo introdussero la nozione fondamentale di insieme statistico (ensemble; una probabilit` a
in un opportuno spazio delle fasi) per descrivere lo stato macroscopico di un sistema a
molti gradi di libert` a. Come è noto, il problema sico da cui nasce la meccanica statistica
è quello di comprendere il comportamento macroscopico di un sistema termodinamico a
partire dalla sua struttura microscopica, usando come strumento essenziale il calcolo delle
probabilit` a. Linterpretazione stretta di questo programma
1)
consiste dunque nel tentativo
di dedurre in qualche modo la termodinamica dalla meccanica, o come spesso si dice, di
ridurre luna allaltra.
A prima vista limpresa pu` o apparire disperata, e anzi alcuni ben noti paradossi
sembrano indicare che i due mondi della meccanica e della termodinamica siano a priori
inconciliabili. Ricordiamo in particolare
il paradosso di Loschmidt, o della reversibilit` a: i processi meccanici microscopici sono
reversibili, ovvero per ogni processo meccanico esiste un processo inverso; i processi
termodinamici appaiono invece irreversibili. Da dove nasce lirreversibilit` a, e come è
possibile, in queste condizioni, la riduzione?
Il paradosso di Zermelo, o della ricorrenza: nei sistemi meccanici conservativi (quelli
che conservano il volume nello spazio delle fasi; in particolare i sistemi hamiltoniani),
con spazio delle fasi limitato, per tutti i dati iniziali a meno di un insieme di misura di
Lebesgue nulla, il sistema ritorna innite volte arbitrariamente vicino alle condizioni
iniziali (Poincare, teorema della ricorrenza; si veda il paragrafo 3.1). In che modo
scompare la ricorrenza a livello macroscopico?
1)
Fu soprattutto Boltzmann a sentire questo problema in modo acuto. Alcune idee di Boltzmann,
profondissime, furono a lungo incomprese, e forse solo oggi, dopo lampio sviluppo che ha avuto la
teoria dei sistemi dinamici, è possibile apprezzarle appieno.
1
Introd. ai sistemi dinamici a. a. 2001/2002
La questione è in eetti sottile, e in essa gioca un ruolo importante la distinzione, mascher-
ata nei paradossi sopra ricordati,
2)
tra stato meccanico o microscopico (un punto in un
opportuno spazio delle fasi) e stato termodinamico o macroscopico, tutto da denire, nel
quale deve in qualche modo entrare la probabilit` a. Sono problemi delicati, e non è facile
anche solo formularli in modo matematicamente chiaro; la teoria ergodica, almeno nel suo
nascere, si pu` o considerare come un tentativo in questo senso.
Vediamo allora rapidamente alcune idee di Boltzmann e Gibbs, che hanno lasciato
traccia profonda nelle nozioni di base della teoria ergodica.
3)
1.2. Il punto di vista di Boltzmann
Consideriamo un sistema termodinamico costituito da un numero N molto elevato di sot-
tosistemi identici, ciascuno a l gradi di libert` a; il sistema completo ha allora n = lN gradi
di libert` a. E tradizione indicare con lo spazio delle fasi 2ldimensionale del singolo
sottosistema, e con
=
N
, dim = 2n ,
lo spazio delle fasi dellintero sistema. Se indichiamo con
x
(i)
= (p
(i)
, q
(i)
) = (p
(i)
1
, . . . , p
(i)
l
, q
(i)
1
, . . . , q
(i)
l
)
le coordinate canoniche delliesimo sottosistema, allora lo stato microscopico dellintero
sistema è rappresentato da una Npla (ordinata) di punti x
(i)
in , o equivalentemente da
un unico punto x in ,
x = (p, q) = (p
1
, . . . , p
n
, q
1
, . . . , q
n
) ;
levoluzione microscopica appare allora indierentemente come un movimento in o una
N-pla di movimenti in . Il movimento in è evidentemente soluzione delle equazioni
dierenziali microscopiche del moto; queste si suppongono essere hamiltoniane, con hamil-
toniana del tipo
H(p, q) =
N
i=1
h(p
(i)
, q
(i)
) +V (q) , (p, q) ,
2)
Il valore dei paradossi è sempre quello di mostrare che un problema non è stato posto in modo
sucientemente chiaro: le contraddizioni nascono regolarmente da confusioni nascoste.
3)
Questa breve esposizione è tratta dai seguenti lavori, di cui si suggerisce la consultazione:
G.E. Uhlembeck e G.W. Ford, Lectures in Statistical Mechanics, Lezione I (American Math.
Soc., Providence, Rhode Island, 1963);
J.L. Lebowitz e O. Penrose, Modern ergodic theory, Physics Today, feb. 1973, pag. 23;
G. Benettin, L. Galgani e A. Giorgilli, Appunti di Meccanica Razionale, inizio del Capitolo 5
(dispense non pubblicate);
G. Gallavotti, Meccanica Statistica, e Insiemi Statistici, voci per il Dizionario delle Scienze
Fisiche, Istituto dellEnciclopedia Italiana G. Treccani (Roma, 1993). Questi e altri scritti di
Meccanica Statistica dello stesso autore (alcuni dei quali sulla teoria ergodica) sono raccolti in
Meccanica Statistica, Quaderno del CNR n. 50 (1995).
2
I. Teoria ergodica 1. Prologo...
ove h è lhamiltoniana del singolo sottosistema (la stessa per tutti), mentre V è un op-
portuno potenziale di interazione tra i sottosistemi (si pensi alle collisioni in un gas). La
presenza di V è essenziale perche i sottosistemi interagiscano e il sistema complessivo evolva
in modo signicativo: tuttavia si ammette che V sia sempre piccolo in valore rispetto al
primo termine, e con buona approssimazione ininuente ai ni dei calcoli di energia.
Una prima importante idea di Boltzmann, che conduce alla sua nozione di stato
macroscopico, è che molti stati stati microscopici vadano considerati macroscopicamente
equivalenti e tra loro identicati, e che lunica cosa rilevante a livello macroscopico sia la
distribuzione dei punti in . Pi` u precisamente:
stati microscopici che dieriscono per spostamenti sucientemente piccoli dei punti
in devono corrispondere al medesimo stato macroscopico. La maniera pi` u semplice
di tenerne conto è quella di suddividere in cellette
1
,
2
. . . sucientemente piccole,
tutte del medesimo volume , e considerare macroscopicamente equivalenti gli stati
microscopici che dieriscono per spostamento dei punti di dentro una celletta.
Stati microscopici corrispondenti alla permuta dei punti in vanno anchessi con-
siderati macroscopicamente equivalenti. Poiche delle permute entro la medesima cel-
letta gi` a si tien conto nel momento in cui si spostano i punti entro le cellette in tutti i
modi possibili, ci` o che qui si aggiunge è la permuta dei punti da una celletta allaltra.
Dopo queste identicazioni, e in questa visione discretizzata, lo stato macroscopico resta
completamente caratterizzato dai numeri di occupazione N
1
, N
2
, . . . delle cellette, o se si
vuole dalle densit` a
f
j
=
N
j
N
,
j
f
j
= 1 .
Lidea, purtroppo non facile da formalizzare in una operazione di limite, è che si possa
ranare la suddivisione in celle, mandando a zero il volume e aumentando contem-
poraneamente N, in modo da arrivare a una distribuzione continua di probabilit` a in ,
caratterizzata da una opportuna densit` a di probabilit` a f : lR. Tale densit` a in
rappresenta idealmente, per Boltzmann, uno stato macroscopico del sistema: in realt` a
per` o Boltzmann non si preoccupa molto del limite,
4)
e ragiona volentieri sui numeri di
occupazione N
j
.
Si osservi che tutti gli stati microscopici tra loro equivalenti hanno quasi la stessa
energia: infatti, spostamenti dei punti entro una celletta alterano di poco lenergia to-
tale, e scambi dei punti tra cellette diverse non la alterano aatto; se denotiamo con
j
lenergia della jesima celletta,
5)
ad esempio lenergia corrispondente al suo baricentro,
allora lenergia totale è prossima al valore
E =
j
N
j

j
. (1.1)
4)
Boltzmann sembra a volte avere una visione nitista, sorprendentemente priva della preoccupazione
di recuperare in qualche modo il continuo. Anche la dinamica microscopica in è sostituita
alloccorrenza da Boltzmann con una dinamica discreta (un numero altissimo ma nito di cong-
urazioni, e passi temporali niti, proprio come si fa oggi nelle simulazioni al calcolatore). Lidea
di fondo è che realizzazioni anche molto diverse della dinamica microscopica devono dar luogo alla
stessa fenomenologia macroscopica, ovvero alla stesa termodinamica, quando siano preservate poche
caratteristiche essenziali, come la conservazione dellenergia e del volume nello spazio delle fasi.
5)
si osservi che
j
è ben denita solo nellapprossimazione in cui si trascura V .
3
A ogni scelta dei numeri di occupazione N
j
delle singole celle corrisponde evidentemente un
insieme W(N
1
, N
2
. . .) in , disposto entro un sottile strato
EE
attorno alla supercie
di energia costante
E
, con E data dalla (1.1) e E determinato in qualche modo dalla
dimensione delle celle in . Per eetto della dinamica i numeri di occupazione variano nel
tempo, ma per la conservazione dellenergia il moto è connato allo strato
EE
, che
dunque rappresenta, per cos` dire, il vero spazio delle fasi del sistema.
Lidea centrale di Boltzmann è ora che, a meno che il sistema non entri in regioni
specialissime, di volume estremamente piccolo e per questo ritenute a priori poco probabili
(su questo punto, che è il pi` u cruciale per il legame con la teoria ergodica, torneremo tra
un momento), la nuvola dei punti in evolve mantenendo praticamente costanti i numeri
di occupazione, ovvero le densit` a f
j
, e con essi lo stato macroscopico. Il ragionamento
si svolge in questo modo: innanzitutto, indicando ancora con il simbolo W il volume del
generico insieme W, si trova immediatamente
W(N
1
, N
2
, . . .) =
N!
N
1
! N
2
! . . .

N
(infatti, il fattore
N
tiene conto degli spostamenti dei sottosistemi entro una stessa cella;
il coeciente combinatorio tiene conto degli scambi tra celle diverse). Si dimostra poi
che
i) il massimo W
di W(N
1
, N
2
, . . .), a E e N ssati, si trova per N
j
= N
j
, con
N
j
= C N e
j
, C
1
=
j
e
j
, (1.2)
ovvero per f
j
= f
j
, con
f
j
= C e
j
, (1.3)
ove è un moltiplicatore di Lagrange determinato dallenergia specica E/N;
ii) per piccole variazioni dei numeri di occupazione, ovvero per
N
j
= N
j
+N
j
, N
j
N
j
,
si ha
W W
j
e
1
2
(N
j
)
2
N
j
. (1.4)
Queste propriet` a si deducono senza dicolt` a assumendo che i numeri N
j
siano molto
grandi, in modo che sia buona lapprossimazione di Stirling log N
j
! N
j
(log N
j
1), e
inoltre trattando tali numeri come se fossero variabili continue.
6)
6)
Per dedurre le (1.2) e (1.4) cerchiamo il massimo di S := log W sotto il doppio vincolo
j
N
j
= N ,
j

j
N
j
= E ,
con il metodo dei moltiplicatori di Lagrange. Nellapprossimazione di Stirling si ha
S = C
N,

j
N
j
(log N
j
1) ,
ove C
N,
è una costante che dipende solo da N e ; segue subito che il massimo è dato da
log N
j
+ +
j
= 0 ,
4
La (1.4) mostra che W ha distribuzione gaussiana in ciascuno dei numeri di occu-
pazione N
j
, e la larghezza della gaussiana è
j
=
_
N
j
N
j
. Si vede cos` che variazioni
relative anche molto piccole dei numeri di occupazione determinano grandi variazioni di W.
Ad esempio, se per ogni j si ha N
j

j
, ovvero
N
j
N
j
1
_
N
j
1 ,
il volume si riduce di un fattore enorme, pari allesponenziale del numero di celle occupate.
In denitiva, la quasi totalit` a dello spazio delle fasi (o meglio dello strato dinamicamente
accessibile) corrisponde a numeri di occupazione molto ben deniti, dati dalla (1.2), o se
si vuole a densit` a f
j
in altrettanto ben denite, con uttuazioni
f
j
f
j
=
N
j
N
j
1
_
N
j
del tutto irrisorie. Lo stato macroscopico corrispondente alla scelta privilegiata (1.2) dei
numeri di occupazione è chiamato stato di MaxwellBoltzmann; il fattore esponenziale nelle
(1.2), (1.3) è il ben noto fattore di Boltzmann. La situazione è simbolicamente illustrata
in gura 1.1, ove compaiono il grande insieme W
corrispondente allo stato di Maxwell

Boltzmann, e molti insiemi piccoli corrispondenti agli stati macroscopicamente distinguibili
dallo stato di MaxwellBoltzmann.
A questo punto Boltzmann introduce unipotesi fondamentale di carattere dinamico,
7)
nota come ipotesi ergodica: la dinamica microscopica è tale che il punto x in , rappre-
sentativo dello stato microscopico del sistema, vaga su tutto lo strato
EE
, e spende in
ogni volume W un tempo mediamente proporzionale a W stesso. Pertanto, se il sistema è
osservato a un istante scelto a caso nellarco di un tempo molto lungo (per dar tempo alla
traiettoria di esplorare lintera supercie di energia costante), la probabilità di trovare il
con e determinati dalle condizioni di vincolo, e la (1.2) è immediata; si verica essere positivo.
Si tratta di un massimo perche la matrice delle derivate seconde di S è
2
S
N
j
N
k
=
jk
N
j
,
diagonale con tutti gli elementi negativi. Inne, con uno sviluppo di Taylor arrestato al secondo
ordine si ha
S(N
1
+N
1
, N
2
+N
2
, ) S(N
1
, N
2
, . . .) +
j
S
N
j
N
j
+
1
2
jk
2
S
N
j
N
k
N
j
N
k
;
il termine del primo ordine si annulla per variazioni compatibili con i vincoli (altrimenti non avremmo
un massimo!), e la (1.4) segue immediatamente.
7)
Su questo punto in realt` a il pensiero di Boltzmann è piuttosto complicato, e non facile da ricostruire.
Sulla nozione di ergodicit` a in Boltzmann sembrano essere avvenute vistose incomprensioni anche da
parte di autori molto qualicati come Ehrenfest, che pure era allievo di Boltzmann. In particolare,
lidea che una singola traiettoria (una curva continua) debba passare per tutti i punti di una supercie
di energia costante idea matematicamente bizzarra, e soprattutto sicamente inutile a dierenza
di quanto riportato in molti libri di testo non è attribuibile a Boltzmann (se non allinterno della sua
dinamica discretizzata, ove la cosa ha perfettamente senso). Per una discussione critica di questo
punto si veda il lavoro sopra citato di G. Gallavotti, o anche, dello stesso autore, Lhypothèse ergodique
et Boltzmann, in Dictionnaire Phylosophique des Presses Univ. Francaises, p. 10811085 (Paris,
1988); Ergodicity, Ensembles, Irreversibility and beyond, Journ. Stat. Phys. 78, 15711589 (1995).
5
Figura 1.1. Lo stato di MaxwellBoltzmann domina in
EE
.
sistema in un generico insieme coincide con il suo volume W, a meno della normalizzazione.
Questa interpretazione del volume nello spazio delle fasi come probabilit` a a priori di un
insieme di stati microscopici è comunemente chiamato principio di equiprobabilità degli stati
microscopici. A questo principio, come è noto, è appesa lintera meccanica statistica, in
ogni sua formulazione;
8)
lipotesi ergodica di Boltzmann ne rappresenta, si pu` o dire, una
possibile giusticazione dinamica.
In pratica è questa la conclusione di Boltzmann comunque il sistema sia
preparato, anche in condizioni molto lontane dallequilibrio termodinamico (ad esempio,
con riferimento alla gura 1.1, in uno dei minuscoli insiemi che contornano W
), la dinam-
ica microscopica spinger` a presto il sistema in W
, e in questo insieme esso spender` a poi la

stragrande quantit` a del tempo, a meno di piccole uttuazioni estremamente rare. Il tran-
siente, in pratica il tempo necessario ad allontanarsi dalle condizioni iniziali per arrivare
in W
, rappresenta nel pensiero di Boltzmann lavvicinamento allequilibrio (misure fatte

in questo intervallo di tempo darebbero risultati fortemente inuenzati dalle condizioni
iniziali del sistema); la situazione di equilibrio è invece quella in cui, in accordo con il prin-
cipio di equiprobabilit` a degli stati microscopici, ogni stato macroscopico ha probabilit` a di
essere realizzato proporzionale al suo volume in . Dal punto di vista pratico, lequilibrio
è del tutto indistinguibile dal singolo stato di MaxwellBoltzmann: in linea di principio
per` o lequilibrio è una collezione di stati macroscopici, e benchè uno di essi sia di gran
lunga dominante, le uttuazioni non sono a priori escluse.
8)
Boltzmann stesso, come è noto, fu in grado di dedurre da questo principio le leggi della termodinam-
ica. Per questo introdusse una interpretazione microscopica delle fondamentali grandezze termodi-
namiche U, P, V , T e S (costruendo cos` un modello di termodinamica), e mostr` o in particolare che
lequiprobabilit` a degli stati microscopici implica il secondo principio, dU +PdV = TdS. Vale la pena
di ricordare che lentropia S resta denita, microscopicamente, da S = k
B
S = k
B
log W, con k
B
> 0
(costante di Boltzmann), e dunque, a meno di una inessenziale costante additiva, da
S = k
B
N
j
f
j
log f
j
.
6
Lipotesi ergodica è bel lontana dallessere dimostrabile in pratica, in sistemi sica-
mente realistici: ma ha il grandissimo valore di mostrare che in linea di principio ha senso
discutere di probabilit` a in un sistema deterministico, e che il comportamento macroscopico
non è incompatibile con la dinamica microscopica. Si osservi in particolare che, in questa
visione di Boltzmann, i due paradossi sopra riportati sono sciolti: per il secondo cade
del tutto la contraddizione (le uttuazioni corrispondenti al ritorno del sistema vicino alle
condizioni iniziali sono magari rare al limite dellassurdo,
9)
ma in linea di principio sono
ammesse anche a livello macroscopico); per quanto riguarda il primo, la risposta è simile:
i processi inversi al raggiungimento dellequilibrio esistono anche a livello macroscopico,
e coincidono precisamente con le uttuazioni ammesse da Boltzmann, anche se sono cos`
rari da non avere alcuna rilevanza pratica.
1.3. Il punto di vista di Gibbs
La nozione di Gibbs di stato macroscopico è abbastanza diversa da quella di Boltzmann;
in essa la probabilit` a gioca un ruolo pi` u essenziale, per cos` dire pi` u primitivo. Mentre
Boltzmann pensa fondamentalmente allo spazio , e associa lo stato macroscopico a una
distribuzione f dei sottosistemi nello spazio dove ciascuno di essi è denito, Gibbs invece
lavora direttamente in , e identica lo stato macroscopico con una distribuzione di prob-
abilit` a in tale spazio; linterpretazione di è che per un generico W la probabilit` a
a priori che sia realizzato sicamente uno degli stati microscopici x W è
P(W) =
_
W
dV ,
ove dV = dp
1
, . . . , dp
n
dq
1
, . . . , dq
n
è il volume
10)
in . Ogni stato macroscopico è cos` una
misura in , con densit` a .
La dierenza rispetto a Boltzmann è notevole: mentre Boltzmann pensa al compor-
tamento di un singolo sistema che evolve su una singola traiettoria, con un dato
iniziale non conosciuto ma in linea di principio determinato, che con le sue evoluzioni in
assegna la probabilit` a ai diversi sottoinsiemi Gibbs invece considera a ogni istante
di tempo una famiglia (ensemble) di sistemi in evoluzione, repliche mentali indipendenti
dello stesso sistema sico in stati microscopici diversi, distribuiti in con una opportuna
densit` a di probabilit` a . Lidea è che in ogni esperimento la preparazione del sistema a
t = 0 determina non un dato iniziale, ma una distribuzione iniziale
11)
0
in (lo stato
macroscopico iniziale); per eetto della dinamica ciascuna condizione iniziale evolve poi
indipendentemente non cè evidentemente interazione tra queste repliche immaginarie
dello stesso sistema come farebbe un uido di particelle non interagenti, e resta cos`
determinata a ogni istante una opportuna distribuzione
t
.
Dalla conservazione del volume nello spazio delle fasi (teorema di Liouville; si veda il
paragrafo 2.1, esempio 2.4) segue facilmente per
t
lequazione di evoluzione
t
(x) =
0
(
t
(x)) , x , (1.5)
9)
Si veda il paragrafo 3.1 per ulteriori commenti su questo punto.
10)
Ci riferiamo qui al volume euclideo in coordinate canoniche qualsiasi (tale volume non dipende dalla
particolare scelta delle coordinate canoniche).
11)
La probabilit` a in questo approccio non nasce dunque, come in Boltzmann, dalla scelta casuale
dellistante al quale si osserva il sistema, ma piuttosto dallignoranza dello stato microscopico iniziale.
7
avendo indicato con x
t
(x) levoluzione microscopica (la soluzione delle equazioni di
Hamilton allistante t, con dato iniziale x). Un modo di dedurre la (1.5) è il seguente: è
chiaro che lo stato microscopico del sistema si trova in W allistante t, se e solo se esso si
trovava in W
0
=
t
(W) a t = 0; per ogni W si ha allora
_
W
t
(x) dV =
_
t
(W)
0
(x) dV
(con ci` o si è semplicemente aermato che in presenza di una dinamica deterministica la
probabilit` a si conserva). Si esegue ora a destra il cambiamento di variabile di integrazione
x =
t
(x
), dV = (det J
t
)dV
, ove J
t
indica per ogni t la matrice jacobiana

t
x
; tale
cambiamento riporta il dominio di integrazione a W. Per il teorema di Liouville sulla
conservazione del volume dello spazio delle fasi si ha det J
t
= 1 per ogni t; abolendo gli
apici, e tenendo conto dellarbitrariet` a di W, si trova immediatamente la (1.5).
12)
E ora naturale la ricerca degli stati (o distribuzioni, o ensembles) di equilibrio, ovvero
quelli in cui
t
(x) in ogni punto x non dipende da t. Un esempio di distribuzione di
equilibrio si ottiene prendendo un qualunque guscio di energia costante
EE
, e ponendo
(x) =
_
cost in
EE
0 altrove
;
è infatti evidente dallequazione di evoluzione (1.5) che ponendo
0
=
si ha
t
=
per ogni t. La situazione di equiprobabilit` a degli stati microscopici (nel senso gi` a visto in
Boltzmann) è dunque, per Gibbs, uno stato di equilibrio. E evidente che tale stato non è
unico: presa infatti
(x) = F(H(x)) ,
ove F : lR lR
+
è arbitraria (a meno della normalizzazione) e H è lhamiltoniana, si
verica immediatamente che
è di equilibrio. In eetti, la dinamica conserva lenergia,

dunque non ha senso lavorare in , e ci si deve restringere, come in Boltzmann, a un guscio
sottile al limite della indistinguibilit` a sica, o meglio a una singola supercie di energia
costante
E
. Come sar` a illustrato tra breve (paragrafo 2.1, esempio 2.4) la conservazione
del volume nello spazio delle fasi induce una misura conservata su ciascuna supercie di
energia costante; questa non coincide con larea euclidea d di
E
in coordinate canoniche,
ma dierisce da essa per una densit` a proporzionale a 1/|H|:
d = C
d
|H|
,
ove | | denota la norma euclidea.
13)
12)
In eetti, questa equazione altro non è che lequazione di continuit` a per la probabilit` a in forma
lagrangiana, che per un generico sistema di equazioni dierenziali x = f(x) si scrive
d/dt + f = 0 ;
per i sistemi hamiltoniani si ha f = 0, dunque
t
è costante lungo le traiettorie e si ha la (1.5).
13)
Benche larea d e la norma |H| dipendano singolarmente dalla scelta delle coordinate canoniche (e
singolarmente appaiano anche dimensionalmente non corrette), d ne è indipendente (e lespressione
risulta dimensionalmente corretta).
8
I. Teoria ergodica 2. sist. dinamici classici e astratti
A questo punto si pu` o introdurre, al posto della densit` a in , una densit` a superciale
in
E
, che continuiamo a denotare , e attribuire a ogni dominio A
E
la probabilit` a
P(A) =
_
A
(x) d ;
come prima, è soggetta allequazione di evoluzione (1.5). Ora è evidente che esiste la
distribuzione di equilibrio
costante su
E
, precisamente (se è normalizzata)
(x) = 1
per ogni x
E
, ed è naturale porsi due domande:
i. se tale distribuzione di equilibrio sia unica;
ii. se in pi` u si possa garantire il raggiungimento dellequilibrio a partire da stati macro-
scopici qualsiasi, ovvero se, in qualche senso da precisare, risulti
14)
lim
t
.
Questa nozione, vedremo, si pu` o formalizzare in un contesto matematicamente preciso, e
corrisponde a una delle idee rilevanti della teoria ergodica, quella di sistema mescolante.
Chiudiamo qui questa breve introduzione, il cui scopo, come si è detto, era di illustrare
il contesto sico dal quale è poi emersa la teoria ergodica, e passiamo senzaltro a una
esposizione formale della teoria; testi consigliati per lapprofondimento di quanto si dir` a,
e dai quali cui sono tratte queste note, sono i seguenti:
V.I. Arnold e A. Avez, Ergodic Problems of Classical Mechanics (Benjamin, New
York 1968). Asciutto ma molto bello, in particolare sono interessanti le numerose
appendici. E il testo che seguiamo di pi` u.
P.R. Halmos, Ergodic Theory (Chelsea, New York 1956).
I.P.Cornfeld, S.V. Fomin e Ya.G. Sinai, Ergodic Theory (Springer, 1982). Un manuale
molto completo.
Ya.G. Sinai (editore) e altri, Dynamical Systems II Ergodic Theory (Springer, 1992).
Ancor pi` u completo, ma terribilmente asciutto e telegraco.
G. Gallavotti, Aspetti della teoria ergodica, qualitativa e statistica del moto (Pitagora,
Bologna 1981).
14)
Per la (1.5),
t
mantiene su ogni traiettoria il valore iniziale, dunque non pu` o esservi un limite
puntuale. Ma pu` o avvenire che per una classe rilevante di funzioni risulti
_
E
f(x)
t
(x)d
_
E
f(x)d ,
ovvero che il limite possa essere denito in senso debole.
9
2. Sistemi dinamici classici e astratti
2.1. Nozione ed esempi
Sia M una variet` a dierenziabile
15)
compatta sulla quale è denita una misura regolare
16)
normalizzata , e sia :=
t
, t lR oppure t ZZ, un gruppo a un parametro di
dieomorsmi su M, che preservano la misura: precisamente, tali che
t

s
=
t+s
,
0
= Id ,
(
t
(A)) = (A)
(2.1)
per ogni t, s in lR o ZZ, e ogni A M misurabile. Con la notazione
t
(A) si intende
linsieme
t
(A) :=
_
x M :
t
(x) A
_
. (2.2)
Denizione. La collezione (M, , ), con le propriet` a sopra indicate, è chiamata sistema
dinamico classico (continuo o discreto, a seconda che sia t lR o t ZZ).
Una generalizzazione di un certo interesse è quella in cui lo spazio M in cui agisce
non è dotato della struttura di variet` a, ma è uno spazio astratto provvisto di una misura
(normalizzata) ; corrispondentemente, si chiede che le applicazioni
t
del gruppo siano
soltanto automorsmi di M (cioè applicazioni M M, denite e invertibili quasi ovunque,
che preservano la misura).
Denizione. La collezione
17)
(M, , ), con le propriet` a sopra indicate, è chiamata
sistema dinamico astratto, o semplicemente sistema dinamico (continuo o discreto).
Il caso in cui
t
sia regolare a tratti (cioè denito e regolare al di fuori di un numero
nito di sottovariet` a di M) è ancora considerato un sistema dinamico classico. Una ulte-
riore naturale generalizzazione (per la quale non vale la pena di introdurre nomi nuovi)
è quella in cui viene meno linvertibilit` a delle applicazioni, e =
t
, t 0, è un
semigruppo di endomorsmi (ovvero applicazioni di uno spazio in se che preservano la
misura), regolari nel caso di sistema dinamico classico. Prenderemo in considerazione solo
occasionalmente sistemi non invertibili.
Nel caso discreto, la propriet` a gruppale implica che sia
t
= (
1
)
t
; le trasformazioni
del gruppo (o semigruppo) corrispondono dunque alliterazione di una mappa
1
, e per
semplicit` a denoteremo =
1
. Tra i sistemi continui il caso tipico è quello in cui
t
(x)
è la soluzione al tempo t e con dato iniziale x di unequazione dierenziale (autonoma)
x = f(x) su M; la propriet` a gruppale (2.1) è allora automaticamente soddisfatta.
15)
La classe di dierenziabilit` a non gioca un ruolo importante in quello che andremo a dire. La classe
C
2
, anche a tratti, per M, e sar` a comunque sempre suciente.
16)
Se dV = dx
1
, . . . , dx
n
denota il volume euclideo in una carta qualsiasi della variet` a, si chiede che sia
d = dV , con densit` a regolare.
17)
Nel caso astratto si trova di frequente anche la notazione (M, ,, , ), utile a mettere in evidenza la
algebra degli insiemi misurabili sulla quale è denita .
10
Vediamo allora innanzitutto alcuni esempi semplici e signicativi.
Esempio 2.1 (Moto quasi periodico su TT
2
). Prendiamo:
18)
M := TT
2
:= lR
2
/ZZ
2
= misura di Lebesgue
t
(x, y) = (x +v
x
t, y +v
y
t) mod1 .
(2.3)
Il sistema è classico, continuo, invertibile; si tratta evidentemente del moto uniforme sul
toro, corrispondente allequazione dierenziale x = v
x
, y = v
y
(si veda la gura 2.1).
Se il rapporto = v
x
/v
y
è razionale, = p/q con p, q ZZ, allora tutte le orbite sono
periodiche, precisamente di periodo T = p/v
x
= q/v
y
; in caso contrario sono aperte e, come
vedremo, dense sul toro. Lo studio è strettamente collegato al seguente altro esempio:
Esempio 2.2 (Traslazione su TT
1
). Prendiamo:
M := TT
1
:= lR/ZZ
(x) = x + mod1 .
(2.4)
Il sistema è classico, discreto, invertibile. La connessione con lesempio precedente è im-
mediata (gura 2.2): presa una qualunque sezione N di TT
2
del tipo y = cost. (sezione di
Poincare), ad esempio y = 0, alle orbite di TT
2
corrispondono successioni di punti in N, tali
che a x N segue (x) dato dalla (2.4); infatti, per T
y
= 1/v
y
, si ha
T
y
(x, y) = (x + mod1, y) , = v
x
/v
y
.
E evidente che per razionale le orbite sono periodiche; mostriamo che
Proposizione 2.1. Se è irrazionale, allora le orbite sono dense in TT
1
.
Dimostrazione. Mostriamo innanzitutto che per ogni > 0 esiste s tale che
19)
dist(x,
s
(x)) < . (2.5)
Infatti, ssato x, gli inniti punti dellorbita (che non si chiude) hanno certamente una
accumulazione, perci` o esistono k, l ZZ tali che dist(
k
(x),
l
(x)) < . Ma preserva la
distanza, e dunque (applicando
k
) dist(x,
lk
(x)) < , ovvero è soddisfatta la (2.5)
con s = l k. Se ne deduce che
s
(x),
2s
(x), . . ., procedono a passi pi` u corti di ,
18)
Con il termine misura di Lebesgue sul toro si intende qui la misura corrispondente alla misura di
Lebesgue dxdy sul piano (detta anche misura di Haar). La notazione (x, y) mod1 indica il punto del
toro corrispondente al punto (x, y) del piano; in pratica x mod1 è la parte frazionaria di x, ovvero
x [x], ove [x] (parte intera di x) denota il pi` u grande intero non superiore a x.
19)
La distanza su TT
1
è denita, come è naturale, da dist(x, y) = min([x y[, 1 [x y[) (la pi` u piccola
delle distanze tra x e i punti di lR equivalenti a y); in modo analogo si denisce la distanza su TT
n
.
11
Figura 2.1. Il moto quasi periodico su TT
2
.
x
t
(x)
x
(x)
TT
1
Figura 2.2. La traslazione su TT
1
vista come sezione di Poincare
del moto quasi periodico su TT
2
.
12
perci` o entrano in qualunque intervallo di lunghezza ; per larbitrariet` a di la conclusione
è immediata.
I due esempi si generalizzano a pi` u dimensioni, in particolare
Esempio 2.3. Prendiamo
M := TT
n
:= lR
n
/ZZ
n
t
(x
1
, . . . , x
n
) = (x
1
+v
1
t, . . . , x
n
+v
n
t) mod1 .
(2.6)
Per studiare, sia pure a livello preliminare, questo sistema, premettiamo la seguente
Denizione. Il vettore v = (v
1
, . . . , v
n
) si dice risonante con il vettore intero k ZZ
n
, se
risulta
k v = 0 ; (2.7)
si dice non risonante se risuona col solo vettore nullo. Il vettore intero k a sua volta è detto
vettore risonante per v; la (2.7), con k ,= 0, si dice relazione di risonanza.
Linsieme dei k che risuonano con un ssato v costituisce un sottospazio vettoriale 1
di ZZ
n
, detto reticolo risonante, o modulo risonante
20)
di v; la sua dimensione, cioè il numero
r di vettori interi indipendenti che risuonano con v, è detto molteplicità della risonanza.
Proposizione 2.2 (Jacobi, 1835). Se v è non risonante, allora ogni orbita del sistema
(2.6) è densa in TT
n
.
La dimostrazione si vedr` a pi` u avanti, quando si dimostrer` a lergodicit` a di questa trasfor-
mazione.
Proposizione 2.3. Se v ammette r relazioni indipendenti di risonanza, allora ogni orbita è
connata a una varietà (n r)dimensionale N, dieomorfa al toro TT
nr
. Pi` u precisamente,
esiste una matrice intera J, det J = 1, tale che il cambio di coordinate
y = J x , x = J
1
y , (2.8)
muta v in
u = J v = (0, . . . , 0, u
r+1
, . . . , u
n
) .
Osservazione. Grazie al fatto che J è intera e [det J[ = 1, si ha che J e J
1
sono
entrambe intere (la condizione è necessaria e suciente). Allora la trasformazione
(2.8) è ben denita e regolare sul toro (cioè la (2.8), pensata come trasformazione
lineare in lR
n
, è coerente con loperazione di modulo: punti equivalenti sono inviati in
punti equivalenti, e viceversa).
20)
Modulo, in algebra, è uno spazio vettoriale su un anello, anzichè su un campo (in questo caso su ZZ,
anziche su lR).
13
Dimostrazione. La dimostrazione è basata sul seguente lemma, dimostrato nellappen-
dice A:
Lemma 2.4. Assegnato un reticolo 1 ZZ
n
di dimensione r, 1 r n, esiste una matrice
intera J, det J = 1, le cui prime r righe appartengono a 1: ovvero si ha k
(i)
:= (J
i1
, . . . , J
in
)
1, per 1 i r.
Ammesso il lemma, la dimostrazione della proposizione è immediata: infatti, posto y = Jx
si ha
y y +ut , u = J v ,
e per la (2.7) si trova u
i
= k
(i)
v = 0, i = 1, . . . , r, come richiesto. Il moto con dato iniziale
si svolge pertanto su una variet` a V di equazione y
i
= y
i
, i = 1, . . . , r, che è banalmente
isomorfa al toro TT
nr
(le prime r coordinate sono bloccate, le altre corrono su TT
nr
).
Corrispondentemente la variabile x è connata a N = J
1
(V ).
Osservazione. Per la proposizione precedente, se non vi sono ulteriori relazioni di
risonanza, ovvero se r è lordine, allora lorbita è densa su N (su V , nelle variabili y
introdotte nella dimostrazione). Il toro TT
n
risulta cos` decomposto (foliato) in sotto-
varietà invarianti (i tori TT
nr
che si ottengono al variare del dato iniziale, ovvero di
y
1
, . . . , y
n
), non ulteriormente decomponibili.
Osservazione. Questo problema si pu` o riguardare come il problema del moto di
n oscillatori armonici indipendenti, di hamiltoniana
H =
n
i=1
i
I
i
, I = (I
1
, . . . , I
n
) lR
n
, = (
1
, . . . ,
n
) TT
n
.
Le azioni infatti sono costanti, dunque il moto si svolge sul toro TT
n
(qui è naturale
prendere le coordinate sul toro tra 0 e 2 anziche tra 0 e 1, ma ovviamente non
fa dierenza; la corrispondenza è = 2x, = 2v). A seconda delle propriet` a di
risonanza di , le orbite sono dense in TT
n
, o su tori di dimensione inferiore.
Lesempio si generalizza al caso di un qualsiasi sistema dinamico integrabile:
H(I, ) = h(I) , = (I) =
h
I
(I) ,
e la cosa è (molto) interessante perchè le propriet` a di risonanza di , che ora dipende
da I, sono adesso diverse da toro a toro. Il gioco delle risonanze è un po lanima
della teoria delle perturbazioni per sistemi prossimi a sistemi integrabili, e dunque
lesempio che stiamo seguendo, e sul quale avremo modo di ritornare, è particolarmente
signicativo.
Esempio 2.4. I sistemi hamiltoniani.
Per il teorema di Liouville
21)
il volume euclideo (in arbitrarie coordinate canoniche: il
volume non ne dipende) si conserva, perci` o si potrebbe denire il sistema dinamico pren-
dendo come M una corona compresa tra due superci di energia costante (compatte, per
21)
In breve: sia x = f(x) unequazione dierenziale in lR
m
(o su di una variet` a m-dimensionale), e sia
x
t
(x), t lR, il corrispondente usso. Condizione necessaria e suciente perchè
t
preservi il
14
la normalizzazione), e come il volume stesso. Ma non è interessante, perchè la dinamica
preserva lenergia, e di fatto si svolge sulle superci
E
di energia costante. Vale ora la
Proposizione 2.5. Su ciascuna supercie di energia costante
E
compatta esiste una
misura invariante , che a ogni disco A
E
associa la misura
(A) = C
d
d
Vol(A, )
=0
= C lim
0
1
Vol(A, )
(2.9)
ove Vol(A, ) indica il volume (euclideo) del cilindro di base A, compreso tra
E
e
E+
,
con pareti laterali qualsiasi purche trasverse a
E
; la costante C è determinata dalla normal-
izzazione. In coordinate canoniche la misura dellelemento di area d si scrive
d = (d) = C
d
|H|
, (2.10)
ove d e | . | indicano area e norma euclidea in coordinate canoniche arbitrarie; lespressione
risulta indipendente dalla scelta delle coordinate canoniche.
Dimostrazione. Innanzitutto osserviamo che (A) è ben denita: scelte diverse delle
pareti laterali, purchè trasverse a
E
, determinano dierenze O(
2
) in Vol(A, ), che
dunque sono irrilevanti al limite 0. Per eetto della dinamica, sia Vol(A, ) sia
sono preservati dalla dinamica, e linvarianza di è immediata. La (2.10) segue da vol-
ume = base per altezza, con altezza h = /|H| + O(
2
). Lindipendenza di d dalle
volume è che la matrice jacobiana
J
t
:=

t
x
=
_
t
i
x
j
_
abbia [det J
t
(x)[ = 1 per ogni t e ogni x. Ora non è dicile dedurre per il determinante lequazione
di evoluzione
d
dt
det J
t
(x) = det J
t
(x)( f)(
t
(x)) ;
nel caso hamiltoniano, con m = 2n e x = (p, q), si trova immediatamente f = 0 identicamente, e
poiche J
0
è lidentit` a la conclusione è immediata. A sua volta lequazione per det J
t
si deduce cos`:
innanzitutto, usando la propriet` a gruppale del usso
t+s
(x) =
s
(
t
(x)) e la conseguente propriet` a
J
t+s
(x) = J
s
(
t
(x))J
t
(x)
per la matrice Jacobiana, la verica si riduce a
d
ds
s=0
det J
s
(x) = ( f)(x) ;
daltra parte, J
s
(x) ha la forma
J
s
(x) =
_
_
_
_
1 +sf
1
(x)
1 +sf
2
(x)
C(s)
C(s)

1 +sf
n
_
_
_
_
+C(s
2
) ,
da cui segue immediatamente det J
s
= 1 +s f +C(s
2
), e questo basta.
15
coordinate canoniche prescelte è automatica (il cambio di coordinate, come levoluzione
hamiltoniana, preserva sia il volume sia ).
Esercizio. Si valuti esplicitamente d per loscillatore armonico di hamiltoniana H =
1
2m
p
2
+
k
2
q
2
; si esegua il riscalamento canonico p = p, q =
1
q, e si confrontino i risul-
tati [Risp: si trova d =
1
p
_
p
2
+ m
2
k
2
q
2
dq, H =
1
m
_
p
2
+ m
2
k
2
q
2
, d = Cm
dq
p
; il
riscalamento muta
dq
p
in
2 d q
p
, ma si ha anche m =
2
m, dunque d è invariante].
A un sistema hamiltoniano corrisponde dunque un sistema dinamico classico (M, , ),
continuo e invertibile, su ogni supercie di energia costante compatta
E
, con M =
E
,
denita come sopra, e soluzione delle equazioni di Hamilton (usso hamiltoniano).
La proposizione 2.5 si generalizza al caso in cui vi siano k 1 integrali del moto
F
1
, . . . , F
k
linearmente indipendenti, cioè tali che F
1
, . . . , F
k
siano linearmente indipen-
denti su una supercie
22)
di livello
c
, c = (c
i
, . . . , c
k
), denita da F
i
(p, q) = c
i
. La misura
conservata risulta essere
d =
d
Vol(F
1
, . . . , F
k
)
,
ove d è larea euclidea su
c
, mentre a denominatore compare il volume euclideo del
parallelepipedo generato da F
1
, . . . , F
k
.
Il seguente esempio è particolarmente importante:
Esempio 2.5 (Automorsmo algebrico di TT
2
, meglio noto come
23)
Gatto di Arnold).
Prendiamo:
M = TT
2
= (x, y) mod1
(x, y) = (x +y, x + 2y) mod1 .
(2.11)
Sotto lazione di si ha (x, y) (x
, y
) = (x, y), con

_
x
_
= A
_
x
y
_
mod1 , A =
_
1 1
1 2
_
; (2.12)
si veda la gura 2.3.
Con lespressione automorsmo algebrico di TT
n
si intende, in generale, una trasfor-
mazione del tipo (2.12), ove A è una qualunque matrice intera con [det A[ = 1 (cosa questa
indispensabile perchè la trasformazione sia regolare e invertibile sul toro).
Osservazione. Il sistema non è lineare, per via della riduzione al toro. Si osservi
anche che vale la relazione
t
(x, y) = A
t
(x, y) mod1
(ovvero la riduzione al toro si pu` o rinviare alla ne).
22)
Linsieme di livello denito da F
i
= c
i
è una variet` a proprio grazie allindipendenza lineare.
23)
Nelle gure di Arnold, alle quali ci uniformiamo, si seguono le deformazioni di un gatto tracciato
allinterno. Prima di Arnold i gatti hanno ispirato Schr odinger e Einstein. Un qualunque gatto è
pi` u geniale di qualsiasi genio umano (H. Hesse).
16
Figura 2.3. Il Gatto di Arnold (esempio 2.5).
Approfondiamo un po lesempio, che è molto signicativo. La matrice A ha autovalori
non razionali
1
= :=
3 +
5
2
> 1 ,
2
=
1
=
3
5
2
< 1 ;
gli autovettori corrispondenti sono
e
1
= (1, 1) , e
2
= (1,
1
1) ,
perci` o hanno pendenza irrazionale, e le rette E
1
e E
2
corrispondenti, riportate al toro,
diventano curve dense sul toro (come segue dallesempio 2.1); si veda la gura 2.4.
Ora, un qualunque insieme A TT
2
, ad esempio un dischetto di diametro d (è pi` u
facile immaginarlo per un intorno dellorigine), per eetto dellapplicazione di A
t
, t > 0,
diviene un nastrino (unellisse sottile) di larghezza
t
d e lunghezza
t
d, schiacciato
lungo E
1
; la riduzione al toro lo porta allora a invadere densamente il toro (per t < 0
il ruolo di E
1
e E
2
si scambia). La gura 2.5 mostra lazione della mappa su 20 000
punti inizialmente presi a caso in un quadrato vicino allorigine. Questo è il meccanismo
tipico che, pur con una dinamica reversibile, consente un comportamento irreversibile per
gli insiemi di punti.
Questo sistema è anche il prototipo dei cosiddetti sistemi espansivi: punti vicini si
separano esponenzialmente (nel passato o nel futuro; genericamente, nel passato e nel
futuro), e non esistono coppie di orbite
t
(x) e
t
(y) che restino vicine per ogni t ZZ, se
x ,= y.
Esercizio. Si mostri che il sistema possiede innite orbite periodiche dense in TT
2
(sug-
gerimento: tutti i punti con coordinate razionali sono periodici).
17
Figura 2.4. Gli autovettori e
1
e e
2
; la retta E
1
, riportata al toro.
Un endomorsmo (un sistema non invertibile) classico, con propriet` a analoghe agli auto-
morsmi algebrici del toro, è dato dal seguente
Esempio 2.6. Prendiamo
M := TT
1
:= lR/ZZ
(x) = 2x mod1 .
La mappa agisce su TT
1
come indicato in gura 2.6 (cioè nel modo in cui abitualmente
si avvolge su se stesso un elastico); si osservi che è regolare sul toro, e che preserva la
misura (limmagine inversa di un insieme mantiene la misura). Una trasformazione con
propriet` a simili, ma regolare solo a tratti, è la trasformazione a tenda (si faccia il disegno)
dellintervallo [0, 1] in se, denita da
(x) =
_
2x per x 1/2
2 2x per x > 1/2 .
Lesempio 2.6 è analogo al seguente pi` u importante esempio, in cui con laggiunta di una
coordinata la trasformazione è resa invertibile:
18
Figura 2.5. Evoluzione di 20 000 punti nel Gatto di Arnold.
19
Figura 2.6. Lesempio 2.6

Esempio 2.7 (Trasformazione del panettiere). Prendiamo
M = [0, 1) [0, 1)
(x, y) =
_
(2x,
1
2
y) per x <
1
2
(2x 1,
1
2
y +
1
2
) per x
1
2
.
(2.13)
la pasta è schiacciata no a dimezzare laltezza e raddoppiare la lunghezza; poi è tagliata
e sovrapposta (si veda la gura 2.7).
Figura 2.7. La trasformazione del panettiere.
Il prossimo esempio, di notevole importanza, è un sistema astratto.
Esempio 2.8 (Schemi di Bernoulli). Consideriamo un insieme nito I di simboli (alfa-
beto); per essere deniti, poniamo
I = 0, 1, . . . , n 1 .
20
Consideriamo poi lo spazio M = I
ZZ
delle sequenze doppiamente innite di simboli
dellalfabeto:
M = x = ( . . . , x
1
, x
0
, x
1
, . . . ) , x
i
I (2.14)
(lidea da seguire è quella dei possibili esiti di inniti lanci di un dado a n facce), e diamo a
M la struttura di spazio di Borel, cioè costruiamo su M una algebra di insiemi misurabili,
prendendo come generatori
24)
i cilindri elementari
(
l
k
:= x M : x
k
= l , k ZZ, l I (2.15)
(insieme delle sequenze con esito assegnato l al kesimo lancio). Per costruire la misura,
prendiamo n numeri reali positivi a somma 1:
p
0
, . . . , p
n1
> 0 ,
lI
p
l
= 1 (2.16)
(probabilit` a a priori delle n facce del dado), e poniamo
((
l
k
) = p
l
(2.17)
(la probabilit` a di aver esito l al kesimo lancio dipende solo da l e non da k). Si stabilisce
poi che le intersezioni dei generatori, ovvero i cilindri
(
l
1
,...,l
m
k
1
,...,k
m
:=
m
j=1
(
l
j
k
j
,
abbiano misura fattorizzata
((
l
1
,...,l
m
k
1
,...,k
m
) = p
l
1
p
l
m
(ovvero, i diversi lanci sono eventi casuali indipendenti). Alle unioni disgiunte di cilindri
si assegna quindi (obbligatoriamente) come misura la somma delle misure, e con ci` o la
misura resta assegnata su di un anello; un teorema garantisce allora lestensione univoca
allintera algebra degli insiemi misurabili. Per la (2.16), la misura risulta normalizzata:
M =
_
lI
(
l
k
, (M) =
lI
p
l
= 1 .
Inne, deniamo lautomorsmo su M come traslazione di un posto, o shift, verso
sinistra: precisamente, a
x = ( . . . , x
2
, x
1
, x
0
, x
1
, x
2
, . . . )
associamo x
:= (x) denito da
x
k
= x
k+1
. (2.18)
24)
Ricordiamo che la algebra generata da una famiglia di insiemi è la algebra minimale che li
contiene.
21
Il sistema dinamico astratto (M, , ) cos` costruito si chiama schema di Bernoulli, e si
denota, ricordando anche le probabilit` a con cui è costruito, B
p
0
,...,p
n1
. Gli schemi di
Bernoulli sono modelli adatti a descrivere successioni di eventi indipendenti, ciascuno con
una assegnata probabilit` a a priori (il pi` u semplice schema di Bernoulli, B1
2
,
1
2
, corrisponde
al gioco di testa e croce; B1
6
,...,
1
6
corrisponde al lancio di un dado onesto).
25)
Esempio 2.9 (Flusso geodetico). Data una variet` a Riemanniana
26)
Q, di dimensione n,
poniamo
M = (q, v) : q Q, v T
q
Q, |v| = 1 ;
si potrebbe vedere che M ha la struttura di variet` a, precisamente è la sottovariet` a del
brato tangente TQ corrispondente a |v| = 1 (brato tangente unitario). Per ogni punto
(q, v) M è ben denita la geodetica di Q passante per q e tangente a v. Il usso
t
, t lR su M si denisce allora ponendo
t
(q, v) = trasporto lungo la geodetica, per
una distanza t. La misura conservata d risulta essere il prodotto dd della misura d
indotta dalla metrica su Q e dellarea euclidea d sulla sfera unitaria S
n1
.
Gli esempi da tenere a mente sono il moto libero con velocit` a unitaria di un punto
materiale su una ordinaria supercie bidimensionale liscia, o pi` u in generale il moto di un
sistema lagrangiano a n gradi di libert` a, in assenza di forze attive: Q è allora la variet` a
vincolare, e la matrice cinetica fornisce la metrica. Si ricordi che il principio variazionale di
Maupertuis garantisce proprio che il moto avviene lungo le geodetiche di Q, con la metrica
data dallenergia cinetica.
Esercizio. Si studi con il formalismo lagrangiano (coordinate ignorabili) il usso geodetico
sul toro bidimensionale immerso in lR
3
; le equazioni parametriche della supercie sono
x = (R + r cos ) cos , y = (R + r cos ) sin , z = r sin .
25)
La fattorizzazione della misura è una caratteristica peculiare degli schemi di Bernoulli. Sullo stesso
spazio M, con la stessa algebra (generata dai cilindri), e la stessa dinamica (lo shift), si possono
introdurre altre misure invarianti, tra cui le misure di Markov, nelle quali sono assegnate, oltre alle
probabilit` a p
l
di ciascun simbolo l (con
l
p
l
= 1) le probabilit` a di transizione 1
jl
0 dal simbolo
j al simbolo l, con il requisito di normalizzazione
l
1
jl
= 1 e di compatibilit` a
j
p
j
1
jl
= p
l
(negli schemi di Bernoulli si ha 1
jl
= p
l
, e le condizioni sono soddisfatte). Si potrebbe vedere che
per ogni matrice 1 positiva con
l
1
jl
= 1 esiste sempre (e in casi rilevanti è unica) una scelta
compatibile delle p
l
. Le probabilit` a p
l
e le probabilit` a di transizione 1
jl
consentono di denire la
misura di tutti i cilindri (si pone ((
j,l
k,k+1
) = p
j
1
jl
, e cos` via), e con esse la misura su M. I
sistemi dinamici cos` deniti sono detti sistemi di Markov; 1 := (1
ij
) è detta matrice di transizione
del sistema. Mentre nei sistemi di Bernoulli cè totale scorrelazione tra eventi successivi (lesito di un
lancio di dado non è inuenzato dalla storia passata), nei sistemi di Markov ogni evento è correlato
allevento immediatamente precedente, ma solo ad esso. Si pensi a una passeggiata su una scacchiera,
ad esempio con passo di Re e uguale probabilit` a di transire da una casa a tutte le case adiacenti.
Detto m
j
il numero di case adiacenti alla casa j, si ha allora 1
jl
= 1/m
j
se l è adiacente a j, e zero
altrimenti; la scelta buona delle p
l
si verica facilmente essere p
l
= m
l
/
j
m
j
.
26)
Ricordiamo che una variet` a riemanniana è una variet` a , su ciascun punto della quale è assegnata
una forma bilineare g (regolare) simmetrica e denita positiva, detta metrica, che agisce su coppie di
vettori tangenti. In coordinate la forma si scrive g =
ij
g
ij
(x)dx
i
dx
j
, con (g
ij
) matrice simmetrica
denita positiva. Su ciascuno spazio tangente resta denito il prodotto scalare := g(, ), in
coordinate
ij
g
ij
(x)
i
j
. Restano poi denite lunghezze di curve e aree (volumi) di ogni dimensione
su ; sono ben denite le geodetiche su .
22
Concludiamo questa breve rassegna di esempi illustrando una classe notevole di sistemi di-
namici, i cosiddetti biliardi; introdotti gi` a da Birkho negli anni 30, questi sistemi dinamici
hanno avuto (e hanno ancora) un ruolo notevole nella teoria ergodica.
Esempio 2.10 (Biliardi). Sia Q una regione limitata e connessa di lR
2
, delimitata da
una curva regolare a tratti ( pu` o essere composta di pi` u tratti connessi
i
, se Q è mul-
tiplamente connessa: biliardo con ostacoli). Il sistema che vogliamo denire corrisponde
al moto libero di un punto materiale (o di un raggio di luce) in Q, con velocit` a costante di
modulo uno allinterno, e riessione elastica sul bordo (la componente tangente della ve-
locit` a si conserva, la componente perpendicolare si inverte); si tratta di una estrapolazione,
in un certo senso, del usso geodetico.
27)
Poniamo allora M = Q S
1
, e deniamo
t
,
continuo a tratti, secondo quanto detto sopra: in linea retta no al bordo, poi riessione,
poi in linea retta e cos` via, per una lunghezza complessiva t (gura 2.8). Si vede facilmente
che è invariante la misura d = dxdyd, con x, y coordinate cartesiane in Q e angolo tra
il vettore velocit` a e una qualsiasi direzione pressata ( è infatti invariante sia durante la
traslazione, sia per la mappa corrispondente alla riessione); resta cos` denito un sistema
dinamico classico (M, , ), regolare a tratti.
A (M, , ) conviene tuttavia associare un secondo sistema dinamico discreto, ssando
lattenzione sulle collisioni (che sono lunica cosa interessante: tra una collisione e laltra
il moto è banale). Per questo introduciamo una coordinata curvilinea sul bordo (o su
ciascuna
i
), con origine ssata e verso antiorario, e identichiamo una collisione con le
coordinate e = cos , ove è langolo tra la tangente orientata a in e la direzione
della velocit` a in uscita dalla collisione (aggiungiamo lindice discreto i, se è composta
di pi` u parti connesse). Poniamo quindi N = [1, 1], e sia : N N la mappa
che associa a ogni collisione la collisione successiva. Con un po di pazienza si calcola la
matrice jacobiana J =
(,)
(,)
associata alla mappa, e si trova det J = 1; larea di N
pertanto si conserva, e la misura normalizzata d =
1
2L
dd risulta invariante. Abbiamo
cos` costruito un sistema dinamico classico discreto (N, , ), chiamato anchesso biliardo,
o mappa del biliardo.
Esercizio. Si verichi che si ha
J =
_
(cl )/
l/(
)
cc
l c
(c
)/
_
,
ove l è la lunghezza del tratto rettilineo tra una collisione e la successiva, c, c
indicano la
curvatura del bordo nel punto di partenza e di arrivo (positivi per un biliardo convesso),
mentre = sin,
= sin
.
Linteresse per i biliardi deriva dalla loro semplicit` a, e dal fatto che al variare della forma di
si ottengono le propriet` a ergodiche pi` u diverse. Una variante alla denizione data sopra
è quella in cui la tavola del biliardo è il toro TT
2
, con uno o pi` u ostacoli, o equivalentemente
il piano, con ostacoli disposti in modo periodico.
28)
27)
Ci` o risulta pi` u chiaro se pensiamo la supercie Q a due facce, con cambio di faccia a ogni riessione:
il punto materiale passa dietro.
28)
Si studia anche il cosiddetto Gas di Lorenz, cioè il moto di un punto in un piano con ostacoli disposti
in modo casuale.
23
Figura 2.8. Esempi signicativi di biliardo.
Esercizio. Si studino le singolarit` a di , per biliardi di varia forma (si osservi che le
singolarit` a possono essere presenti anche se il bordo è regolare e connesso).
Chiudiamo questo paragrafo introduttivo con la nozione di sezione di Poincare, cui faremo
riferimento di frequente nel seguito. Siano dunque =
t
, t lR un usso su una variet` a
riemanniana M, e N una sezione globale di M, ovvero una sottovariet` a orientata di M tale
che tutte le orbite di N prima o poi la attraversino in un verso pressato. Si vede subito
che il usso induce una mappa : N N, precisamente la mappa che associa a x N
la prima intersezione con N (nel verso pressato) dellorbita
t
(x); la mappa : N N
è detta sezione di Poincare (globale) del usso su M. Se preserva una misura su M
di densit` a (x), ovvero d = dV , si dimostra facilmente che a sua volta preserva la
misura d = C[v
[d, ove d indica larea su N, mentre [v
[ denota la componente di
v = x perpendicolare a N, e la costante C serve alla normalizzazione.
Esercizio. Si faccia la dimostrazione.
Al sistema dinamico classico continuo (M, , ) resta allora associato il sistema dinamico
classico discreto (N, , ), ad esso sostanzialmente equivalente, detto a sua volta sezione
di Poincare di (M, , ). Nel caso dei biliardi, la mappa del biliardo sopra denita è
sostanzialmente la sezione di Poincare del usso.
24
2.2. Isomorsmo tra sistemi dinamici
Concludiamo questa introduzione generale ai sistemi dinamici con la nozione di isomorsmo
tra sistemi dinamici, classici e/o astratti.
Denizione. Due sistemi dinamici (M, , ) e (N, , ) si dicono isomor se esiste una
mappa h : M N, denita e invertibile quasi ovunque, che: (1) preserva la misura, ovvero
si ha
(h(A)) = (A) , (h
1
(B)) = (B) , (2.19)
per tutti gli insiemi misurabili A M e B N; (2) commuta con la dinamica, ovvero per
ogni t si ha
t
h = h
t
. (2.20)
La nozione di isomorsmo è importante, perchè pone le basi per una classicazione dei
sistemi dinamici (si osservi che è una relazione di equivalenza). Tutte le propriet` a che
andremo a introdurre sono invarianti per isomorsmo. Sono ad esempio isomor due
sistemi hamiltoniani coniugati da una trasformazione canonica. Non è dicile trovare
esempi di sistemi dinamici classici isomor a sistemi astratti (il che mostra che la distinzione
tra sistemi classici e astratti non è profonda). Precisamente,
Proposizione 2.6. La trasformazione del panettiere e lo schema di Bernoulli B1
2
,
1
2
sono
isomor.
Dimostrazione. Indichiamo con (M, , ) e rispettivamente (N, , ) i due sistemi, e
denotiamo con x = (a, b) i punti di M, con y le sequenze di N. Se in scrittura binaria si
ha
a = 0. a
0
a
1
a
2
. . . , b = 0. b
0
b
1
b
2
. . . , a
i
, b
i
I = 0, 1 ,
allora si denisce h associando a x M il punto y = h(x) N, dato da
y = ( . . . , y
2
, y
1
, y
0
, y
1
, y
2
, . . . )
= ( . . . , b
1
, b
0
, a
0
, a
1
, a
2
, . . . ) ,
ovvero si pone
y
i
= a
i
per i 0 , y
i
= b
i1
per i < 0 .
La corrispondenza è denita e biunivoca quasi ovunque;
29)
si verica facilmente che h
commuta con la dinamica, e che preserva la misura (come sono fatte le immagini dei
cilindri ?).
Osservazione. Lisomorsmo h sopra introdotto si pu` o denire anche nel modo
seguente, che risulta particolarmente signicativo: introduciamo in M una partizione
in due insiemi A
0
e A
1
dividendo verticalmente a met` a il quadrato, precisamente
poniamo
A
0
=
_
x = (a, b) M : a <
1
2
_
, A
1
= M A
0
.
29)
Non ovunque: si ricordi lambiguit` a della scrittura decimale o binaria.
25
Consideriamo poi
t
(x), t ZZ, e associamo a x la sequenza (storia di x)
y = ( . . . , y
2
, y
1
, y
0
, y
1
, y
2
, . . . ) , y
t
= l se
t
(x) A
l
. (2.21)
Non è dicile convincersi che la corrispondenza cos` realizzata è proprio lisomorsmo
h denito sopra (si ricordi che a <
1
2
se la prima cifra dello sviluppo binario di a è
0). Una conseguenza dellisomorsmo è che comunque ci si inventi una stringa y di
simboli 0 e 1, esiste sempre un punto x M che la realizza, nel senso che
t
(x) sta
in A
0
o in A
1
a seconda che in posizione t della stringa si sia scelto il simbolo 0 o 1.
La generalizzazione di questo esempio semplice conduce alla nozione, che ha grande
importanza nella teoria dei sistemi dinamici e sar` a ripresa pi` u avanti, di dinamica
simbolica.
Esercizio. Si consideri la quadrettatura di M in celle di lato 2
k
, k > 0, e si ponga
=
2k
. Si dimostri che scelta a piacere una passeggiata sulle celle (ovvero una arbitraria
successione di celle) esiste x M tale che

t
(x), t ZZ, la esegue fedelmente.
30)
3. Due teoremi generali
Vi sono due teoremi di carattere del tutto generale, che valgono per sistemi dinamici qual-
siasi classici o astratti, continui o discreti, anche non invertibili: il teorema della ricorrenza
di Poincare, e il teorema ergodico di BirkhoKinchin.
3.1. Il teorema della ricorrenza
Per introdurre il teorema della ricorrenza, premettiamo la seguente
Denizione. Per A M misurabile, diciamo che x A è ricorrente
31)
in A se per ogni
T > 0 esiste t T tale che
t
(x) A.
Linsieme dei punti ricorrenti in A sar` a denotato R
A
; il complementare A R
A
, denotato
V
A
e detto insieme dei punti vaganti di A, è allora dato da
V
A
= x A : T > 0 :
t
(x) / A t T .
30)
Se M è un foglio con il lato di un metro, e k = 15, si ottiene linvidiabile risoluzione di 32 768
punti per metro (oltre 800 punti per pollice). Scelto a piacere il disegno preferito, ad esempio la
pianta di Padova oppure Dante e Virgilio in una illustrazione del Dore, esiste x M tale che gli
iterati
30t
(x), t = 0, 1, 2, . . . lo riproducono esattamente entro la risoluzione. Anzi: possiamo
anche pressare lordine in cui i puntini vanno a comporre il disegno. Ma con quanta precisione va
determinato il dato iniziale?
31)
Si trova frequentemente in letteratura una denizione leggermente pi` u ampia: sono chiamati ricorrenti
i punti appartenenti alla chiusura di R
A
qui denito, e corrispondentemente vaganti i punti interni a
V
A
; il teorema della ricorrenza aerma allora che per i sistemi che conservano una misura linsieme
dei punti vaganti è vuoto.
26
I. Teoria ergodica 3. Due teoremi generali
Proposizione 3.1 (Teorema della ricorrenza). Sia (M, , ) un qualsiasi sistema dinamico.
Per ogni A M misurabile linsieme V
A
è misurabile e ha misura nulla.
Dimostrazione. Possiamo limitarci al caso discreto; il caso continuo si riporta banal-
mente al caso discreto considerando la mappa al tempo uno (linsieme dei punti vaganti,
restringendo t agli interi, al pi` u si allarga). Per ogni T lN
+
poniamo
V
T,A
= x A :
t
(x) / A t T
(punti Tvaganti di A); si ha evidentemente
V
A
=
_
TlN
+
V
T,A
,
dunque basta dimostrare che per ogni A M misurabile e ogni T lN
+
linsieme V
T,A
è
misurabile e ha misura nulla. La misurabilit` a di V
T,A
segue dalla denizione, in base alla
quale si pu` o scrivere
V
T,A
= A
_

tT
t
(M A)
_
.
Consideriamo allora gli insiemi
V
T,A
,
T
(V
T,A
) ,
2T
(V
T,A
) , . . .
Essi sono necessariamente disgiunti: infatti se
x
kT
(V
T,A
)

lT
(V
T,A
) ,= ,
ad esempio con k < l, allora
kT
(x) V
T,A

(lk)T
(V
T,A
) ,
contro la denizione stessa di V
T,A
. Per la conservazione della misura, essendo nita la
misura dellintero spazio M, risulta (V
T,A
) = 0.
In base al teorema della ricorrenza, tutti i punti a meno di un insieme di misura nulla
ritornano innite volte in un qualunque ssato insieme A di misura positiva che li contenga
(ad esempio una palla di raggio arbitrario).
Osservazione. I tempi di ricorrenza, stimati sulla base della dimostrazione, sono
tuttavia assurdamente grandi, per sistemi anche molto semplici. Si consideri un gas
di N punti materiali in un cubo di lato L; supponiamo (ad esempio) che i punti
si muovano indipendentemente, e che ciascuno rimbalzi sulle pareti spostandosi con
velocit` a costante v. Sia A linsieme ottenuto specicando la sola posizione di ciascun
punto, con precisione L; si prenda T = tempo tipico di uscita da A, T = L/(Nv) (è
il pi` u piccolo tempo in cui succede qualche cosa). Allora la dimostrazione obbliga
il sistema alla ricorrenza, dopo che A,
T
(A),
2T
(A), . . . non ci stanno pi` u,
dunque dopo il tempo t = kT con k = 1/(A) =
3N
. Si trova t =
3N+1
L/(Nv),
27
e ad esempio con N = 10, L = 1 m, = 10
3
, v = 100 m/sec, si ha t = 10
84
sec (let` a
delluniverso, secondo le stime attuali, non supera 10
18
sec).
Osservazione. A parte questa considerazione sica, è bene sottolineare che il
comportamento ricorrente dei singoli moti non preclude il comportamento irreversibile
degli insiemi di punti (o di stati macroscopici nel senso di Gibbs) tipico dei sistemi
mescolanti di cui si dir` a tra breve.
3.2. Il teorema ergodico di BirkhoKinchin
Veniamo ora al teorema ergodico di BirkhoKinchin, premettendo anche qui qualche
denizione.
Denizione. Per ogni funzione f : M lR, la funzione

f : M lR denita da
f(x) := lim
t
1
t
t1
s=0
f(
s
(x)) , (3.1)
o nel caso continuo
f(x) := lim
t
1
t
_
t
0
f(
s
(x))ds , (3.2)
è detta, se esiste, media temporale della funzione f.
Ad esempio, il tempo medio di soggiorno di unorbita in un insieme misurabile A,
A
(x) := lim
t
1
t
T
A
(x, t) , T
A
(x, t) :=
_
t
0
A
(
s
(x))ds , (3.3)
ove
A
denota la funzione caratteristica di A:
A
(x) =
_
1 per x A
0 per x / A ,
(3.4)
è precisamente la media temporale di
A
.
La media temporale di una funzione, oltre ad avere interesse per la meccanica statis-
tica, gioca un ruolo importante ogniqualvolta, in un sistema dinamico, convivono variabili
lente e veloci: ad esempio in Meccanica Celeste sono veloci le fasi dei pianeti sulle
ellissi kepleriane, sono lente le variabili associate agli elementi orbitali (semiassi delle el-
lissi, eccentricit` a, inclinazione); oppure, veloce è la rotazione della terra su se stessa, lenta
la variazione dellinclinazione dellasse di rotazione. Come avremo modo di discutere pi` u
avanti, in prima approssimazione (a meno di eetti del secondo ordine) leetto delle
variabili veloci sulle variabili lente coincide con un eetto medio, opportunamente denito
per mezzo di una media temporale. Ad esempio, leetto della perturbazione di un pi-
aneta sugli elementi orbitali degli altri è quello che si avrebbe se la massa del pianeta fosse
distribuita lungo lorbita, in proporzione al tempo medio di soggiorno in ogni tratto.
La media temporale

f di una funzione f è a sua volta una funzione; è invece un numero
la media in fase f) di f, denita per ogni f sommabile, ovvero f L
1
(M, ), da
f) :=
_
M
fd . (3.5)
28
I. Teoria ergodica 3. Due teoremi generali
A dierenza della media temporale, in linea di principio assai dicile da calcolare perche
presuppone la conoscenza del moto, la media in fase è soltanto un integrale, che in linea
di principio si deve pensare di saper calcolare, e che comunque non è mai
32)
dicile, in
qualche modo, valutare almeno approssimativamente, eventualmente ricorrendo a metodi
numerici.
E spontaneo chiedersi per quali sistemi dinamici, per quali funzioni, e quali dati
iniziali, la media temporale esista. La risposta, tuttaltro che scontata, è che essa esiste
per ogni sistema dinamico, ogni funzione sommabile, e quasi ovunque; ci` o è assicurato
dal fondamentale teorema di BirkhoKinchin, che qui enunciamo nel linguaggio del caso
discreto. La dimostrazione (in realt` a non molto istruttiva) è rinviata allappendice B.
Proposizione 3.2 (Teorema ergodico di BirkhoKinchin). Sia (M, , ) un sistema
dinamico astratto discreto, non necessariamente invertibile; sia f : M lR sommabile. Allora
esiste quasi ovunque in M il limite
f(x) = lim
t
1
t
t1
s=0
f(
s
(x)) , (3.6)
e inoltre si ha
f((x)) =

f(x) ,
f) = f) . (3.7)
Se il sistema è invertibile, allora anche il limite
(x) := lim
t
1
t
t1
s=0
f(
s
(x))
esiste quasi ovunque, e quasi ovunque coincide con

f(x).
Vi sono casi in cui la media temporale esiste ovunque, anziche quasi ovunque: ad
esempio nella traslazione di TT
1
(esempio 2.2), o nel moto uniforme su TT
n
, purche la
funzione f abbia un minimo di regolarit` a (basta che sia integrabile secondo Riemann; si
veda il libro sopra citato di V.I. Arnold e A. Avez, appendice 9). Ma in generale, lesistenza
della media temporale è assicurata solo quasi ovunque.
Ad esempio, si consideri lo schema di Bernoulli B1
2
,
1
2
, e si prenda la (semplicissima)
funzione caratteristica del cilindro (
1
0
(ovvero: f(x) = x
0
per ogni x = x
k
, k ZZ), per
la quale è immediato vericare che si ha
1
t
t1
s=0
f(
s
(x)) =
1
t
t1
s=0
x
s
.
Si vede facilmente che per il dato iniziale eccezionale
x = ( . . . , x
2
, x
1
, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, (16 0), (32 1), . . . ) .
32)
Quasi mai
29
il limite non esiste: infatti per t al termine di un blocco 1 la somma vale
2
3
t, mentre al
termine del blocco 0 è minore di
1
3
t. La medesima situazione si ha, evidentemente, per
la trasformazione del panettiere, prendendo il dato iniziale corrispondente.
Osservazione. Dati iniziali eccezionali simili a quello sopra messo in evidenza,
precisamente dati in cui la sequenza speciale di simboli comincia dalla posizione k
(arbitrariamente grande) anziche da zero, e i rimanenti simboli sono qualsiasi, sono
densi in una topologia naturale degli schemi di Bernoulli, di cui si dir` a pi` u avanti,
equivalente per B1
2
,
1
2
alla consueta topologia del quadrato nella trasformazione del
panettiere. Per tali sistemi dunque la media temporale non è denita in nessun aperto.
Da questa semplice osservazione si capisce come sia importante, e delicato, il ruolo
della misura nello studio dei sistemi dinamici.
4. Ergodicità
Lergodicit` a è la prima fondamentale e non banale propriet` a che si incontra nella teoria er-
godica; la si pu` o vedere come una prima possibile formalizzazione del problema ergodico
posto da Boltzmann e Gibbs (paragrafo 1.2 e 1.3) per giusticare luso della meccanica
statistica nello studio dei sistemi termodinamici, benche la sua formulazione e il suo stu-
dio si pongano gi` a per sistemi dinamici semplicissimi, che poco hanno a che fare con la
termodinamica.
4.1. Denizione di sistema ergodico
Vi sono quattro propriet` a esattamente equivalenti che si possono usare come denizione di
sistema ergodico, e che vale la pena di prendere in considerazione (labbreviazione q. o.,
qui e nel seguito, sta per quasi ovunque).
Proprietà E1. Per ogni funzione sommabile f : M lR, media temporale e media in
fase coincidono:
f(x) = f) q. o. in M . (4.1)
Proprietà E2. Per ogni insieme A M misurabile il tempo medio di soggiorno in A è
uguale alla misura di A:
A
(x) = (A) q. o. in M , (4.2)
con
A
(x) denito nella (3.3).
Proprietà E3. Non esistono integrali del moto sommabili non banali:
f(
t
(x)) = f(x) t q. o. in M = f costante q. o. in M (4.3)
per ogni f : M lR sommabile.
30
I. Teoria ergodica 4. Ergodicità
Proprietà E4. Il sistema dinamico è metricamente indecomponibile, ovvero
t
(A) = A = (A) = 0 oppure 1 (4.4)
per ogni A M misurabile (detto altrimenti: ogni decomposizione M = A (M A)
misurabile e invariante è metricamente banale).
Osservazione. La nozione E1 è tra le pi` u classiche, ed è alla base della denizione
di ergodicit` a in diversi testi di meccanica statistica; risponde allidea pratica di
ergodicit` a, come propriet` a che consente di sostituire alle medie temporali, dicili da
calcolare, le medie in fase.
La propriet` a E2 risponde allidea (Boltzmann) che a unosservazione fatta a un
istante casuale corrisponda una probabilit` a di trovare lo stato microscopico del sistema
in A, pari alla misura di A; in questo senso, per un sistema che goda della propriet` a
E2, il volume assume il signicato di probabilit` a. Nei sistemi dinamici classici tutti
gli aperti sono misurabili e hanno misura positiva: la propriet` a E2 implica pertanto
che in tali sistemi le traiettorie generiche siano dense.
La propriet` a E3 corrisponde invece allunicit` a dellequilibrio nel senso di Gibbs:
se lo stato macroscopico
t
evolve con la legge
t
(x) =
0
(
t
(x)) ,
allora lunico stato di equilibrio, cioè tale che sia
t
=
0
per ogni t, è quello uniforme,
(x) = 1 quasi ovunque (il che tuttavia non implica che lo stato di equilibrio sia in
qualche senso raggiunto, a partire da
0
qualsiasi).
Inne, la propriet` a E4, introdotta da Birkho, è interessante per la sua semplicit` a
geometrica, e torna utile in molte dimostrazioni.
Osservazione. Ciascuna delle quattro propriet` a è con evidenza invariante per iso-
morsmo.
Proposizione 4.1. Le proprietà E1,...,E4 sono equivalenti.
Dimostrazione. Mostriamo qui che:
(a) E1 E2
(b) E2 E4
(c) E4 E1
(d) E4 E3 .
Limplicazione (a) è banale, quando si prenda f =
A
. Limplicazione (b) segue dal fatto
che se, per assurdo, esiste A invariante e non banale, allora per x A si ha
A
(x, t) = t, e
dunque il tempo medio di soggiorno è 1, anziche (A). Limplicazione (c) si dimostra cos`:
se, per assurdo, risulta (ad esempio)

f(x) > f) in un insieme di misura positiva, allora
per il teorema di BirkhoKinchin linsieme
A := x M :

f(x) > f)
31
è invariante (si usa la prima delle (3.7)) e non banale (si usa la seconda, per garantire che
A è misurabile e (A) ,= 1), contro lassunzione E4. Inne, limplicazione (d) segue in un
verso perchè, se esistesse A invariante (non banale), allora la sua funzione caratteristica
A
sarebbe integrale del moto (non costante quasi ovunque); nel verso opposto perchè,
se esistesse un integrale del moto f (non costante quasi ovunque), allora con opportuna
scelta di c lR linsieme
A := x M : f(x) c
risulterebbe invariante (non banale).
Esercizio. Si dimostrino altre implicazioni dirette tra le E1 E4, ad esempio
limplicazione E1 E3.
Denizione. Il sistema dinamico (M, , ) si dice ergodico se soddisfa una qualsiasi delle
propriet` a E1E4.
Osservazione. Come gi` a si è detto, E2 è un caso particolare di E1, relativo alle
funzioni caratteristiche. Daltra parte tali funzioni, con evidenza, appartengono allo
spazio L
2
(M, ) delle funzioni a quadrato sommabile su M; la verica della pro-
priet` a E1 per le funzioni di L
2
(M, ) sar` a dunque ampiamente suciente a garantire
lergodicit` a. La stessa cosa si pu` o dire per la propriet` a E3.
Esercizio. Sfruttando il fatto che le funzioni caratteristiche si approssimano a piacere
in misura con funzioni continue, si dimostri che la propriet` a E1 (o E3) per le sole funzioni
continue implica lergodicit` a.
Osservazione. Dal punto di vista del signicato sico, in particolare nellambito
della meccanica statistica, lergodicit` a è una propriet` a sicuramente importante, e tut-
tavia, si intuisce, allo stesso tempo troppo forte e troppo debole. Troppo forte, perche
riguarda la classe, enorme, delle funzioni sommabili: comprese quelle che ad esempio,
in un gas di molecole identiche, dieriscono in modo signicativo per scambio di due
molecole tra di loro. Troppo debole, perchè ancora non contiene ne lidea del rag-
giungimento dellequilibrio, ne tantomeno lidea che la dinamica sia in qualche modo
irregolare o, con una terminologia entrata recentemente nella letteratura scientica,
caotica (vedremo in un momento che, ad esempio, la traslazione di TT
1
, o il moto di
un qualunque sistema hamiltoniano a un grado di libert` a, sono sistemi ergodici). Per
quanto riguarda la prima dicolt` a, va segnalato il tentativo di Kinchin (si veda il suo
libretto di meccanica statistica) di denire lergodicit` a condizionata a una classe di
funzioni sicamente signicative. Lidea è stata occasionalmente ripresa, ma non
ha mai avuto sviluppi veramente signicativi.
Osservazione. Non si creda tuttavia che insiemi misurabili mal fatti topologica-
mente, ad esempio insiemi chiusi con interno vuoto ma di misura positiva (la frontiera
coincide con linsieme, e ha misura positiva; la funzione caratteristica è discontinua
su un insieme di misura positiva) siano privi di interesse sico. Tali insiemi giocano
anzi un ruolo molto importante nella teoria delle perturbazioni (teorema KAM), e si
presentano naturalmente in connessione a sistemi hamiltoniani anche semplicissimi.
33)
33)
Fermi stesso, in un lavoro peraltro molto interessante del 1921, ha sottovalutato questo problema,
32
I. Teoria ergodica 4. Ergodicità
Come tipico esempio di insiemi di questo tipo, si prenda lintevallo I = [0, 1], e nu-
merati i razionali, si tolga un intervallo di lunghezza 2
1
attorno al primo, 2
2
attorno al secondo, e cos` via. Lunione di quello che si toglie ha misura inferiore
a , ed è aperto denso; quello che resta ha misura superiore a 1 , ma ha interno
vuoto. Gli insiemi che intervengono nel teorema KAM hanno proprio questa struttura
(la mancanza di regolarit` a degli insiemi è dovuta al fatto che si guarda a propriet` a
asintotiche).
4.2. Esempi elementari
Vediamo allora qualche esempio elementare di sistema ergodico.
Proposizione 4.2. Qualunque sistema hamiltoniano a un sol grado di libertà, su una su-
percie di energia costante
E
compatta connessa e priva di punti singolari, è ergodico.
Dimostrazione. Con evidenza, per ogni dato iniziale in
E
lorbita passa per ogni punto
di
E
; la propriet` a E4 è soddisfatta e dunque il sistema è ergodico.
Esercizio. Si dimostri lergodicit` a facendo riferimento alla propriet` a E2 [Suggerimento:
si scriva il tempo di soggiorno in un intervallo I come
_
I
dl/v, ove dl e v denotano la
lunghezza darco e la velocit` a nel piano di fase].
E dunque ergodico, in particolare, il singolo oscillatore armonico, H(p, q) =
1
2
(p
2
+
2
q
2
),
su ciascuna delle curve di energia costante. Non è invece ergodico, sulla supercie di
energia costante, un sistema di due o pi` u oscillatori armonici, H =
1
2
n
i=1
(p
2
i
+
2
i
q
2
i
), o
pi` u in generale un sistema del tipo
H(p, q) =
n
i=1
h
i
(p
i
, q
i
) , (4.5)
in cui ognuna delle h
i
dipende solo dalle sue variabili: infatti, le energie delle singole
componenti sono integrali del moto, e si va contro la propriet` a E3. Non è ergodico, evi-
dentemente, un sistema integrabile a n 2 gradi di libert` a, dal momento che possiede n
integrali del moto non banali.
34)
Per sistemi di questo tipo si pu` o discutere di ergodicit` a
solo restringendosi ai fogli in cui tutte le azioni sono conservate; come gi` a osservato, ci
si riporta allora allo studio del moto uniforme su TT
n
, le cui propriet` a ergodiche studier-
emo tra un momento. Sistemi del tipo (4.5) pongono tuttavia una domanda cruciale: che
cosa succede se si aggiunge un piccolo accoppiamento tra gli oscillatori? E un problema
importante, sia concettualmente sia per le implicazioni siche (molti sistemi sici si presen-
tano in questo modo), ma dicile, sul quale, in denitiva, si sa ancora poco. Ritorneremo
pi` u volte sulla questione. Continuiamo intanto lo studio dei sistemi elementari, mostrando
che
Proposizione 4.3. La traslazione di sul toro TT
1
(esempio 2.2) è ergodica se e solo se il
parametro è irrazionale.
divenuto chiaro solo dopo lo sviluppo della teoria della misura, e soprattutto dopo il contributo di
Kolmogorov del 1954.
34)
La nozione di sistema integrabile sar` a ampiamente discussa nel terzo capitolo.
33
Dimostrazione. Se è razionale, = p/q con p, q ZZ, allora lorbita non è densa,
perci` o la propriet` a E2 non è soddisfatta e il sistema non è ergodico (in altro modo: se
= p/q, allora la funzione f(x) = cos 2qx è un integrale del moto non banale). Sia ora
irrazionale. Presa f L
2
(M, ), possiamo scrivere
f(x) =
kZZ
f
k
e
2ikx
f((x)) =
kZZ
[

f
k
e
2ik
] e
2ikx
,
e si vede subito che f è un integrale del moto se e solo se
f
k
(e
2ik
1) = 0 k ZZ .
Ma per irrazionale, e k ,= 0, risulta e
2ik
,= 1, e dunque necessariamente

f
k
= 0.
Pertanto f è quasi ovunque costante, e il sistema è ergodico.
Proposizione 4.4. Il moto quasi periodico su TT
n
(esempio 2.3) con velocità v =
(v
1
, . . . , v
n
) è ergodico, se e solo se v è non risonante.
Dimostrazione. Presa f L
2
(M, ), possiamo scrivere
f(x) =
kZZ
n
f
k
e
2i(kx)
f(
t
(x)) =
kZZ
n
[

f
k
e
2i(kv)t
] e
2i(kx)
,
perci` o f è integrale del moto se e solo se
f
k
(e
2i(kv)t
1) = 0 k ZZ
n
, t lR ,
e si trova soluzione non banale se e solo se esiste k ,= 0, tale che risulti k v = 0.
Esercizio. Si formuli e si dimostri lanaloga proposizione per la traslazione su TT
n
, denita
da (x) = x+ mod1, = (
1
, . . . ,
n
) lR
n
. Come si scrive la condizione di non risonanza
di ? [Risposta: k ZZ].
Osservazione. Per la traslazione o il moto quasi periodico su TT
n
(nel caso non
risonante) si pu` o dimostrare che la propriet` a E1 risulta vericata per ogni dato iniziale,
e non solo quasi ovunque, non appena f è misurabile secondo Riemann
35)
(si veda il
libro citato V.I. Arnold e A. Avez, appendice 9).
35)
Per funzioni generiche non sarebbe mai possibile: si prenda la traslazione di TT
1
, e si ponga f = 0
ovunque tranne che sulle immagini
t
(x
), t ZZ, del dato iniziale x
, ove si pone f = 1. Si ha
f) = 0, ma

f(x
) = 1.
34
I. Teoria ergodica 5. Sistemi mescolanti
k 2
k
0 1
1 2
2 4
3 8
4 16
5 32
6 64
7 128
8 256
9 512
10 1024
11 2048
12 4096
13 8192
14 16384
k 2
k
15 32768
16 65536
17 131072
18 262144
19 524288
20 1048576
21 2097152
22 4194304
23 8388608
24 16777216
25 33554432
26 67108864
27 134217728
28 268435456
29 536870912
k 2
k
30 1073741824
31 2147483648
32 4294967296
33 8589934592
34 17179869184
35 34359738368
36 68719476736
37 137438953472
38 274877906944
39 549755813888
40 1099511627776
41 2199023255552
42 4398046511104
43 8796093022208
44 17592186044416
Esercizio. Nella tabella appaiono le prime quarantacinque potenze di due; nessuno dei
numeri comincia per 7. Esister` a, asintoticamente, una frequenza p
l
delle potenze di due che
cominciano con la cifra l, 1 l 9 ? Sar` a pi` u grande p
7
o p
8
?
Osservazione. Dimostreremo pi` u avanti che gli schemi di Bernoulli (e dunque
la trasformazione del panettiere) e gli automorsmi algebrici del toro del tipo
dellesempio 2.5 sono sistemi ergodici. Daltra parte si vede facilmente che sono dense,
in questi sistemi, le orbite periodiche, come anche i dati iniziali che per t (o
t ) convergono a un punto sso dello spazio ove il sistema dinamico è denito;
corrispondentemente è molto facile trovare funzioni per le quali

f(x) e f) sono diverse
per un insieme denso di dati iniziali.
Esercizio. Si costruiscano esempi concreti a supporto di questa aermazione.
Esercizio. Dato per buono che gli schemi di Bernoulli siano sistemi ergodici, si dimostri
che in B
p,1p
la frequenza di apparizione del simbolo 0 è esattamente p per tutte le stringhe,
a meno di un insieme di misura nulla.
5. Sistemi mescolanti
Dopo la nozione di ergodicit` a, la successiva nozione rilevante nella teoria ergodica è quella
di sistema mescolante, o mixing. Lidea, come gi` a si è accennato, è quella di richiedere, pur
con una dinamica microscopica reversibile, un comportamento irreversibile per gli insiemi
di punti.
5.1. Denizione di sistema mescolante.
35
La nozione di sistema mescolante si pu` o introdurre attraverso due propriet` a esattamente
equivalenti:
Proprietà M1. Per ogni coppia di insiemi misurabili A, B M risulta
lim
t
(
t
(A) B) = (A)(B) . (5.1)
Proprietà M2. Per ogni coppia di funzioni f, g L
2
(M, ) risulta
lim
t
_
M
(f
t
) g d =
_
M
f d
_
M
g d , (5.2)
o in altra notazione
lim
t
(f
t
) g) = f)g) . (5.3)
Il signicato di tali propriet` a è chiaro: in base a M1, linsieme
t
(A), pur conservando
la misura, va diluendosi uniformemente in M; ci` o è possibile se, per cos` dire, A si la-
menta per eetto della dinamica, e (nel senso debole indicato dalla M1) invade uniforme-
mente M; si riveda la gura 2.5. Linsieme B va pensato come nestra di osservazione.
La propriet` a M2 esprime invece la perdita delle correlazioni tra osservabili qualsiasi. In
generale, la funzione G denita da
G(t) = (f
t
) g) f)g) (5.4)
è chiamata funzione di correlazione di f e g; se g = f, G è chiamata funzione di autocorre-
lazione di f. Se G(t) ,= 0, allora i valori (la misurazione) di f e g, a distanza di tempo t,
non sono indipendenti.
Osservazione. Sia
t
la distribuzione di probabilit` a associata allo stato macro-
scopico di un sistema statistico, nel senso di Gibbs; ricordiamo (paragrafo 1.3) che
t
evolve secondo la legge
t
=
0

t
.
Diremo che
t
tende in senso debole alla distribuzione
, se per ogni f L
2
(M, )
risulta
lim
t
_
M
f
t
d =
_
M
f
d .
Si vede allora immediatamente che
t
tende debolmente alla distribuzione uniforme,
(x) = 1 x M, per ogni scelta di

0
(in L
2
(M, )), se e solo se è soddisfatta M2.
Infatti, si ha
_
M
f
t
d =
_
M
f (
0

t
) d =
_
M
(f
t
)
0
d ,
(lultimo passaggio è il cambiamento di variabile x =
t
(x
), il cui determinante
jacobiano vale 1), e la conclusione è immediata non appena si ricordi la condizione
36
di normalizzazione
0
) = 1 (il fatto che
0
non sia completamente arbitraria ma
normalizzata è chiaramente irrilevante).
Si vede assai facilmente che
Proposizione 5.1. Le proprietà M1 e M2 sono equivalenti.
Dimostrazione. Per vedere che M2 implica M1, basta prendere f =
A
, g =
B
;
poiche
A

t
=
t
(A)
, si ha
_
M
(f
t
) g d = (
t
(A) B) ,
e la conclusione è immediata.
Viceversa, per mostrare che M1 implica M2, si considerano dapprima f e g che siano
funzioni semplici, ovvero somma nita di funzioni caratteristiche:
f =
i
f
i
A
i
, g =
j
g
j
B
j
;
per tali funzioni la verica è immediata: poichè
A
i

t
=
t
(A
i
)
, si ha
(f
t
)g) =
ij
f
i
g
j
t
(A
i
)
B
j
) =
ij
f
i
g
j
(
t
(A
i
) B
j
)
ij
f
i
g
j
(A
i
)(B
j
) =
ij
f
i
g
j
A
i
)
B
j
) = f)g) .
Per funzioni generiche, si sfrutta il fatto che per f, g in L
2
(M, ), comunque si prenda
> 0, si pu` o sempre scrivere f =

f +f
, g = g +g
, con

f, g semplici, e |f
|
2
, |g
|
2
< .
Seguono facilmente disuguaglianze del tipo
[(f
t
)g) (

f
t
) g)[ < (cost) , [f)g)
f) g)[ < (cost)

(la prima uniforme in t); usando per

f e g il risultato precedente, e tenendo conto
dellarbitrariet` a di , la conclusione è immediata.
A questo punto ha senso dare la seguente
Denizione. Il sistema dinamico (M, , ) si dice mescolante, se le propriet` a M1 o M2
sono soddisfatte.
Si verica immediatamente che la nozione di sistema mescolante è invariante per isomor-
smo. Inoltre:
Proposizione 5.2. Ogni sistema mescolante è ergodico.
Dimostrazione. Se A M misurabile è invariante, allora per la propriet` a M1, con
B = A, si ha
(A) = (
t
(A) A) (A)
2
,
ovvero A è banale. La E4 è allora soddisfatta, e questo basta.
37
Osservazione. Si vede immediatamente che il moto quasi periodico (o la trasla-
zione) sul toro, come tutte le isometrie, non sono mai sistemi mescolanti. E ugual-
mente evidente che i sistemi hamiltoniani a un sol grado di libert` a non sono mescolanti.
Perci` o la propriet` a di mescolamento è eettivamente pi` u forte dellergodicit` a.
5.2. Esempi elementari
Dalle considerazioni svolte nel paragrafo 2.1 (esempio 2.5) si intuisce che
Proposizione 5.3. Lautomorsmo algebrico di TT
2
denito nellesempio 2.5 è un sistema
mescolante.
Dimostrazione. Le funzioni u
k
(x) = e
2ikx
, k ZZ
2
, sono una base ortogonale per
L
2
(M, ), ovvero si ha
u
k
u
l
) = 0 per k ,= l ;
dalla denizione di si vede poi subito che risulta
u
k
= u
Ak
, u
k

t
= u
A
t
k
, (5.5)
ove

A indica la trasposta di A. Ora (ed è questa lidea centrale della dimostrazione), per
k ,= 0 lorbita di k, precisamente
A
t
k, t ZZ, è aperta, e in particolare, posto ad esempio
[k[ = [k
1
[ +[k
2
[, risulta
[
A
t
k[ per t , k ZZ
2
, k ,= 0 ; (5.6)
ci` o è conseguenza immediata del fatto che la matrice

A, applicata ripetutamente, espande
tutti i vettori, ad eccezione di quelli appartenenti alla retta contraente: che per` o ha pen-
denza irrazionale, e dunque non contiene vettori interi.
Da questa propriet` a si deduce facilmente che il sistema è mescolante. Prendiamo
infatti f, g L
2
(M, ); le funzioni si approssimano a piacere con somme nite di funzioni
di base: precisamente, preso > 0 arbitrario, esiste K tale che, posto
36)
f = f
K
+f
>K
, f
K
:=
|k|K
f
k
u
k
,
risulta |f
>K
|
2
< , e analogamente per g (si pu` o prendere il medesimo K per le due
funzioni). Si vede ora immediatamente che per t sucientemente grande risulta
(f
K

t
) g
K
) f) g) = 0 ;
infatti, si ha evidentemente
(f
K

t
) g
K
) =
|k|,|l|K
f
k
g
l
u
A
t
k
u
l
) ,
36)
Le funzioni f
K
e f
>K
sono a volte chiamate parte infrarossa e parte ultravioletta di f; decompo-
sizioni di questo tipo hanno grande interesse in teoria delle perturbazioni, perchè se f è regolare, allora
la norma della parte ultravioletta decresce molto rapidamente con K (addirittura esponenzialmente,
per funzioni analitiche), e in una certa misura pu` o essere trascurata nel procedimento perturbativo.
38
ma in base alla (5.6), per t abbastanza grande e k ,= 0 risulta [
A
t
k[ > K: e dunque (per
lortogonalit` a delle funzioni di base) lunico termine non nullo della sommatoria è quello
corrispondente a k = l = 0, che è proprio f)g). La conclusione ora è immediata: per
ogni t si ha [(f
t
) g) (f
K

t
)g
K
)[ < (cost), e dunque per t abbastanza grande
si trova
[(f
t
) g) f)g)[ < (cost) ;
per larbitrariet` a di la propriet` a M2 è soddisfatta, e dunque il sistema è mescolante.
Osservazione. Insistiamo ancora sul fatto che il meccanismo che conduce al mesco-
lamento è lesistenza di una base ortogonale in L
2
(M, ), chiusa per composizione con
il usso secondo la (5.5), tale che tutte le funzioni di base, ad eccezione della fun-
zione costante, hanno comportamento irreversibile (lindice k della funzione di base
ha unorbita aperta).
Esercizio. Si determini una condizione necessaria e suciente sulla matrice A, perchè il
sistema sia mescolante. Si studi il problema analogo per gli automorsmi algebrici di TT
n
.
Occupiamoci ora della classe, assai rilevante, degli schemi di Bernoulli, e dimostriamo che
Proposizione 5.4. Gli schemi di Bernoulli sono sistemi dinamici mescolanti.
Dimostrazione. Lidea della dimostrazione non è molto diversa dalla precedente. Presi
A e B misurabili, e ssato > 0, esistono sicuramente

A e

B che approssimano A e B,
precisamente tali che
37)
(A

A) < , (B

B) < , (5.7)
e che inoltre si ottengono da un insieme nito di generatori, con le operazioni consuete
di unione e intersezione.
38)
Nel nostro caso, i generatori sono i cilindri (
l
k
, con k ZZ,
e l appartenente allalfabeto I;

A e

B si otterranno dunque a partire dallinsieme dei
cilindri (
l
k
, con [k[ K, per un opportuno K > 0 (dipendente da ); in particolare, si
potranno scrivere come opportuna unione disgiunta degli insiemi pi` u piccoli che si possono
ottenere con questi generatori, che sono i cilindri (
l
K
,...,l
K
K,...,K
(tutti i simboli tra K e K
sono specicati).
Ora, dalla denizione stessa di , si ha che
t
((
l
k
) = (
l
k+t
; se ne deduce immediata-
mente che, per t > 2K + 1, linsieme evoluto
t
(
A) è costruito a partire da un insieme

di generatori interamente diverso da quelli di

B: di conseguenza, è facile vedere, la misura
si fattorizza, ovvero si ha
(
t
(
A)

B) = (
t
(
A)) (
B) = (
A) (
B) t > 2K + 1 .
La conclusione è immediata: dalla (5.7) segue
[(
t
(A) B) (
t
(
A)

B)[ < (cost)
[(A) (B) (
A) (
B)[ < (cost) ,

37)
Il simbolo indica la dierenza simmetrica: A

A = (A\

A)
A\ A).
38)
Questo è un fatto generale della teoria della misura; in modo analogo qualunque insieme del piano si
pu` o approssimare con rettangoli.
39
perci` o per t sucientemente grande (t > 2K) si ha
[(
t
(A) B) (A) (B)[ < (cost) ;
si conclude che il sistema soddisfa la propriet` a M1, e dunque è mescolante.
Osservazione. Si osservi lanalogia tra

A e

B, e la parte infrarossa di f e g nel caso
dellautomorsmo algebrico di TT
2
sopra studiato. In entrambi i casi, sono oggetti che
approssimano a piacere gli oggetti che ci interessano, e allo stesso tempo diventano
indipendenti in un numero nito di passi (la misura degli insiemi si fattorizza; la
correlazione tra funzioni si annulla). In entrambi i casi lindipendenza si realizza
perche la dinamica sulle funzioni di base / sui cilindri si realizza con traiettorie aperte:
è questo lelemento tecnico che produce la non ricorrenza, neanche in tempi inniti,
nella dinamica delle funzioni / degli insiemi, a dispetto della ricorrenza nella dinamica
dei punti.
Esercizio. Si dimostri che lendomorsmo di TT
1
, denito da (x) = 2x mod 1 (esempio
2.6) è mescolante.
Esercizio. Si dimostri che (M, ,
2
) è mescolante, se e solo se (M, , ) è mescolante.
Si dimostri che se (M, ,
2
) è ergodico, allora (M, , ) è ergodico, ma non viceversa (si
costruisca un controesempio).
Al di l` a degli esempi elementari, è molto dicile dimostrare che un sistema è mescolante
(o ergodico). Gli esempi noti pi` u importanti sono i seguenti:
i. Alcune famiglie di biliardi. In particolare: i biliardi di Sinai (1962), deniti dallavere
il bordo convesso verso linterno (il pi` u semplice è costituito da un toro TT
2
, con un
ostacolo circolare, oppure si pu` o prendere un poligono, e curvare verso linterno i lati)
oppure, i biliardi di BounimovichSinai (1974): tavole piane semplicemente connesse,
il cui bordo è costituito da archi di circolo e segmenti, con la prescrizione che se
un arco di circolo appartiene al bordo, lintero cerchio è contenuto nella tavola (il
pi` u semplice ha la forma di uno stadio di atletica: un rettangolo, con due lunette
semicircolari su due lati opposti). Si veda la gura 2.8. Il toro con ostacolo si mostra
essere equivalente a un gas di due dischi duri che si urtano elasticamente; in un primo
momento sembrava che la dimostrazione di Sinai fosse valida per n dischi (cos` è ancora
riportato il risultato di Sinai in molti libri o articoli di rassegna), ma poi si sono trovate
dicolt` a. Sono seguite dimostrazioni particolari per n = 3 e n = 4, e molto di recente
(Sz asz, 1995) è stata annunciata una dimostrazione valida per n qualsiasi (purchè il
volume a disposizione dei dischi sia abbastanza grande, ovvero il gas non sia troppo
denso). Se confermato, questo risultato inseguito per oltre ventanni sarebbe di
grande interesse sico.
ii. I Sistemi di Anosov, di cui parleremo pi` u avanti: sono sistemi molto speciali, caratter-
izzati da divergenza forte (uniforme) delle traiettorie vicine. Il Gatto di Arnold è un
sistema di Anosov; un esempio non banale è il usso geodetico su superci compatte
a curvatura negativa (ogni punto è una sella); superci di questo genere, dicilmente
immaginabili, si ottengono dal cerchio di PoincareLobatchewskii con un procedi-
mento di compattizzazione, simile alloperazione di modulo con cui si passa da lR
2
a
TT
2
.
40
iii. Il moto di un punto su TT
2
, con un potenziale che abbia singolarit` a attrattive di
tipo coulombiano (purche lenergia sia abbastanza alta); o anche, il biliardo sul toro,
quando allostacolo (o agli ostacoli) si sostituisca un potenziale a simmetria circolare,
a supporto in un disco, con derivata discontinua sul bordo del disco (purche lenergia
sia abbastanza bassa). Sono lavori abbastanza recenti, anche questi abbastanza inter-
essanti dal punto di vista sico.
Per tutti questi sistemi si dimostrano in realt` a propriet` a pi` u forti del mescolamento, cui
accenneremo pi` u avanti.
5.3. Ergodicità e mescolamento; mescolamento debole.
Vale la pena di discutere un po pi` u a fondo sulla relazione tra lergodicit` a e la propriet` a
di mescolamento. Sia (M, , ) un sistema dinamico ergodico, che per essere deniti
supporremo discreto. In base alla nozione E1 di ergodicit` a segue che quasi ovunque, per
t , si ha
1
t
t1
s=0
f(
s
(x)) f) ,
1
t
t1
s=0
f(
s
(x)) g(x) f) g(x) ,
per ogni scelta di f, g in L
2
(M, ). Integrando e scambiando il limite con lintegrazione
(lo si pu` o certamente fare se f è limitata, per il teorema della convergenza dominata; ma
anche se non lo è, si pu` o vedere che tutto funziona ugualmente
39)
) si ricava una propriet` a
simile al mescolamento:
1
t
t1
s=0
_
(f
s
) g) f) g)
0 ,
o in altra notazione
1
t
t1
s=0
G(s) 0 ,
ove G è la funzione di correlazione denita in (5.4). Equivalentemente (si prendano f =
A
e g =
B
, che per di pi` u sono limitate e non danno problemi per lo scambio dei limiti), si
ottiene, dalla sola ergodicit` a,
40)
1
t
t1
s=0
_
(
s
(A) B) (A)(B)
0
per ogni coppia di insiemi misurabili A e B.
Lergodicit` a corrisponde dunque a una propriet` a di decadimento in media delle
correlazioni (o di mescolamento in media): occorre in pi` u una media temporale. Se il
39)
Si approssima f con una funzione limitata, e a quel punto si scambiano limite e integrazione; lerrore
che si commette risulta essere arbitrariamente piccolo.
40)
Oltre a essere propriet` a dedotte dallergodicit` a, queste propriet` a a loro volta la implicano; ad esempio,
per dedurre lergodicit` a dalla (5.6), si procede come nella proposizione 5.2).
41
mescolamento ha il signicato che le operazioni di misura di osservabili qualsiasi (f e g)
a distanza di tempo t diventano indipendenti per t grande, lergodicit` a da sola dice che la
loro funzione di correlazione G, pur non decadendo, è per` o mediamente nulla.
41)
Osservazione. Accanto alla funzione di correlazione temporale G(t) introdotta so-
pra, si pu` o denire una funzione in un certo senso analoga,
((t, x) = lim
T
1
T
T1
s=0
f(
t+s
(x))g(
s
(x))

f(x) g(x) , (5.8)
nella quale le medie temporali lungo lorbita di origine x sostituiscono la media in fase.
Se il sistema è ergodico, evidentemente risulta ((t, x) = G(t) quasi ovunque; la (5.8)
è interessante, perche consente di discutere del decadimento delle correlazioni lungo
una singola orbita, indipendentemente dalle propriet` a globali del sistema.
Concludiamo accennando a una propriet` a intermedia tra ergodicit` a e mescolamento, chia-
mata mescolamento debole (weak mixing): precisamente,
Denizione. Il sistema dinamico (M, , ) si dice debolmente mescolante, se per ogni
coppia di insiemi misurabili A e B risulta
1
t
t1
s=0
(
s
(A) B) (A)(B)
0
(in pi` u dellergodicit` a si chiede la convergenza assoluta).
6. Misure ergodiche
Consideriamo un sistema dinamico, classico o astratto, (M, , ). E in qualche modo
naturale pensare che M e siano assegnati, e la misura su M sia invece, per cos` dire,
una nostra scelta.
Si pone pertanto il problema seguente: ssata la coppia (M, ), ed anche la algebra
di insiemi misurabili su M (altrimenti nessun confronto tra misure sar` a mai possibile),
studiare linsieme delle misure invarianti (ovvero quelle per cui (M, , ) è un sistema
dinamico), e in particolare il sottoinsieme delle misure ergodiche (ovvero quelle per cui
41)
Nel linguaggio della distribuzione di probabilit` a
t
di Gibbs: in un sistema ergodico si ha
1
t
t1
s=0
_
M
f
t
d
_
M
f d ,
ovvero
t
non tende necessariamente alla distribuzione costante = 1, tuttavia oscilla intorno al
valor medio = 1 (non è sistematicamente ne sopra ne sotto questo valore).
42
I. Teoria ergodica 6. Misure ergodiche
(M, , ) è ergodico). E una prospettiva in un certo senso pi` u ampia di quella che avevamo
assunto no ad ora assegnando a priori, oltre alla dinamica, anche la misura. E si tratta,
si badi, di una questione piuttosto interessante anche da un punto di vista sico: a ogni
misura conservata corrisponde infatti, nel senso di Gibbs (paragrafo 1.3), un possibile stato
di equilibrio del sistema. In eetti, le misure invarianti sono anche dette misure di equilibrio
compatibili con una assegnata dinamica.
La discussione svolta a proposito del punto di vista di Gibbs, poi ripresa studiando
la nozione di sistema ergodico, fornisce una parziale risposta al problema qui posto: se
il sistema dinamico (M, , ) è ergodico, e si restringe la ricerca a misure regolari, pi` u
precisamente assolutamente continue rispetto a ,
42)
cosicche si pu` o scrivere d = d
con misurabile, allora lunica misura invariante è stessa (altrimenti sarebbe funzione
misurabile invariante non banale), e dunque, con questa restrizione, lo stato di equilibrio
è unico.
Pi` u in generale, si dimostra senza dicolt` a la seguente
Proposizione 6.1.
a) Se il sistema dinamico (M, , ) è ergodico, e la misura , diversa da , è invariante,
allora è singolare
43)
rispetto a .
b) Se anche (M, , ) è ergodico, esistono M
e M
disgiunti tali che

(M
) = 1 , (M
) = 0 , (M
) = 0 , (M
) = 1
(ciascuna misura ha supporto in un insieme di misura nulla dellaltra).
c) Se inne (M, , ) non è ergodico, allora esistono innite misure invarianti, assolutamente
continue rispetto a .
Dimostrazione. Proviamo innanzitutto b), e per questo denotiamo con . )
, . )
le
medie in fase relative alle due misure; poiche le due misure sono diverse, certamente esiste
f : M lR sommabile, tale che f)
,= f)
. Daltra parte, per la nozione E1 di ergodicit` a,

se i due sistemi sono ergodici allora sicuramente esistono M
e M
di misura uno per le

rispettive misure,
(M
) = (M
) = 1 ,
tali che
f(x) = f)
per x M
f(x) = f)
per x M
;
i due insiemi sono allora disgiunti, e quindi, come richiesto,
(M
) = (M
) = 0 .
Per provare a) ci basta ora considerare il caso in cui è invariante, ma (M, , )
non è ergodico (altrimenti a) si riduce banalmente a b)). Lo si vede immediatamente: se
42)
Ricordiamo che si dice assolutamente continua rispetto a , se (A) = 0 implica (A) = 0; in tal
caso esiste sempre misurabile tale che d = d.
43)
Ovvero esiste A M, tale che (A) = 0, e (A) ,= 0.
43
(M, , ) non è ergodico, in base alla nozione E4 esiste A invariante, tale che sia (A) sia
(A
c
) sono positive, A
c
:= M A. Viceversa, per lergodicit` a di (M, , ), uno almeno di
questi insiemi ha misura nulla, e questo basta.
Inne, per provare c), supponiamo che (M, , ) non sia ergodico, e dunque esista A
invariante, tale che (A), (A
c
) siano entrambe diverse da zero. Allora sono invarianti le
misure
, che a un generico insieme misurabile B attribuiscono misura
(B) =
(B A)
(A)
,
(B) =
(B A
c
)
(A
c
)
(in sostanza: stessa, ristretta agli insiemi A e A
c
, e opportunamente normalizzata), e
sono evidentemente invarianti tutte le innite combinazioni lineari
=
+ (1 )
, 0 1 . (6.1)
Osservazione. In questultima parte, precisamente nella (6.1), abbiamo sfruttato
una propriet` a delle misure conservate, di immediata verica, che vale la pena di enu-
cleare: se : M M preserva le misure e , preserva ogni loro combinazione lineare
+ (1 ), 0 1. Con immagine geometrica, possiamo dire che linsieme
delle misure conservate da una assegnata trasformazione è convesso.
Osservazione. Si dimostra anche che, in un senso opportuno, le misure rispetto alle
quali il sistema risulta ergodico costituiscono il bordo di questo insieme convesso,
ovvero che ogni misura conservata si pu` o sempre scrivere, ancora in un senso oppor-
tuno, come combinazione di misure ergodiche (in generale ne occorrono innite). Un
esempio elementare è dato dal moto su TT
2
con velocit` a v = (v
x
, v
y
) = (f(y), 0), con
f(y) qualsiasi non nulla: per ogni y esiste con evidenza una misura invariante
y
con
supporto sulla sezione orizzontale TT
1
y
di ascissa y, uniforme su di essa, e ancora con
evidenza ciascuna di queste misure è ergodica. Si ottiene poi una misura invariante
prendendo una successione (eventualmente innita) y

j
, e ponendo
j
c
j
y
j
, c
j
> 0 j ,
j
c
j
= 1 ;
similmente si ottiene una misura invariante
ponendo
=
_
1
0
(y)
y
dy , > 0 ,
_
1
0
(y)dy = 1 .
Si intuisce, e si potrebbe dimostrare, che ogni misura invariante ammette la decom-
posizione
=
+ (1 )
,
con
come sopra. In generale, assegnato un sistema dinamico (M, , ), è

sempre possibile decomporre M in sottoinsiemi invarianti M
, con indice discreto

e/o continuo, ciascuno munito di una misura
tale che (M
, ) sia ergodico, e
44
I. Teoria ergodica 7. Intermezzo...
contemporaneamente scrivere la misura come sovrapposizione delle
. Tale oper-
azione prende il nome di decomposizione ergodica del sistema (o della misura); si veda
ad esempio il testo citato di Cornfeld et. al.
Osservazione. Per sistemi con un punto sso x globalmente attrattivo (oscillatore
armonico smorzato o sistemi simili) lunica misura conservata è quella banale, che as-
segna misura uno a ogni insieme contenente x, zero a ogni insieme che non contiene x.
Per sistemi come lequazione di Van der Pol, che hanno unorbita periodica attrattiva,
o sistemi con attrattori pi` u complicati (si veda il secondo capitolo), le uniche misure
conservate hanno necessariamente supporto sullattrattore, la cui misura di Lebesgue
è nulla. Sistemi di questo tipo sono detti dissipativi perchè non si conserva nessuna
misura continua rispetto alla misura di Lebesgue. Per sistemi con attrattori si pone
il problema, molto interessante, di determinare le misure conservate e le misure er-
godiche sullattrattore, e anche di connettere in qualche modo tali misure alla misura
di Lebesgue nel bacino di attrazione (capitolo secondo, paragrafo 6).
Un esempio di sistemi dinamici in cui coesistono misure ergodiche diverse è oerto dagli
schemi di Bernoulli: ad esempio, gli schemi di Bernoulli a due simboli B
p,1p
, hanno tutti
il medesimo spazio M (le sequenze qualsiasi di simboli), la medesima algebra (generata
dai cilindri), e il medesimo automorsmo (lo slittamento a sinistra), ma dieriscono nella
misura. Daltra parte, tutti questi sistemi sono ergodici: dunque, al variare di p abbiamo
innite misure ergodiche, ciascuna delle quali ha supporto in un insieme che per tutte le
altre ha misura nulla. Del resto si era gi` a visto (esercizio alla ne del paragrafo 4.2) che,
coerentemente con le considerazioni qui svolte, la misura dello schema di Bernoulli B
p,1p
ha supporto nellinsieme M
p
delle stringhe in cui il simbolo 0 ha frequenza p. Tutti gli
M
p
sono a due a due disgiunti.
7. Intermezzo: il problema di FermiPastaUlam;
il problema di Henon e Heiles.
7.1. Il lavoro numerico di Fermi, Pasta e Ulam
Nel 1954 Fermi, Pasta e Ulam impiegarono uno dei primi calcolatori elettronici mai costru-
iti, il MANIAC I dei Laboratori di Los Alamos, per simulare il comportamento di un
sistema hamiltoniano, interessante per la meccanica statistica, tramite la risoluzione nu-
merica delle sue equazioni microscopiche del moto. Ne usc` un lavoro rivoluzionario,
44)
che dava il via a un metodo nuovo di ricerca per il quale fu presto coniato il nome, assai
espressivo, di esperimenti numerici. In eetti, a partire da questo lavoro si cominci` o a
capire che il calcolatore non serve solo a far di conto velocemente, ma
45)
pu` o essere stru-
44)
Fu questo lultimo lavoro di Fermi. Il lavoro apparve anzi postumo, nel 1955, nella forma di rapporto
interno dei Laboratori di Los Alamos.
45)
Se usato con intelligenza, siamo costretti ad aggiungere oggi.
45
mento di comprensione anche profonda, perchè pu` o mettere in evidenza nuovi fenomeni,
mettere alla prova idee e congetture, e in denitiva aprire spazi alla ricerca, al pari di ogni
nuova potente tecnica sperimentale.
Il modello di Fermi, Pasta e Ulam (FPU) è costituito da una catena di n + 2 par-
ticelle identiche su una retta (n particelle mobili, due sse agli estremi) interagenti con
forze debolmente non lineari; si tratta di uno dei pi u semplici sistemi, rilevanti per la
meccanica statistica, per i quali sia interessante il problema ergodico. Se indichiamo con
q
1
, . . . , q
n
lo spostamento delle particelle mobili dalla posizione di equilibrio, con p
1
, . . . , p
n
i loro momenti, con m la loro massa, e con m
2
la costante elastica lineare della forza,
lhamiltoniana di Fermi, Pasta e Ulam si scrive
H =
n
l=1
p
2
l
2m
+m
2
n+1
l=1
_
1
2
(q
l
q
l1
)
2
+

r
(q
l
q
l1
)
r
_
, q
0
= q
n+1
= 0 , (7.1)
con r = 3 oppure r = 4; le corrispondenti equazioni del moto, in forma del secondo ordine,
sono
q
l
=
2
(2q
l
q
l1
q
l+1
)
2
[(q
l+1
q
l
)
r1
+(q
l
q
l1
)
r1
] , l = 1, . . . , n . (7.2)
Il parametro misura la nonlinearit` a delle forze, ma è chiaro che la nonlinearit` a del sistema
dipende, oltre che da , dallenergia: infatti, al crescere dellenergia le ampiezze dei moti
crescono, e con esse cresce il contributo relativo del termine non lineare. Formalmente è
facile vedere che, grazie allomogeneit` a della parte non lineare del potenziale, la nonlinearit` a
del sistema è ben caratterizzata dal solo parametro adimensionale = (
E
m
2
)
r
2
1
, ove
c = E/n è lenergia specica, nel senso che al variare di m, , e E, in modo che
resti invariata, si ottengono moti del sistema esattamente identici, a meno di un banale
cambiamento di scala o ridenizione delle unit` a di misura (luso di c al posto di E da
questo punto di vista non è rilevante, ma è spontaneo se si pensa a un limite di n grande).
Infatti, il riscalamento
p = p , q = q , t =
t
muta lhamiltoniana H in
H( p, q) =

H( p, q) ,
e si vede immediatamente che

H ha ancora la forma (7.1), con nuove costanti
m =

m ,

= , =
r2
,
mentre la nuova energia è evidentemente

E =

E; al variare di , e si ottengono cos`

valori arbitrari di m, , e E, col solo vincolo che resti costante la quantit` a adimensionale
introdotta sopra.
Per piccola nonlinearit` a è sensato introdurre i modi normali armonici del sistema, che
risultano essere dati dalle somme di Fourier nite
k
=
n
l=1
U
kl
q
l
, U
kl
=
_
2
n + 1
sin
kl
n + 1
,
46
k = 1, . . . , n. Non è dicile vericare che in queste nuove variabili le equazioni del moto
del sistema assumono la forma
k
+
2
k
k
= F
k
(
1
, . . . ,
n
) ,
k
= 2sin
k
2(n + 1)
, (7.3)
ove F
k
è un (complicato) polinomio omogeneo di grado r 1 in
1
, . . . ,
n
. Si verica anche
senza dicolt` a che risulta
n
j=1
U
kj
U
jl
=
kl
,
ovvero che la matrice U = (U
kl
) coincide con linversa (oltre che, ovviamente, con la
trasposta), cosicche la trasformazione inversa è la medesima (la trasformazione è involu-
toria), e anche la trasformazione sulle variabili coniugate, che chiameremo
1
, . . . ,
n
, è la
medesima. Inne, lhamiltoniana nelle nuove variabili prende la forma
K(, ) =
n
k=1
E
k
+V () , E
k
=

2
2m
+
m
2
k
2

2
k
,
ove V è un (complicato) polinomio di grado r nelle
k
.
Esercizio. Si verichino esplicitamente queste aermazioni.
Per = 0 i modi normali si comportano come oscillatori armonici disaccoppiati, cosicche le
loro energie E
k
sono integrali primi del moto; in queste condizioni, ovviamente, il sistema
è decisamente non ergodico. La domanda spontanea allora è se per piccolo (piccolo
, o basse energie) laccoppiamento sia in grado di rendere ergodico il sistema, rendendo
sensata una trattazione statistica. Se cos` fosse, in particolare, ci si dovrebbe aspettare la
validit` a del principio di equipartizione dellenergia (basato in modo essenziale sullipotesi
ergodica), in base al quale le medie temporali
E
k
(T) =
1
T
_
t
0
E
k
(t) dt
convergono (approssimativamente, per via del contributo energetico dei termini nonlineari
che tuttavia è piccolo per bassa nonlinearit` a) al medesimo valore E/n.
Fermi, Pasta e Ulam si misero in condizioni di piccola nonlinearit` a, e posero il sis-
tema fortemente fuori dallequilibrio, assegnando una condizione iniziale in cui solo uno
o pochi modi normali (con k piccolo) fossero inizialmente eccitati. Essi condussero nu-
merosi esperimenti numerici, in modelli con n = 32 o 64, variando un po (ma non di
molto) le condizioni iniziali e la nonlinearit` a. Si aspettavano di osservare un rapido usso
di energia dai modi eccitati a tutti gli altri modi, che conducesse abbastanza in fretta il
sistema allequipartizione: anzi, scopo dichiarato del lavoro era proprio la stima del tempo
necessario al raggiungimento dellequilibrio statistico. Essi si trovarono invece di fronte a
tuttaltro genere di fenomeno:
46)
46)
Let us here say that the results of our numerical computations show features which were, from the
beginning, surprising to us. Instead of a gradual, continuous ow of energy from the rst mode to
the higher modes, all of the problems show an entirely dierent behavior. (...) Instead of a gradual
increase of all the higher modes, the energy is exchanged, essentially, among only a certain few. It is,
therefore, very hard to observe the rate of thermalization or mixing in our problem, and this was
the initial purpose of the calculation.
47
Bisogna dire che i risultati dei nostri calcoli numerici presentano caratter-
istiche che ci sorpresero n dal principio. Invece di un continuo, progressivo
usso di energia dal primo modo ai modi pi u alti, tutto indica un compor-
tamento completamente diverso. (...) Invece di un progressivo aumento di
energia di tutti i modi alti, lenergia è scambiata, essenzialmente, solo da
pochi di essi. E pertanto ben dicile osservare il ritmo di termalizzazione,
o mescolamento nel nostro sistema, che pure era lo scopo iniziale del calcolo.
La mancanza di equipartizione è evidente in gura 7.1, che riporta le energie medie dei modi
normali, pi` u precisamente i rapporti E
k
(T)/E, in funzione di T (in scala logaritmica), per
un modello con 0.026, precisamente n = 32, r = 3, m = 1, = 1, = 0.1, c = 0.07;
il tempo massimo di integrazione è qui
47)
T
M
2.2 10
6
. Le prime quattro curve,
dallalto in basso, rappresentano E
1
(T), . . . , E
4
(T), mentre lultima rappresenta la somma
E
5
(T) +. . . +E
32
(T). Come si vede, lenergia (data tutta inizialmente al primo modo) è
condivisa sostanzialmente da pochi modi normali, e certo non in egual misura.
1
2
3
4
532
Figura 7.1. I rapporti E
k
(T)/E, k = 1, . . . , 4 (linea continua), e
la somma
32
k=5
E
k
(t)/E (linea tratteggiata), in funzione di T, per il
modello di FPU con n = 32, r = 3, m = 1, = 1, = 0.1 e E = 0.07.
Unimmagine pi u precisa del carattere della dinamica in queste condizioni si pu` o avere
guardando al comportamento delle energie istantanee E
k
(t) dei modi normali maggior-
mente coinvolti nella dinamica. La gura 7.2a rappresenta E
k
(t) in funzione di t, per
k=1,2 e 3. E evidente la presenza di una ricorrenza nel sistema, per tempi molto su-
periori al tempo proprio microscopico
1
= 1: ad esempio, la ripartizione dellenergia
riappare simile a quella iniziale, anche se non identica, per T 10
4
e T 2 10
4
, mentre
47)
Tempi di integrazione cos` lunghi erano inaccessibili ai calcolatori degli anni 50, mentre oggi si
raggiungono facilmente con pochi minuti di calcolo su macchine di media potenza.
48
ricorrenze pi u precise (Tuck, 1968) si trovano su tempi pi u lunghi, come si pu` o vedere dalla
gura 7.2b, che riporta E
1
(t) in funzione di t, esattamente come nella gura precedente,
ma su di un arco di tempo circa 20 volte pi` u grande.
1
2
3
Figura 7.2. Il fenomeno della ricorrenza. In alto: energie istantanee
E
k
(t), per k = 1, 2, 3, in funzione di t, nelle stesse condizioni della
gura precedente. In basso: energia istantanea E
1
(t), ancora nelle
stesse condizioni, su una scala di tempo pi` u lunga.
Dallinsieme di questi risultati numerici si ha limpressione che il problema ergodico, in
un sistema di interesse sico come il modello di FPU, sia tuttaltro che banale, e le propriet` a
49
sicamente pi` u fondamentali, come la buona circolazione dellenergia tra i modi normali
del sistema, siano tuttaltro che scontate: almeno sui tempi esplorati in questi esperimenti
numerici, non si trova alcun segno che il sistema stia in qualche modo evolvendo verso una
situazione di equilibrio, o perdendo in qualche senso la memoria della speciale condizione
iniziale assegnata.
Che ci` o fosse invece, per cos` dire, a priori possibile per un simile modello, su questa
stessa scala dei tempi, si pu` o vedere cambiando o lenergia, in modo da aumentare
a sucienza la nonlinearit` a.
48)
Per abbastanza grande, infatti, il comportamento del
modello progressivamente cambia, no a che, per 0.1, si ottiene (sulla medesima scala
di tempo) una situazione di buona equipartizione dellenergia tra tutti i modi normali.
Questa situazione è illustrata in gura 7.3, che si riferisce allo stesso modello con c = 1.2
(e tutti gli altri parametri invariati), e riporta E
k
(T) in funzione di T, per k = 1, . . . , 32
(per dare maggiore chiarezza alla gura, anche la scala delle energie è qui logaritmica).
1
32
Figura 7.3. Il comportamento di E
k
(T)/E, k = 1, . . . , 32, per non-
linearit` a pi` u elevata, precisamente E = 1.2 e n, r, m, e come sopra.
Questo strano comportamento, rivelato con tale chiarezza dal calcolo numerico, apre
la porta a diverse questioni, non facili ed anzi piuttosto sottili. La prima di esse riguarda
ladabilit` a del calcolo numerico su tempi di integrazione cos lunghi. A questo problema,
veramente delicato, non ci possiamo qui dedicare come esso meriterebbe, e pertanto ci
limiteremo ad una sola considerazione: purchè il calcolo sia abbastanza accurato (piccoli
passi di integrazione, buon algoritmo), i risultati si presentano ben stabili al variare della
macchina, dellalgoritmo, dei parametri in esso introdotti. Questo elementare criterio di
adabilit` a osservare la stabilit` a dei risultati al variare degli accidenti introdotti nella
procedura di calcolo numerico è di regola assai signicativo.
48)
Stranamente, gli autori lavorarono sempre a basse nonlinearit` a, e non si accorsero del fenomeno che
andiamo ora a descrivere, che fu osservato solo nel 1966 da Chirikov e collaboratori.
50
Una seconda naturale questione riguarda la rilevanza dei fenomeni osservati per la
meccanica statistica: 32 o 64 particelle sono ben poche rispetto al numero di molecole
contenute in una inma porzione di materia ordinaria, e si potrebbe congetturare che la
mancanza di ergodicit` a scompaia aumentando n (a ssato E/n). Va detto che questa pos-
sibilit` a si presenta cos semplice e naturale, che fu la prima ad essere prospettata dai sici
intervenuti sul problema. Fino ad oggi, tuttavia, non si sono mai trovate indicazioni chiare
che la crescita di n muti in modo signicativo il comportamento del sistema: variazioni di
n di un fattore 10 o 100 apparentemente non introducono novit` a sostanziali.
Un ultimo problema riguarda la scala di tempo, anchessa ovviamente assai limitata,
accessibile alle esperienze numeriche. E infatti a priori possibile interpretare tutti i risul-
tati sopra riportati, pensando che lequilibrio statistico si raggiunga comunque, ma su
scale di tempo che, per bassa non linearit` a, sono cos lunghe da non poter essere viste
nellambito delle possibilit` a attuali del calcolo numerico. Diversi tentativi sono stati fatti
anche in questo senso, e per molti anni, nonostante la crescita della potenza di calcolo
delle macchine, al crescere del tempo di integrazione non si è trovato, si pu` o dire, niente di
nuovo. Di recente per` o (Kantz et. al., 1994) si sono trovati nuovi risultati (da considerarsi
ancora preliminari) che rendono nuovamente incerta la situazione: sembra che una lenta
evoluzione verso lequipartizione avvenga anche a bassa nonlinearit` a, ma i tempi a cui si
ottiene (in un senso precisabile) un ssato grado di equipartizione non solo possono di-
ventare anche molto grandi al calare della nonlinearit` a, ma apparentemente crescono con il
numero di gradi di libert` a, rendendo assai incerta linterpretazione sica del fenomeno.
49)
In conclusione: la situazione a oltre quarantanni dai primi risultati numerici, e
a dispetto della crescita enorme della potenza di calcolo che si è avuta in questarco di
tempo ancora non è chiara, e il minimo che si pu` o dire è che il problema posto allora
da Fermi, Pasta e Ulam (con coraggio non indierente, a fronte di risultati tutto sommato
ancora poveri) ancor oggi resiste non abbastanza capito.
7.2. Il modello di Henon e Heiles
Vediamo qui un altro studio numerico diventato famoso, precisamente lo studio eseguito
nel 1964 da Henon e Heiles su un modello (apparentemente) elementare a due soli gradi
di libert` a, costituito da due oscillatori armonici accoppiati da un termine non lineare.
Il modello di Henon e Heiles nasce da una motivazione di carattere astronomico, lo
studio delle propriet` a statistiche del moto di una stella in una galassia a simmetria assiale (il
moto di una stella nel campo medio di tutte le altre, che si suppone assegnato e a simmetria
assiale). Il problema ha tre gradi di libert` a, ma la conservazione del momento angolare
consente di ridurre il numero eettivo di gradi di libert` a a due soli. Ci si mette allora
in prossimit` a di un punto di equilibrio stabile del sistema ridotto (unorbita circolare del
problema completo) e l` attorno si trova, evidentemente, una coppia di oscillatori armonici
(i due modi normali del sistema) accoppiati da un termine non lineare.
Con questa motivazione alle spalle (motivazione peraltro abbastanza irrilevante dal
nostro punto di vista) gli autori decisero di studiare lhamiltoniana
H =
1
2
(p
2
1
+q
2
1
) +
1
2
(p
2
2
+q
2
2
) +q
2
1
q
2
1
3
q
3
2
;
49)
Sul problema della possibile esistenza di scale di tempo lunghe nella dinamica di un sistema hamil-
toniano debolmente accoppiato avremo occasione di tornare nel terzo capitolo.
51
come si vede, massa, pulsazioni e costante di accoppiamento sono poste uguali a uno,
cosicche la nonlinearit` a (in accordo a quanto sopra visto per il modello di Fermi, Pasta e
Ulam) è misurata dalla stessa energia.
Il problema è di capire se, oltre allenergia (e al momento angolare, di cui per` o si è
gi` a tenuto conto al momento di ridurre il sistema), esiste una ulteriore quantit` a regolare
50)
conservata, nel qual caso il moto è necessariamente ristretto a una supercie a 2n 2 = 2
dimensioni, immersa nella supercie di energia costante a 2n 1 = 3 dimensioni, ed è
ovviamente non ergodico; o se invece, in assenza di altri integrali del moto (regolari) oltre
allenergia, lorbita pu` o invadere liberamente la supercie di energia costante.
Il comportamento del sistema alle diverse energie si studia bene con il metodo della
sezione di Poincare, cui si è gi` a accennato nel paragrafo 2.1. In questo caso è comodo pren-
dere come sezione liperpiano di equazione q
1
= 0, orientato nel verso delle q
1
crescenti,
e considerare la mappa che a ogni punto x associa la prima intersezione con stesso
(nel verso positivo, ovvero con q
1
= p
1
> 0) dellorbita uscente da x. In pratica, a ogni
orbita continua del sistema resta associata una successione discreta di punti, la successione
delle sue intersezioni con (con p
1
> 0). Ora, per la conservazione dellenergia, i punti
di intersezione appartengono sicuramente ad una supercie bidimensionale , intersezione
di con la supercie di energia costante, e dunque si possono rappresentare con due co-
ordinate, ad esempio p
2
e q
2
(ssate tali coordinate, lo stato del sistema nello spazio delle
fasi è ben denito, perchè si ha q
1
= 0, mentre p
1
> 0 è univocamente determinato dalla
conservazione di E). Dovendo risultare p
2
1
= 2Ep
2
2
q
2
2
+
2
3
q
3
2
> 0, segue immediatamente
che le successive intersezioni sono limitate a priori alla regione del piano q
2
, p
2
compresa
tra le curve p
2
=
_
2E q
2
2
+
2
3
q
3
2
. Tornando alla domanda che ci siamo posti, ovvero se
esista o meno lulteriore integrale del moto, è chiaro che la sua eventuale esistenza costringe
le intersezioni generate da una stessa orbita a soddisfare una equazione in pi` u, e dunque
a stare su di una curva regolare contenuta in , mentre se lintegrale manca le successive
intersezioni possono invadere lintera zona accessibile.
La gura 7.4a mostra il risultato che si ottiene per diverse condizioni iniziali a energia
sucientemente bassa, in questo caso E = 0.08; come si vede, le intersezioni delle diverse
orbite vanno a formare curve ben denite contenute in , cioè il secondo integrale del moto
sembra esistere, e il sistema sembra essere decisamente non ergodico. A energie di poco
superiori tuttavia la situazione cambia drasticamente: come mostra la gura 7.4b, che
si riferisce a E = 0.125, per alcune condizioni iniziali ritroviamo la situazione precedente,
mentre per altre appare un comportamento nuovo: i punti di intersezione, non pi` u allineati
in curve, vanno spargendosi su di unarea bidimensionale (tutti quelli tracciati in gura
provengono da una stessa orbita). Questa regione ove le curve sono scomparse è chiamata
regione caotica: praticamente inesistente no a E 0.1, essa cresce rapidamente in
misura al crescere di E, no a diventare dominante per E 0.166666, come si vede in
gura 7.4c (per valori di E superiori a 1/6 si vede facilmente che le superci di energia
costante non sono pi` u compatte, e lindagine perde di senso). La gura 7.4d mostra
una rozza stima dellarea ricoperta dalle curve regolari, al variare di E. Vediamo cos` il
progressivo instaurarsi di un comportamento di tipo ergodico al crescere della non-linearit` a;
50)
Ovviamente lanalisi numerica deve restringersi a funzioni regolari, mentre di per se la classe delle
funzioni rilevanti per la teoria ergodica è la classe, immensa e orribile, delle funzioni misurabili. Va
detto che qui si tocca un punto delicato nellambito della rilevanza sica della teoria ergodica.
52
(a) (b)
(c) (d)
Figura 7.4. La mappa di Poincare per il sistema di Henon e Heiles:
(ac) sezioni a E = 0.08, 0.125, 0.166666; (d) proporzione della regione
caotica al variare di E.
per molti aspetti è lo stesso fenomeno che abbiamo visto precedentemente a proposito del
modello di FPU. Va anche detto che il comportamento del modello di Henon e Heiles non
è eccezionale, ma tipico dei sistemi dinamici a due gradi di libert` a in condizioni di debole
accoppiamento (pi` u precisamente sistemi quasi integrabili, si veda il terzo capitolo).
Il modello di Henon e Heiles ha avuto un grande impatto nella ricerca sui sistemi
dinamici, almeno in ambito sico: ha mostrato infatti con disarmante chiarezza che sistemi
dinamici dallaria semplice e innocente, come due oscillatori armonici accoppiati da un
termine cubico, possono avere un comportamento inaspettatamente complicato, e ha cos`
contribuito a far capire che limmagine della meccanica classica quale era tramandata
53
da una generazione di sici allaltra era nel complesso povera. Come avremo modo di
discutere nel secondo e terzo capitolo, negli stessi anni la ricerca matematica sui sistemi
dinamici faceva passi da gigante, consentendo una comprensione assai pi` u profonda di
quella accessibile tramite il calcolo numerico (e anzi, come vedremo, rivelando una ricchezza
e una complicazione ben maggiore di quella che appare dagli studi numerici). Ma il minimo
che si possa dire è che studi numerici come quello di Henon e Heiles, facendo in qualche
modo vedere e toccare i moti caotici,
51)
hanno avuto il merito di far capire, soprattutto
tra i sici, la rilevanza dello studio dei sistemi dinamici non lineari.
Per unesposizione pi` u ampia di questi e altri risultati numerici si veda ad esempio
M. Henon, Numerical exploration of dynamical systems, lezioni tenute alla Scuola di Les
Houches 1980: Chaotic behavior of deterministic systems (North-Holland, Amsterdam
1982).
8. Introduzione alla dinamica simbolica
8.1. Partizioni e dinamica simbolica
Abbiamo considerato no ad ora mappe
t
: M M, ove lo spazio M ha come
struttura primaria di riferimento la misura. In questo breve paragrafo di introduzione alla
dinamica simbolica faremo invece riferimento solo occasionalmente alla presenza di una
misura invariante, attribuendo invece a M la semplice struttura di spazio metrico. Scopo
del paragrafo è solo quello di prender familiarit` a con la nozione di dinamica simbolica (che
prescinde per se da quale sia la struttura di riferimento su M) e cos` preparare la strada alla
successiva importante nozione di entropia, nella quale invece la misura gioca nuovamente
un ruolo essenziale.
52)
Denizione. La coppia (M, ), con M spazio metrico separabile completo e home-
omorsmo: M M (ovvero: gruppo a un parametro di homeomorsmi
t
: M M,
t lR), è detta sistema dinamico topologico discreto (ovvero continuo, detto anche usso
topologico).
Il caso tipico da avere in mente è quello di una variet` a compatta dotata di metrica (variet` a
riemanniana), ma non è lunico; in particolare, anche linsieme astratto di stringhe a n
simboli, che per evitare conitti di notazione indicheremo qui
=
_
= ( . . . ,
1
,
0
,
1
, . . . ) ,
t
I = 0, . . . , n 1
_
,
51)
Cè chi crede senza bisogno di vedere, e chi per credere ha bisogno di vedere. Lautore di queste note
ha deciso di dedicarsi ai sistemi dinamici dopo aver visto.
52)
Ma vi sono varianti interamente topologiche, e assai interessanti anche se forse pi` u astratte, dellidea
di entropia.
54
I. Teoria ergodica 8. Introd. dinamica simbolica
si pu` o dotare di una metrica, ponendo ad esempio
dist(,
) =
tZZ
2
|t|
(
t
,
t
) , (
t
,
t
) =
_
0 per
t
=
t
1 per
t
,=
t
(8.1)
Si osservi che con tale metrica lapplicazione : introdotta a proposito degli schemi
di Bernoulli, precisamente la traslazione a sinistra denita da
_
()
_
t
=
t+1
,
è un homeomorsmo. Ci restringiamo di qui in avanti al caso discreto; dal caso continuo
ci si pu` o riportare al caso discreto semplicemente considerando la mappa al tempo uno,
=
1
.
Consideriamo allora una partizione nita di M, ovvero una collezione
=
_
A
0
, . . . , A
n1
_
, A
i
M ,
tale che
A
i
A
j
= ,
_
0i<n
A
i
= M ;
gli elementi A
0
, . . . , A
n1
sono anche detti atomi della partizione. Possiamo pensare alla
partizione come a una osservazione discreta del sistema, ovvero a una operazione di
misura con un insieme nito di esiti a priori possibili. Gli atomi A
i
dovranno essere ben
fatti con riferimento alla struttura importante di M: cos`, nel caso della misura, dovranno
essere insiemi misurabili; nel caso topologico che qui abbiamo introdotto non possiamo
chiedere che siano aperti (perchè non si pu` o fare una partizione in aperti), ma chieder-
emo che siano prossimi ad aperti, diciamo contenuti nella chiusura del loro interno;
53)
nelleventualit` a poi che M, come nei sistemi classici, abbia struttura di variet` a, si chieder` a
in aggiunta che il bordo degli atomi sia unione di sottovariet` a.
Fissata dunque una partizione , per ogni dato iniziale x M resta univocamente
individuata la storia di x, precisamente la stringa
(x) =
t
, t ZZ ,
t
=
t
(x) I ,
denita da
t
(x) = l I se
t
(x) A
l
. (8.2)
Al variare di x in M si ottiene cos` un sottoinsieme
M
dellinsieme di tutte le stringhe
a n simboli. La corrispondenza (8.2) tra x e (x), cioè la denizione di : M
M
,
è chiaramente fatta in modo che allapplicazione : M M resti coniugata lapplicazione
: sopra considerata:
= .
53)
Incontreremo pi` u avanti, nei prossimi capitoli, insiemi ben diversi: insiemi di Cantor, con interno
vuoto, ma non numerabili e anche di misura positiva (e grande). Li incontreremo non come bizzarrie,
ma come oggetti naturali della teoria, in connessione ad esempio a sistemi hamiltoniani (apparente-
mente) semplicissimi come il modello di Henon e Heiles precedentemente considerato.
55
Questa dinamica in uno spazio di stringhe di simboli, che resta associata al sistema dinam-
ico considerato tramite la partizione prescelta, prende il nome di dinamica simbolica.
Si pongono allora naturalmente due problemi:
i. preliminarmente, studiare la biunivocit` a della corrispondenza tra M e la sua immagine
M
in (punti diversi potrebbero avere la stessa storia);
ii. studiare in qualche modo le propriet` a delle stringhe eettivamente realizzate (
M
), e per questa via caratterizzare i moti realizzati dal sistema (M, ), osservati
attraverso .
Per formalizzare il primo problema, diamo la seguente
Denizione. La partizione si dice separante per il sistema (M, ), se punti diversi
hanno necessariamente storie diverse:
(x) = (y) = x = y .
Le partizioni separanti sono dunque, per denizione, quelle per cui il primo problema non
si pone (lapplicazione è iniettiva). Una tipica condizione suciente perche un sistema
dinamico topologico (M, ) ammetta partizioni separanti, è che il sistema sia espansivo:
Denizione. Il sistema dinamico topologico discreto (M, ) si dice espansivo, se esiste
> 0 tale che
dist(
t
(x),
t
(y)) < t ZZ = x = y .
E immediato vedere che se (M, ) è espansivo allora esistono partizioni separanti (basta
prendere atomi con diametro minore di ). E espansivo ad esempio il Gatto di Arnold;
è espansivo lo stesso sistema dinamico (, ), se si fa riferimento alla metrica (8.1): infatti,
se e
sono diverse, esiste t ZZ, tale che

t
,=
t
; ma allora dist(
t
(),
t
(
)) 1, e
questo basta.
8.2. Stringhe statisticamente regolari; complessità di una stringa
Veniamo ora al secondo problema, assai interessante. Questo pu` o essere arontato in modi
e con punti di vista diversi. Qui cercheremo soltanto di caratterizzare in qualche modo
54)
le
singole stringhe di caratteri associate ai suoi moti, pi` u che altro per prendere dimestichezza
con la dinamica simbolica; lo studio globale del sistema nel suo complesso è demandato
al prossimo paragrafo (ove faremo di nuovo riferimento pieno alla misura, e introdurremo
allo scopo la nozione di entropia).
55)
54)
In modo in realt` a non molto ranato; per una trattazione pi` u approfondita, si veda G. Gallavotti,
Aspetti della teoria ergodica, qualitativa e statistica del moto (Pitagora, Bologna 1981).
55)
Pu` o essere utile, per cogliere la logica della parte restante del paragrafo, pensare alla stringa in esame
come a un (lungo!) testo, cui applichiamo una primitiva analisi linguistica.
56
Preso allora x M, sia (x) = ( . . . ,
1
,
0
,
1
, . . . ) la sua storia. Diremo che (x)
contiene il tratto nito di base k
1
, . . . , k
m
e specicazione l
1
, . . . , l
m
, denotato
_
l
1
, . . . , l
m
k
1
, . . . , k
m
_
,
se
k
1
= l
1
, . . . ,
k
m
= l
m
, ovvero se (x) (
l
1
,...,l
m
k
1
,...,k
m
, ovvero ancora se
x
1im
k
i
(A
l
i
) .
Due tratti di ugual lunghezza si diranno omologhi, se hanno identica specicazione, e basi
k
1
, . . . , k
m
e k
1
, . . . , k
m
traslate (k
i
= k
i
+s per ogni i, con opportuno s).
Prendiamo allora una stringa ; una prima idea per studiarla pu` o essere quella di
guardare alla frequenza con cui appaiono tratti omologhi a un tratto assegnato: per
questo poniamo (se esiste)
(
_
l
1
,...,l
m
k
1
,...,k
m
) = lim
t
N
t
t
,
con N
t
= numero di indici s tra 0 e t 1, tali che
s+k
i
= l
i
, i = 1, . . . , m. Diremo che la
stringa ha frequenze denite, o anche che è statisticamente regolare, se il limite esiste per
ogni scelta del tratto.
Osservazione. Si vede subito che per la stringa (x) si ha
(
_
l
1
,...,l
m
k
1
,...,k
m
) = tempo di soggiorno di
t
(x) in
1im
k
i
(A
l
i
) ;
perci` o (teorema di BirkhoKinchin) se (M, ) ammette una misura conservata ,
allora per quasi ogni x la stringa (x) ha frequenze denite. Se poi (M, ), dotato
della misura , è ergodico, allora per quasi ogni x tali frequenze sono indipendenti
da x, e uguali alla misura di

1im

k
i
(A
l
i
). Viceversa, si potrebbe vedere che
ogni stringa (x) a frequenze denite induce una misura
x
su M, tale che al generico
insieme
1im
k
i
(A
l
i
) resta assegnata una misura uguale alla frequenza del tratto
corrispondente (la algebra degli insiemi misurabili è quella generata dagli atomi A
i
e dai loro iterati
t
(A
i
), i = 0, . . . , n 1, t ZZ).
Una volta stabilite le frequenze con cui appaiono i singoli tratti, queste si possono usare
naturalmente come probabilit` a a priori dei tratti, senza bisogno che sia assegnata in prece-
denza una misura su M o su . In particolare si pu` o studiare la funzione di correlazione
temporale di due tratti qualsiasi
_
l
1
,...,l
m
k
1
,...,k
m
e
_
l
1
,...,l
1
,...,k
, denita nel modo naturale:

((t) =
_ _
l
1
, ... , l
m
, l
1
, ... , l
k
1
,...,k
m
,t+k
1
,...,t+k
_ _
l
1
,...,l
m
k
1
,...,k
m
_
_ _
l
1
,...,l
1
,...,k
_
(si confronti ( con lanaloga funzione introdotta nel paragrafo 5.3). Se la correlazione
decade, ovvero se
lim
t
((t) = 0
57
per ogni scelta dei tratti, la stringa si dir` a mescolante.
56)
Una stringa pu` o essere molto semplice, ad esempio essere periodica, o essere pi` u
complessa. Si pu` o introdurre una nozione formale di complessità
57)
di una stringa (o se
vogliamo del corrispondente moto di (M, ) visto attraverso ), cercando di caratterizzare
in qualche modo la variet` a dei tratti niti in essa presenti. Possiamo limitarci ai tratti
con indici di base consecutivi, ovvero tratti omologhi a
_
l
0
, . . . , l
t1
0, . . . , t 1
_
, (8.3)
detti tstorie. Sia N
t
il numero di tstorie presenti nella stringa con frequenza non nulla,
distinte tra loro, cioè non omologhe; tale numero è soggetto allovvia limitazione
N
t
n
t
(8.4)
(luguaglianza si ha quando tutti i tratti di lunghezza t che si possono scrivere con gli n
simboli a disposizione sono eettivamente presenti nella stringa), e anche
N
t+s
N
t
N
s
(8.5)
(luguaglianza si ha quando ciascuno dei tratti di lunghezza t presenti nella stringa pu` o
essere seguito da uno qualunque dei tratti di lunghezza s). Avendo in mente la crescita
massima (8.4), possiamo denire la complessit` a H della stringa ponendo
58)
H() = lim
t
1
t
Log N
t
, Log := log
2
; (8.6)
si dimostrer` a che il limite esiste sempre. La scelta di log
2
al posto del logaritmo natu-
rale, ad esso proporzionale, è del tutto irrilevante: è naturale in teoria dellinformazione,
nellambito della quale tutte queste cose sono nate, ma in letteratura si trova, per problemi
di questo genere, indierentemente luna o laltra scelta. Per la (8.4), H è limitata da
H() Log n .
Poniamo
h
t
=
1
t
Log N
t
;
56)
Ha anche senso dire che la singola stringa è ergodica, chiedendo per questo che risulti
lim
t
t
1
t1
s=0
(s) = 0 .
Si potrebbe vedere che se (M, ), munito a priori della misura , è ergodico (mescolante), e la
partizione è misurabile, allora per quasi ogni x la stringa (x) è ergodica (mescolante).
57)
Complessit` a è un termine dal multiforme signicato (non sempre ben denito), che varia a seconda del
contesto in cui viene usato. Oggi è frequentemente associato, ma in modo vago, ai cosiddetti fenomeni
caotici (essi stessi deniti in modo vago). Vago non signica poco interessante (H.A. Kramers: Nel
regno del pensiero umano in generale, e nella scienza sica in particolare, i concetti pi` u fecondi sono
quelli a cui è impossibile associare un signicato ben denito). Signica per` o che bisogna esercitare
una certa vigilanza.
58)
Vi sono varianti a questa denizione, in realt` a piuttosto ingenua; si veda il testo sopra citato di
G. Gallavotti.
58
la (8.5) si traduce allora nella relazione di subadditività
h
t+s

t
t +s
h
t
+
s
t +s
h
s
. (8.7)
La subadditivit` a è una propriet` a che in un certo senso generalizza la monotonicit` a: è
immediato vericare che ogni successione monotona non crescente è subadditiva, mentre
vi sono successioni subadditive non monotone (ad esempio h
t
= 0 per t pari, h
t
= t
1
per t dispari). La dimostrazione dellesistenza del limite (8.6) si riporta al seguente facile
lemma, che estende alle successioni subadditive una ben nota propriet` a delle successioni
monotone:
Lemma 8.1. Presa una qualunque successione subadditiva inferiormente limitata
h
1
, h
2
, . . . , esiste il limite
h = lim
t
h
t
,
e tale limite coincide con lestremo inferiore h = infh
t
, t ZZ
+
.
Dimostrazione. Bisogna dimostrare che per t sucientemente grande la dierenza
h
t
h è arbitrariamente piccola. Dalla denizione di h come inferiore della successione si
sa che preso comunque > 0 sicuramente esiste s = s() tale che
h
s
< h + ;
dalla subadditivit` a (8.7) segue subito h
js
h
s
, e quindi
h
t
< h + per t = js, j > 0 .
Sia ora t compreso tra js e (j + 1)s, diciamo t = js + k con 0 < k < s. Dalla (8.7) segue
immediatamente
h
t

js
js +k
h
js
+
k
js +k
h
k
< h + +
1
j + 1
h
k
,
e daltra parte, ancora dalla (8.7), risulta h
k
h
1
: pertanto
h
t
< h + 2
non appena j h
1
/, e dunque per ogni t T() := h
1
s()/. Lesistenza del limite è
cos` dimostrata.
Prese due qualsiasi partizioni = A
0
, . . . , A
n1
e
= A
0
, . . . , A
1
, si denisce
loperazione di composizione , ponendo

=
_
A
i
A
j
,= , 0 i < n, 0 j < n
_
(loperazione è con evidenza simmetrica e associativa). Sia allora
t
=
1
()
t+1
() =
0st1
s
() ,
59
avendo posto
t
() =
_
t
(A
0
), . . . ,
t
(A
n1
)
_
.
Poniamo poi n
t
= cardinalit` a di
t
. E evidente che vale la limitazione N
t
n
t
; nel caso
ergodico (e con atomi misurabili) N
t
= n
t
per quasi ogni x. Questo fatto pu` o essere utile
in qualche caso per calcolare H.
Esercizio. Si dimostri che per la rotazione di TT
1
, x (x) = x+ mod1, la complessit` a
di ogni orbita è nulla per ogni partizione in intervalli [suggerimento: se è razionale, le
orbite sono periodiche, e la complessit` a è certamente nulla. Se è irrazionale, si deduce
facilmente n
t
tn, ove n è il numero di intervalli della partizione iniziale].
Esercizio. Si studi la complessit` a delle orbite per la trasformazione di TT
1
denita da
x 2x mod 1, con partizione iniziale di TT
1
in [0,
1
2
), [
1
2
, 1).
Si vede immediatamente che n
t
soddisfa le limitazioni, analoghe alle (8.4) e (8.5), n
t
n
t
e n
t+s
n
t
n
s
; si pu` o essere allora tentati di introdurre una quantit` a del tipo
H = lim
t
1
t
Log n
t
per misurare la frammentazione della partizione
t
al crescere di t, e cos` caratterizzare
in qualche modo non pi` u la singola stringa o la singola orbita, ma la dinamica nel suo
complesso (il limite sicuramente esiste perche, come è immediato vericare,

H
t
=
1
t
log n
t
è subadditiva, e dunque si applica il lemma 8.1). Ma è unidea troppo ingenua, che non
porta lontano;
59)
per avere sviluppi interessanti occorre qualche cosa di pi` u ranato. La
via che seguiremo, spontanea nellambito della teoria ergodica, sar` a quella di reintrodurre
nel problema la misura, e tramite la misura valutare la frammentazione di una partizione
in modo pi` u elaborato del puro conteggio degli insiemi.
60)
59)
In particolare non è facile liberarsi dalla dipendenza, assai pesante, dalla partizione iniziale , e cos`
arrivare a una vera propriet` a intrinseca del sistema (invariante per isomorsmo). Facilmente infatti
avviene che, ranando ,

H diverge, per il formarsi di un gran numero di insiemi molto piccoli.
60)
Come gi` a si è accennato, esistono formulazioni interamente topologiche: ma comunque occorrono
metodi pi` u sosticati del puro conteggio. Si veda, in un testo di sistemi dinamici, la nozione di
entropia topologica.
60
I. Teoria ergodica 9. entropia di KolmogorovSinai
9. Lentropia di KolmogorovSinai
9.1. Informazione media di una operazione di misura
Riprendiamo qui i sistemi dinamici (M, , ) muniti di misura, classici o astratti, restrin-
gendoci per` o ancora, provvisoriamente, al caso discreto. Prenderemo in considerazione
partizioni
=
_
A
0
, . . . , A
n1
_
misurabili; per evitare piccoli fastidi è bene considerare equivalenti e identicare due
partizioni =
_
A
0
, . . . , A
n1
_
e =
_
B
0
, . . . , B
n1
_
se (con opportuno ordinamento)
gli atomi A
i
e B
i
, i = 0, . . . , n 1, sono identici a meno di insiemi di misura nulla:
(A
i
B
i
) = 0 (si tratta con evidenza di una relazione di equivalenza). In teoria
dellinformazione è naturale associare a il numero
() =
n1
i=0
p
i
Log p
i
, p
i
= (A
i
) , 0 Log 0 := 0 ,
chiamato entropia della partizione. E utile anche la scrittura
=
n1
i=0
(p
i
) , (p) := p Log p ;
il graco di è tracciato schematicamente in gura 9.1.
1/e
p
Figura 9.1. Il graco della funzione (p) = p Log p.
Cerchiamo di interpretare la denizione. Lidea è quella di valutare la incertezza a
priori di una operazione di misura che abbia n esiti A
0
, . . . , A
n1
possibili, mutuamente
escludentisi, con probabilit` a a priori p
0
, . . . , p
n1
; a sua volta, tale incertezza si pu` o inter-
pretare come informazione media, o informazione attesa, fornita dalloperazione di misura
una volta che questa venga eettuata. Cos` ad esempio, lincertezza dovr` a essere nulla
quando uno degli eventi è certo, massima in condizioni di totale uniformit` a; per n = 2,
lincertezza dovr` a essere crescente per
(p
0
, p
1
) = (0, 1) , (0.01, 0.99) , (
1
3
,
2
3
) , (
1
2
,
1
2
) .
61
Il signicato dellentropia sopra denita traspare anche da alcune sue propriet` a elemen-
tari, che qui introduciamo dopo aver dato la seguente
Denizione. Due partizioni
= A
0
, . . . , A
n1
, = B
0
, . . . , B
m1
si dicono indipendenti
61)
se per ogni coppia A
i
, B
j
di atomi risulta (A
i
B
j
) = (A
i
)(B
j
).
Si dice poi che è pi` u ne di , o che è un ranamento di , e si denota
_ ,
se ciascun atomo di è interamente contenuto in un solo atomo di (sempre a meno di
insiemi di misura nulla): ovvero se per ogni j esiste i tale che (B
j
A
i
) = (B
j
) (e di
conseguenza (B
j
A
i
) = 0 per i
,= i).
Come esempio tipico di partizioni indipendenti si pensi a due partizioni di un ret-
tangolo in bande orizzontali e verticali, oppure, per gli schemi di Bernoulli, alle partizioni
k
= (
0
k
, . . . , (
n1
k
con diversi k.
Proposizione 9.1. La funzione ha le seguenti proprietà:
i. si annulla se e solo se uno dei p
i
vale uno;
ii. è massima per p
0
= . . . = p
n1
= 1/n, e vale
max
= Log n;
iii. per partizioni e indipendenti, si somma:
62)
( ) = () +() ;
iv. Inne, se _ , allora () ().
Interviene nella dimostrazione una elementare propriet` a delle funzioni concave,
63)
detta
disuguaglianza di Jensen, che estraiamo in un lemma perche sar` a utile anche nel seguito.
Lemma 9.2. Se f : lR lR è concava, allora si ha
f
_
n
i=1
c
i
x
i
_

n
i=1
c
i
f(x
i
) per
n
i=1
c
i
= 1 . (9.1)
Dimostrazione. Per n = 2 la disuguaglianza coincide con la denizione stessa di fun-
zione concava. Si trasporta facilmente a n > 2 per induzione.
Veniamo allora alla dimostrazione della proposizione.
61)
Si pensi a due operazioni di misura indipendenti: ciascuna non modica le aspettative dellaltra.
62)
Vedremo che si generalizza in () ()+(), per partizioni non necessariamente indipendenti.
63)
Ricordiamo che f : lR lR si dice convessa nellintervallo I lR se linsieme (x, y) lR
2
: x
I, y f(x) è convesso, ovvero se per ogni x, x
I e ogni c, 0 c 1, si ha f(cx + (1 c)x
)
cf(x) + (1 c)f(x
); si dice concava se f è convessa.

62
Dimostrazione. Il primo punto segue dal solo fatto che la funzione sopra denita è
nulla per p = 0, 1 e positiva per 0 < p < 1. Il secondo punto segue dalla sola concavit` a di
: basta applicare la disuguaglianza di Jensen (9.1) con c
i
= 1/n, x
i
= p
i
, e ricordare poi
i
p
i
= 1. Il terzo punto è un banale calcolo, nel quale per` o si sfrutta la forma esplicita
di : se p
0
, . . . , p
n1
e q
0
, . . . , q
m1
sono le misure degli atomi di e , nellipotesi di
indipendenza si scrive subito
( ) =
ij
p
i
q
j
( Log p
i
+ Log q
j
) = ()
j
q
j
+()
i
p
i
= () +() .
Inne, per il quarto punto, basta vedere (procedendo per ranamenti successivi) che se
un atomo A di , di misura p, è unione di due atomi B e B
di , di misura cp e (1 c)p,
allora (cp)+((1c)p) (p). La disuguaglianza segue dalla sola concavit` a di , assieme
a (0) = 0: infatti, in base a queste propriet` a si ha
(cp) = ((1 c)0 +cp) (1 c)(0) +c(p) = c(p) ,
e allo stesso modo ((1 c)p) = (1 c)(p); la conclusione è immediata.
Osservazione. Si pu` o dimostrare
64)
che queste quattro propriet` a caratterizzano la
funzione , precisamente individuano completamente , a meno di una costante molti-
plicativa (corrispondente allarbitrariet` a della scelta della base del logaritmo).
Osservazione. Se vi sono due soli esiti possibili, a priori equiprobabili (testa o
croce), allora = 1: la misura fornisce una informazione elementare, comunemente
presa come unit` a di informazione e chiamata bit. Quattro, otto... esiti equiprobabili
(ovvero due, tre... misure indipendenti) forniscono due, tre... bits di informazione.
Se vi sono tre esiti A, B e C, con probabilit` a
1
2
,
1
4
e
1
4
, allora con probabilit` a
1
2
la
misura fornisce un bit (esito A), con probabilit` a
1
4
due bits (esito B), e ancora con
probabilit` a
1
4
due bits (esito C); in tutto
1
2
1 +
1
4
2 +
1
4
2 =
p
i
Log p
i
=
3
2
bits (la probabilit` a uniforme avrebbe fornito Log 3 1.58 bits).
Osservazione. Lespressione di corrisponde alla denizione microscopica di en-
tropia termodinamica introdotta da Boltzmann (si veda il paragrafo 1.2, nota 8), se
la densit` a di occupazione f
j
di ciascuna celletta dello spazio si interpreta come
probabilit` a a priori della celletta.
9.2. Entropia di KolmogorovSinai
A partire dalla quantit` a sopra introdotta, si denisce una grandezza h chiamata entropia
di KolmogorovSinai del sistema, o semplicemente entropia.
65)
La nozione di entropia ha
grande importanza nellambito della teoria ergodica.
La nozione è invariante per isomorsmo, dunque riette propriet` a intrinseche, e con-
sente una classicazione quantitativa dei sistemi dinamici.
64)
Si veda ad esempio A.I. Kinchin, Mathematical foundations of information theory, Dover (New York,
1957).
65)
E frequente anche lespressione entropia metrica: ma il termine metrica si riferisce alla misura, non
alla metrica, e si contrappone alla entropia topologica, nella quale la misura non interviene.
63
E legata alla teoria dellinformazione, e come vedremo si pu` o anche interpretare come
indicatore della variet` a di orbite, o della ricchezza della dinamica di un sistema.
E legata a quantit` a di signicato immediato e ben misurabili sia numericamente sia
sperimentalmente, precisamente ai cosiddetti esponenti caratteristici, o esponenti di
Lyapunov del sistema (indicatori della divergenza esponenziale di traiettorie vicine, di
cui si dir` a pi` u avanti).
Sia dato allora un sistema dinamico discreto (M, , ); sia = A
0
, . . . , A
n1
una par-
tizione misurabile di M, e sia
t
=
1
()
t+1
()
la partizione composta denita nel paragrafo precedente. Chiameremo entropia del sistema
relativa alla partizione iniziale, il limite (che si dimostra esistere)
h(, ) = lim
t
1
t
(
t
) . (9.2)
Osservazione. La quantit` a (
t
) si pu` o interpretare come informazione attesa da
t misure successive della stessa quantit` a, eettuate a intervalli regolari di tempo.
Lentropia h(, ) assume allora il signicato di informazione media prodotta dalla
singola misura.
Osservazione. Un valore positivo di h(, ) indica che
t
=
t+1
()
va rapidamente frammentandosi con t, a ritmo mediamente esponenziale: precisa-
mente, se denotiamo con B(t, x) latomo di
t
che contiene x, e poniamo
g
t
(x) =
1
t
Log (B(t, x)) , (9.3)
allora (tenendo conto che g è costante a tratti) la denizione di h si pu` o anche riscrivere
h = lim
t
_
M
g
t
d . (9.4)
In questo senso (piuttosto debole) si pu` o dire che, mediamente, cè contrazione espo-
nenziale della misura degli atomi di
t
. Vedremo pi` u avanti un risultato assai pi` u forte
di questo tipo (teorema di ShannonMcMillanBrian).
Osservazione. Per quanto visto nel paragrafo precedente, a ogni atomo di
t
corrisponde una diversa tstoria eettivamente realizzata dal sistema (la tstoria dei
dati iniziali x in quellatomo). Si pu` o allora dire che h(, ) rappresenta il ritmo di
crescita con t dellinsieme delle tstorie del sistema, non per` o semplicemente contate
in numero, ma in qualche modo pesate con la misura degli insiemi che le producono.
Nel caso (assolutamente eccezionale) di insiemi sempre di ugual misura per ogni t ci
si riporta al conteggio, perche allora il limite (9.2) si riduce a h = lim
t
1
t
Log n
t
,
con n
t
= cardinalit` a di
t
= numero di tstorie distinte.
Per dimostrare che il limite (9.2) esiste, ci è utile il seguente
64
Lemma 9.3. Comunque si prendano due partizioni misurabili
=
_
A
0
, . . . , A
n1
_
, =
_
B
0
, . . . , B
m1
_
,
risulta
( ) () +() , (9.5)
e luguaglianza si ha se e solo se le partizioni sono indipendenti.
Interviene nella dimostrazione una naturale denizione, che vale la pena di mettere in
evidenza:
Denizione. La quantit` a
(A[ B) =
(A B)
(B)
si dice misura di A condizionata a B.
Non è altro che la frazione di B ricoperta da A; (A[ B) = (A) per atomi qualsiasi di
partizioni indipendenti.
Dimostrazione. Dalla denizione di , facendo riferimento alla misura condizionata
(A[ B), si scrive subito
( ) =
ij
(A
i
B
j
) Log
_
(B
j
)(A
i
[ B
j
)
_
=
ij
(A
i
B
j
) Log (B
j
)
ij
(A
i
B
j
) Log (A
i
[ B
j
)
= ()
ij
(B
j
)(A
i
[ B
j
) Log (A
i
[ B
j
)
(9.6)
(si è usato

i
(A
i
B
j
) = (B
j
)). Il secondo termine a destra ha la forma
i
_
j
c
j
(p
ij
)
,
con
c
j
= (B
j
) , p
ij
= (A
i
[ B
j
) , (p) = p Log p ;
applicando la disuguaglianza di Jensen (9.1) per ogni indice i e sommando su i si vede
subito che tale termine non supera complessivamente (), e dunque è vericata la (9.5).
Daltra parte (per la convessit` a stretta di ), la disuguaglianza di Jensen si traduce in
uguaglianza se e solo se tutti i p
ij
per ogni i non dipendono da j, ovvero se (A
i
[ B
j
) non
dipende da j, e ci` o a sua volta si verica se e solo se le partizioni sono indipendenti. Ci` o
conclude la dimostrazione del lemma.
Usando questo lemma, assieme al lemma 8.1 gi` a provato nel paragrafo precedente, si
dimostra assai facilmente che
Proposizione 9.4. Il limite (9.2) esiste.
Dimostrazione. Dalla denizione di
t
e dal lemma 9.3 segue senza dicolt` a
(
t+s
) (
t
) +(
t
(
s
)) = (
t
) +(
s
) .
65
Posto allora

h
t
=
1
t
(
t
), si ha
h
t+s

t
t +s
h
t
+
s
t +s
h
s
,
e per il lemma 8.1 il limite esiste.
Osservazione. Si potrebbe in realt` a dimostrare qualche cosa di pi` u, precisamente
che la successione
1
t
(
t
) è monotona non crescente.
Proposizione 9.5. Si consideri lo schema di Bernoulli B
p
0
,...,p
n1
, e sia
=
_
(
0
0
, . . . , (
n1
0
_
una partizione dellinsieme delle stringhe in cilindri elementari. Allora risulta
h(, ) = () =
n1
i=0
p
i
Log p
i
.
Dimostrazione. Poiche
t
((
l
0
) = (
l
t
, le partizioni ,
1
(), . . . ,
t+1
() sono
mutuamente indipendenti. Allora, posto
t
=
t+1
(), si ha
(
t
) =
t1
s=0
(
s
()) = t () ,
Esercizio. Si dimostri che per uno schema di Bernoulli le partizioni = {C
l
0
, l I}
e = {C
l
0
,...,l
s1
0,...,s1
, l
0
, . . . , l
s1
I}, s > 1, danno la stessa entropia (ovvero: pu` o essere
inutile prendere partizioni troppo ranate). Pi` u in generale, per sistemi qualsiasi, e =
. . .
s+1
(), s > 1, danno la stessa entropia.
Inne, lentropia del sistema dinamico h() si denisce prendendo il superiore sulle par-
tizioni misurabili:
Denizione. Si dice entropia di KolmogorovSinai del sistema dinamico discreto (M, , )
il numero (eventualmente innito)
h() = sup
misurabile
h(, ) .
Si verica immediatamente che
Proposizione 9.6. Sistemi dinamici isomor hanno la stessa entropia.
Dimostrazione. Partizioni corrispondentisi hanno la medesima entropia, e la conclu-
sione è immediata.
66
Esercizio. Si dimostri che, nel caso invertibile, h() = h(
1
) [suggerimento: (
t
) e
(
t1
(
t
)) sono uguali].
Esercizio. Si dimostri che h(
s
) = |s|h() [suggerimento: per ogni , posto =

s+1
(), risulta h(
s
, ) = |s|h(, ). Daltra parte, la ricerca del superiore sulle
partizioni si pu` o certamente restringere alle partizioni del tipo ].
Riprendiamo i sistemi dinamici continui, che no ad ora abbiamo lasciato da parte. Si pu` o
dimostrare che per ogni t reale ssato il sistema dinamico discreto (M, ,
t
) ha entropia
h(
t
) = [t[ h(
1
); questo giustica la
Denizione. Si denisce entropia di KolmogorovSinai h() del sistema dinamico con-
tinuo (M, , ) la quantit` a h(
1
) relativa al corrispondente sistema dinamico discreto
(M, ,
1
).
9.3. Alcuni teoremi sullentropia di KolmogorovSinai
In questo paragrafo esponiamo alcuni dei risultati pi` u signicativi sullentropia di
KolmogorovSinai; per ulteriori risultati, e per la prova di quanto non dimostrato, si
rinvia ai testi specializzati. Premettiamo alcune nozioni e due utili lemmi, dimostrati
nellappendice C.
Denizione. Date due partizioni misurabili
=
_
A
0
, . . . , A
n1
_
, =
_
B
0
, . . . , B
m1
_
,
si dice entropia relativa di rispetto a la quantit` a
([ ) =
j
(B
j
)
i
((A
i
[ B
j
))
=
j
(B
j
)
i
(A
i
[ B
j
) Log (A
i
[ B
j
) .
Rileggendo la (9.6) si vede bene che si ha
([ ) = ( ) () ; (9.7)
questa espressione, che si sarebbe anche potuta usare come denizione di entropia relativa,
invita a interpretare lentropia relativa come guadagno di informazione della misura
combinata rispetto alla sola misura . Il lemma 9.3 a sua volta si riscrive nella
forma, assai trasparente,
([ ) () . (9.8)
Linteresse principale per lentropia relativa è che essa consente di introdurre la nozione
di distanza tra partizioni,
dist(, ) = ([ ) +( [ ) ,
e con ci` o di dare allinsieme T delle partzioni misurabili la struttura di spazio metrico.
Precisamente si dimostra (appendice C) che
67
Lemma 9.7.
i. La quantità dist(, ) sopra denita ha le proprietà di una distanza nello spazio T delle
partizioni misurabili di M.
ii. Per ogni sistema dinamico (M, , ), lentropia h(, ) è funzione continua
66)
di ,
precisamente si ha [h(, ) h(, )[ dist(, ).
La presenza di una metrica in T e la continuit` a di h consentono di calcolare o stimare
lentropia sostituendo a partizioni complicate, quali possono essere quelle in atomi soltanto
misurabili, partizioni pi` u semplici ad esse prossime.
Denizione. Sia M una variet` a dierenziabile. Una partizione di M si dice classica se
ciascun atomo della partizione è unione nita di poliedri (o complessi ) semiaperti, ovvero
di insiemi A semplicemente connessi, tali che A

A, e con il bordo A regolare a tratti.
Si dimostra facilmente (appendice C) che
Lemma 9.8. Per ogni varietà compatta M, munita di una misura regolare , le par-
tizioni classiche sono dense nello spazio T delle partizioni misurabili, ovvero per ogni partizione
misurabile di M e ogni > 0 esiste una partizione classica , tale che dist(, ) < .
Possiamo ora introdurre e dimostrare limportante
Proposizione 9.9 (Teorema di Kouchnirenko). Lentropia dei sistemi dinamici classici è
nita.
Dimostrazione. Ci limitiamo per semplicit` a al caso in cui la mappa è un dieomor-
smo M M (caso invertibile e regolare ovunque, non solo a tratti). Innanzitutto, poiche
le partizioni classiche sono dense in T e h è continua, nel prendere il superiore sulle par-
tizioni ci si pu` o limitare alle partizioni classiche. Lidea, da formalizzare opportunamente,
è poi abbastanza semplice: si dimostra che
i. la supercie complessiva degli atomi della partizione composta
t
=
t+1
() =
_
B
t
0
, . . . , B
t
n
t
1
_
,
denita come unione delle superci dei singoli atomi, cresce al pi` u esponenzialmente
67)
con t: o(
t
) (cost)
t
;
ii. a sua volta, una maggiorazione sulla supercie si traduce in una maggiorazione
sullentropia di una partizione, del tipo () (cost) + mLog o(), m = dimM
(ovvero: frammentare M in modo da far crescere ha un costo minimo in super-
cie). Segue immediatamente una maggiorazione del tipo (
t
) (cost) +tmLog , da
cui h(, ) mLog per ogni . Si osservi che il numero di atomi (cui ci siamo oc-
casionalmente riferiti a proposito della complessit` a) non è invece soggetto a una simile
limitazione geometrica; la misura perci` o gioca un ruolo decisivo in questo teorema.
66)
In eetti lipschitziana.
67)
Esercizio: si prenda la trasformazione del panettiere, si consideri la partizione di M in due bande
verticali di larghezza
1
2
, e si valuti S(
t
).
68
A
1
(A)
1
()
Figura 9.2. Latomo A e la sua immagine inversa,
t
(A). Per la con-
servazione del volume, la porzione del bordo di A non pu` o crescere, in
1
(A), pi` u di quanto un sottile strato appoggiato su A non cali di spessore
per eetto di
1
, ovvero pi` u di quanto non dilati le lunghezze.
Per il primo punto, innanzitutto è sempre possibile introdurre su M una metrica adattata
alla misura, cioè tale che il volume di un insieme coincida con la sua misura.
68)
Sia ora
il massimo coeciente di dilatazione lineare
69)
di in tale metrica. Allora per ogni atomo
A di si ha o(
1
(A)) o(A), ove o denota larea; infatti, il volume si conserva, e
la base non si pu` o dilatare pi` u di quanto si contragga laltezza (si veda la gura 9.2).
Pertanto,
o(
t
(A))
t
o(A) .
Per una qualsiasi partizione classica , denotiamo con o() la somma delle aree dei suoi
atomi (ciascuna faccia sar` a contata due volte). Si riconosce allora immediatamente che
risulta o( ) o() +o(), e iterando
o(
1
()
t+1
()) (1 + + +
t1
) o() =

t
1
1
o() (9.9)
(vale anche per = 1, corrispondente alle traslazioni che nella metrica adattata appaiono
rigide, pur di intendere in questo caso per continuit` a (
t
1)/( 1) = t). Questa è la
maggiorazione cercata alla crescita dellarea.
Passiamo ora al secondo punto, ovvero dalla maggiorazione sullarea deduciamo una
maggiorazione su . E noto che per ogni variet` a mdimensionale, e per ogni scelta della
metrica riemanniana, vale una disuguaglianza isoperimetrica: ovvero esistono costanti C e
V , tali che se Vol(A) V allora
70)
Vol(A) Co(A)
m
m1
.
68)
Su di una variet` a regolare si pu` o sempre introdurre una metrica riemanniana, e con essa un volume; se
(regolare e positiva) è la densit` a della misura conservata in tale metrica, allora con un riscalamento
locale del tensore metrico, che a g sostituisce g =
1/m
g, la nuova densit` a diventa uno.
69)
Se D
x
denota lapplicazione tangente T
x
M T
(x)
M, il coeciente di dilatazione lineare di in
x si pu` o denire come la norma (operatoriale) di D
x
.
70)
In lR
3
il solido di volume massimo, a parit` a di supercie, è la sfera, e V = (4/3)r
3
, S = 4r
2
,
eccetera; su una supercie sferica la gura di massima area è la calotta circolare, e tra il volume
V (larea della calotta) e la supercie S (la lunghezza del bordo) si trova facilmente la relazione
V (2)
1
S
2
, purchè per` o la calotta non sia pi` u grande di mezza sfera.
69
Sia ora una qualunque partizione; ai ni del calcolo di h non è restrittivo supporre
Vol(A
i
) V per ogni suo atomo A
i
. Con una successione di passaggi banali (si usa, tra
il secondo e il terzo, la concavit` a del logaritmo), per una generica partizione si ottiene
[notazione: p
i
= (A
i
) = Vol(A
i
)]
() =
i
p
i
Log p
i
= m
i
p
i
Log p
1
m
i
m Log
_
i
p
i
p
1
m
i
_
= m Log
_
i
p
m1
m
i
_
m Log
_
C
m1
m
i
o(A
i
)
_
= m Log
_
o()
_
+ (m1) Log C .
Questo è il legame cercato tra () e o(). Riprendendo la (9.9) si trova allora
(
t+1
()) m Log
_
o(
t+1
())
_
+ (m1) Log C
m Log

t
1
1
+m Log o() + (m1) Log C ;
di qui, dividendo per t e passando al limite per t , si ottiene la maggiorazione, uniforme
in , h(, ) mLog (buona anche per = 1). Lentropia del sistema h() è pertanto
limitata, e anzi maggiorata anchessa da
h() mLog . (9.10)
Osservazione. La (9.10), con cui abbiamo concluso la dimostrazione, mostra che il
coeciente di dilatazione lineare fornisce una stima da sopra allentropia. Il legame
tra entropia e dilatazione lineare non è casuale: incontreremo pi` u avanti una relazione
pi` u precisa (formula di Pesin), che lega h agli esponenti di Lyapunov del sistema dinamico
classico. Per il Gatto di Arnold la (9.10) aerma che
h 2 Log ,
ove =
1
2
(3 +
5) è lautovalore massimo di A =
_
1 1
1 2
_
; il risultato esatto, basato
sulla formula di Pesin, è h = Log .
La disuguaglianza (9.10) implica in particolare che
Proposizione 9.10. La traslazione e il moto uniforme sul toro TT
n
hanno entropia nulla.
Dimostrazione. Per questi sistemi si ha = 1.
Esistono sistemi dinamici con entropia innita (e dunque non isomor a sistemi clas-
sici), come è illustrato nel seguente
Esercizio. Si costruisca uno schema di Bernoulli a inniti simboli B
p
0
,p
1
,...
, con la stringa
delle p
i
tale che h() = . [Suggerimento: si parte da una successione di probabilit` a q
k
del tipo 1/n
k
(n
k
intero), k = 1, 2, . . ., tale che
k
q
k
= 1: ad esempio n
k
= 2
k
. Poi
70
la probabilit` a q
k
si suddivide in 2
n
k
parti uguali, ciascuna grande 2
n
k
/n
k
, e si allineano i
numeri cos` ottenuti. Si considera la partizione (nita)
s
costituita dagli s cilindri elementari
{C
l
0
, l = 1, . . . , s 1} assieme a

C = { :
0
s}. Si vede facilmente che (
s
) diverge
per s ; se ne deduce che anche h(,
s
) diverge.]
Proseguiamo con una denizione, preliminare a un teorema importante:
Denizione. Per un sistema dinamico (M, , ) la partizione si dice generante, se
gli atomi della partizione assieme ai loro iterati (da a +, nel caso invertibile) sono
generatori dellintera algebra su cui è denita la misura .
Ad esempio, la partizione in cilindri elementari degli schemi di Bernoulli è generante. Vale
ora la seguente proposizione, dovuta a Kolmogorov e Sinai:
Proposizione 9.11 (Teorema del generatore). Se il sistema dinamico (M, , ) ammette
una partizione generante nita , allora
h() = h(, ) .
La dimostrazione della proposizione è riportata nellappendice D. Tenendo conto di quanto
visto sopra, si conclude che
Corollario 9.12. Lo schema di Bernoulli Bp
0
, . . . , p
n1
ha entropia h =
i
p
i
Log p
i
.
Dimostrazione. La partizione in cilindri elementari è generante, e come si è visto
sopra, lentropia h(, ) vale proprio
i
p
i
Log p
i
.
Osservazione. Cos` ad esempio i due schemi di Bernoulli B1
3
,
2
3
e B1
2
,
1
2
certamente
non sono isomor. Avere la medesima entropia è tuttavia condizione necessaria per
lisomorsmo, ma certo non suciente (ad esempio, i sistemi di entropia nulla non
sono necessariamente tra loro isomor). Fanno eccezione gli schemi di Bernoulli, per
i quali si è dimostrato (Ornstein, 1970) che la condizione è anche suciente (cos`, gli
schemi B1
2
,
1
8
,
1
8
,
1
8
,
1
8
e B1
4
,
1
4
,
1
4
,
1
4
sono isomor).
Si pu` o anche dimostrare che, per i sistemi classici, ogni partizione separante è generante:
pi` u precisamente, che
Proposizione 9.13. Condizione necessaria e suciente perche in un sistema dinamico clas-
sico (M, , ) la partizione classica sia generante, è che essa sia separante su un sottoinsieme
di M di misura uno.
In particolare dunque per i sistemi classici espansivi è facile trovare partizioni generanti
(ma non è altrettanto facile calcolare lentropia).
Chiudiamo il paragrafo citando un ultimo risultato, conosciuto come Teorema di
ShannonMcMillanBrian.
71
Proposizione 9.14. Sia (M, , ) un sistema dinamico discreto, e una partizione mis-
urabile di M. Si denoti con B(t, x) latomo di
t
=
t
() che contiene x. Allora:
i. esiste quasi ovunque il limite
g(, , x) = lim
t
1
t
Log (B(t, x)) ; (9.11)
ii. risulta
h(, ) =
_
M
g(, , x) d . (9.12)
Si pu` o dimostrare che g(, , x) è un integrale del moto del sistema; se ne deduce che
Corollario 9.15. Se il sistema è ergodico, g(, , x) è costante quasi ovunque, e coincide
con h(, ).
Osservazione. Si confrontino le (9.11), (9.12) con le (9.3), (9.4). Quello che dice
il teorema di ShannonMcMillanBrian è, in sostanza, che il limite dellintegrando
esiste quasi ovunque, e inoltre loperazione di limite commuta con lintegrazione. La
dierenza non è da poco, e in particolare lidea di h come misura del ritmo di fram-
mentazione di
t
è assai pi` u chiara, soprattutto nel caso ergodico.
10. Introduzione agli esponenti caratteristici di Lyapunov
Lo studio degli esponenti caratteristici di Lyapunov (ECL) come indicatori di sta-
bilit` a di un punto singolare o di unorbita periodica risale ai lavori di Lyapunov di inizio
secolo; lintroduzione di tali quantit` a nella teoria ergodica è invece pi` u recente: il lavoro
fondamentale di Oseledec, che stabilisce lesistenza degli ECL per tutte le orbite a meno
di un insieme di dati iniziali di misura nulla, è del 1968, mentre il teorema di Pesin, che
connette gli ECL allentropia di KolmogorovSinai, è del 1975.
Gli ECL, si pu` o dire, sono un modo naturale di introdurre formalmente la nozione
di divergenza esponenziale delle traiettorie che circondano una traiettoria assegnata; come
abbiamo visto in diverse occasioni (Gatto di Arnold; teorema di Kouchnirenko...), tale
nozione gioca un ruolo assai importante nellambito della teoria ergodica. In eetti, ben al
di l` a della teoria ergodica, linteresse per gli ECL è andato crescendo negli anni, sia in con-
nessione ai pi` u diversi problemi sici (meccanica statistica, meccanica celeste, turbolenza,
sica del plasma, sica degli acceleratori...), sia anche nellambito di discipline pi` u applica-
tive, come lecologia o leconomia o diversi rami della sica medica (in particolare analisi
di cardiogrammi e encefalogrammi). Tale interesse è dovuto in buona parte al fatto che da
un lato si tratta di quantit` a dal signicato matematico chiaro, che caratterizzano bene la
72
I. Teoria ergodica 10. Introd. agli ECL
dinamica di un sistema, dallaltro che essi, come vedremo, sono anche calcolabili numeri-
camente. Ancor oggi gli ECL sono forse le quantit` a cui pi` u di frequente ci si richiama nello
studio, e nella denizione stessa, dei cosiddetti sistemi dinamici caotici.
10.1. Divergenza esponenziale delle traiettorie vicine
Sia (M, ) un sistema dinamico topologico,
71)
continuo o discreto, con M variet` a rie-
manniana. Con la metrica restano denite la norma || di un qualsiasi vettore tangente
T
x
M (T
x
M denota lo spazio tangente, o piano tangente, a M in x M), e la distanza
dist(x, y) tra coppie qualsiasi di punti x, y M. Come vedremo, la metrica interviene
nella denizione degli ECL, ma la denizione in realt` a non ne dipende (norme equivalenti
in ciascuno spazio tangente conducono agli stessi ECL).
Preso un punto x su M, sia I = (, ) lR un intervallo attorno allorigine, e
y : I M una curva regolare su M, tale che y(0) = x. Ogni dato iniziale y(s), s I,
viene inviato al tempo t in
t
(y(s)); la curva y ha allora per immagine al tempo t la
curva y
t
=
t
y, ovvero y
t
(s) =
t
(y(s)), e si ha evidentemente y
t
(0) = x
t
:=
t
(x). E
spontaneo allora introdurre il coeciente di dilatazione relativo al punto x, al tempo
t e alla curva prescelta y, denito da
= lim
s0
dist
_
y
t
(s), x
t
_
dist
_
y(s), x
_
(si veda la gura 10.1). Il coeciente è chiaramente lo stesso per tutte le curve y tra
loro tangenti in x; se allora T
x
M è il vettore tangente corrispondente alla curva y, e
D
t
x
: T
x
M T
t
(x)
M denota lapplicazione tangente a
t
in x M, il coeciente di
dilatazione risulta essere funzione di t, x e , ed è dato da
(t, x, ) =
|D
t
x
|
||
.
E naturale dire che si ha divergenza esponenziale delle traiettorie vicine a
t
(x), con dato
iniziale spostato nella direzione di , se per t grande cresce esponenzialmente con t,
e
t
, con positivo. Un modo formale di denire lesponente è il seguente:
Denizione. Si dice esponente caratteristico di Lyapunov del vettore tangente T
x
M
il limite,
72)
se esiste,
(x, ) = lim
t
1
t
log
|D
t
x
|
||
. (10.1)
71)
Faremo riferimento alla misura conservata solo quando necessario, precisamente in connessione al
teorema di Oseledec e al teorema di Pesin.
72)
Questo limite si pu` o anche riscrivere nella forma di media temporale: infatti, posto
1
(x, ) := |D
1
x
|/|| ,
(coeciente di dilatazione per t = 1, nella direzione di ), si ha
(x, ) = lim
t
1
t
t1
s=0
log
1
(
s
(x),
s
) ,
s
:= D
s
x
(media logaritmica della dilatazione a ogni unit` a di tempo). Si osservi per` o che
1
non si pu` o scrivere
come funzione della sola x, e dunque (x, ) non è propriamente la media temporale di una funzione;
se cos` fosse, lesistenza del limite quasi ovunque sarebbe garantita dal teorema di BirkhoKinchin.
73
Il denominatore || si potrebbe evidentemente omettere; dalla denizione stessa segue
banalmente che metriche equivalenti danno gli stessi valori di (x, ).
y(0)
y(s)
y
t
(0) =
t
_
y(0)
_
y
t
(s) =
t
_
y(s)
_
Figura 10.1. Divergenza esponenziale delle traiettorie vicine.
10.2. Un esempio elementare
Consideriamo il caso semplice di un moto periodico di periodo ,
(x) = x; allora
lapplicazione tangente D
x
è un ordinario operatore lineare: T
x
M T
x
M, e ha senso
discutere dei suoi autovalori e autovettori. Supponiamo per semplicit` a che D
x
abbia
n = dimM autovalori reali distinti, e anzi di modulo diverso,
1
, . . . ,
n
, che possiamo
pensare ordinati in modo che sia
[
1
[ > [
2
[ > . . . > [
n
[ ;
siano e
1
, . . . , e
n
i corrispondenti autovettori. Allora:
a) risulta
(x, e
i
) =
1
log [
i
[ .
Infatti, si ha D
k
x
e
i
=
k
i
e
i
, e la conclusione è banale se si prende il limite sulla
sottosuccessione t = k, k lN; ma è immediato vedere che la restrizione alla sotto-
successione non è rilevante.
Si potrebbe vedere che a tale teorema ci si riduce solo nel caso eccezionale in cui, con scelta opportuna
delle coordinate, le matrici A(x) : lR
n
lR
n
rappresentative di D
1
x
, x M, commutano tutte tra
loro. Il teorema di Oseledec di cui si dir` a tra poco, che garantisce lesistenza quasi ovunque del limite
per qualunque misura conservata, generalizza in un certo senso il teorema di BirkhoKinchin (e per
questo è anche chiamato teorema ergodico non commutativo).
74
b) Preso un vettore =

ir
c
i
e
i
, con il coeciente c
r
non nullo, la dilatazione di e
r
domina, e si ha
(x, ) = (x, e
r
) .
Infatti, si ha
|D
k
x
| =
k
r
_
_
_c
r
e
r
+c
r+1
_
r+1
r
_
k
e
r+1
+. . . +c
n
_
r
_
k
e
n
_
_
_ ,
e per k abbastanza grande il membro di destra è certamente compreso, ad esempio,
tra
1
2
k
r
|c
r
e
r
| e 2
k
r
|c
r
e
r
|, cosicche la conclusione è immediata. Se ne conclude che
al variare di in T
x
M i possibili valori di (x, ) sono in tutto n = dimM.
c) Denotiamo con [a, b, c, . . .] il sottospazio lineare di T
x
M generato dai vettori
a, b, c, . . . T
x
M, e poniamo
L
1
= [e
1
, . . . , e
n
] = T
x
M
L
2
= [e
2
, . . . , e
n
]
:
L
n
= [e
n
] ;
risulta evidentemente
T
x
M = L
1
L
2
. . . L
n
, (10.2)
e per quanto visto sopra
L
i
L
i+1
=(x, ) = (x, e
i
) , i = 1, . . . , n (10.3)
(si ponga, per coerenza di notazione, L
n+1
= 0).
Una successione di sottospazi lineari
E = L
1
L
m
, m n = dimE ,
di dimensione decrescente, è detta ltrazione dello spazio vettoriale E; la (10.2) è dunque
una particolare ltrazione di T
x
M.
Non sarebbe dicile vedere che le particolari ipotesi sopra introdotte si possono rimuo-
vere: per una generica orbita periodica, se anche D
x
ha autovalori
i
multipli (o coin-
cidenti in modulo), eventualmente complessi, ciascuno con un numero di autovettori in-
dipendenti anche inferiore
73)
alla sua molteplicit` a
i
, si trova comunque una ltrazione di
T
x
M
T
x
M = L
1
. . . L
m
, m n , dimL
i
L
i+1
=
i
,
tale che (x, ) =
1
log [
i
[ non appena L
i
L
i+1
.
73)
Anche se D
x
non è diagonalizzabile, gli si pu` o comunque associare una matrice in forma di Jor-
dan; resta allora comunque individuato, per ogni autovalore
i
di molteplicit` a
i
, un sottospazio di
dimensione
i
, ed è facile vericare, usando la forma di Jordan, che ogni vettore del sottospazio, e
non solo lautovettore, d` a come esponente di Lyapunov
1
log [
i
[.
75
10.3. Il teorema di Oseledec e il teorema di Pesin
Nel caso generico di un moto non periodico, la nozione di autovettore e autovalore perde
senso: per ogni t infatti D
t
x
manda uno spazio tangente in un altro, e non essendoci alcun
modo naturale di identicare tra loro gli spazi tangenti in punti diversi, non ha senso (non
è intrinseca) la nozione di autovettore. Viceversa, dalla denizione stessa di (x, ), e anzi
dalla denizione provvisoria pi` u debole
(x, ) := limsup
t
1
t
log |D
t
x
| ,
che ci permette di rinviare il problema dellesistenza del limite (si è anche omesso
lirrilevante denominatore ||), segue senza dicolt` a lesistenza intrinseca della ltrazione
in ogni punto x M. Precisamente:
Proposizione 10.1. Per ogni x M,
i. al variare di in T
x
M la quantità (x, ) assume un numero nito m n di valori distinti
1
(x) >
2
(x) > >
m
(x) ;
ii. esiste una ltrazione di T
x
M in m sottospazi,
T
x
M L
1
L
2
L
m
,
tale che
L
i
L
i+1
=(x, ) =
i
(x) , i = 1, . . . , m ;
iii. sia (e
1
, . . . , e
n
) una base (base normale) di T
x
M ottenuta prendendo in L
i
L
i+1
un
numero di vettori indipendenti pari a
i
= dimL
i
dimL
i+1
, e (f
1
, . . . , f
n
) una base
qualsiasi di T
x
M. Allora si ha
n
i=1
(x, e
i
)
n
i=1
(x, f
i
) ,
e luguaglianza vale se e solo se anche (f
1
, . . . , f
n
) è normale.
Denizione. Il numero
i
= dimL
i
dimL
i+1
è detto molteplicità di
i
. Linsieme
Sp(x) :=
1
(x), . . . ,
n
(x) ,
che si ottiene prendendo in ordine ciascuno dei valori distinti
i
, i = 1, . . . , m, e ripetendolo
un numero di volte pari alla sua molteplicit` a
i
, o equivalentemente ponendo
i
(x) =
(x, e
i
) con (e
1
, . . . , e
n
) base normale, è detto
74)
spettro degli ECL nel punto x M.
74)
E chiamato a volte spettro anche linsieme Sp
(x) =
1
(x),
1
, . . . ,
m
(x),
m
.
76
Dimostrazione. Preso x M, mostriamo innanzitutto che per ogni c ,= 0, e per ogni
scelta di ,
T
x
M, si ha
75)
(x, c) = (x, ) , (x, +
) max
_
(x, ), (x,
)
_
. (10.4)
La prima relazione è banale; per la seconda basta usare la denizione di limsup, secondo
la quale per ogni > 0 esiste T
> 0 tale che

t
1
log |D
t
x
| < (x, ) +
per ogni t > T
, e analogamente per
(si pu` o prendere il medesimo T
): da questa
disuguaglianza segue infatti, per t > T
,
t
1
log |D
t
x
( +
)| t
1
log(|D
t
x
| +|D
t
x
|)
t
1
log 2 max(|D
t
x
|, |D
t
x
|)
= t
1
[max(log |D
t
x
|, log |D
t
x
|) + log 2]
max((x, ), (x,
)) + +t
1
log 2 ,
e la seconda delle (10.4) è immediata. Le (10.4) mostrano che per ogni lR linsieme
L() := T
x
M : (x, )
è un sottospazio lineare di T
x
M (si ponga formalmente (x, 0) = , per includere in
L() il vettore nullo). Dalla denizione stessa di L() segue, evidentemente, L(
) L()
se
< ; anzi, se esiste L() tale che (x, ) = , allora / L(
), ovvero linclusione
è propria e dimL() > dimL(
) strettamente. Se ne conclude che al variare di ,= 0 in

T
x
M la quantit` a (x, ) assume m n valori distinti, che denotiamo
1
> >
m
. I
sottospazi L
k
:= L(
k
), 1 k m, costituiscono la ltrazione cercata. Lultimo punto
segue dal fatto, del tutto evidente, che la base normale ha per costruzione il maggior
numero possibile di vettori negli spazi con indice alto, dunque con basso.
La propriet` a banale usata nel corso della dimostrazione, secondo cui (x, c) = (x, ),
mostra che è in realt` a funzione, pi` u che del vettore , del sottospazio lineare E T
x
M,
dimE = 1, cui appartiene. E spontanea allora la generalizzazione a sottospazi lineari di
dimensione qualsiasi:
Denizione. Si dice esponente caratteristico di Lyapunov di ordine p del sottospazio lineare
E T
x
M, dimE = p n, il limite, se esiste,
(p)
(x, E) = lim
t
1
t
log
Vol
p
_
D
t
x
(
1
), . . . , D
t
x
(
p
)
_
Vol
p
(
1
, . . . ,
p
)
, (10.5)
ove (
1
, . . . ,
p
) è una qualsiasi base di E, mentre Vol
p
( ) denota il volume pdimensionale
del parallelepipedo generato dai vettori tangenti che compaiono ad argomento.
75)
Nella seconda relazione si ha la disuguaglianza anziche luguaglianza perche (si pensi allesempio
del paragrafo precedente) e
potrebbero avere componente dominante (componente lungo e

r
)
esattamente opposta.
77
Gli ECL precedentemente introdotti coincidono con gli ECL di ordine uno qui deniti.
La scelta della base (
1
, . . . ,
p
) è con evidenza irrilevante, e neanche la scelta particolare
della metrica gioca alcun ruolo.
Lesistenza degli ECL di ogni ordine come limite esatto è garantita da un fondamentale
teorema, dovuto a Oseledec (1968), nel quale gioca un ruolo fondamentale la misura.
Proposizione 10.2. Sia (M, , ) un sistema dinamico (classico o astratto; discreto o
continuo; invertibile o non invertibile), con M varietà riemanniana.
76)
i. Per quasi ogni x M, e ogni sottospazio E T
x
M, dimE = p n, esiste nito
il limite esatto (10.5); in particolare, per p = 1, esiste nito il limite esatto (10.1) in
corrispondenza a ogni vettore tangente T
x
M.
ii. Lo spettro Sp(x) sopra denito è funzione misurabile di x.
iii. Per ogni E T
x
M esiste una base normale (e
1
, . . . , e
p
), tale cioè che
p
i=1
(x, e
i
)
p
i=1
(x, f
i
) ,
ove (f
1
, . . . , f
p
) è una qualunque altra base di E, e in corrispondenza a tale base si ha
(p)
(x, E) =
p
i=1
(x, e
i
) .
Lultimo punto, non sorprendente e del tutto ovvio nellesempio elementare dellorbita
periodica
77)
chiarisce la relazione tra gli ECL di ordine p generico e quelli di ordine uno.
Il teorema non è elementare, e ne omettiamo la dimostrazione. Con un po di pazienza,
ma senza vere dicolt` a, si vericano invece alcune rilevanti propriet` a degli ECL (la verica
è lasciata come esercizio).
a) Gli ECL
i
(x) sono (con evidenza) costanti del moto: Sp(
t
(x)) = Sp(x). Pertanto,
in un sistema ergodico gli esponenti di Lyapunov sono quasi ovunque costanti.
b) Per un sistema invertibile,
78)
se la misura conservata è equivalente al volume n
dimensionale, allora lesponente di Lyapunov di tutto T
x
M, corrispondente alla di-
latazione del volume ndimensionale, si annulla, e con esso si annulla la somma di
tutti gli ECL:
(n)
(x, T
x
M) =
n
i=1
i
(x) = 0 .
76)
Benche M sia una variet` a dierenziabile, il sistema pu` o non essere classico, perchè la misura invariante
pu` o non essere regolare; in particolare, il supporto di pu` o essere sostanzialmente pi` u piccolo di
M, ed essere un insieme assai complicato: è il caso dei sistemi con un attrattore, di cui si parler` a nel
prossimo capitolo (paragra 4 e 6).
77)
Ma non in generale: gli angoli tra i diversi vettori tangenti, nel corso del moto, in generale non sono
limitati fuori dallo zero, e dunque non si pu` o escludere a priori
(p)
(x, E) <
i
(x, e
i
).
78)
Perche si fa questa ipotesi?
78
c) Per un sistema continuo retto dallequazione dierenziale x = f(x) su M, se x M è
tale che la traiettoria
t
(x) non ha limite a un punto sso per t , allora
(x, f) = 0 .
d) Per un sistema dinamico hamiltoniano (M, , ) a n gradi di libert` a, con M = super-
cie di energia costante (dimM = 2n 1), lo spettro di ogni punto è simmetrico:
79)
Sp(x) =
1
(x), . . . ,
n1
(x),
n
(x),
n1
(x), . . . ,
1
(x) ;
per il punto precedente, se
t
(x) non ha limite a un punto sso, il valore centrale
n
è nullo. Per il corrispondente sistema hamiltoniano con M = guscio tra due superci
di energia costante (dimM = 2n) lo spettro è ancora simmetrico:
Sp(x) =
1
(x), . . . ,
n1
(x),
n
(x),
n
(x),
n1
(x), . . . ,
1
(x) ,
e dierisce dal precedente solo per linserimento di
n
al centro; genericamente
vi è dunque una coppia di zeri al centro.
80)
E inne simmetrico lo spettro di un
dieomorsmo simplettico (una trasformazione canonica) : M M, M = variet` a
simplettica (il consueto spazio delle fasi di un sistema hamiltoniano).
e) Per un vettore generico T
x
M (generico nel senso che resta escluso il solo sottospazio
L
2
della ltrazione, dimL
2
< dimL
1
= T
x
M) si trova il valore massimo (x, ) =
1
;
allo stesso modo, per un generico sottospazio E T
x
M, dimE = p, si trova il valore
massimo (x, E) =
p
i=1
i
(x). Queste propriet` a sono importanti soprattutto perche
sono alla base del metodo numerico di calcolo degli ECL.
Esercizio. Si ritorni qui dopo lo studio dei sistemi hamiltoniani integrabili (capitolo III),
e si dimostri che per tali sistemi tutti gli ECL sono nulli.
Osservazione. Mettiamoci per semplicit` a nel caso discreto; poniamo A(x, t) =
D
t
x
: T
x
M T
t
(x)
M, e sia A
(x, t) loperatore aggiunto, A
(x, t) : T
t
(x)
M
T
x
M, cosicche A
(x, t)A(x, t) è un operatore lineare su T

x
M (simmetrico e denito
positivo). Si dimostra che, nelle stesse ipotesi del teorema di Oseledec, esiste quasi
ovunque loperatore limite
B(x) = lim
t
[A
(x, t)A(x, t)]

1
2t
,
che gli autovettori e
1
(x), . . . , e
n
(x) di B(x) costituiscono una base normale in x, e che
se
i
(x) è lautovalore corrispondente a e
i
(x) risulta
i
(x) = log
i
(x). Esercizio: si
costruisca B nel caso di unorbita periodica, supponendo n = 2 e D
x
rappresentato
dalla matrice
_
a 1
0 b
_
.
79)
Qui ci vuole eettivamente un po di lavoro: vanno paragonati D
t
x
, linverso e laggiunto. Si veda
anche losservazione subito sotto.
80)
Il secondo zero sta ad indicare che, con leccezione dei punti di equilibrio, non vi è dilatazione
esponenziale in una opportuna direzione trasversa alla supercie di energia costante.
79
Come si è visto, il teorema di Oseledec vale per sistemi dinamici qualsiasi, non necessari-
amente classici. Nel caso classico vale lulteriore importantissimo teorema di Pesin, che
connette gli ECL allentropia:
Proposizione 10.3. Per ogni sistema dinamico classico (M, , ) si ha
h() = C
_
M
+
i

i
(x) d , C = 1/ log 2 ,
ove
+
denota la somma ristretta ai soli
i
positivi.
81)
La costante C è dovuta alluso un po sconsiderato del logaritmo in base due nella
denizione dellentropia, e scompare se in tale denizione il logaritmo in base due è sos-
tituito dal logaritmo naturale. Dunque, in base al teorema di Pesin, lentropia ammette
una densit` a, e tale densit` a coincide con la somma degli ECL positivi. Per sistemi ergodici
i
i
sono costanti quasi ovunque su M, e si ha semplicemente
h() = C
+
i

i
.
Per il Gatto di Arnold si trova immediatamente
1,2
= log , ove = (3 +
5)/2 è il
pi` u grande dei due autovalori della matrice A, e dunque h() = Log (si confronti questo
risultato esatto con la stima introdotta a proposito del teorema di Kouchnirenko).
Come si è sopra ricordato, uno dei motivi di interesse degli ECL è la possibilit` a di
calcolarli numericamente. Una breve indicazione sul metodo di calcolo pi` u comunemente
usato è riportata nellAppendice E.
81)
Accenniamo per completezza a una recente generalizzazione del teorema di Pesin al caso di sistemi
non classici, precisamente con la misura a supporto su un attrattore X (cap. II, par. 4) di misura
di Lebesgue zero, anche non liscio (cioè privo della struttura di variet` a). La sommatoria che compare
nellenunciato del teorema si pu` o evidentemente riscrivere
+
j

j
j
,
j
= dimE
j
dimE
j1
;
in opportune ipotesi il teorema si estende sostituendo a dimE
j
la cosiddetta dimensione frattale
(dimensione di Hausdor) dellintersezione E
j
X.
80
I. Teoria ergodica A. Prova del Lemma 2.4
APPENDICI
A. Prova del Lemma 2.4
Dimostrazione. Procedendo in modo un po indiretto,
82)
mostriamo che per ogni
reticolo 1 ZZ
n
, dim1 = r, esiste una matrice intera L, con det L = 1, le cui ultime nr
righe siano vettori ortogonali a 1: precisamente tale che, posto
l
(i)
= (L
i1
, . . . , L
in
) , (A.1)
risulti
l
(i)
k = 0 , r < i n , (A.2)
per tutti e soli i vettori interi k 1. Questo basta perche la matrice J cercata allora è J =
L
T
(inversa della trasposta): infatti, linversa L
1
è sicuramente intera con det L
1
= 1,
e denotate con
k
(j)
= (L
1
1j
, . . . , L
1
nj
)
le sue colonne, si ha evidentemente l
(i)
k
(j)
= 0 per i > r e j r. Ciascuno dei vettori
interi k
(j)
, j r, è allora ortogonale a nr vettori indipendenti ortogonali a 1, e dunque
appartiene a 1; equivalentemente, come chiesto nel lemma, le prime r righe di J = L
T
appartengono a 1.
Lesistenza di L con le propriet` a indicate si dimostra in tre passaggi, di generalit` a
crescente.
a) Il caso n = 2, r = 1 . Preso un qualsiasi vettore k = (k
1
, k
2
) 1 (il reticolo è ora
una retta in ZZ
2
), sia m = (m
1
, m
2
) parallelo a k, con m
1
e m
2
primi tra loro. Basta
mostrare che si trovano interi e , tali che la matrice
L =
_

m
2
m
1
_
abbia determinante uno:
d := m
1
m
2
= 1 ;
basta anzi considerare il caso m
2
,= 0, perche altrimenti si ha m
1
= 1, e la conclusione
è banale. A questo scopo, per ogni intero poniamo = quoziente della divisione
intera m
1
/m
2
; allora il numero d denito sopra è il resto della divisione, cosicche
0 d < m
2
. Al variare di tra 0 e m
2
1, i valori che si ottengono per d sono
necessariamente tra loro diversi: se infatti per e
diversi si trova resto uguale,

allora, per sottrazione, segue
(
)m
1
(
)m
2
= 0 ,
m
1
m
2
=

,
82)
Questo per trattare il caso generico. La verica diretta è invece la pi` u semplice nel caso n = r = 2
(si veda losservazione alla ne della dimostrazione).
81
contro lipotesi che m
1
, m
2
siano primi tra loro. In particolare dunque esistono ,
tali che d = 1.
b) Estensione a n arbitrario, r = 1. Dobbiamo dimostrare che ssato k 1 esiste
una matrice L, det L = 1, tale che tutte le sue righe tranne la prima siano ortogonali
a k, ovvero tale che il vettore Lk abbia tutte le componenti nulle tranne la prima. La
matrice si costruisce come prodotto di n 1 matrici diagonali a blocchi:
L = L
n
L
3
L
2
;
ciascuna matrice L
i
ha un blocco di ordine due in corrispondenza agli indici 1 e i, e
per il resto è lidentit` a. Per quanto sopra dimostrato, L
2
si pu` o prendere in modo
che il vettore k
(2)
= L
2
k abbia la seconda componente nulla; la prima componente
cambia, le altre evidentemente restano invariate. Analogamente, L
3
si pu` o prendere
in modo che k
(3)
= L
3
k
(2)
abbia la terza componente nulla, e anzi, poichè la seconda
resta invariata, abbia sia la seconda che la terza componente nulla. Procedendo, si
ottiene che il vettore Lk ha tutte le componenti nulle, tranne la prima, come richiesto.
Daltra parte, L è prodotto di matrici intere con determinante uno, dunque è proprio
la matrice cercata.
c) Estensione a n, r qualsiasi. Siano k
(1)
, . . . , k
(r)
vettori indipendenti appartenenti
a 1; mostriamo che esiste una matrice intera L, det L = 1, tale che il vettore intero
Lk
(j)
, 1 j r, abbia tutte le componenti nulle da j + 1 in poi:
_
Lk
(j)
_
i
= 0 per 1 j r , j < i n . (A.3)
Ci` o basta alla conclusione del lemma, perche allora la (A.2) resta soddisfatta per r
vettori indipendenti di 1, dunque per tutto 1, ne possono esservi altri vettori fuori
di 1 per cui tale relazione è soddisfatta, altrimenti le ultime n r righe di L non
sarebbero linearmente indipendenti.
La (A.3) si dimostra per induzione su j. Per j = 1 la matrice certamente esiste,
ed è proprio quella costruita al punto b). Supponiamo allora di aver trovato L
s
tale
che la (A.3) sia soddisfatta per j s < r, e mostriamo che esiste L
s+1
tale che la
medesima relazione sia soddisfatta anche per j = s + 1. Per questo poniamo
k
(j)
= Lk
(j)
,

k
(j)
= (
k
(j)
1
, . . . ,
k
(j)
j
, 0, . . . , 0) per j s ,
e cerchiamo L
s+1
= L
s
, con che lasci inalterati i

k
(j)
con j s, e lavorando su
k
(s+1)
lo muti in un vettore con tutte le componenti nulle dalla s + 1 in poi. Si vede
senza dicolt` a che basta prendere diagonale a blocchi,
=
_
Id 0
0

L
_
, Id = identit` a s s ,
con

L matrice (n s) (n s) tale che il vettore intero (
k
(s+1)
s+1
. . . ,
k
(s+1)
n
) ZZ
ns
sia
mutato in un vettore intero con tutte le componenti nulle tranne la prima (di indice s+1);
L esiste proprio in virt` u del punto b) sopra dimostrato. La dimostrazione del lemma è cos`
conclusa.
82
I. Teoria ergodica B. Prova teor. BirkhoKinchin
Osservazione. La dimostrazione, come si è visto, è lunga e un po fastidiosa, ma
(tranne forse per il primo punto, che richiede un po di ispirazione) sostanzialmente
banale. Il primo caso interessante del lemma, precisamente n = 2 e r = 1, si di-
mostra in modo molto semplice: senza bisogno di passare attraverso L, si costruisce
direttamente J della forma
J =
_
k
1
k
2

_
,
e , si trovano come nel punto a).
B. Prova del teorema di BirkhoKinchin
La dimostrazione si basa sul seguente lemma tecnico, chiamato talvolta teorema er-
godico massimale:
Lemma B.1. Presa f : M lR sommabile, sia
F
t
(x) := f(x) +f((x)) +. . . +f(
t1
(x)) , x M , t > 0 ,
e poniamo
A := x M : sup
t1
F
t
(x) 0 .
Allora A è misurabile, e
_
A
f d 0 .
Si osservi che t
1
F
t
è la media temporale di f, arrestata al tempo t; in sostanza dunque il
lemma aerma che, se si prende tutto linsieme A dove la media temporale di f arrestata
al tempo t è non negativa almeno per un valore di t, allora lintegrale di f esteso a A è a
sua volta non negativo.
Mostriamo qui di seguito come da questo lemma segua il teorema di BirkhoKinchin;
la dimostrazione del lemma è riportata subito sotto.
Dimostrazione (teorema di BirkhoKinchin).
(a) Esistenza del limite quasi ovunque. Presi a, b lR, a < b, poniamo
E
a,b
=
_
x M : liminf
t
1
t
F
t
(x) < a < b < limsup
t
1
t
F
t
(x)
_
; (B.1)
83
si osservi che E
a,b
è misurabile (liminf e limsup di successioni di funzioni misurabili sono
misurabili) e con evidenza anche invariante. Linsieme per il quale la media temporale di
f non esiste è allora
E =
_
a,b
E
a,b
,
e siccome basta ununione numerabile (ad esempio su a, b razionali), è suciente mostrare
che ciascuno degli E
a,b
ha misura nulla.
A questo scopo facciamo vedere che in virt` u del lemma vale la disuguaglianza roves-
cia
b (E
a,b
)
_
E
a,b
f d a (E
a,b
) , (B.2)
dalla quale segue necessariamente (E
a,b
) = 0. Per provare, ad esempio, la disuguaglianza
di sinistra, si applica il lemma a
g(x) =
_
f(x) b per x E
a,b
1 per x / E
a,b
.
Si vede facilmente che linsieme A cui fa riferimento il lemma, cioè linsieme in cui G
t
:=
t
s=0
g
t
è non negativa per almeno un valore t > 0, è proprio E
a,b
: infatti se x E
a,b
allora, in base alla denizione (B.1) di E
a,b
, certamente esiste t per cui t
1
F
t
(x) > b, e
dunque G
t
(x) > 0. Daltra parte, se invece x / E
a,b
, allora
t
(x) / E
a,b
per ogni t > 0
(E
a,b
è invariante), e G
t
(x) è sempre negativa. Per il lemma risulta allora
_
E
a,b
g d =
_
E
a,b
f d b (E
a,b
) 0 ,
e la disuguaglianza sinistra della (B.2) è vericata. In modo analogo, prendendo
g(x) =
_
a f(x) per x E
a,b
1 per x / E
a,b
,
si prova la disuguaglianza destra.
(b) Prova che risulta

f(
t
(x)) =

f(x). Questo punto segue banalmente dalla denizione
di

f(x), ovunque il limite esista.
(c) Prova che risulta
f) = f). Osserviamo innanzitutto che

f è sommabile: infatti,
_
M
1
t
t1
s=0
f(
s
(x))
d(x)
1
t
t1
s=0
_
M
[f(
s
(x))[ d(x) =
_
M
[f[ d ,
e questo basta. Poniamo ora
C
a,b
= (

f)
1
[a, b) =
_
x M : a

f(x) < b
_
;
84
I. Teoria ergodica B. Prova teor. BirkhoKinchin
dalla denizione segue banalmente
a (C
a,b
)
_
C
a,b
f d b (C
a,b
) ,
ma anche, usando come sopra il lemma (con una opportuna g ecc.; la disuguaglianza debole
a sinistra non è rilevante: basta sostituire a con a ),
a (C
a,b
)
_
C
a,b
f d b (C
a,b
) ,
e dunque
_
C
a,b
f d
_
C
a,b
f d
(b a) (C
a,b
) .
Da questa disuguaglianza, sfruttando larbitrariet` a di a e b, segue senza dicolt` a la con-
clusione, ovvero
_
M
f d
_
M
f d = 0 . (B.3)
Si procede cos`: preso > 0 arbitrario, si divide lR in intervalli [k, (k +1)), k ZZ; risulta
evidentemente
k
C
k,(k+1)
= M, e
_
M
f d
_
M
f d
kZZ
_
C
k,(k+1)
f d
_
C
k,(k+1)
f d
kZZ
(C
k,(k+1)
) = ;
la (B.3) pertanto è vericata.
(d) Prova che nel caso invertibile

f
esiste e coincide con

f quasi ovunque. Lesistenza di
quasi ovunque è ovvia (basta considerare il sistema dinamico che si ottiene sostituendo
1
a ). Denotiamo allora

f
+
=

f, e supponiamo che risulti, ad esempio,

f
+
>

f
in un
insieme di misura positiva; allora posto
A := x M :

f
+
> 0 ,
si ha certamente
_
A
(

f
+
) d > 0 .
Ma poiche

f
+
e

f
, come si è visto al punto (b), sono costanti del moto, linsieme A è

invariante: perci` o se poniamo g(x) =
A
(x)f(x), con
A
funzione caratteristica di A, si
ha g
(x) =

f
(x) per x A, g
(x) = 0 altrimenti, e dunque

g
+
) g
) =
_
A
(

f
+
) d > 0 .
85
Ma questa è una contraddizione perche, per quanto gi` a dimostrato al punto (c), deve
risultare g
+
) = g
) = g).
Vediamo inne la dimostrazione del lemma.
Dimostrazione (lemma). Poniamo
T
t
= max
1st
F
s
, A
t
=
_
x M : T
t
0
_
,
cosicche T
t+1
T
t
, e
A
t
A
t+1
, A =
_
1t<
A
t
.
Allora
_
A
f d = lim
t
_
A
t
f d ,
dunque per dimostrare il lemma basta provare che per ogni t > 0 risulta
_
A
t
f d 0 .
A questo scopo, poniamo T
+
t
= max (0, T
t
). Un minimo di riessione mostra che per t 2
si pu` o scrivere
f(x) = T
t
(x) T
+
t1
((x)) T
t
(x) T
+
t
(((x)) ,
da cui segue
_
A
t
f d
_
A
t
T
t
d
_
A
t
T
+
t
d
_
M
T
+
t
d
_
M
T
+
t
d = 0
(la seconda disuguaglianza si spiega osservando che T
+
t
coincide con T
t
in A
t
, ed è nullo
in M A
t
).
86
I. Teoria ergodica C. Prova dei Lemmi 9.7 e 9.8
C. Prova dei Lemmi 9.7 e 9.8
Dimostriamo preliminarmente alcune propriet` a elementari dellentropia relativa, precisa-
mente:
Lemma C.1. Lentropia relativa soddisfa le seguenti proprietà:
i. _ ([ ) = 0.
ii. ([ ) (), e luguaglianza vale se e solo se le partizioni sono indipendenti.
iii. _ =( [ ) ([ ) e viceversa ( [ ) ( [ ).
iv. ( [ ) ([ ) +( [ ).
Dimostrazione.
i. Risulta ([ ) = 0 se e solo se se ciascuno dei termini (A
i
[ B
j
) vale 0 oppure 1, e
dunque se e solo se (A
i
B
j
) = (B
j
) oppure 0, che vuol dire _ .
ii. Non è altro che la riscrittura (9.8) del Lemma 9.3.
iii. Per la prima parte è utile la riscrittura
([ ) =
j
(B
j
) ([ B
j
) , ([ B
j
) :=
i
(A
i
[ B
j
) Log (A
i
[ B
j
) ;
([ B
j
) altro non è che lentropia della partizione , calcolata usando per i suoi
atomi la misura relativa
j
(A
i
) := (A
i
[ B
j
). La conclusione allora è immediata,
non appena si ricordi che ranando una partizione lentropia non diminuisce. Per la
seconda parte, sia = C
k
0k<r1
, cosicchè
( [ ) =
j
(B
j
)
k
(C
k
[ B
j
) Log (C
k
[ B
j
) .
Per ogni i, sia J
i
linsieme degli indici j, tali che B
j
A
i
,= , cosicche

j
( . ) =
jJ
i
( . ). Sommando su j J
i
, ed usando ancora una volta la disuguaglianza di
Jensen con pesi c
j
=
(B
j
)
(A
j
)
, la conclusione segue facilmente.
iv. Si ha
( [ ) = ( ) ()
= ( ) ( ) +( ) ()
= ([ ) +( [ ) ([ ) +( [ ) .
Veniamo ora alla dimostrazione del Lemma 9.7.
Dimostrazione. Primo punto: risulta sempre, evidentemente, dist(, ) 0 e
dist(, ) = 0; usando poi il Lemma C.1 si vede subito che
dist(, ) = 0 = ([ ) = ( [ ) = 0 = = .
87
La simmetria di dist(, ) è evidente. Per provare la disuguaglianza triangolare, usiamo i
Lemmi C.1 e 9.3 per scrivere
([ ) = ( ) ()
( ) ( ) +( ) () = ([ ) +( [ )
([ ) +( [ ) .
Allo stesso modo si ha ( [ ) ( [ ) +( [ ), e la conclusione è immediata.
Per il secondo punto basta mostrare che per ogni t si ha
[(
t+1
()) (
t+1
())[ t dist(, ) .
Per questo supponiamo ad esempio che per un certo t risulti (
t+1
()) >
(
t+1
()); segue facilmente
(
t+1
()) (
t+1
())
(
t+1
()
t+1
()) (
t+1
())
= (
t+1
() [
t+1
())
s
(
s
() [
t+1
())
s
(
s
() [
s
()) =
s
([ ) = t ([ ) ,
e questo basta (si sono usati il quarto punto della Proposizione 9.1, la (9.7), e il quarto e
terzo punto del Lemma C.1).
Inne, dimostriamo il Lemma 9.8.
Dimostrazione. Qualunque insieme misurabile A è approssimabile esternamente con
ununione di rettangoli, dunque con un insieme classico

A A, tale che la dierenza

AA
sia di misura piccola a piacere. Data allora = A
0
, . . . , A
n1
, e preso ad arbitrio > 0,
siano

A
0
, . . . ,

A
n1
insiemi classici tali che

A
i
A
i
, (
A
i
A
i
) < ; ponendo ricorsivamente
B
0
=

A
0
, B
i
=

A
i
_
0j<i
B
j
, 1 i n 1 ,
si ottiene allora una partizione classica = B
0
, . . . , B
n1
, tale che ogni atomo B
i
di B
approssima bene il corrispondente atomo A
i
di A: precisamente, [(A
i
B
i
)[ < (cost) , e
(A
i
B
j
) < (cost) per i ,= j. Segue subito
[ (A
i
[ B
j
)
ij
[ < (cost) , [ (B
i
[ A
j
)
ij
[ < (cost) ,
88
I. Teoria ergodica D. Prova teor. generatore
D. Prova del teorema del generatore
Denizione. Si dice che la successione crescente di partizioni misurabili
0
_
1
_ _
k
_
tende alla partizione in punti
83)
, se comunque si prendano un numero > 0 e un insieme
A misurabile esistono k 0 e C
1
, . . . , C
m

k
, tali che
(A
i
C
i
) < .
Ad esempio, per M = quadrato di lato L si ponga
k
= partizione in quadretti di lato
2
k
L; la successione delle partizioni tende con evidenza alla partizione in punti (qualunque
rettangolo, e dunque qualunque insieme misurabile secondo Lebesgue, si pu` o approssimare
a piacere con un numero nito di quadretti sucientemente piccoli). Dalla denizione
stessa di partizione generante segue che se è generante per il sistema dinamico (M, , ),
supposto ad esempio invertibile, allora la successione di partizioni
k
=
k
()
k
() , k lN ,
tende alla partizione in punti.
Si verica senza dicolt` a il seguente lemma:
Lemma D.1. Sia T linsieme delle partizioni misurabili di M. Se la sequenza di partizioni
0
_
1
_ _
k
_
converge a , allora linsieme
T
0
=
_
T ; k 0 : _
k
_
è denso in T.
Nellesempio: le partizioni _
k
sono quelle i cui atomi hanno tutti per bordo una
spezzata che segue la quadrettatura di
k
.
Dimostrazione. Mostriamo che comunque si prenda = A
0
, . . . , A
n1
T, si pu` o
costruire T
0
con dist(, ) arbitrariamente piccola. Poichè
k
, per ogni scelta di
e dellatomo A
i
, esistono k e A
i
tali che
A
i
= unione di atomi di
k
, (A
i
A
i
) ;
83)
Lespressione sottolinea il fatto che al crescere di k la partizione
k
diventa innitamente ne.
89
si pu` o evidentemente prendere il medesimo k per tutti gli A
i
. Si ottiene allora una par-
tizione = B
0
, . . . , B
n1
di M ponendo
B
0
= A
0
, B
i
= A
_
0j<i
B
j
per 0 < i < n 1 , B
n1
= M
_
0j<n1
B
j
;
non è dicile convincersi che T
0
, e inoltre che dist(, ) < (cost).
Veniamo ora alla dimostrazione del teorema del generatore (per ssare le idee consideriamo
il caso invertibile).
Dimostrazione. Basta mostrare che se è generante, e qualsiasi, allora si ha
h(, ) h(, ) . (D.1)
Per questo, presa generante, poniamo
k
=
k
()
k
() .
La successione che si ottiene è crescente e converge a , perci` o si pu` o applicare il lemma.
La verica della disuguaglianza (D.1), per in T
0
, è immediata: infatti, se _
k
, allora
h(, ) h(,
k
) = lim
t
1
t
(
k

t+1
(
k
))
= lim
t
1
t
(
k
()
kt+1
())
= lim
t
2k +t
t
1
2k +t
(
2kt+1
())
= h(, ) .
Daltra parte, poichè T
0
è denso e h continua nel secondo argomento, la disuguaglianza si
trasporta a tutto T.
E. Un algoritmo per il calcolo numerico degli ECL
Ci mettiamo qui nel caso (pi` u laborioso ma pi` u interessante) di un sistema dinamico
continuo (M, , ), e supponiamo per semplicit` a (è il caso dei sistemi hamiltoniani) di
poter ricoprire M con un solo sistema di coordinate x
1
, . . . , x
n
; in pratica, supponiamo di
avere una equazione dierenziale in lR
n
del tipo
x = f(x) . (E.1)
90
I. Teoria ergodica E. Calcolo degli ECL
Tutti gli spazi tangenti si identicano evidentemente con lR
n
, e levoluzione del vettore
tangente in lR
n
è data dallequazione alle variazioni (lineare non autonoma)
= A(
t
(x)) . (E.2)
Vi sono algoritmi che consentono di integrare numericamente le (E.1), (E.2) con ragionevole
approssimazione
84)
e dunque di determinare x(t) :=
t
(x
0
) e (t) := D
t
x
0
0
per ogni t,
in corrispondenza ad assegnati dati iniziali x
0
e
0
.
Per calcolare il solo esponente massimo
1
=
1
(x
0
) sarebbe suciente, in linea di
principio, prendere a caso
85)
un vettore tangente iniziale
0
, per ssare le idee di norma 1,
e applicare la denizione, ovvero calcolare
1
(t) =
1
t
|(t)| ,
proseguendo lintegrazione nche questa quantit` a non appaia stabilizzarsi a un valore limite
sucientemente denito. In pratica, questa procedura si scontra con una dicolt` a tecnica:
proprio a causa della divergenza esponenziale, il vettore (t) cresce in generale rapidamente,
e supera presto il limite dei numeri rappresentabili dalla macchina: si ha il cosiddetto
overow di macchina.
La via duscita tuttavia è abbastanza semplice: ssato non troppo grande, poniamo
1
= D
x
0
0
,
1
= |
1
| ,

1
=
1
/
1
;
poniamo poi, iterativamente, x
k
=
(x
k1
), e
k
= D
x
k1
k1
,
k
= |
k
| ,

k
=
k
/
k
.
Un minimo di riessione mostra che si ha
D
k
x
0
0
=
k

1
k
,
e dunque
1
(k) =
1
k
k
j=1
log
j
.
Il problema delloverow in questo modo scompare.
La gura E.1 mostra landamento di
1
(t) in funzione di t, per il modello di Henon e
Heiles a energia E = 0.125. Le diverse curve si riferiscono a diversi dati iniziali: tre di esse
sono prese nella regione caotica, e sembrano convergere a un limite comune per t ,
84)
Il problema dellapprossimazione degli integratori numerici è spinosissimo, e non vi entriamo. Ricor-
diamo solo che un metodo buono in assoluto non esiste, e che per quanto possibile bisogna adattare
lalgoritmo di calcolo al problema in esame. Ad esempio, per i sistemi hamiltoniani è opportuno
usare i cosiddetti algoritmi simplettici (ogni passo di integrazione è realizzato con una trasformazione
canonica prossima allidentit` a).
85)
Un vettore scelto a caso fornisce, evidentemente, il massimo esponente
1
. Ma anche nellipotesi in
cui
0
coincidesse con e
2
, basterebbero i primi errori numerici a fornire una componente non nulla
lungo e
1
, cosicche in ogni caso si arriva a calcolare
1
.
91
Figura E.1.
1
(t) in funzione di t, per il modello di Henon e Heiles
a energia E = 0.125. Tre curve con dato iniziale nella regione caotica
convergono a un medesimo limite; due altre curve con dato iniziale nella
regione ordinata mostrano
1
(t) che tende a zero per t .
coerentemente con lidea che il sistema, ristretto alla regione caotica, sia ergodico. Due
curve sono invece prese in due diverse regioni ordinate, e landamento, che risulta essere
grosso modo
1
(t) t
1
(la scala è loglog), indica che
1
(t) tende a zero per t ,
come avviene nei sistemi integrabili.
Veniamo ora al calcolo di
2
; lestensione al calcolo dei primi p ECL è poi immediata.
Lidea di base è quella di prendere a caso 2 vettori iniziali
0
,
0
, e posto [, ] = parallel-
ogramma generato dai vettori , , guardare alla crescita dellarea di [(t), (t)]: in linea
di principio, in base alla teoria, la somma
1
(x
0
) +
2
(x
0
) è il limite della quantit` a
1
t
log Area [(t), (t)] .
In pratica, alla precedente dicolt` a dovuta alla rapida crescit` a di uno o entrambi i vettori,
si aggiunge qui una dicolt` a ulteriore: in generale i due vettori (t), (t) collassano in
una medesima direzione (la pi` u dilatante), e langolo tra i due, essenziale per il calcolo
dellarea, si perde. Si procede allora cos`: si parte con
0
,
0
ortogonali, precisamente tali
da formare un quadrato di lato uno, e si calcolano
1
= D
x
0
0
,
1
= D
x
0
0
; per il
primo vettore si procede come sopra, denendo
1
e

1
, mentre per il secondo non solo lo
si riporta a norma uno, ma lo si riporta anche a essere ortogonale al primo, mantenendolo
per` o nel piano di
1
e
1
. Precisamente, si pone
=
1
(
1
1
)
1
,
1
= |
| ,
1
=
/
1
.
92
I. Teoria ergodica E. Calcolo degli ECL
Si osservi che larea del parallelogramma è stata ridotta complessivamente del fattore
1
1
.
Si deniscono poi iterativamente, in modo ovvio,
k
,
k
,
k
,
k
,

k
,
k
, e un minimo di
riessione mostra che si ha
Area [D
k
x
0
0
, D
k
x
0
0
] =
1jk
1
(x
0
) = lim
k
1
kt
k
j=1
log
j
,
2
(x
0
) = lim
k
1
kt
k
j=1
log
j
.
Per questa via il calcolo simultaneo di
1
e
2
diventa agevole. Si osservi che per ogni
k il passaggio da
k
,
k
a

k
,
k
altro non è che la procedura di ortonormalizzazione di
GrahmSchmidt.
La generalizzazione al calcolo dei primi p esponenti di Lyapunov è semplice, e lasciata
come esercizio [Suggerimento: si segue levoluzione di p vettori tangenti, e a intervalli rego-
lari di tempo si esegue lortonormalizzazione di GrahmSchmidt. Al passo k intervengono
in modo naturale nellalgoritmo di ortonormalizzazione p costanti
(i)
k
, i = 1, . . . , p, e si ha
i
(x
0
) = lim
k
(kt)
1
k
j=1
log
(i)
j
].
3
Figura E.2. Il calcolo dei primi tre ECL per un sistema hamiltoniano
a tre gradi di libert` a (tre diverse orbite caotiche). Le curve corrispon-
denti a
1
e
2
sembrano convergere a ben deniti limiti, mentre quelle
corrispondenti a
3
sembrano tendere a zero per t .
La gura E.2 illustra il calcolo di
i
(t), i = 1, 2, 3, per un sistema hamiltoniano a
tre gradi di libert` a, introdotto da G. Contopoulos in connessione a problemi di dinamica
93
stellare; lhamiltoniana è
H(p, q) =
1
2
3
i=1
(p
2
i
+
2
i
q
2
i
) +q
2
1
(q
2
+q
3
) ,
con
1
= 1,
2
=

2,
3
=

3. Sono stati presi tre dati iniziali nella regione caotica a
energia E = 0.15, e per ciascuno di essi sono stati calcolati i primi tre ECL; come si vede,
le curve corrispondenti ai primi due sembrano convergere a ben deniti limiti indipendenti
dal dato iniziale, mentre, in accordo con la teoria, quelle corrispondenti al terzo sembrano
tendere a zero (grosso modo come t
1
) per t .
Per maggiori informazioni, si veda: G. Benettin et al., Lyapunov characteristic expo-
nents for smooth dynamical systems; a method for computing all of them. Part I: theory.
Part II: numerical application. Meccanica 15, pag. 9 e 21 (1980). Anche: G. Benettin e
L. Galgani, Lyapunov characteristic numbers and stochasticity, in Intrinsic stocasticity in
plasmas, edito da G. Laval e D. Gresillon (Ed. de Physique, Orsay 1979).
Osservazione. Il metodo di calcolo qui proposto presuppone evidentemente la
conoscenza delle equazioni del moto del sistema. Per sistemi accessibili solo sperimen-
talmente (andamenti economici, tracciati encefalograci) gli ECL si possono ugual-
mente calcolare, ma la faccenda si fa pi` u complicata. Si veda, a questo proposito,
Wolf et al., Determining Lyapunov exponents from a time series, Physica 16D, 285
317 (1985).
94

Teorerg PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Teorerg PDF

Caricato da

Copyright:

Formati disponibili

G.

corrispondente allo stato di Maxwell

, e in questo insieme esso spender` a poi la

, rappresenta nel pensiero di Boltzmann lavvicinamento allequilibrio (misure fatte

`e di equilibrio. In eetti, la dinamica conserva lenergia,

) = (x, y), con

Figura 2.6. Lesempio 2.6

[d, ove d indica larea su N, mentre [v

), t ZZ, del dato iniziale x

(x) = 1 x M, per ogni scelta di

f) g)[ < (cost)

A) `e costruito a partire da un insieme

B)[ < (cost) ,

disgiunti tali che

. Daltra parte, per la nozione E1 di ergodicit` a,

di misura uno per le

, che a un generico insieme misurabile B attribuiscono misura

prendendo una successione (eventualmente innita) y

come sopra. In generale, assegnato un sistema dinamico (M, , ), `e

, con indice discreto

E; al variare di , e si ottengono cos`

sono diverse, esiste t ZZ, tale che

, denita nel modo naturale:

I e ogni c, 0 c 1, si ha f(cx + (1 c)x

); si dice concava se f `e convessa.

> 0 tale che

(si pu` o prendere il medesimo T

< ; anzi, se esiste L() tale che (x, ) = , allora / L(

) strettamente. Se ne conclude che al variare di ,= 0 in

potrebbero avere componente dominante (componente lungo e

(x, t) loperatore aggiunto, A

(x, t)A(x, t) `e un operatore lineare su T

(x, t)A(x, t)]

diversi si trova resto uguale,

f) = f). Osserviamo innanzitutto che

esiste e coincide con

, come si `e visto al punto (b), sono costanti del moto, linsieme A `e

(x) = 0 altrimenti, e dunque

Potrebbero piacerti anche