Sei sulla pagina 1di 233

quaderni della scuola di dottorato di ricerca in finanza delluniversit degli studi di trieste n.

1
copyright Edizioni Universit di Trieste, Trieste 2007.
Propriet letteraria riservata.
I diritti di traduzione, memorizzazione elettronica, di
riproduzione e di adattamento totale e parziale di questa
pubblicazione, con qualsiasi mezzo (compresi i microflm,
le fotocopie e altro) sono riservati per tutti i paesi.
ISBN 978-88-8303-221-9
EUT - Edizioni Universit di Trieste
p.zzale Europa, 1 34127 Trieste
http://eut.units.it
La Scuola di dottorato di ricerca in Finanza
stata istituita con decreto rettorale n. 1188
del 14 luglio 2006 ed ha il compito di promuovere,
organizzare e coordinare la gestione di progetti
formativi di livello dottorale nei campi scientifci
della fnanza teorica e della fnanza sperimentale
a carattere interdisciplinare e internazionale,
facenti parte dellofferta formativa
di terzo livello dell Ateneo.
La prima lezione della Scuola
stata tenuta dal prof. Giampaolo De Ferra,
membro del Consiglio Scientifco,
il giorno 24 gennaio 2007.
Elementi
di teoria
delle decisioni
statistiche
Silvano Holzer
euT edizioni universit di trieste
Quelli che sinnamoran di pratica sanza scienza, son come
l nocchiere, chentra in navilio sanza timone o bussola, che
mai ha certezza dove si vada.
Leonardo da Vinci
Indice
Introduzione i
Preliminari v
1 Preferenze e utilit`a 1
1.1 Relazioni di preferenza e di indierenza . . . . . . . . . . . . . 2
1.2 Utilit` a ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Utilit` a cardinale . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Avversione al rischio . . . . . . . . . . . . . . . . . . . . . . . 25
2 Decisioni statistiche 41
2.1 Regole di decisione . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Classi complete . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3 Classi essenzialmente complete . . . . . . . . . . . . . . . . . . 61
2.4 Indici di preferibilit`a . . . . . . . . . . . . . . . . . . . . . . . 66
2.5 Regole di decisione bayesiane . . . . . . . . . . . . . . . . . . 72
2.6 Regole bayesiane formali . . . . . . . . . . . . . . . . . . . . . 78
2.6.1 Regole bayesiane formali nella stima puntuale . . . . . 83
2.6.2 Regole bayesiane formali nella stima intervallare . . . . 93
2.6.3 Regole bayesiane formali nella verica di ipotesi . . . . 95
2.7 Regole di decisione minimax . . . . . . . . . . . . . . . . . . . 97
2.8 Regole di decisione randomizzate . . . . . . . . . . . . . . . . 106
A Richiami di teoria dellintegrazione 113
A.1 Misure e loro propriet` a . . . . . . . . . . . . . . . . . . . . . . 113
A.2 Applicazioni misurabili . . . . . . . . . . . . . . . . . . . . . . 123
A.3 Integrale di Lebesgue . . . . . . . . . . . . . . . . . . . . . . . 130
A.3.1 Costruzione . . . . . . . . . . . . . . . . . . . . . . . . 131
I
II INDICE
A.3.2 Propriet` a elementari . . . . . . . . . . . . . . . . . . . 138
A.3.3 Propriet` a di convergenza . . . . . . . . . . . . . . . . . 145
A.4 Misure denite tramite funzioni . . . . . . . . . . . . . . . . . 150
A.5 Misura prodotto . . . . . . . . . . . . . . . . . . . . . . . . . . 155
B Richiami di teoria della probabilit`a 165
B.1 Nozioni e risultati di base . . . . . . . . . . . . . . . . . . . . 165
B.1.1 Eventi, variabili aleatorie, enti aleatori . . . . . . . . . 165
B.1.2 Legge e densit`a di un ente aleatorio . . . . . . . . . . . 167
B.1.3 Speranza matematica . . . . . . . . . . . . . . . . . . . 170
B.1.4 Varianza e covarianza . . . . . . . . . . . . . . . . . . . 172
B.1.5 Leggi congiunte e indipendenza . . . . . . . . . . . . . 175
B.2 Speranza matematica condizionata . . . . . . . . . . . . . . . 182
B.2.1 Condizionamento a -algebre . . . . . . . . . . . . . . 184
B.2.2 Funzione di regressione . . . . . . . . . . . . . . . . . . 194
B.2.3 Legge e densit`a condizionali . . . . . . . . . . . . . . . 202
B.2.4 Densit` a iniziale, nale e predittiva . . . . . . . . . . . . 209
Bibliograa essenziale 215
Introduzione
Lattivit` a umana `e completamente permeata dallincertezza, essendo luomo
costantemente chiamato a prendere decisioni pur non conoscendone, in modo
preciso, le relative conseguenze che possono essere pi` u o meno gradite. Si
pensi, ad esempio, ad una persona che sceglie la localit`a ove trascorrere
le ferie; ad un giornalaio che programma la quantit` a di giornali e riviste
da acquistare; ad un medico che prescrive un farmaco per curare una data
malattia; ad un giocatore interessato a comperare biglietti di lotterie. Nelle
situazioni descritte gli individui si trovano di fronte a diverse opportunit` a di
scelta (ad esempio, la persona pu` o prendere in esame le diverse proposte di
un tour operator; il giocatore trova disponibili biglietti di svariate lotterie).
Sorge allora il problema di come scegliere tra le varie possibili alternative a
disposizione, ricorrendo anche (qualora sia possibile e conveniente) ad infor-
mazioni di natura statistica che facciano luce su questioni connesse con il
problema decisionale (ad esempio, per scegliere la localit` a di villeggiatura,
la persona potrebbe informarsi sulle previsioni del tempo relative alle varie
scelte possibili; il giornalaio potrebbe eettuare una serie di osservazioni sul
venduto giornaliero prima di decidere; il medico potrebbe far ricorso ai risul-
tati della sperimentazione medica per valutare lecacia dei farmaci presi in
considerazione).
Sin dallantichit` a luomo ha cercato di formulare, nella sua lotta con-
tro lincertezza, regole di comportamento sensate che gli consentissero di
arontare razionalmente il problema della scelta sopra esemplicato. A tale
proposito, conviene ricordare che nel tempo lindividuazione di tali regole
`e stata notevolmente condizionata da due interpretazioni sulla loro natura:
quella normativa e quella descrittiva. La prima, analizzando teoricamente
i comportamenti di una persona ideale perfettamente razionale, tende ad
identicarle come norme canoniche astratte; la seconda invece, partendo
dallosservazione sul campo dei soggetti, tende ad identicarle con il com-
i
ii Introduzione
portamento delle persone reali e ragionevolmente razionali.
Tralasciando le vicissitudini storiche che, alla luce di questa dicotomia,
hanno condotto a modicare e/o reinterpretare via via le metodologie pro-
poste per lanalisi delle scelte individuali in condizioni dincertezza, ci limitere-
mo a presentare e ad analizzare, nei suoi aspetti basilari, il risultato nale
pi` u popolare di questo processo nellambito dei contesti non competitivi
1
.
La sua costruzione deriva dalla fusione del calcolo delle probabilit`a
(analisi quantitativa dei fenomeni aleatori) con la teoria dellutilit` a (stu-
dio delle rappresentazioni numeriche delle preferenze individuali) e con la
statistica (applicazioni del metodo induttivo concernenti osservazioni - possi-
bilmente numerose - in qualche senso analoghe). Infatti, limitandoci ad una
descrizione succinta, fa riferimento ai seguenti elementi fondamentali:
linsieme delle decisioni a disposizione del decisore;
linsieme degli stati di natura, dei quali lunico vero `e sconosciuto al
decisore;
la funzione di danno L(, d) rappresentante la disutilit` a che il decisore
subisce se prende la decisione d quando `e lo stato di natura vero;
lesperimento consistente nellosservare un ente aleatorio - con distri-
buzione di probabilit` a dipendente dallo stato di natura vero - che
potrebbe aiutare (sperabilmente) il decisore a contenere i danni;
i comportamenti del decisore, cio`e funzioni che ad ogni possibile os-
servazione associano una decisione;
la funzione di rischio R

() che fornisce il danno medio che il decisore


subisce se adotta il comportamento quando `e lo stato di natura
vero,
e si basa sullassunzione che lobiettivo principale, se non lunico, del decisore
sia quello di perseguire un comportamento che comporti un rischio pi` u piccolo
1
Cio`e, con riferimento a situazioni nelle quali le decisioni comportano conseguenze non
dipendenti dalla volont` a di individui diversi da quello chiamato a scegliere. Per chi fosse
interessato anche ai contesti competitivi, consigliamo Aliprantis, C.D. - Chakrabarti, S.K.,
Games and Decision Making, Oxford University Press, Oxford (2000) che fornisce una
ottima introduzione allargomento e Osborne, M.J. - Rubinstein, A., A course in Game
Theory, The MIT Press, Cambridge, Massachusetts (1994) per una trattazione avanzata.
Introduzione iii
possibile (in qualche senso
2
).
Si ottiene cos` una trattazione delle scelte individuali in condizione di
incertezza che, presentando la metodologia statistica come una entit` a unica
e omogenea, consente di annullare limpressione, piuttosto diusa, che la
Statistica sia un agglomerato di tecniche pi` u o meno slegate tra loro. Si
potr` a cos` comprendere appieno la logica sottostante le soluzioni standard
che sono state proposte nellambito dei problemi statistici classici (e.g. di
stima puntuale, di verica di ipotesi, etc.).
Nella stesura del testo si `e posta particolare cura agli aspetti logico-
matematici cercando di mettere in piena luce sia le ipotesi (e quindi i limiti)
che gli sviluppi formali sottostanti le problematiche statistiche considerate.
Sono stati inseriti numerosi esempi per una comprensione migliore degli as-
petti, sia teorici che applicativi, inerenti gli argomenti trattati. Inoltre, per
rendere sucientemente completa lesposizione, sono state incluse delle parti
opzionali (di norma scritte in carattere pi` u piccolo) la cui lettura potr` a essere
omessa (e rimandata eventualmente ad un secondo momento) senza pregiudi-
care in alcun modo la comprensione della maggior parte del materiale esposto.
Si `e ritenuto opportuno inserire anche due ampie appendici che forniscono
sia un riferimento per il linguaggio e la simbologia usati, che il materiale -
della teoria della misura e del calcolo delle probabilit` a - indispensabile per
una piena comprensione del testo. A tale proposito ampio spazio `e stato
riservato, a causa della loro delicatezza, alle nozioni generali di speranza
matematica condizionata e di funzione di regressione (fornendone le propriet` a
principali, come pure alcuni esempi chiaricatori) che, come `e ben noto, sono
bagaglio indispensabile per chiunque voglia cimentarsi, oltre che nellanalisi
statistica, anche nellanalisi quantitativa dei mercati nanziari
3
.
Il testo `e stato scritto seguendo il lo delle lezioni svolte da parecchi anni
nel corso di Statistica Matematica (laurea in Scienze Statistiche ed Attuaria-
li) e, per quanto riguarda le appendici, nel corso progredito di Calcolo delle
Probabilit` a (laurea in Statistica e Informatica per lAzienda, la Finanza
e lAssicurazione) tenuti presso la Facolt` a di Economia dellUniversit` a di
Trieste. Alcuni degli argomenti trattati sono stati inclusi anche nel ciclo di
2
Come potrebbe essere, ad esempio, quello di minimizzare il massimo rischio oppure il
rischio medio calcolato rispetto a qualche distribuzione di probabilit` a sugli stati di natura.
3
Essendo sviluppate in dettaglio le dimostrazioni dei risultati di teoria della misura e
di probabilit` a considerati, queste appendici possono essere usate sia come utile ripasso per
chi gi`a ne conosca il contenuto che come una introduzione per chi lo incontrasse per la
prima volta.
iv Introduzione
lezioni di Calcolo delle Probabilit` a e di Teoria delle Decisioni per gli studenti
della Scuola di Dottorato di Ricerca in Finanza aerente alla Facolt` a di
Economia dellUniversit` a di Trieste.
Per quanto riguarda la bibliograa, sono riportati solamente quei testi
che forniscono, a nostro parere, una guida sicura e sucientemente esaustiva
per chiunque volesse approfondire le tematiche inerenti la moderna teoria
delle decisioni statistiche. Nel corso della trattazione, sono riportati, a pi`e di
pagina, anche alcuni testi non citati in bibliograa che forniscono risultati o
impostazioni utili per alcuni argomenti specici.
Concludiamo aggiungendo che giudizi, critiche e suggerimenti da parte
dei diretti interessati (gli studenti) o da altri eventuali lettori saranno accolti
con gratitudine.
Silvano Holzer
Trieste, dicembre 2007
Preliminari
Riportiamo le principali notazioni (come pure qualche precisazione termino-
logica) relative alla teoria degli insiemi e agli spazi numerici reali che saranno
costantemente adoperate nel corso dellesposizione.
Logica
connettivo logico di congiunzione.
connettivo logico di disgiunzione (inclusiva).
connettivo logico di implicazione.
connettivo logico di biimplicazione.
quanticatore esistenziale.
quanticatore universale.
p negazione della proposizione p.
, negazione della relazione binaria .
= relazione di uguaglianza.
Insiemi
insieme vuoto.
relazione di appartenenza.
A B (o B A) signica: A sottoinsieme di B.
A B (o B A) signica: A B e A ,= B.
v
vi PRELIMINARI
2
A
insieme delle parti dellinsieme A.
operazione di intersezione.
operazione di unione.
operazione di dierenza insiemistica.
A
c
= B A insieme complementare di A rispetto allambiente B.
a A : P(a) insieme degli elementi a A che rendono vera la
proposizione: a possiede la propriet`a espressa dal predicato P().
N insieme dei numeri naturali.
m, n (dotati o no di apici o pedici) numeri naturali non nulli.
a
1
, . . . , a
n
insieme nito costituito dagli elementi a
1
, . . . , a
n
.
a
1
, a
2
, . . . insieme numerabile costituito dai termini della succes-
sione a
1
, a
2
, . . . .
Un insieme `e discreto se `e nito o numerabile; un singoletto se ha un
solo elemento.
Data una famiglia indiciata (A
i
)
iI
di insiemi,

iI
A
i
`e linsieme degli
elementi a tali che a A
i
per ogni i I;

iI
A
i
quello degli elementi
a tali che a A
i
per qualche i I.
4
In particolare, queste notazioni sono sostituite, rispettivamente, dalle

n
h=m
A
i
h
e

n
h=m
A
i
h
, se I = i
m
, i
m+1
, . . . , i
n
e m < n; dalle

nm
A
i
n
e

nm
A
i
n
, se I = i
m
, i
m+1
, i
m+2
, . . . .
La famiglia di insiemi (A
i
)
iI
`e disgiunta se `e formata da insiemi a due
a due disgiunti (cio`e tali che A
i
A
j
= se i ,= j).
La successione di insiemi (A
i
n
)
nm
`e non decrescente se A
i
n
A
i
n+1
per ogni n m; non crescente se A
i
n
A
i
n+1
per ogni n m.
a = (a
1
, . . . , a
n
) signica: a `e la n-pla ordinata avente come primo
termine a
1
, come secondo termine a
2
, . . . , come ultimo termine a
n
.
4
Delle regole di calcolo riguardanti le operazioni insiemistiche, ricordiamo, in parti-
colare, le leggi di De Morgan
_
iI
A
i
_
c
=

iI
A
c
i
,
_
iI
A
i
_
c
=

iI
A
c
i
e le propriet` a
distributive A
_
iI
A
i
_
=

iI
(A A
i
), A
_
iI
A
i
_
=

iI
(A A
i
).
vii
(a
n
)
n1
successione avente come primo termine a
1
, come secondo ter-
mine a
2
, come terzo termine a
3
, . . . .
A
1
A
n
prodotto (cartesiano) degli insiemi A
1
, . . . , A
n
.
A
n
prodotto di n copie dellinsieme A.
Preordinamenti
Una relazione binaria su un insieme A `e:
- un preordinamento se `e riessiva (a a per ogni a A) e transitiva
(a a

a a

per ogni a, a

, a

A);
- un ordinamento se `e un preordinamento antisimmetrico (a a


a a = a

per ogni a, a

A);
- un ordinamento stretto se `e transitiva e asimmetrica (a a

, a
per ogni a, a

A);
- un preordinamento completo se `e un preordinamento che verica la
completezza (a a

o a

a per ogni a, a

A);
- una equivalenza se `e riessiva, transitiva e simmetrica (a a


a per ogni a, a

A).
Dato un preordinamento _ su A, per:
parte simmetrica di _ si intende la relazione binaria cos` denita:
a a

a _ a

_ a;
parte asimmetrica di _ si intende la relazione binaria ~ cos` denita:
a ~ a

a _ a

a , a

.
5
Dato un preordinamento _su A, si chiamano, rispettivamente, interval-
lo chiuso (aperto, inferiormente semiaperto, superiormente semiaperto)
di estremi a

, a

A gli insiemi:
[a

, a

] = a A : a

_ a _ a

]a

, a

[ = a A : a

~ a ~ a

]a

, a

] = a A : a

_ a ~ a

[a

, a

[= a A : a

~ a _ a

.
5
Ricordiamo che la parte simmetrica `e una equivalenza mentre quella asimmetrica `e un
ordinamento stretto. Notiamo inoltre che sussiste la propriet`a seguente:
a
1
a

1
a
2
a

2

_
a
1
_ a
2
a

1
_ a

2
_

_
a
1
~ a
2
a

1
~ a

2
_
che mette in luce la compatibilit` a dellequivalenza sia con il preordinamento _ che con
lordinamento stretto ~.
viii PRELIMINARI
A

A `e un insieme _-connesso se [a, a

] A

per ogni a, a

.
Dato un insieme non vuoto A

A, le notazioni inf A

, sup A

indicano
i suoi estremi, rispettivamente, inferiore e superiore (qualora esistenti).
Applicazioni
f : A B signica: f `e unapplicazione di dominio A e codominio
B (in breve, di A in B).
b = f(a) (o f : a b) signica: b `e limmagine di a tramite f.
f

restrizione di f su A

A
f(A

) insieme-immagine di A

A tramite f.
f
1
(B

) (o f B

) controimmagine di B

B tramite f.
6
Se A = A

, a

e a

, le restrizioni f

{a

}A

e f

{a

}
si denotano, rispettivamente, con f(a

, ) e f(, a

).
Se lapplicazione f `e biiettiva, f
1
`e la sua inversa.
Date le applicazioni f, g di A in B e una relazione binaria su B,
f g `e linsieme degli a A tali che f(a) g(a).
Dare le applicazioni f : A B e g : B C, lapplicazione composta
`e indicata con g f (o g(f)).
7
Dato S A, la funzione indicatrice di S `e la funzione I
S
: A 0, 1
tale che I
S
(a) = 1, se a S, e I
S
(a) = 0, se a , S.
8
Retta reale ampliata
R

retta reale ampliata ottenuta aggiungendo allinsieme R dei numeri


reali (retta reale) i simboli e +.
6
Delle propriet` a degli insiemi immagine e controimmagine ricordiamo, in partico-
lare, le seguenti: f(

iI
A
i
) =

iI
f(A
i
), f(

iI
A
i
)

iI
f(A
i
), f
1
(

iI
B
i
) =

iI
f
1
(B
i
), f
1
(

iI
B
i
) =

iI
f
1
(B
i
), f
1
(B
1
B
2
) = f
1
(B
1
) f
1
(B
2
) e
f
1
(B
c
1
) = [f
1
(B
1
)]
c
.
7
Ricordiamo che (g f)
1
(C

) = f
1
(g
1
(C

)) per ogni C

C.
8
Ovviamente, I
A
`e la costante unitaria mentre I

`e la costante nulla; inoltre, qualunque


siano S

, S

A, si ha I
S

S
= I
S
I
S
, I
S

S
= I
S
+I
S
I
S
I
S
, I
S

S
= I
S
+I
S

se S

, S

sono disgiunti, I
S

\S
= I
S
I
S
I
S
, I
S
c = 1 I
S
; inne, I
n1
S
n
=

+
n=1
I
S
n
se (S
n
)
n1
`e una successione disgiunta di sottoinsiemi di A.
ix
ordinamento completo su R

ottenuto, per prolungamento dellusua-


le ordinamento per grandezza dei numeri reali, richiedendo che ogni
numero reale sia maggiore di e minore di +.
9
Per quanto riguarda la struttura topologica, gli aperti di R

sono unioni
arbitrarie di intervalli del tipo ]a, b[, [, b[ e ]a, +] (a, b R).
Per quanto concerne laritmetica di R

, valgono le regole di calcolo:


a += a + (+) = ++ a = +, se < a +;
a = a + () = + a = , se a < +;
a () = a = , se 0 < a +;
a (+) = + a = +, se 0 < a +;
a () = a = +, se a < 0;
a (+) = + a = , se a < 0;
0 () = 0 (+) = 0 = + 0 = 0;
a

=
a
+
= 0, se a R.
Inoltre, sono escluse dalle espressioni aritmetiche lecite quelle che coin-
volgono rapporti di inniti o rapporti con denominatori nulli, oppure
somme di inniti di segno opposto o dierenze di inniti di ugual segno.
Dati a, b (R

)
n
, a b signica: a
i
b
i
(i = 1, . . . , n); a b
signica: a
i
< b
i
(i = 1, . . . , n).
Funzioni a valori nella retta reale ampliata
Data una funzione f : A R

, le notazioni inf f, sup f indicano gli


estremi, rispettivamente, inferiore e superiore di f(A).
Dato un preordinamento _ su A, la funzione f `e non decrescente (cre-
scente) se f(a) f(a

) (f(a) > f(a

)) per ogni a, a

tali che a ~ a

; non
crescente (decrescente) se f(a) f(a

) (f(a) < f(a

)) per ogni a, a

tali
che a ~ a

.
9
Quindi R =], +[ e R

= [, +]; inoltre, [0, +[ e [0, +] sono linsieme dei


numeri non negativi, rispettivamente, della retta reale e di quella ampliata. Conseguente-
mente, il valore assoluto [a[ di a R

coincide con a su [0, +] e con lopposto di a su


[, 0[.
x PRELIMINARI
Date le funzioni f, g di A in R

, la funzione:
fg : a f(a)g(a) `e denita su A;
f +g : a f(a) +g(a) `e denita sullinsieme degli elementi a tali che
f(a), g(a) non sono inniti di segno opposto;
f
g
: a
f(a)
g(a)
`e denita sullinsieme degli elementi a tali che g(a) ,= 0 o
f(a), g(a) non sono entrambi inniti.
f g signica: f(a) g(a) per ogni a A.
f g signica: f(a) < g(a) per ogni a A.
Data una famiglia (f
i
)
iI
di funzioni di A in R

, le funzioni inf
iI
f
i
e sup
iI
f
i
sono cos` denite:
inf
iI
f
i
: a inf
_
f
i
(a) : i I
_
;
sup
iI
f
i
: a sup
_
f
i
(a) : i I
_
.
Data una successione (f
n
)
n1
di funzioni di A in R

, la successione `e
non decrescente (crescente) se f
n
(a) f
n+1
(a) (f
n
(a) < f
n+1
(a)) per
ogni a e per ogni n; non crescente (decrescente) se f
n
(a) f
n+1
(a)
(f
n
(a) > f
n+1
(a)) per ogni a e per ogni n.
f
n
f signica: la successione converge (puntualmente) alla fun-
zione f (cio`e, f(a) = lim
n+
f
n
(a) per ogni a A).
f
n
f signica: la successione `e non decrescente e converge a f.
f
n
f signica: la successione `e non crescente e converge a f.

n1
f
n
serie di funzioni di termine generale f
n
.
Capitolo 1
Preferenze e utilit`a
Un individuo, il decisore (che chiamiamo DM
1
), intende scegliere un elemen-
to nellambito di un dato insieme D di alternative (decisioni) possibili
2
.
Assumiamo che la scelta di una decisione d comporti per DM una conse-
guenza che non sempre `e in grado di individuare nel suo stato dinformazione,
salvo ritenerla elemento di un dato insieme C
d
(determinato senza possibilit` a
di equivoci) di conseguenze possibili
3
. Supposto che linsieme C =

dD
C
d
1
Abbreviazione della locuzione inglese decision maker. Precisiamo che con il termine
individuo intendiamo sia una persona che un gruppo di persone, pensate per` o formanti
ununit` a (come, ad esempio, una famiglia, un consiglio damministrazione, la Corte dei
conti, la Banca dItalia, etc.).
2
Si pensi, ad esempio, a scelte inerenti il menu da ordinare al ristorante, la terapia medi-
ca da prescrivere, il corso di laurea da attivare in una data facolt` a, il piano dinvestimento
dadottare, etc..
3
Che possono essere di varia natura; ad esempio, morale (gradimento dei cibi previsti
dal menu, etc.), probabilistica (probabilit` a di guarigione della terapia, etc.), dimmagine
(laureati ben preparati con ottime possibilit` a dinserimento nel mondo del lavoro, etc.),
monetaria (incremento del capitale alla scadenza, etc.).
Ovviamente, C
d
dovrebbe fornire, da un punto di vista ideale, un elenco esaustivo delle
conseguenze connesse con la decisione d. Purtroppo, a causa delle limitazioni (sia dedut-
tive che predittive) umane, ci`o non `e possibile (salvo casi specici) per cui C
d
conterr`a,
in pratica, solamente le conseguenze che DM riterr`a pi` u rilevanti per il suo problema
decisionale (tra quelle considerate).
Chiaramente, la conseguenza (relativa alla decisione d) sar`a certa, se C
d
ha un solo
elemento, e aleatoria, se ne ha pi` u di uno (non dipendendo soltanto dalla scelta d del
decisore, ma anche da altre circostanze che per DM sono ben denite ma le cui realizzazioni
sono, nel suo stato dinformazione, sconosciute).
1
2 CAPITOLO 1. PREFERENZE E UTILIT
`
A
delle conseguenze abbia almeno due elementi
4
e che il decisore sia un indi-
viduo razionale, DM terr` a conto nella sua scelta dei vantaggi e degli svantaggi
che la corrispondente conseguenza (certa o aleatoria) pu` o procurargli; verr` a,
cio`e, guidato dalle sue preferenze tra le conseguenze di C.
1.1 Relazioni di preferenza e di indierenza
Al ne di individuare le propriet` a che sembra ragionevole richiedere al sistema
di preferenze (sulle conseguenze) di un decisore razionale, immaginiamo di
porre a DM, per ogni coppia c
1
, c
2
C, la seguente domanda: c`e tra le
conseguenze c
1
e c
2
una che per te sia migliore dellaltra, oppure che almeno
non le sia peggiore? Evidentemente, potremo ricevere solo una delle seguenti
risposte:
- c
i
non `e peggiore di c
j
;
- c
1
non `e peggiore di c
2
e c
2
non `e peggiore di c
1
;
- c
i
`e migliore di c
j
;
- n`e c
1
non `e peggiore di c
2
, n`e c
2
non `e peggiore di c
1
.
Si vengono cos` ad individuare su C tre relazioni:
- la relazione di preferenza: c _ c

c non `e peggiore di c

;
- la relazione di indierenza: c c

c _ c

_ c;
- la relazione di preferenza stretta: c ~ c

c _ c

c , c

.
Quali propriet` a queste relazioni dovrebbero ragionevolmente possedere?
Chiaramente, ogni conseguenza non `e peggiore di se stessa; inoltre, appare
naturale richiedere che se la conseguenza c non `e peggiore della conseguenza c

e la conseguenza c

non `e peggiore della conseguenza c

, allora la conseguenza
c non `e peggiore della conseguenza c

. Supponiamo quindi che la relazione


_ verichi gli assiomi:
A1 Riflessivit
`
a: c _ c per ogni c C.
A2 Transitivit
`
a: c _ c

_ c

c _ c

per ogni c, c

, c

C.
Conseguentemente, la relazione di preferenza diviene un preordinamento e
quelle di indierenza e di preferenza stretta, rispettivamente, unequivalenza
4
In caso contrario, non sussiste alcun problema di scelta; DM va incontro ad una
conseguenza totalmente indipendente dalle sue decisioni.
1.1. RELAZIONI DI PREFERENZA E DI INDIFFERENZA 3
e un ordinamento stretto (osservato che la prima `e la parte simmetrica e la
seconda `e quella asimmetrica di _)
5
.
Per rendere signicativo il problema di scelta, supponiamo inoltre che
ci siano almeno due conseguenze confrontabili e non indierenti, cio`e che la
relazione di preferenza stretta verichi lassioma:
A3 Non degenerazione: c

~ c

per qualche c

, c

C.
Supposto inne, per semplicare il contesto decisionale, che DM non for-
nisca mai lultima delle risposte considerate allinizio della sezione
6
, assumia-
mo, tramite il prossimo assioma, la completezza della relazione di preferenza.
A4 Completezza: c _ c

o c

_ c per ogni c, c

C.
Richiedere, come `e stato fatto, che la relazione di preferenza sia transitiva, se da una
parte sembra del tutto ragionevole, dallaltra esclude alcuni modelli introdotti per descri-
vere le preferenze del decisore in contesti specici. A titolo desempio, ne riportiamo uno
riguardante la stima puntuale. Considerato il problema di stimare il parametro incognito
reale Z, siano linsieme delle sue determinazioni possibili e X un ente aleatorio osserva-
bile con distribuzione di probabilit` a P

dipendente da . Al ne di valutare la bont` a


degli stimatori di Z, Edwin Pitman introdusse nel 1937 la relazione di preferenza stretta
tra stimatori:
~
P


_
P

_
[(X) [ < [

(X) [
_
>
1
2
_
.
Lo stimatore `e dunque migliore dello stimatore

se, qualunque sia il valore vero del


parametro, `e maggiore di
1
2
la probabilit` a che approssimi Z meglio di quanto lo faccia

. Proviamo ora che ~


P
non `e una relazione transitiva. A tal ne, sia X = Y Z, con
Y distribuito uniformemente nellintervallo [0.9, 1.1]. Supposto Z > 0, consideriamo gli
stimatori (X) = X,

(X) = a[X[ e

(X) = b[X[ (0 < a < 1 < b). Riesce allora


P

_
[(X) Z[ < [

(X) Z[
_
= P

_
[X Z[ < [ a[X[ Z [
_
= Pr
_
[Y 1[ < [ a[Y [ 1 [
_
= Pr
_
0 < Y <
2
1 +a
_
P

_
[

(X) Z[ < [(X) Z[


_
= P

_
[ b[X[ Z [ < [ X Z[
_
= Pr
_
[ b[Y [ 1[ < [ Y 1[
_
= Pr
_
2
1 b
< Y <
2
1 +b
_
5
Non possono quindi, nel campo delle preferenze strette, formarsi dei cicli (cio`e sequenze
del tipo c ~ c

, c

~ c

e c

~ c).
6
E quindi, a dierenza dellasino di Buridano, non abbia mai (sapendo sempre quello
che vuole) dei dubbi, delle incertezze su come scegliere tra due conseguenze qualsiasi.
4 CAPITOLO 1. PREFERENZE E UTILIT
`
A
P

_
[

(X) Z[ < [

(X) Z[
_
= P

_
[ a[X[ Z [ < [ b[X[ Z [
_
= Pr
_
[ a[Y [ 1 [ < [ b[Y [ 1 [
_
= Pr
_
[Y [ >
2
a +b
_
= Pr
_
Y >
2
a +b
_
+Pr
_

2
a +b
< Y < 0
_
da cui, posto a = 0.9 e b = 3.2, otteniamo
P

_
[(X) Z[ < [

(X) Z[
_
=
10
19
P

_
[

(X) Z[ < [(X) Z[


_
=
289
410
P

_
[

(X) Z[ < [

(X) Z[
_
=
11
20
e quindi il ciclo ~
P

~
P

~
P
. Ne segue la non transitivit`a di ~
P
.
1.2 Utilit`a ordinale
Essendo un preordinamento completo, la relazione di preferenza _ ammette
una rappresentazione numerica nella retta reale. Basta infatti considerare la
funzione:
(c
1
, c
2
) =
_

_
1 se c
1
~ c
2
0 se c
1
c
2
1 se c
2
~ c
1
di dominio C
2
e osservare che c
1
_ c
2
(c
1
, c
2
) 0 per ogni c
1
, c
2
C.
Sebbene utile in alcuni contesti specici, questa descrizione quantitativa delle
preferenze non `e in grado di introdurre alcuna scala numerica che a con-
seguenze pi` u gradite faccia corrispondere valori numerici pi` u elevati, e vice-
versa; basta infatti osservare che, qualunque sia la conseguenza c

di riferi-
mento, lapplicazione indotta (, c

) associa ad ogni conseguenza c migliore


di c

sempre valore unitario. Daltronde, soprattutto in vista delle applica-


zioni, lesistenza di una scala numerica `e di notevole interesse; consente infatti
di ridurre lindividuazione delle conseguenze migliori per DM ad un pro-
blema di massimizzazione numerica (la determinazione dei punti di massimo
della funzione v : C R che realizza la scala), consentendo cos` il ricorso -
qualora linsieme C e la funzione v siano fatti bene - alle usuali tecniche di
ottimizzazione. Ci` o osservato, con la denizione seguente, identichiamo le
1.2. UTILIT
`
A ORDINALE 5
utilit` a ordinali di DM con le scale numeriche relative alle sue preferenze
7
.
Denizione 1.2.1 Una funzione v : C R `e una utilit`a ordinale (per _)
se: c _ c

v(c) v(c

) per ogni c, c

C.
Il risultato seguente rileva che unutilit` a ordinale `e anche in grado di
descrivere le relazioni di indierenza e di preferenza stretta; inoltre, assicura
che `e denita a meno di trasformazioni crescenti (e quindi dierenze tra valori
dutilit` a indicano solamente lordine di preferenza tra le relative conseguenze
e non di quanto pi` u preferita sia una conseguenza rispetto allaltra
8
).
Teorema 1.2.2 Sia v unutilit`a ordinale. Riesce allora:
(i) c c

v(c) = v(c

);
(ii) c ~ c

v(c) > v(c

)
per ogni c, c

C. Inoltre, v : C R `e unutilit`a ordinale per _ se e solo


se v `e una trasformata crescente di v (cio`e, se esiste una funzione crescente
f : v(C) R tale che v = f v).
Dimostrazione Essendo le dimostrazioni di (i) e di (ii) immediate, ci limitia-
mo a vericare lultima parte della tesi. Notato che la condizione suciente
`e banale, passiamo a quella necessaria. Sia quindi v unutilit` a ordinale per
_. Dalla (ii) segue allora
v(c) > v(c

) v(c) > v(c

) (1.1)
7
Storicamente, il termine utilit` a (centrale per il pensiero economico) ha assunto di-
versi signicati che si possono, grosso modo, far risalire a tre distinti periodi. Nel primo,
corrispondente alleconomia politica classica (Adam Smith, David Ricardo e Karl Marx),
veniva inteso come una propriet` a dei beni: il loro valore duso, cio`e lattitudine a sod-
disfare un bisogno biologico o culturale. Nel secondo, relativo alleconomia del benessere
utilitarista (iniziata da Jeremy Bentham), veniva visto come una grandezza psichica degli
individui: il loro benessere (ritenuto suscettibile di misura e di segno, positivo per il
piacere e negativo per la pena). Nellultimo, corrispondente alla moderna teoria delle
decisioni, viene inteso (anche per noi) come una rappresentazione numerica delle prefe-
renze individuali (non necessariamente connesse ad un contesto economico) di carattere:
ordinale se riguardano alternative certe (Vilfredo Pareto), cardinale se riguardano distribu-
zioni di probabilit` a sulle alternative certe (Frank P. Ramsey, John von Neumann e Oskar
Morgenstern).
8
Giusticando cos` lassociazione dellaggettivo ordinale alla nozione dutilit` a consi-
derata.
6 CAPITOLO 1. PREFERENZE E UTILIT
`
A
per ogni c, c

C.
Considerato linsieme-immagine T = v(c) + v(c) : c C della funzione
v + v, associamo ad ogni suo elemento t il sottoinsieme C
t
= c C :
v(c) + v(c) = t e verichiamo che, qualunque sia t T, le utilit` a v, v sono
costanti su C
t
. Dato t T e scelti c, c

C
t
, si ha v(c)+ v(c) = t = v(c

)+ v(c

)
e quindi
v(c) v(c

) = [ v(c) v(c

)]. (1.2)
Allora, v(c) = v(c

); infatti, se cos` non fosse, da (1.1) si avrebbe v(c) v(c

) >
0, se v(c) v(c

) > 0, e v(c) v(c

) < 0, se v(c) v(c

) < 0, contraddicendo in
ogni caso (1.2). Conseguentemente, tramite (1.2), risulta anche v(c) = v(c

).
Indicati, per ogni t T, con (t) e (t) i valori assunti su C
t
, rispetti-
vamente, da v e v, si vengono a individuare due funzioni : T v(C) e
: T v(C) tali che
v(c) = (v(c) + v(c)) (1.3)
v(c) = (v(c) + v(c)) (1.4)
per ogni conseguenza c.
Proviamo ora che queste funzioni sono crescenti. A tal ne, siano t, t

T
con t < t

. Esistono allora due conseguenze c, c

tali che v(c) + v(c) = t <


t

= v(c

) + v(c

). Ne segue
v(c) v(c

) < [ v(c) v(c

)]
da cui otteniamo v(c

) > v(c); infatti, in caso contrario, risulterebbe v(c)


v(c

) 0 da cui discenderebbe v(c) v(c

) < 0 e quindi, per (1.1), si avrebbe


v(c) v(c

) < 0 (Contraddizione!). Dalla v(c

) > v(c), tenuto ancora conto


di (1.1), si ha anche v(c

) > v(c). Ne segue, tramite (1.3) e (1.4),


(t) = (v(c) + v(c)) = v(c) < v(c

) = (v(c

) + v(c

)) = (t

)
(t) = (v(c) + v(c)) = v(c) < v(c

) = (v(c

) + v(c

)) = (t

).
Dato che la funzione `e crescente, possiamo considerare la sua inversa

1
: v(C) T. Allora, la funzione composta
1
`e crescente (linversa

1
`e crescente!) e inoltre, per (1.3) e (1.4),
v(c) = (v(c) + v(c)) =
_

1
_
(v(c) + v(c))
__
= (
1
)(v(c))
= [(
1
) v](c)
1.2. UTILIT
`
A ORDINALE 7
per ogni conseguenza c. Dunque, v `e una trasformata crescente di v.
Non tutte le relazioni di preferenza ammettono unutilit` a ordinale. Proviamo infatti
che non `e possibile descrivere lusuale ordinamento lessicograco:
(a, b) _ (a

, b

) a > a

(a = a

b b

)
su R
2
mediante unutilit` a ordinale. A tal ne, supponiamo (per assurdo) che v sia unutilit` a
ordinale per _. Considerato allora un numero reale a qualsiasi, risulta (a, 1) ~ (a, 0) e
quindi, per il Teorema 1.2.2(ii), v((a, 1)) > v((a, 0)). Esiste dunque un numero razionale
q
a
tale che v((a, 1)) > q
a
> v((a, 0)). Si viene cos` a creare una funzione iniettiva di R nei
numeri razionali; infatti, da a > a

segue (a, 0) ~ (a

, 1) e quindi, per il Teorema 1.2.2(ii),


q
a
> v((a, 0)) > v((a

, 1)) > q
a
. Conseguentemente, linsieme numerabile dei numeri
razionali include un insieme avente la cardinalit` a del continuo (Contraddizione!).
Di particolare interesse `e la caratterizzazione seguente che identica le preferenze che
ammettono unutilit` a ordinale con quelle che consentono di individuare un insieme di-
screto di classi di indierenza la cui unione si comporti (rispetto alla preferenza) come il
sottoinsieme dei numeri razionali rispetto allusuale ordinamento per grandezza dei numeri
reali. Ricordiamo, in proposito, che C C `e _- denso (nel senso di Birkho) se, per
ogni c
1
, c
2
, C tali che c
2
~ c
1
, esiste una conseguenza c C peggiore di c
2
e migliore di
c
1
(cio`e, appartenente allintervallo aperto ]c
1
, c
2
[). Precisiamo inoltre che [c

] denota la
classe di indierenza c C : c c

della conseguenza c

.
Teorema 1.2.3 Esiste unutilit` a ordinale per _ se e solo se esiste un insieme discreto C
di conseguenze tale che lunione

cC
[c] `e un insieme _-denso.
9
Dimostrazione Selezionato in ogni classe di indierenza un elemento, denotiamo con
C
0
linsieme cos` costituito e, per ogni conseguenza c, con (c) quellunico elemento di C
0
tale che (c) c.
Supponiamo intanto che v sia unutilit` a ordinale per _. Allora, la restrizione v[
C
0
`e unapplicazione iniettiva; infatti, dati c, c

C
0
tali che v(c) = v(c

), per il Teorema
1.2.2(i), si ha c c

, cio`e [c] = [c

] e quindi c = c

(per denizione di C
0
).
Sia ora 1 la famiglia (numerabile) degli intervalli reali aperti con estremi razionali che
contengono limmagine, tramite v, di qualche elemento di C
0
. Si ha quindi
1 =
_
]q, q

[ R : q, q

razionali ]q, q

[ v(C
0
) ,=
_
.
Selezionato, per ogni intervallo I 1, un elemento c
I
in C
0
tale che v(c
I
) I, consideriamo
linsieme discreto C
I
= c
I
: I 1 e poniamo:
C
1
= c C
0
C
I
: c

C
0
(c ~ c

]c

, c[ C
I
= ).
Una conseguenza c di C
0
che non `e in C
I
appartiene dunque a C
1
solo se `e possibile
trovare una conseguenza (c) C
0
peggiore di c e tale che non sia possibile individuare
una conseguenza di C
I
che sia peggiore di c e migliore di (c).
9
Ammettono pertanto unutilit` a ordinale le relazioni di preferenza denite su insiemi
di conseguenze discreti oppure aventi al pi` u un numerabile di classi di indierenza.
8 CAPITOLO 1. PREFERENZE E UTILIT
`
A
Per provare che C
1
`e un insieme discreto basta vericare (ricordando liniettivit` a di
v[
C
0
) che la famiglia di intervalli reali non vuoti:
= I(c) = ]v((c)), v(c)[ : c C
1

`e disgiunta. A tal ne, supponiamo (per assurdo) che esistano c, c

C
1
tali che I(c)
I(c

) ,= . Possiamo allora assumere (senza perdere in generalit`a) v((c)) < v((c

)) <
v(c). Considerato quindi un intervallo I 1 tale che v((c

)) I I(c), riesce v(c


I
)
I I(c); ne segue, v(c) > v(c
I
) > v((c)) da cui, per il Teorema 1.2.2(ii), c ~ c
I
~ (c) e
quindi una contraddizione, osservato che c
I
C
I
.
Poich`e C
1
`e discreto, `e pure discreto linsieme C = C
1
C
I
. Per provare che linsieme

C =

cC
[c] `e _-denso, siano c
1
, c
2
,

C con c
1
~ c
2
. Per denizione di C
0
, esistono
c
1
, c
2
C
0
tali che c
1
c
1
e c
2
c
2
. Ne segue, c
1
~ c
2
e c
1
, C = C
1
C
I
(per
denizione di

C). Allora, c
1
C
0
C
I
e c
1
, C
1
. Per c
1
~ c
2
, esiste quindi c
I
C
I
C
tale che c
1
~ c
I
~ c
2
. Ne segue, c
1
~ c
I
~ c
2
con c
I


C.
Passando alla condizione suciente, supponiamo che C sia un insieme discreto tale che
linsieme

cC
[c] risulti _-denso. Procediamo per casi considerando la preferenza prima
antisimmetrica e poi arbitraria.
Caso 1: _ antisimmetrica. Allora, ogni conseguenza `e indierente solo a se stessa e
quindi C =

cC
[c] `e un insieme _-denso. Proviamo, innanzitutto, che linsieme:
S = (c
1
, c
2
) C
2
: c
2
~ c
1
]c
1
, c
2
[ =
`e discreto
10
. Osservato che, per la _-densit`a di C, una almeno delle due componenti di
una coppia di S deve appartenere a C, consideriamo lapplicazione f : S C cos` denita:
f(c
1
, c
2
) =
_
c
1
se c
1
C
c
2
se c
1
, C.
La nitezza o numerabilit`a di S sar`a evidentemente provata se verichiamo che la controim-
magine (tramite f) di un qualsiasi elemento di C ha al pi` u due elementi. Siano pertanto
(c
1
, c
2
), (c
1
, c
2
), (c
1
, c
2
) S tali che f(c
1
, c
2
) = f(c
1
, c
2
) = f(c
1
, c
2
) e (c
1
, c
2
), (c
1
, c
2
) ,=
(c
1
, c
2
). Poich`e nelle due situazioni possibili c
1
C, c
1
, C i procedimenti dimostrativi
sono analoghi, ci limitiamo a riportare quello relativo alla prima. Assumiamo pertanto
c
1
C. Allora, f(c
1
, c
2
) = c
1
. Se c
1
C, otteniamo c
1
= f(c
1
, c
2
) = c
1
e quindi,
tenuto conto della ]c
1
, c
2
[ =]c
1
, c
2
[ = e della completezza della preferenza, c
2
= c
2
, cio`e
(c
1
, c
2
) = (c
1
, c
2
). Se invece c
1
, C, si ha c
2
= f(c
1
, c
2
) = c
1
. Ora, nel caso c
1
C, riesce
c
1
= f(c
1
, c
2
) = c
1
e quindi c
2
= c
2
(]c
1
, c
2
[ =]c
1
, c
2
[ = !), cio`e (c
1
, c
2
) = (c
1
, c
2
); nel caso
c
1
, C, risulta inne c
2
= f(c
1
, c
2
) = c
1
= c
2
e quindi c
1
= c
1
(]c
1
, c
2
[ =]c
1
, c
2
[ = !),
cio`e (c
1
, c
2
) = (c
1
, c
2
). Dunque, in ogni caso, almeno due delle tre coppie considerate
coincidono.
Poich`e S `e un insieme discreto, lo `e banalmente anche linsieme:
C

= c C : c
_
(c, c) S ( c, c) S
_
.
10
Ad esempio, con riferimento allusuale ordinamento per grandezza, S = , se C = R,
e S = (n, n + 1) : n N, se C = N.
1.3. UTILIT
`
A CARDINALE 9
Scelta allora una numerazione c
1
, . . . , c
n
, . . . dellinsieme discreto

C = C C

, consideria-
mo la funzione di dominio C:
v(c) =

n1
1
2
n
I
]c
n
[
(c),
avendo posto ]c
n
, [ = c : c ~ c
n
per ogni n.
Proviamo ora che v `e unutilit` a ordinale per _. Date due conseguenze c
1
, c
2
con
c
2
_ c
1
, limplicazione I
]c
n
,[
(c
1
) = 1 I
]c
n
,[
(c
2
) = 1 sussiste per ogni n; ne segue,
per denizione di v, che v(c
2
) v(c
1
). Viceversa, tenuto conto della completezza della
preferenza, basta provare che, date due conseguenze c
1
, c
2
con c
2
~ c
1
, si ha v(c
2
) > v(c
1
).
Procediamo per casi supponendo lesistenza o no di m tale che c
2
~ c
m
_ c
1
.
Caso 1.1: c
2
~ c
m
_ c
1
per qualche m. Allora, I
]c
m
,[
(c
1
) = 0 < 1 = I
]c
m
,[
(c
2
).
Inoltre, considerata una generica conseguenza c
n
, si ha I
]c
n
,[
(c
1
) = 0 = I
]c
n
,[
(c
2
), se
c
n
_ c
2
; I
]c
n
,[
(c
1
) = 0 < 1 = I
]c
n
,[
(c
2
), se c
2
~ c
n
_ c
1
; I
]c
n
,[
(c
1
) = 1 = I
]c
n
,[
(c
2
),
se c
1
~ c
n
. Riesce pertanto v(c
2
) =

n1
2
n
I
]c
n
,[
(c
2
) >

n1
2
n
I
]c
n
,[
(c
1
) = v(c
1
).
Caso 1.2: Non esiste m tale che c
2
~ c
m
_ c
1
. Allora, c
1
,

C. Ne segue ]c
1
, c
2
[ ,=
(in caso contrario si avrebbe (c
1
, c
2
) S da cui seguirebbe la contraddizione c
1
C

) e
quindi esiste una conseguenza c tale che c
2
~ c ~ c
1
. Allora, c ,

C. Per la _-densit`a di
C esiste m tale che c
2
~ c ~ c
m
~ c
1
e quindi, per il Caso 1.1, v(c
2
) > v(c
1
).
Caso 2: _ arbitraria. Chiaramente, la restrizione _
0
della preferenza _ su C
0
`e anti-
simmetrica. Inoltre, posto

C =

cC
[c], linsieme discreto C

0
= C
0


C = (c) : c C
`e _
0
-denso; infatti, dati c
1
, c
2
C
0
C

0
con c
1
~
0
c
2
, si ha c
1
, c
2
,

C da cui, per la
_-densit`a di

C, esiste c

C tale che c
1
~ c ~ c
2
e quindi (c) C

0
e c
1
~
0
(c) ~
0
c
2
.
Esiste allora, per il Caso 1, unutilit` a ordinale v
0
: C
0
R per _
0
. Risulta quindi
c
1
_
0
c
2
v
0
(c
1
) v
0
(c
2
) per ogni c
1
, c
2
C
0
. Possiamo, a questo punto, ottenere
unutilit` a ordinale considerando la funzione v : c v
0
((c)). Si ha infatti
c
1
_ c
2
(c
1
) _
0
(c
2
) v
0
((c
1
)) v
0
((c
2
)) v(c
1
) v(c
2
)
qualunque siano le conseguenze c
1
e c
2
.
1.3 Utilit`a cardinale
Se le decisioni comportano conseguenze certe, DM sar` a guidato nella sua
scelta solamente dalla relazione di preferenza _; conseguentemente, nel caso
particolare che egli esprima le sue preferenze mediante unutilit` a ordinale v, il
problema decisionale si riduce ad un problema di ottimizzazione: individuare
punti di massimo della funzione v. Purtroppo, nelle situazioni reali, le scelte
in condizioni di certezza sono, per cos` dire, un caso limite; infatti, gli in-
dividui prendono decisioni che usualmente comportano conseguenze aleato-
10 CAPITOLO 1. PREFERENZE E UTILIT
`
A
rie
11
. Per arontare il problema decisionale nella sua generalit` a, DM non
pu`o quindi limitarsi a confrontare solamente conseguenze certe ma deve an-
che elicere le sue preferenze nellambiente molto pi` u ampio delle conseguenze
aleatorie. Analogamente a quanto fatto per la relazione _, viene allora natu-
rale chiedersi quali propriet` a questa nuova relazione di preferenza dovrebbe
ragionevolmente possedere. Tra le varie risposte che sono via via apparse,
andiamo ora a considerare quella che, senza ombra di dubbio, `e a tuttoggi
la pi` u popolare.
Iniziamo col considerare una decisione d che comporti una conseguenza
avente un numero nito di specicazioni possibili. Posto C
d
= c
1
, . . . , c
n
,
introduciamo la partizione dellevento certo costituita dagli eventi:
E
i
: d comporta la conseguenza c
i
(i = 1, . . . , n).
Supposto che DM sia in grado di esprimere la sua opinione sul vericarsi di
tali eventi tramite una distribuzione di probabilit` a P
d
, la scelta di d comporta
per DM laccesso ad una particolare lotteria: subire a sorte la conseguenza
c
1
con probabilit` a P
d
(E
1
), . . . , la conseguenza c
n
con probabilit` a P
d
(E
n
).
Ovviamente, nel caso delle conseguenze certe (n = 1), la distribuzione si
concentra tutta su c
1
e quindi la lotteria degenera fornendo la conseguenza
c
1
con certezza.
Abbandonando il caso nito e volendo ripercorrere, in qualche modo, le
considerazioni fatte, la situazione si complica notevolmente poich`e bisogna
considerare distribuzioni di probabilit` a su insiemi inniti. Per proseguire,
scegliamo dadottare lusuale impostazione del calcolo delle probabilit` a basata
sulle misure di probabilit` a. Data una decisione d che comporti una conse-
guenza avente uninnit` a di specicazioni possibili, ssiamo dunque una -
algebra (
d
su C
d
includente i singoletti che descriva, dal punto di vista inter-
pretativo, gli insiemi C C
d
per i quali levento:
E
C
: d comporta una conseguenza appartenente a C
presenti qualche interesse per DM. Supposto, analogamente al caso nito, che
DM sia in grado di esprimere la sua opinione sul vericarsi degli eventi E
C
in
11
Si pensi, ad esempio, allacquisto di unautomobile. Sceglierne una comporta come
conseguenza, tra laltro, il prezzo dacquisto (che `e certo) e gli importi futuri relativi alla
sua manutenzione, chiaramente non noti (al momento dellacquisto) dipendendo da fattori
del tutto casuali (come il vericarsi di un guasto, di un incidente, etc.).
1.3. UTILIT
`
A CARDINALE 11
termini probabilistici, veniamo a individuare una probabilit` a P
d
su (
d
. Con-
seguentenente, la scelta della decisione d comporta per DM laccesso ad una
particolare lotteria: ottenere a sorte levento la conseguenza appartiene
a C con probabilit` a P
d
(C) (e quindi, in particolare, subire la conseguenza
c C
d
con probabilit` a P
d
_
c
_
).
La capacit` a di formulare valutazioni probabilistiche per gli eventi E
i
(caso
nito) ed E
C
(caso innito) consente dunque a DM di interpretare la con-
seguenza (certa o aleatoria) relativa alla decisione d come una lotteria gover-
nata da una opportuna probabilit` a P
d
denita sugli eventi di una -algebra
(
d
su C
d
12
.
Poich`e tali probabilit` a si possono sempre estendere agli elementi di una -
algebra di riferimento ( su C che contenga i singoletti e includa la famiglia

dD
(
d
13
, DM sar`a naturalmente condotto, per descrivere le sue preferenze
tra le conseguenze (certe o aleatorie), a confrontare tra di loro le probabilit` a
(intese su () che regolano le corrispondenti lotterie.
Passando ad una formalizzazione di quanto esposto, assumiamo che DM,
per risolvere il problema decisionale, consideri una relazione di preferenza
_

su un opportuno insieme di probabilit` a denite su ( (dette lotterie)


che, oltre a contenere le probabilit` a P
d
, includa anche le restrizioni su ( delle
misure di Dirac su 2
C
(che chiameremo lotterie degeneri) e sia chiuso per
misture
14
(includendo cos` anche le lotterie semplici, cio`e le probabilit` a
concentrate su insiemi niti di conseguenze
15
). Conveniamo inoltre di deno-
tare con (dotata o no di apici o pedici) una lotteria generica di e, per
ogni conseguenza c, con 1
c
la restrizione su ( della misura di Dirac
c
su 2
C
.
Per quanto riguarda le propriet` a della preferenza _

, assumiamo intanto che


sia un preordinamento completo compatibile con la preferenza _.
A1

Riflessivit
`
a: _

.
A2

Transitivit
`
a: _

.
A3

Completezza: _

.
A4

Coerenza: 1
c
_

1
c
c

_ c

per ogni c

, c

C.
12
Che, nel caso nito, coincide con linsieme delle parti di C
d
.
13
Ponendo P
d
(C) = P
d
(C C
d
) per ogni C (.
14
Nel senso che, qualunque siano
1
, . . . ,
n
e
1
, . . . ,
n
[0, 1] tali che

n
i=1

i
=
1, la probabilit` a

n
i=1

i
(detta mistura delle lotterie
1
, . . . ,
n
con pesi
1
, . . . ,
n
)
appartiene a .
15
Ricordiamo che una probabilit` a P su ( si dice concentrata su C ( se P(C) = 1.
12 CAPITOLO 1. PREFERENZE E UTILIT
`
A
Naturalmente, come nel caso della preferenza _, accanto alla relazione _

considereremo anche le relative relazioni di indierenza:



e di preferenza stretta:
~

che sono, per A1

, A2

e A4

, rispettivamente, unequivalenza coerente con


e un ordinamento stretto coerente con ~.
Passando a considerare ulteriori propriet` a che la preferenza _

dovrebbe
avere, viene naturale ritenere che una lotteria

non sia peggiore (migliore)


della lotteria , se ogni suo possibile esito non `e peggiore (migliore) di .
A5

Dominanza: Siano C

( e

tali che

(C

) = 1. Riesce allora:
-

, se 1
c
_

per ogni c

;
- _

, se _

1
c
per ogni c

.
Al ne di individuare unaltra propriet` a naturale, conviene considerare
un tipo abbastanza comune di scommessa sui cavalli: la scommessa doppia,
consistente nel fare una puntata p su un dato cavallo nella prima corsa speci-
cando che, in caso di vittoria, la vincita verr` a utilizzata per puntare su
un certo cavallo nella seconda corsa al ne di acquisire, in caso di vittoria,
limporto w (al netto della puntata p). Indicate con
1
la probabilit` a che
lo scommettitore associa allevento il primo cavallo scelto perde la corsa e
con
2
quella che associa allevento il secondo cavallo scelto perde la corsa,
i possibili risultati della scommessa doppia sono:
- perdere, con probabilit`a
1
, la puntata p;
- guadagnare, con probabilit` a 1
1
, una scommessa per la seconda corsa
avente come possibili risultati:
- perdere la puntata p con probabilit` a
2
;
- ricevere limporto w con probabilit` a 1
2
.
Andiamo ora a rappresentare la scommessa doppia in termini di lotterie con-
centrate sulle conseguenze c
1
= p e c
2
= w. Indicata con la coppia ordinata
(l
1
, l
2
) la lotteria che associa probabilit` a l
1
alla conseguenza c
1
e probabilit` a
l
2
alla conseguenza c
2
, la scommessa relativa alla seconda corsa pu` o essere
rappresentata dalla lotteria
2
= (
2
, 1
2
). Considerata allora la lotte-
ria degenere 1
c
1
= (1, 0) che rappresenta levento perdere limporto p con
1.3. UTILIT
`
A CARDINALE 13
certezza, la scommessa doppia pu` o essere realizzata ricorrendo alla proce-
dura:
Usare la prima corsa come meccanismo di sorteggio per ottenere la
lotteria 1
c
1
con probabilit` a
1
e la lotteria
2
con probabilit` a 1
1

che consente di interpretarla come una particolare lotteria composta (cio`e


un meccanismo di sorteggio - di nota legge probabilistica - i cui esiti sono
delle lotterie).
Andiamo inne a valutare la probabilit` a di vittoria della scommessa doppia,
cio`e la probabilit` a di vincere sia nella prima che nella seconda corsa. Sup-
posto che lo scommettitore ritenga i risultati delle due corse tra loro indipen-
denti, si ha = (1
1
)(1
2
) = 1[
1
+(1
1
)
2
]. Pertanto, le probabilit` a
di perdere limporto p e di ricevere limporto w nella scommessa doppia coin-
cidono con quelle relative alla lotteria mistura =
1
1
c
1
+ (1
1
)
2
delle
due lotterie 1
c
1
,
2
con pesi
1
e 1
1
.
Ritenendo, come peraltro naturale, che lo scommettitore valuti le scommesse
sui cavalli basandosi unicamente sulle relative probabilit` a di vittoria, possia-
mo concludere che, per lui, la lotteria composta e la lotteria mistura sopra
considerate rappresentano, malgrado la loro dierente natura (aleatoria e
certa, rispettivamente), il medesimo oggetto: la scommessa doppia.
Prendendo spunto da questo esempio, assumiamo quindi che, date due
qualsiasi lotterie

e un arbitrario numero reale [0, 1], la lotteria


mistura

+(1 )

sia per DM del tutto equivalente alla lotteria


composta retta da un meccanismo di sorteggio che fornisca la lotteria

con
probabilit` a e la lotteria

con probabilit` a 1
16
.
16
Per realizzarlo (nel caso C R) si potr` a ricorre ai metodi della simulazione osservando
che, dato un numero pseudocasuale X distribuito uniformemente in [0, 1], la trasformata
Y = f(X) mediante la funzione:
f(t) =
_

_
se t = 0
1 se 0 < t 1
1 se 1 < t 1
`e tale che Pr(Y = 0) = 1 e Pr(Y = 1) = . Pi` u in generale, ricordiamo che, considerata
una v.a. X distribuita uniformemente in [0, 1] e data una funzione di ripartizione F, la
v.a. Y = f(X), trasformata di X mediante la funzione:
f(t) = infx R : F(x) t = supx R : F(x) < t,
ammette F come funzione di ripartizione (per una dimostrazione si veda la Sezione B.7
del testo di Schervish).
14 CAPITOLO 1. PREFERENZE E UTILIT
`
A
Lidenticazione delle lotterie mistura con quelle composte suggerisce di
richiedere alla relazione di preferenza _

la seguente ulteriore propriet` a.


A6

Indipendenza:

( ]0, 1[).
Infatti, poich`e in entrambe le lotterie composte

, DM ottiene la
lotteria con probabilit` a 1 , viene naturale ritenere che questo termine
costante non inuenzi in alcun modo la sua scelta. Conseguentemente, la
preferenza di DM tra le due lotterie composte dipender` a unicamente dal
termine variabile nelle due misture, cio`e dalla sua preferenza tra le lotterie

.
Una ulteriore (e ultima) propriet` a naturale che assumiamo per _

`e
la seguente: se la lotteria

`e migliore della lotteria , `e sempre possibile


trovare, per quanto possa essere indesiderabile per DM la lotteria

, una
lotteria composta - che fornisca

con probabilit` a > 0 e

con probabilit` a
1 > 0 - che scavalca nella preferenza la lotteria ; analogamente, se `e
migliore di

, `e sempre possibile trovare, per quanto possa essere desiderabile


per DM la lotteria

, una lotteria composta - che fornisca

con probabilit` a
> 0 e

con probabilit` a 1 > 0 - che viene scavalcata nella preferenza


dalla lotteria .
17
A7

Propriet
`
a archimedea: Sia

. Allora, per ogni tale che:


-

, esiste ]0, 1[ tale che

;
-

, esiste ]0, 1[ tale che ~

.
Il prossimo teorema (chiave di volta della teoria delle scelte individuali in
condizioni di incertezza) mette in evidenza che le propriet` a sin qui ammesse
per le preferenze di DM sulle lotterie permettono dindividuare - qualora (
includa gli insiemi _-connessi di C e le lotterie a supporto limitato
18
-
unutilit` a ordinale (per _) che consente, nellambito delle lotterie a supporto
limitato, una rappresentazione numerica di _

in termini di speranze mate-


matiche
19
.
17
Si potrebbe pensare che questa propriet` a venga violata nei casi in cui tra i possibili esiti
della lotteria

ci sia la morte del decisore (che, salvo casi estremi, pu`o ragionevolmente
ritenersi la conseguenza peggiore che gli possa capitare). Ma se cos` fosse, nessuno si
assumerebbe, ad esempio, il rischio di essere investito e di morire attraversando una strada
tracata per andare a bere un ca`e ritenuto migliore di quello oerto nel bar sotto casa.
18
Cio`e, probabilit` a su ( che sono concentrate su intervalli chiusi di C.
19
La relativa dimostrazione (alquanto complessa) viene riportata, in corpo minore, alla
ne della sezione in quanto, essendo essenzialmente tecnica, non interviene signicativa-
mente nello sviluppo del contesto teorico che stiamo delineando.
1.3. UTILIT
`
A CARDINALE 15
Teorema 1.3.1 Sussistono le seguenti proposizioni:
(i) Esista unutilit`a ordinale u (per _) integrabile rispetto ad ogni lotteria.
Allora, la relazione _

su cos` denita:
_

(u) =
_
C
ud
_
C
ud

= E

(u)
`e un preordinamento che verica la propriet` a archimedea e quelle di
completezza, coerenza, dominanza e indipendenza;
(ii) La -algebra ( includa gli insiemi _-connessi di C e la famiglia le
lotterie a supporto limitato. Inoltre, _

sia un preordinamento su
che verica la propriet` a archimedea e quelle di completezza, coerenza,
dominanza e indipendenza. Esiste allora unutilit`a ordinale u (per _)
tale che _

(u) E

(u) per ogni lotteria ,

a supporto
limitato.
Lassunzione che le lotterie mistura siano del tutto equivalenti alle corrispondenti lot-
terie composte ha consentito di giusticare, in qualche modo, le propriet` a di indipen-
denza e archimedea (e quindi, in ultima analisi, il ricorso alle speranze matematiche
di unopportuna utilit` a ordinale per esprimere le preferenze sulle lotterie). A causa di
questo ruolo chiave nellimpostazione concettuale delle scelte individuali in condizioni di
incertezza, particolare attenzione `e stata posta, dagli psicologi e dagli studiosi del com-
portamento umano, per individuare il reale valore descrittivo sia di questa identicazione
che della conseguente propriet`a di indipendenza. Per ottenerlo, il metodo comunemente
adottato `e stato quello di organizzare degli esperimenti, proponendo a delle popolazioni
campione (scelte in qualche modo) opportuni problemi di decisione in condizioni di in-
certezza, al ne di stabilire se le risposte ottenute siano o no in accordo con lidenticazione
fatta. Pur essendo tale metodologia soggetta a numerose critiche
20
, i risultati ottenuti
hanno generato una notevole mole di ricerche che hanno condotto, anche recentemente, a
nuove impostazioni del problema delle scelte in condizioni di incertezza
21
.
Dei vari esperimenti eettuati, riportiamo una versione di uno dei pi` u celebri (dovuto
a Maurice Allais) che riguarda la propriet` a di indipendenza. Date le lotterie:
-
1
: assegna un premio di 27.500 euro con probabilit` a 0,33, un premio di 24.000 euro con
probabilit` a 0,66 e un premio nullo con probabilit` a 0,01;
20
Dovute alla scelta della popolazione (usualmente matricole universitarie) da cui estrar-
re il campione; dalla mancanza di incentivi che inducano i soggetti ad impegnarsi se-
riamente nel rispondere alle domande poste; alla reale portata delle risposte ottenute
nellilluminare il comportamento degli individui in situazioni reali; etc..
21
Si veda, ad esempio, Schmidt, U., Axiomatic Utility Theory under Risk: Non-Archime-
dean Representations and Applications to Insurance Economics, Lectures Notes in Eco-
nomics and Mathematical Systems, Springer (1998).
16 CAPITOLO 1. PREFERENZE E UTILIT
`
A
-
2
: assegna un premio di 24.000 euro con certezza;
-
3
: assegna un premio di 27.500 euro con probabilit` a 0,33 e un premio nullo con proba-
bilit` a 0, 67;
-
4
: assegna un premio di 24.000 euro con probabilit` a 0,34 e un premio nullo con proba-
bilit` a 0,66
si considerino le opportunit` a di scelta:
- Opportunit` a 1: Il soggetto sceglie tra le lotterie
1
e
2
;
- Opportunit` a 2: Il soggetto sceglie tra le lotterie
3
e
4
.
La risposta pi` u frequente data dai soggetti sottoposti allesperimento:
Scelta di
2
nella prima opportunit` a e di
3
nella seconda
contraddice purtroppo la propriet` a di indipendenza (paradosso di Allais). Infatti, con-
siderate le lotterie:
-
5
: assegna un premio di 27.500 euro con probabilit` a
33
34
e un premio nullo con probabilit` a
1
34
;
-
6
: assegna un premio nullo con certezza,
riesce
1
= 0, 34
5
+0, 66
2
,
2
= 0, 34
2
+0, 66
2
,
3
= 0, 34
5
+0, 66
6
e
4
= 0, 34
2
+
0, 66
6
. Ne segue, per la propriet`a di indipendenza,

2
~


1

2
~


5

4
~


3
.
Si potrebbe allora pensare che questo scollamento tra le teoria e la pratica metta in
discussione solamente la validit`a descrittiva della propriet` a di indipendenza e non quella
relativa allidenticazione fatta tra lotterie mistura e lotterie composte. Purtroppo non `e
cos` come ha messo in evidenza lesperimento seguente. Date le lotterie composte:
- L
1
: assegna
5
con probabilit` a 0,34 e un premio di 24.000 euro con probabilit` a 0,66;
- L
3
: assegna
5
con probabilit` a 0,34 e un premio nullo con probabilit` a 0, 66
si considerino le opportunit` a di scelta:
- Opportunit` a I: Il soggetto sceglie tra le lotterie L
1
e
2
;
- Opportunit` a II: Il soggetto sceglie tra le lotterie L
3
e
4
.
In questo caso, la frequenza delle risposte coerenti con la teoria (L
1
e L
3
oppure
2
e

4
) `e signicativamente maggiore che nel caso del paradosso di Allais, pur essendo tali
lotterie composte coincidenti con le lotterie considerate nel paradosso. Quindi, da un
punto di vista descrittivo, proporre delle scommesse nella forma di lotterie composte altera
la scelta degli individui rispetto al caso in cui siano proposte in termini di lotterie semplici.
1.3. UTILIT
`
A CARDINALE 17
La debolezza applicativa del Teorema 1.3.1, rilevata da questi esperimenti, ha sug-
gerito una sua interpretazione (che adottiamo senzaltro) di tipo normativo: esso fornisce
un modello di comportamento che pu` o essere utilmente utilizzato sia per controllare la
razionalit` a delle scelte degli individui che per individuare la decisione migliore, in situa-
zioni (pi` u o meno complesse) di scelte in condizioni di incertezza.
Prendendo spunto dal Teorema 1.3.1, la prossima denizione ssa latten-
zione su quelle particolari utilit` a ordinali che consentono a DM di descrivere le
sue preferenze sulle lotterie in termini di confronti tra speranze matematiche
(anche non necessariamente nite).
Denizione 1.3.2 Unutilit` a ordinale (per _) u `e una utilit`a cardinale
(per _

) se: _

(u) E

(u) per ogni lotteria e

. Inoltre,
lutilit`a attesa della lotteria `e la speranza matematica E

(u) =
_
C
ud.
22
Il risultato seguente rileva che unutilit` a cardinale `e in grado di descrivere
anche le relazioni di indierenza e di preferenza stretta associate a _

; inoltre,
assicura che `e denita a meno di trasformazioni ani positive.
Teorema 1.3.3 Sia u unutilit`a cardinale. Riesce allora:
(i)

(u) = E

(u);
(ii) ~

(u) > E

(u).
Inoltre, u : C R `e unutilit`a cardinale per _

se e solo se esistono due


numeri reali, a > 0 e b, tali che v = au + b.
Dimostrazione Essendo le dimostrazioni di (i) e di (ii) immediate, ci limi-
tiamo a vericare lultima parte della tesi. Osservato che la condizione su-
ciente `e banale, passiamo a quella necessaria assumendo che u sia unutilit` a
cardinale per _

. Allora, per la propriet` a di non degenerazione A3 e (ii),


u(c

) > u(c

) e u(c

) > u(c

). Possiamo quindi considerare le trasformate


ani positive, rispettivamente, di u e u:
u
1
=
1
u(c

) u(c

)
[u u(c

)], u
2
=
1
u(c

) u(c

)
[ u u(c

)]
22
Conseguentemente, per lOsservazione A.3.9, lutilit`a attesa di una lotteria degenere
1
c
`e il valore u(c) che lutilit` a cardinale assume su c e, per il Teorema A.3.4(ii), il valo-
re atteso di una lotteria mistura

n
i=1

i
`e la mistura

n
i=1

i
E

i
(u) dei valori attesi
delle lotterie che la compongono (ogniqualvolta tale mistura non contempli espressioni
aritmetiche illecite).
18 CAPITOLO 1. PREFERENZE E UTILIT
`
A
ottenendo cos` due utilit` a cardinali (per _

) tali che u
i
(c

) = 0 e u
i
(c

) = 1
(i = 1, 2).
A questo punto basta vericare che riesce u
1
= u
2
; infatti, dalluguaglianza
1
u(c

) u(c

)
[u u(c

)] =
1
u(c

) u(c

)
[ u u(c

)]
risulta
u =
u(c

) u(c

)
u(c

) u(c

)
u +
_
u(c

)
u(c

) u(c

)
u(c

) u(c

)
u(c

)
_
con
u(c

) u(c

)
u(c

)u(c

)
> 0 e quindi u `e una trasformata ane positiva di u.
Per provare che le utilit` a u
1
, u
2
coincidono, osserviamo intanto che, date
le conseguenze c, c

e c

con c [c

, c

], risulta 1
c

1
c
1
c
per qualche
[0, 1]. Infatti, dalla c

_ c _ c

otteniamo u(c

) u(c) u(c

) e quindi
esiste [0, 1] tale che u(c) = u(c

) + (1 )u(c

). Ne segue
E
1
c
(u) = u(c) = u(c

) + (1 )u(c

) = E
1
c

(u) + (1 )E
1
c

(u)
= E
1
c
+(1)1
c

(u)
da cui, tramite (i), 1
c

1
c
+ (1 )1
c
= 1
c
1
c
.
Sia ora i 1, 2. Per valutare u
i
(c) procediamo esaminando le possibili
posizioni di c rispetto c

e c

(_ `e completa!). Sia intanto c [c

, c

]. Per
quanto provato, esiste [0, 1] tale che 1
c

1
c
1
c

. Da (i) segue allora


u
i
(c) = E
1
c
+(1)1
c

(u
i
) = u
i
(c

) + (1 )u
i
(c

) = ,
ricordato che u
i
(c

) = 0. Sia ora c ~ c

. Poich`e c

[c

, c], esiste ]0, 1[


tale che 1
c

1
c
1
c

. Da (i) si ha allora
1 = u
i
(c

) = E
1
c
+(1)1
c

(u
i
) = u
i
(c) + (1 )u
i
(c

) = u
i
(c)
da cui risulta u
i
(c) =
1

. Sia inne c

~ c. Poich`e c

[c, c

], esiste ]0, 1[
tale che 1
c

1
c
1
c
. Da (i) riesce allora
0 = u
i
(c

) = E
1
c
+(1)1
c
(u
i
) = u
i
(c

) + (1 )u
i
(c) = + (1 )u
i
(c)
da cui segue u
i
(c) =

1
. In ogni caso si ha dunque u
1
(c) = u
2
(c).
1.3. UTILIT
`
A CARDINALE 19
Osservazione 1.3.4 Per il teorema appena provato, le utilit` a cardinali con-
servano i rapporti, nel senso che, se u, u sono utilit` a cardinali per _

, risulta
u(c

) u(c)
u(c

) u(c)
=
u(c

) u(c)
u(c

) u(c)
qualunque siano le conseguenze c, c

e c

tali che c

, c. Tali utilit` a hanno


dunque la medesima natura cardinale (da cui la loro denominazione) degli
usuali sistemi di misurazione come, ad esempio, quelli della temperatura
(gradi Celsius, Farhenheit, Kelvin, etc.), della distanza (Km, anni-luce, nodi,
etc.), del peso (Kg, libbre, once, etc.) e cos` via. Natura che, per il Teo-
rema 1.2.2, non `e certamente inerente alle utilit` a ordinali (basti pensare,
ad esempio, allutilit` a ordinale ottenuta dallutilit` a cardinale u tramite la
trasformazione crescente t t
3
).
Dimostrazione del Teorema 1.3.1 La proposizione (i) si ottiene facilmente ri-
correndo alle propriet` a elementari dellintegrale di Lebesgue. Per vericare la proposizione
(ii), iniziamo col provare un lemma che fornisce alcune utili conseguenze delle propriet` a di
indipendenza e di completezza. Le prime due assicurano che la propriet` a di indipendenza
sussiste anche per le relazioni di preferenza stretta e di indierenza; la terza mette in evi-
denza che la mistura di due lotterie `e una lotteria sempre compresa tra di esse; la quarta
invece mostra che se la lotteria
2
`e migliore della lotteria
1
, allora la loro mistura
2

1
aumenta la sua preferibilit` a allaumentare del peso [0, 1].
Lemma 1.3.5 Risulta:
(i)
2
~


1

2
~


1
;
(ii)
2


1

2

per ogni ]0, 1[. Inoltre:


(iii) Se
2
~


1
, allora
2
~

1
~


1
per ogni ]0, 1[;
(iv) Se
2
~


1
e 1

>

0, allora
2

1
~

1
;
(v) Se

i
_


i
,
i
0 (i = 1, . . . , n) e

n
i=1

i
= 1, allora

n
i=1

i
_


n
i=1

i
.
Dimostrazione (i) Sia intanto
2
~


1
, cio`e
2
_


1
e
2
,


1
. Assumiamo (per
assurdo)
2
,~


1
con ]0, 1[. Allora, per la propriet` a di completezza,
1
_

2
da cui, per la propriet` a di indipendenza, otteniamo
1
_


2
e quindi
2


1
(Contraddizione!). In modo analogo si prova limplicazione opposta.
(ii) Per la propriet` a di indipendenza, si ha


1

2
_


1

1
_


2

2
_


1

1
_


2

2


1
.
(iii) Siano
2
~


1
e ]0, 1[. Allora, 1 ]0, 1[ da cui, posto =
2
in (i), segue

2
=
2
(1 )
2
~


1
(1 )
2
=
2

1
e quindi, posto =
1
in (i),
2
~

1
~

1
=
1
.
20 CAPITOLO 1. PREFERENZE E UTILIT
`
A
(iv) Supposto
2
~


1
e 1

>

0, da (iii) otteniamo

2
~

1
. (1.5)
Posto =
1

, si ha 0 < 1 e inoltre
(
2

1
) + (1 )
2
=
1

2
+ (1

)
1

+
_
1
1

2
=
1

2
+ (1

)
1
+


2
=

2
+ (1

)
1
=
2

1
.
Se = 0, allora
2

1
=
2
e quindi, per (1.5),
2

1
~

1
. Se invece > 0, da (i)
e (1.5), otteniamo
2

1
= (
2

1
) + (1 )
2
~

(
2

1
) + (1 )
2

1
=
2

1
.
(v) Assumiamo

i
_


i
,
i
0 (i = 1, . . . , n),

n
i=1

i
= 1 e procediamo per in-
duzione su n. Osservato che la tesi `e banale per n = 1, supponiamo che sussista per
n = m (ipotesi induttiva) e proviamola per n = m + 1. Poich`e nel caso
m+1
= 1 la tesi
`e ancora banale, sia
m+1
< 1. Ne segue =

m
i=1

i
= 1
m+1
> 0 e quindi possiamo
considerare il suo reciproco
1

. Riesce allora
m+1

i=1

i
=
m

i=1

i
+
m+1

m+1
da cui, tenuto conto dellipotesi induttiva

m
i=1

i
_


m
i=1


i
e della propriet` a di
indipendenza A6

, otteniamo
m+1

i=1

i
_

i=1


i
+
m+1

m+1
e quindi, ancora per A6

,
m+1

i=1

i
_

i=1


i
+
m+1

m+1
=
m

i=1

i
+
m+1

m+1
=
m+1

i=1

i
.
La dimostrazione `e cos` conclusa.
Siamo ora in grado di provare che la restrizione della preferenza _

su un intervallo
di lotterie `e descrivibile in termini di unutilit` a ordinale (denita su tale intervallo) che
risulta lineare sulle misture.
Lemma 1.3.6 Sia
2
~


1
. Considerato allora lintervallo chiuso [
1
,
2
] di , esiste
unapplicazione suriettiva U

1
,
2
: [
1
,
2
] [0, 1] tale che:
(i)

1
= U

1
,
2
();
(ii)

1
,
2
(

) > U

1
,
2
(

);
1.3. UTILIT
`
A CARDINALE 21
(iii)

1
,
2
(

) U

1
,
2
(

);
(iv) U

1
,
2
(

) = U

1
,
2
(

) + (1 )U

1
,
2
(

)
per ogni ,

[
1
,
2
] e [0, 1].
Dimostrazione Al ne di individuare lapplicazione

U = U

1
,
2
, scegliamo una lotteria
qualsiasi [
1
,
2
] e poniamo:
A

[0, 1] : _

1
, B

[0, 1] :
2

1
_

.
Allora, 0 A

, 1 B

e, per la completezza di _

, A

= [0, 1]. Inoltre, si ha


sup A

inf B

; infatti, se cos` non fosse, esisterebbero

tali che inf B

<

<

< sup A

e quindi, per il Lemma 1.3.5(iv), si avrebbe _

1
~

1
_


(Contraddizione!). Riesce pertanto sup A

= inf B

per cui possiamo porre:

U() = supA

= inf B

.
Si ha quindi

U(
1
) = 0 e

U(
2
) = 1 (infatti 0 B

1
e 1 A

2
).
(i) Posto =

U(), assumiamo (per assurdo) ,

1
, cio`e ~

1
o
2

1
~


(_

`e completa!). Nel primo caso, per la propriet` a archimedea (ponendo

=
2
e

1
in A7

), esiste ]0, 1[ tale che


~


2
(
2

1
) =
2
+ (1 )
_

2
+ (1 )
1

=
2
_
+ (1 )

1
.
Allora + (1 ) A

da cui otteniamo + (1 ) sup A

= ; ne segue = 1 e
quindi
2
_

1
=
2
(Contraddizione!). Passando a considerare il secondo caso,
si giunge in modo analogo ad una contradizione.
(ii) Dati

[
1
,
2
], sia intanto

, cio`e

. Allora, per (i),

U(

) ,=

U(

) e inoltre A

. Ne segue

U(

) = supA

sup A

=

U(

) e quindi

U(

) <

U(

). In modo analogo si prova limplicazione opposta.


(iii) Conseguenza immediata di (i) e (ii).
(iv) Siano

[
1
,
2
], [0, 1] e =

. Posto

=

U(

) e

=

U(

), da (i)
otteniamo

1
e

1
. Ne segue, tramite il Lemma 1.3.5(ii),

[
2

1
] [
2

1
] =
_

2
+ (1

)
1

+(1 )
_

2
+ (1

)
1

e quindi


2
_

+ (1 )

1
. (1.6)
Proviamo ora che
2
_

. Dalla
2
_

, per la propriet` a di indipendenza A6

, si ha

2
=
2
(1 )
2
_

(1 )
2
=
2

. Inoltre, sempre per A6

, da
2
_

otteniamo

= . Riesce dunque
2
_

. Poich`e in modo analogo si prova _


1
, si
ha [
1
,
2
] e quindi, tramite (i) e (1.6),

U() =

U(

) + (1 )

U(

).
Osservato inne che, per

U(
1
) = 0,

U(
2
) = 1 e (iv),

U(
2

1
) = per ogni [0, 1],
possiamo concludere che la funzione

U `e suriettiva.
22 CAPITOLO 1. PREFERENZE E UTILIT
`
A
Tramite la famiglia U

1
,
2
:
2
~


1
delle utilit` a ordinali associate alle preferenze
intervallari _

[
1
,
2
]
23
, possiamo ora individuare unutilit` a ordinale U (per _

) lineare
sulle misture. Data unarbitraria lotteria , lidea guida per la costruzione di U() `e
considerare la posizione di rispetto alle due lotterie degeneri

= 1
c

= 1
c
.
Poniamo infatti:
U() =
_

U
,
(

)
1 U
,
(

)
se

,
() se [

]
1
U

,
(

)
se ~

.
Riesce allora U(

) = 0 e U(

) = 1. Inoltre, sussiste limplicazione:

2
_


1
(1.7)
[
1
,
2
]
_
U

1
,
2
() =
_
U

1
,
2
(

) U

1
,
2
(

U() +U

1
,
2
(

)
_
.
Infatti, supposto
2
_


1
e data [
1
,
2
], sia intanto [

]. Allora,
per il Lemma 1.3.6(i),

,
()

U()

da cui, tramite il Lemma 1.3.6(iv),


si ha U

1
,
2
() = U() U

1
,
2
(

) + (1 U()) U

1
,
2
(

) e quindi
U

1
,
2
() =
_
U

1
,
2
(

) U

1
,
2
(

U() +U

1
,
2
(

). (1.8)
Sia ora

. Dunque

[,

] e U() =
U
,
(

)
1U
,
(

)
. Allora, per il Lemma 1.3.6(i),

U
,
(

) =
U()
1 U()

+
1
1 U()

da cui, per il Lemma 1.3.6(ii),(iv), otteniamo
U

1
,
2
(

) =
U()
1 U()
U

1
,
2
(

) +
1
1 U()
U

1
,
2
()
e quindi, riordinando opportunamente i termini, (1.8). Supposto inne ~

, si ha

, ] e U() =
1
U

,
(

)
. Allora,

,
(

=
1
U()
+
_
1
1
U()
_

da cui, sempre per il Lemma 1.3.6(ii),(iv), risulta


U

1
,
2
(

) =
1
U()
U

1
,
2
() +
_
1
1
U()
_
U

1
,
2
(

).
Conseguentemente, riordinando opportunamente i termini, si ha ancora (1.8), completando
cos` la sua verica.
La prima proposizione del prossimo lemma mette in evidenza che lapplicazione U `e
eettivamente unutilit`a ordinale (per _

); la seconda che `e lineare sulle misture mentre


la terza che muta intervalli (di lotterie) in intervalli (di numeri reali).
23
Certamente non vuota per le propriet` a di non degenerazione e di coerenza.
1.3. UTILIT
`
A CARDINALE 23
Lemma 1.3.7 Risulta:
(i)

U(

) U(

);
(ii) U(

) = U(

) + (1 )U(

) per ogni [0, 1];


(iii) U([

]) = [U(

), U(

)].
Dimostrazione (i) + (ii) Seguono facilmente da (1.7) e dal Lemma 1.3.6, una volta
posto
1
= min

e
2
= max

.
(iii) Conseguenza immediata di (ii), una volta osservato che, per il Lemma 1.3.5(iii),

] per ogni [0, 1].


Una conseguenza immediata della propriet` a di coerenza e della proposizione (i) del
lemma precedente `e che lapplicazione u : c U(1
c
) `e unutilit` a ordinale per _. Allora,
qualunque sia il numero reale t, la controimmagine u t `e un insieme _-connesso e
quindi appartiene alla -algebra ( (che, ricordiamolo, contiene tutti gli insiemi _-connessi
di C). Possiamo pertanto aermare, per il criterio standard di misurabilit` a A.2.2, che
la funzione u `e (-Borel misurabile. Se ora proviamo che, qualunque sia la lotteria a
supporto limitato, il valore U() `e proprio lintegrale di Lebesgue di u rispetto a , avremmo
dimostrato la proposizione (ii) del Teorema 1.3.1, in quanto (sempre per la proposizione
(i) del lemma precedente) riesce

(u) E

(u) per ogni ,

a supporto
limitato.
Lemma 1.3.8 Se `e una lotteria a supporto limitato, allora U() = E

(u).
Dimostrazione Data una lotteria a supporto limitato, esistono c

, c

C tali che
([c

, c

]) = 1. Allora, le funzioni u e u = I
[c

,c

]
u sono uguali -quasi certamente. Ne
segue E

(u) = E

( u) e quindi basta provare luguaglianza U() =


_
C
ud. A tal ne, sia
> 0. Scelti h + 1 numeri reali t
0
, t
1
, . . . , t
h
in modo tale che risulti:
t
0
= u(c

) t
1
t
h1
u(c

) = t
h
, t
i
t
i1
< (i = 1, . . . , h),
consideriamo le controimmagini C
i
= u
1
([t
i1
, t
i
[) (i = 1, . . . , h1), C
h
= u
1
([t
h1
, t
h
])
che sono tutte in ( (u `e (-Borel misurabile!).
Siano ora C

1
, . . . , C

n
le controimmagini C
i
aventi probabilit` a positiva, cio`e tali che
(C
i
) > 0. Allora, preso j 1, . . . , n, si ha
sup u(C

j
) inf u(C

j
) < (1.9)
e, per linclusione u(C

j
) [u(c

), u(c

)] e il Lemma 1.3.7(iii),
inf u(C

j
), sup u(C

j
) [u(c

), u(c

)] = [U(1
c
), U(1
c
)] = U([1
c
, 1
c
]).
Esistono dunque due lotterie

j
,

j
[1
c
, 1
c
] tali che U(

j
) = inf u(C

j
) e U(

j
) =
sup u(C

j
). Inoltre, considerata la probabilit` a condizionata:
Q
j
= ( [ C

j
) =
( C

j
)
(C

j
)
24 CAPITOLO 1. PREFERENZE E UTILIT
`
A
si ha Q
j
(C

j
) = 1 = Q
j
([c

, c

]) e quindi Q
j
. Inoltre, osservato che, per ogni c C

j
,
si ha U(

j
) = inf u(C

j
) u(c) = U(1
c
) sup u(C

j
) = U(

j
) e quindi

j
_

1
c
_

j
(Lemma 1.3.7(i)), dalla propriet` a di dominanza otteniamo

j
_

Q
j
_

j
.
Dallarbitrariet` a della scelta di j, tramite il Lemma 1.3.5(v), si ha quindi
n

j=1
(C

j
)

j
_

j=1
(C

j
)Q
j
_

j=1
(C

j
)

j
,
osservato che

n
j=1
(C

j
) = 1. Poich`e
(C) = (C [c

, c

]) =
_
C
h
_
i=1
C
i
_
=
h

i=1

_
C C
i
_
=
n

j=1
(C C

j
) =
n

j=1
(C [ C

j
) (C

j
) =
n

j=1
Q
j
(C) (C

j
)
per ogni C (, riesce allora

n
j=1
(C

j
)

j
_


n
j=1
(C

j
)

j
e quindi, per il Lemma
1.3.7(i),(ii),
_
C
n

j=1
inf u(C

j
) I
C

j
d =
n

j=1
(C

j
) inf u(C

j
) =
n

j=1
(C

j
)U(

j
)
= U
_
n

j=1
(C

j
)

j
_
U() U
_
n

j=1
(C

j
)

j
_
=
n

j=1
(C

j
)U(

j
) =
n

j=1
(C

j
) sup u(C

j
) =
_
C
n

j=1
sup u(C

j
) I
C

j
d.
Tenuto conto della disuguaglianza

n
j=1
inf u(C

j
) I
C

j
u

n
j=1
sup u(C

j
) I
C

j
, si ha
anche
_
C
n

j=1
inf u(C

j
) I
C

j
d
_
C
ud
_
C
n

j=1
sup u(C

j
) I
C

j
d
e quindi, per (1.9),

U()
_
C
ud


_
C
n

j=1
sup u(C

j
) I
C

j
d
_
C
n

j=1
inf u(C

j
) I
C

j
d
=
_
C
n

j=1
_
sup u(C

j
) inf u(C

j
)

I
C

j
d

_
C
n

j=1
I
C

j
d =
n

j=1
_
C
I
C

j
d =
n

j=1
(C

j
) = .
Passando inne al limite per 0
+
, otteniamo U() =
_
C
ud.
1.4. AVVERSIONE AL RISCHIO 25
1.4 Avversione al rischio
In questultima sezione consideriamo il caso particolare, ma di estrema impor-
tanza per la teoria delle scelte del consumatore, di conseguenze espresse in
termini monetari
24
. Essendo ragionevole ritenere che DM desideri aumentare,
qualunque sia il livello di ricchezza raggiunto, il suo capitale (cio`e, sia un in-
dividuo non saziato), assumiamo che linsieme C delle conseguenze (degli
importi) sia un intervallo (limitato o no) superiormente aperto della retta
reale e che la preferenza _ sia lusuale ordinamento per grandezza. La con-
siderazione di unutilit` a ordinale `e quindi, in questo contesto, superua. Non
lo `e invece quella di unutilit` a cardinale poich`e consente di introdurre, come
vedremo, una nozione chiave per la teoria del consumatore: quella di avver-
sione al rischio. In questa sezione, ( sar`a la traccia della -algebra di Borel
su C e coincider`a con la famiglia delle lotterie a supporto limitato; inol-
tre, u indicher`a unutilit` a cardinale per _

(che chiameremo semplicemente


utilit` a)
25
. Considerata inne unarbitraria lotteria , denoteremo con M()
limporto medio
_
C
x (dx) ad essa relativo (certamente nito in quanto,
essendo a supporto limitato, lidentit` a di C `e limitata -quasi certamente).
Nella teoria della scelta del consumatore `e usuale intendere limporto medio di una
lotteria come prezzo equo della medesima. Poich`e questa interpretazione pu`o sembrare
strana a coloro che non hanno familiarit` a con la teoria economica, riportiamo le conside-
razioni che la giusticano. Iniziamo con lintrodurre la nozione di sistema di prezzi equo
per una famiglia di importi aleatori limitati deniti su un arbitrario insieme di casi
elementari e a valori in C. Indicato con p(X) il prezzo (dacquisto e di vendita) dellimporto
aleatorio X , il protto del consumatore relativo allacquisto di X `e G(X) = Xp(X)
mentre quello relativo alla sua vendita `e p(X) X = G(X). Conseguentemente, il
protto totale inerente lacquisto degli importi X
1
, . . . , X
m
e la vendita degli importi
Y
1
, . . . , Y
n
`e

m
i=1
G(X
i
)

n
j=1
G(Y
j
). Assunto, come appare del tutto naturale,
che il consumatore desideri avere un protto totale non negativo in ogni operazione che
comporti acquisti e/o vendite di importi di , chiamiamo il sistema di prezzi p (inteso
come funzione di dominio ) equo se consente al consumatore di evitare la perdita certa,
cio`e se:
sup
_
m

i=1
G(X
i
)
n

j=1
G(Y
j
)
_
0
24
Chi non fosse interessato a questa problematica pu`o omettere la lettura della sezione
senza pregiudicare in alcun modo la comprensione degli argomenti che seguono.
25
Quindi, _

`e un preordinamento completo che verica la propriet` a archimedea e quelle


di coerenza, dominanza e di indipendenza (Teorema 1.3.1(i)) e u `e una funzione crescente
su C (Teorema 1.3.3(ii)).
26 CAPITOLO 1. PREFERENZE E UTILIT
`
A
qualunque siano gli importi acquistati X
1
, . . . , X
m
e venduti Y
1
, . . . , Y
n
.
Come si pu`o costruire un sistema di prezzi equo? Basta considerare una probabilit` a
P denita su una -algebra / su che renda misurabili tutti gli elementi di e scegliere
come prezzo di un qualsiasi importo aleatorio X la sua speranza matematica E
P
(X) =
_

X dP. Riesce infatti


m

i=1
G(X
i
)
n

j=1
G(Y
j
) =
m

i=1
_
X
i
E
P
(X
i
)

j=1
_
Y
j
E
P
(Y
j
)

=
m

i=1
X
i

j=1
Y
j

_
m

i=1
E
P
(X
i
)
n

j=1
E
P
(Y
j
)
_
=
m

i=1
X
i

j=1
Y
j
E
P
_
m

i=1
X
i

j=1
Y
j
_
da cui, per linternalit` a della speranza matematica, otteniamo
sup
_
m

i=1
G(X
i
)
n

j=1
G(Y
j
)
_
= sup
_
m

i=1
X
i

j=1
Y
j
_
E
P
_
m

i=1
X
i

j=1
Y
j
_
0.
Ricordato che, per (B.2), E
P
(X) =
_
R
xP
X
(dx) = M(P
X
) (ove P
X
`e la legge del-
limporto aleatorio X), la scelta della speranza matematica come prezzo equo di X com-
porta che tale prezzo sia da intendersi relativo alla lotteria P
X
piuttosto che allimporto
aleatorio X (in quanto, cos` scegliendo, importi aleatori equidistribuiti hanno il medesi-
mo prezzo equo!). Cogliendo questa osservazione, viene allora naturale interpretare (e cos`
faremo) limporto medio M() di una lotteria come suo prezzo equo (e anche come prezzo
equo di un qualsiasi importo aleatorio limitato avente come legge).
Interpretato limporto medio di una lotteria come prezzo equo della mede-
sima, supponiamo che DM debba decidere se acquistare o no una data lotteria
. Per farlo, DM dovr` a mettere a confronto la possibilit` a di ricevere certa-
mente il prezzo equo M() con quella di partecipare alla lotteria assumendosi
il relativo rischio; dovr` a, in altri termini, vedere quale dei seguenti tre casi
~

1
M()
, 1
M()
~

1
M()
si verica. Se sussiste il primo, allora
per DM `e preferibile possedere limporto aleatorio piuttosto che limporto
certo M() e quindi acquister` a la lotteria; se invece si verica il secondo, allora
per DM `e preferibile possedere limporto certo M() piuttosto che limporto
aleatorio e quindi non acquister` a la lotteria; se inne risulta valido lultimo,
allora per DM `e del tutto indierente possedere limporto aleatorio oppure
limporto certo M() e quindi sar`a libero di acquistare o no la lotteria.
Ovviamente, in generale, il comportamento di DM non sar` a uniforme;
1.4. AVVERSIONE AL RISCHIO 27
egli acquister` a certe lotterie mentre ne riuter` a altre
26
. Daltra parte, `e
usuale nella teoria della scelta del consumatore assumere (almeno in prima
istanza) un comportamento uniforme da parte dei consumatori. Viene cos`
legittimata la seguente denizione fondamentale.
Denizione 1.4.1 Il decisore `e:
- avverso al rischio se 1
M()
_

per ogni lotteria ;


- propenso al rischio se _

1
M()
per ogni lotteria ;
- neutrale al rischio se 1
M()

per ogni lotteria .


27
Il teorema seguente fornisce una caratterizzazione analitica dellavversione,
propensione e neutralit` a rispetto al rischio in termini di concavit` a, convessit` a
e anit`a della funzione di utilit`a.
Teorema 1.4.2 Il decisore `e:
(i) avverso al rischio se e solo se u `e una funzione concava;
(ii) propenso al rischio se e solo se u `e una funzione convessa;
(iii) neutrale al rischio se e solo se u `e una funzione ane.
Dimostrazione Poich`e la proposizione (iii) segue immediatamente dalle
prime due e le dimostrazioni di queste ultime sono simili, ci limitiamo a
provare la proposizione (i). Assumiamo intanto DM avverso al rischio. Dati
gli importi c

, c

e [0, 1], sia c = c

+ (1 )c

. Considerata allora
la lotteria = 1
c
1
c
, riesce M() = c da cui, per lavversione al rischio,
otteniamo 1
c
_

e quindi u(c

+ (1 )c

) = u(c) = E
1
c
(u) E

(u) =
E
1
c

(u) + (1 )E
1
c

(u) = u(c

) + (1 )u(c

).
Sia ora u una funzione concava. Considerata unarbitraria lotteria , per
il teorema di Jensen B.2.5 (prendendo come v.a. X lidentit` a e ponendo
g = u), si ha E

(u) u(M()) = E
1
M()
(u) da cui otteniamo 1
M()
_

.
26
`
E bene tenere presente che tale comportamento (indotto dalla preferenza _

) va sem-
pre riferito ad un ssato livello di ricchezza del decisore e ad un dato contesto; pu` o capitare
infatti che DM, se messo in condizioni di ricchezza dierenti o in contesti dierenti (come,
ad esempio, il campo degli aari o quello dei giochi dazzardo), dallavversione per certe
lotterie passi alla propensione per esse (e viceversa).
27
Una chiara interpretazione psicologica delle nozioni introdotte pu` o essere ottenuta
facendo riferimento alle lotterie che fanno vincere o perdere un medesimo importo con
uguale probabilit` a. Ad esempio, lavversione al rischio pu` o essere interpretata (in questo
contesto) come la prevalenza nel decisore del timore di conseguire una perdita rispetto alla
speranza di procurarsi, con pari probabilit` a, una vincita di uguale importo.
28 CAPITOLO 1. PREFERENZE E UTILIT
`
A
Osservazione 1.4.3 Supposto che DM non sia neutrale al rischio, lacquisi-
zione, al livello di ricchezza z, di un importo certo x > 0 comporta per DM
un incremento di utilit`a u(z +x) u(z) dipendente (oltre che dal guadagno
x) dalla dotazione di ricchezza z; precisamente, decrescente (crescente) o al
pi` u costante al crescere della ricchezza z se DM `e avverso (propenso) al ris-
chio. Verichiamolo nel caso di avversione al rischio. Per la caratterizzazione
precedente, lutilit` a u risulta concava. Conseguentemente, qualunque siano
gli importi z

, z

tali che z

< z

, dal Lemma B.2.4(i) otteniamo


-
u(z

+x)u(z

)
(z

+x)z


u(z

)u(z

)
z


u(z

+x)u(z

)
(z

+x)z

se z

+ x z

;
-
u(z

+x)u(z

)
(z

+x)z


u(z

+x)u(z

)
(z

+x)z


u(z

+x)u(z

)
(z

+x)z

se z

< z

+ x
e quindi u(z

+ x) u(z

) u(z

+ x) u(z

).
Per ottenere ulteriori caratterizzazioni signicative del comportamento di
DM rispetto al rischio, introduciamo lequivalente certo di una lotteria che
pu`o essere interpretato come il prezzo soggettivo che DM attribuisce (nel
suo sistema di preferenze) alla lotteria.
Denizione 1.4.4 Lequivalente certo della lotteria `e quellunico im-
porto (se esistente) C() tale che 1
C()

, cio`e tale che C() = u


1
(E

(u))
28
.
Forniamo ora una caratterizzazione analitica dellesistenza dellequivalente
certo per ogni lotteria in termini di continuit` a della funzione di utilit`a.
Teorema 1.4.5 Esiste lequivalente certo di ogni lotteria se e solo se u `e
una funzione continua.
Dimostrazione Esista intanto lequivalente certo di ogni lotteria. Suppo-
sto (per assurdo) che c sia un punto di discontinuit` a di u, dalla crescenza di u
otteniamo u( c) < = lim
c c
+
u(c) = inf
c> c
u(c) o u( c) > = lim
c c

u(c) = sup
c< c
u(c).
Nel primo caso, scelto c

> c, esiste ]0, 1[ tale che u( c) < u( c) + (1


)u(c

) < . Considerata allora la lotteria = 1


c
1
c
e posto c = C(),
otteniamo u(c) = E

(u) = u( c) + (1 )u(c

) e quindi u( c) < u(c) <


(Contraddizione!). Passando a considerare il secondo caso, si giunge in modo
analogo ad una contraddizione.
Sia ora u una funzione continua. Data una lotteria , esistono due importi
c

, c

tali che ([c

, c

]) = 1. Allora c

e quindi, per la crescenza e


28
In forza della crescenza di u e del Teorema 1.3.3(i).
1.4. AVVERSIONE AL RISCHIO 29
continuit` a di u, si ha u([c

, c

]) = [u(c

), u(c

)], tenuto presente che le funzioni


continue trasformano intervalli in intervalli. Ne segue, tramite il teorema
della media integrale A.3.6(iv),
u(c

) = u(c

) ([c

, c

])
_
[c

,c

]
ud u(c

) ([c

, c

]) = u(c

)
e quindi esiste c [c

, c

] tale che u(c) =


_
[c

,c

]
ud =
_
C
ud = E

(u). Allora,
c = u
1
(E

(u)) = C().
Supposto che tutte le lotterie ammettano equivalente certo, otteniamo
_

1
C()
_

1
C(

)
C() C(

) per ogni lotteria e

. Con-
seguentemente, lequivalente certo - inteso come una funzione di in C -
`e unutilit`a ordinale per la preferenza _

. Inoltre, come messo in evidenza


dal prossimo teorema (di facile verica), il comportamento di DM rispetto al
rischio pu` o essere descritto confrontando lequivalente certo (prezzo sogget-
tivo della lotteria) con limporto medio (prezzo equo della lotteria).
Teorema 1.4.6 Se esiste lequivalente certo di ogni lotteria, allora il de-
cisore `e:
(i) avverso al rischio se e solo se C() M() per ogni lotteria ;
(ii) propenso al rischio se e solo se C() M() per ogni lotteria ;
(iii) neutrale al rischio se e solo se C() = M() per ogni lotteria .
Caratterizzato il comportamento di DM rispetto al rischio in termini di
concavit` a e/o convessit` a dellutilit` a e di equivalente certo, procediamo intro-
ducendo due quantit` a numeriche di estrema importanza. Onde evitare com-
plicazioni di natura matematica, considereremo (no alla ne della sezione)
solamente utilit`a u aventi derivata prima u

0 e derivata seconda u

con-
tinua.
Essendo, in queste ipotesi, u una funzione continua, per il Teorema 1.4.5,
ogni lotteria ammette equivalente certo; possiamo quindi introdurre il nu-
mero R() = M() C(), detto costo del rischio (o, con linguaggio assi-
curativo, premio di rischio), che rappresenta:
- il massimo importo che DM `e disposto a defalcare dal prezzo equo per
evitare il rischio connesso con la lotteria, nel caso che sia avverso al rischio;
- in valore assoluto il massimo importo che DM `e disposto ad aggiungere al
30 CAPITOLO 1. PREFERENZE E UTILIT
`
A
prezzo equo per accedere alla lotteria, nel caso che sia propenso al rischio.
Proviamolo, a titolo desempio, nel caso dellavversione al rischio. Data una
lotteria e posto c = M(), si ha 1
c
~

. Allora, u(c) > E

(u) e quindi,
qualunque sia limporto c

> 0, DM preferir` a limporto c c

alla lotteria, se
u(cc

) > E

(u), e preferir`a la lotteria allimporto cc

, se E

(u) > u(cc

).
Conseguentemente, il massimo importo che DM sar` a disposto a defalcare da
c (per evitare il rischio connesso alla lotteria) sar` a limporto c che realizza
luguaglianza u(c c) = E

(u). Ne segue c c = u
1
(E

(u)) da cui otteniamo


c = c C() = R().
Inoltre, essendo u

> 0, ha anche senso considerare la funzione continua:


r
u
=
u

di dominio C, detta coeciente di avversione al rischio (assoluta) del


decisore, che misura la concavit` a relativa della funzione u. Osservato che
d
dt
ln u

(t) = r
u
(t), `e facile ottenere, mediante il teorema di Torricelli e
tramite due integrazioni successive, la seguente relazione tra u e r
u
:
u(c) = u

(c
0
)
_
c
c
0
exp
_

_
x
c
0
r
u
(t)dt
_
dx + u(c
0
), (1.10)
ove c
0
`e un elemento arbitrario di C.
Il teorema seguente assicura che il coeciente di avversione al rischio `e
in grado sia di caratterizzare la preferenza _

che di descrivere il comporta-


mento di DM rispetto al rischio.
Teorema 1.4.7 Il decisore `e:
(i) avverso al rischio se e solo se r
u
0;
(ii) propenso al rischio se e solo se r
u
0;
(iii) neutrale al rischio se e solo se r
u
= 0.
Inoltre, r
u
`e invariante per trasformazioni ani positive di u. Inne, se
u : C R `e una funzione con derivata prima positiva, derivata seconda
continua e tale che r
u
= r
u
, allora u `e unutilit`a cardinale per _

.
Dimostrazione La caratterizzazione del comportamento di DM rispetto al
rischio discende immediatamente dal Teorema 1.4.2 e dalla caratterizzazione
1.4. AVVERSIONE AL RISCHIO 31
del secondo ordine della convessit` a. Linvarianza rispetto alle trasformazioni
ani positive `e banale. Proviamo inne la terza parte della tesi. Da (1.10)
otteniamo
u(c) = a
_
c
c
0
exp
_

_
x
c
0
r
u
(t)dt
_
dx + b
u(c) = a
_
c
c
0
exp
_

_
x
c
0
r
u
(t)dt
_
dx +

b
con a, a > 0. Riesce allora u =
a
a
u +
_

b
ab
a

e quindi, per il Teorema 1.3.3,


u `e unutilit`a per _

.
Il comportamento di DM rispetto al rischio `e stato sin qui analizzato
facendo riferimento (come puntualizzato nella nota 26 di p. 27) ad un dato
livello di ricchezza (seppur non precisato) del decisore. Lintroduzione del
coeciente di avversione al rischio consente di caratterizzare non solo le
preferenze e lattitudine verso il rischio ma anche una opportuna formu-
lazione dinamica dellavversione al rischio che tenga conto del divenire
della ricchezza posseduta. Per introdurla, consideriamo un livello di ric-
chezza z e supponiamo che DM (ritenuto avverso al rischio) sia interes-
sato alla lotteria =

n
i=1

i
1
c
i
che assegna il premio c
i
con probabilit` a

i
> 0 (i = 1, . . . , n). Allora, una volta che DM decidesse di partecipare alla
lotteria, la sua dotazione di ricchezza diverrebbe aleatoria e sarebbe descritta
dalla lotteria
z
=

n
i=1

i
1
c
i
+z
che assegna il premio c
i
+ z con probabilit` a

i
(i = 1, . . . , n), cio`e dalla lotteria che si ottiene dalla aumentandone i
premi di un importo pari alla ricchezza posseduta e lasciando invariate le
probabilit` a. Osservato che tale lotteria ha la medesima varianza della lot-
teria iniziale
29
, possiamo concludere che le lotterie
z
1
e
z
2
(corrispondenti
ai livelli di ricchezza z
1
e z
2
) sono ugualmente rischiose. Conseguentemente,
levolversi del grado di avversione al rischio di DM, al variare della sua ric-
chezza, potrebbe essere descritto confrontando i costi del rischio connessi con
le due lotterie. Infatti, qualora riuscisse, ad esempio, R(
z
1
) > R(
z
2
), DM
risulterebbe, da un punto di vista intuitivo, pi` u avverso al rischio possedendo
il patrimonio z
1
che il patrimonio z
2
, in quanto sarebbe disposto, per evitare
la situazione rischiosa descritta dalla lotteria , a defalcare dal prezzo equo
29
Ricordiamo che per varianza di una lotteria si intende la varianza di una qualsiasi
v.a. avente come legge, cio`e lintegrale Var() =
_
C
[c M()]
2
(dc), certamente nito
essendo lapplicazione elevamento al quadrato -quasi certamente limitata.
32 CAPITOLO 1. PREFERENZE E UTILIT
`
A
un importo che, nello stato di ricchezza z
1
, `e maggiore di quello relativo allo
stato z
2
.
Passando ad una formalizzazione di queste considerazioni, per ogni con-
seguenza z e per ogni C (, poniamo C + z = c + z : c C e conside-
riamo la -algebra traslata (
z
= C + z : C ( di ( su C + z. Inne,
data una qualsiasi lotteria , denotiamo con z la lotteria su (
z
tale che
( z)(C + z) = (C) per ogni C (, cio`e la lotteria che aumenta tutti i
premi di dellimporto z lasciandone inalterate le probabilit` a. Allora,
per le considerazioni precedenti, la variazione (allevolversi della dotazione di
ricchezza) del grado di avversione di DM ad accedere alla situazione rischiosa
rappresentata dalla lotteria pu`o essere ragionevolmente espressa precisando
il comportamento del costo del rischio R( z) allaumentare della ricchezza
z. Diamo pertanto la denizione seguente.
Denizione 1.4.8 Il decisore (supposto avverso al rischio) `e:
- avverso al rischio in modo non crescente se il costo del rischio R(z)
`e una funzione non crescente in z, qualunque sia la lotteria ;
- avverso al rischio in modo non decrescente se il costo del rischio
R( z) `e una funzione non decrescente in z, qualunque sia la lotteria ;
- avverso al rischio in modo costante se il costo del rischio R( z) `e
una funzione costante in z, qualunque sia la lotteria .
30
Il teorema successivo (al quale premettiamo un lemma) mette in evidenza
che tramite il coeciente di avversione al rischio siamo in grado di caratte-
rizzare queste nozioni dinamiche di avversione al rischio.
Lemma 1.4.9 Siano f
1
, f
2
funzioni di dominio C con derivata prima posi-
tiva e derivata seconda continua. Allora, la funzione composta = f
1
f
1
2
:
f
2
(C) R `e crescente e continua. Inoltre, sono equivalenti le seguenti propo-
sizioni:
(i) E

(f
1
) (E

(f
2
)) per ogni lotteria ;
(ii) `e una funzione concava;
(iii) r
f
1
r
f
2
.
30
Ricordiamo che, nella teoria della scelta del consumatore, viene normalmente assunto
che gli individui, oltre a essere avversi al rischio, siano anche avversi al rischio in modo
non crescente o al pi` u costante.
1.4. AVVERSIONE AL RISCHIO 33
Dimostrazione Per quanto riguarda la crescenza e la continuit` a della fun-
zione composta basta osservare che la funzione f
1
2
`e crescente e continua (in
quanto inversa di una funzione crescente denita su un intervallo (limitato
o no) della retta reale). Passando alla seconda parte della tesi, procediamo
provando le equivalenze (i) (ii) e (ii) (iii).
(i) (ii). Assumiamo intanto (i). Per vericare la concavit` a, siano
[0, 1] e a

, a

f
2
(C) con a

< a

. Esistono allora due conseguenze c

, c

tali che f
2
(c

) = a

e f
2
(c

) = a

. Considerata la lotteria = 1
c
1
c
, si ha
f
1
(c

) + (1 )f
1
(c

) = E

(f
1
) (E

(f
2
)) = (f
2
(c

) + (1 )f
2
(c

))
e quindi
(a

) + (1 )(a

) = (f
2
(c

)) + (1 )(f
2
(c

))
= f
1
(c

) + (1 )f
1
(c

)
(f
2
(c

) + (1 )f
2
(c

)) = (a

+ (1 )a

).
Assumiamo ora (ii). Data unarbitraria lotteria , dal teorema di Jensen
(ponendo X = f
2
e g = ) risulta E

(f
1
) = E

_
(f
1
f
1
2
) f
2

= E

[(f
2
) ]
[E

(f
2
)].
(ii) (iii). Basta osservare che riesce

(f
2
(c)) =
f

1
(c)
f

2
(c)
> 0

(f
2
(c)) =
f

1
(c)f

2
(c) f

1
(c)f

2
(c)
f

2
(c)
2
=
f

1
(c)
f

2
(c)
_
f

1
(c)
f

1
(c)

f

2
(c)
f

2
(c)
_
=
f

1
(c)
f

2
(c)
[r
f
2
(c) r
f
1
(c)]
per ogni conseguenza c.
Teorema 1.4.10 Lutilit`a u ammetta derivata terza continua e sia inoltre
u

0. Allora il decisore `e avverso al rischio in modo:


(i) non crescente se e solo se r
u
`e una funzione non crescente;
(ii) non decrescente se e solo se r
u
`e una funzione non decrescente;
(iii) costante se e solo se r
u
`e una funzione costante.
34 CAPITOLO 1. PREFERENZE E UTILIT
`
A
Inoltre, in caso di avversione al rischio in modo costante, u `e una trasformata
ane positiva della funzione u : c exp(r
u
c).
Dimostrazione Poich`e la proposizione (iii) segue immediatamente dalle
prime due e le dimostrazioni di queste ultime sono analoghe, ci limitiamo
a provare la proposizione (i).
Supposto intanto DM avverso al rischio in modo non crescente, consideria-
mo la funzione biunivoca
z
: C C + z tale che
z
(c) = c + z. Allora, data
una lotteria , si ha ( z)(C +z) = (C) = (
1
z
(C)) =
1
z
(C) per ogni
C (. Conseguentemente, z `e la probabilit` a immagine di mediante
e quindi, per il teorema della misura immagine A.4.1,
E
z
(f) =
_
C+z
f(c) ( z)(dc) =
_
C
f(c + z) (dc)
per ogni funzione f : C + z R che sia ( z)-integrabile. Riesce pertanto
R( z) = M( z) C( z) =
_
C
(c + z) (dc) u
1
_
_
C
u(c + z) (dc)
_
= z + M(L) u
1
_
_
C
u(c + z) (dc)
_
da cui, per il teorema di derivazione sotto il segno dintegrale A.3.13, risulta
d
dz
R( z) = 1
d
dz
_
C
u(c + z) (dc)
u

_
u
1
__
C
u(c + z) (dc)
_
_
= 1
_
C
u

(c + z) (dc)
u

_
u
1
__
C
u(c + z) (dc)
_
_
e quindi, tenuto conto della disuguaglianza
d
dz
R(z) 0 (la funzione R()
`e non crescente!),
1
_
C
u

(c + z) (dc)
u

_
u
1
__
C
u(c + z) (dc)
_
_ 0,
cio`e u

_
u
1
(
_
C
u(c + z) (dc))
_

_
C
u

(c + z) (dc). Ne segue, per la decre-


scenza di u

(u

`e negativa!),
u
1
_
_
C
u(c + z) (dc)
_
(u

)
1
_
_
C
u

(c + z) (dc)
_
. (1.11)
1.4. AVVERSIONE AL RISCHIO 35
Consideriamo ora le funzioni di dominio C:
f
1
: c u

(c + z), f
2
: c u(c + z).
Entrambe hanno derivata prima positiva e derivata seconda continua; inoltre,
come facilmente si verica
31
, da (1.11) risulta f
1
1
__
C
f
1
d
_
f
1
2
__
C
f
2
d
_
,
cio`e E

(f
1
) (f
1
f
1
2
)(E

(f
2
)). Conseguentemente, dallequivalenza delle
proposizioni (i), (iii) del Lemma 1.4.9 otteniamo

=
f

1
f

1
= r
f
1
r
f
2
=
f

2
f

2
=
u

.
Ne segue
(u

)
2
+ u

0,
cio`e (u

)
2
+ u

0 (essendo u

< 0). Riesce allora


(r
u
)

=
(u

)
2
u

(u

)
2
=
(u

)
2
+ u

(u

)
2
0
e quindi il coeciente di avversione al rischio `e non crescente.
Sia ora r
u
una funzione non crescente. Ripercorrendo a ritroso la di-
mostrazione precedente si ottiene che DM `e avverso al rischio in modo non
crescente. La dimostrazione di (i) `e cos` conclusa.
Passando allultima parte della tesi, supponiamo che il coeciente di
avversione al rischio sia costante, cio`e r
u
= per qualche numero reale > 0
(u

< 0 !). Allora, da (1.10) otteniamo, con facili passaggi, che esistono due
numeri reali, a > 0 e b, tali che u(c) = a [exp(kc)] + b per ogni importo
c. Conseguentemente, u `e una trasformata ane positiva della funzione u.
Nellesempio seguente presentiamo alcune utilit` a cardinali (usualmente
adoperate nelle applicazioni economiche) individuandone i relativi coecienti
di avversione al rischio.
31
Osservando che, qualunque sia lapplicazione invertibile f : C R, si ha f( + z) =
f
z
e quindi f
1
( + z) = (f
z
)
1
=
1
z
f
1
= f
1
z; inoltre, che risulta
(f)
1
(t) = f
1
(t) per ogni numero reale t.
36 CAPITOLO 1. PREFERENZE E UTILIT
`
A
Esempio 1.4.11 (Festival delle utilit`a della moneta) (i) Utilit` a logaritmica. Si
pone C =]0, +[ e u : c ln c.
32
Poich`e r
u
(c) =
1
c
, tale utilit` a descrive unavversione al
rischio in modo non crescente.
(ii) Utilit` a esponenziale.
`
E unutilit` a del tipo u : c exp(c) ( > 0).
Essendo il relativo coeciente di avversione al rischio la costante di valore , tale utilit` a
descrive unavversione al rischio in modo costante.
33
(iii) Utilit` a quadratica.
`
E unutilit` a del tipo u : c ac
b
2
c
2
(a, b > 0) di
dominio C =] ,
a
b
] (intervallo di crescenza di u). Poich`e r
u
(c) =
b
abc
, tale utilit` a
descrive unavversione al rischio in modo non decrescente
34
. Inoltre, lutilit` a attesa di una
lotteria dipende solamente dallimporto medio e dalla varianza della lotteria; riesce infatti
E

(u) = aM()
b
2
_
M()
2
+ Var()

.
(iv) Utilit` a potenza (in senso esteso).
`
E unutilit` a del tipo
u : c
1
b 1
(a +bc)
b1
b
(a ,= 0, b ,= 1, b > 0)
di dominio ]
a
b
, +[ (intervallo di crescenza di u). Poich`e r
u
(c) = (a+bc)
1
, tale utilit` a
descrive unavversione al rischio in modo non crescente.
Considerati inne due dierenti decisori (detti primo e secondo) e
indicate con _

1
e _

2
, rispettivamente, le loro relazioni di preferenza sulle
lotterie di , formalizziamo, con la prossima denizione, lidea che il primo
decisore `e avverso al rischio almeno quanto il secondo se questultimo `e dis-
posto a correre un dato rischio ogniqualvolta lo `e anche il primo.
32
Osservato che ad uguali incrementi di ricchezza non sempre corrisponde un uguale
incremento del grado di soddisfazione dellindividuo (si pensi, ad esempio, ad un eventuale
aumento di stipendio di un lavoratore dipendente: un incremento da 6.000 a 12.000 euro
netti allanno gli consente un miglioramento del tenore di vita nettamente superiore a
quello che otterrebbe con un incremento da 30.000 a 36.000 euro), Daniel Bernoulli propose
nel 1730 (basandosi su un celeberrimo esempio, noto come Paradosso di San Pietroburgo)
di valutare limporto connesso ad una scommessa e/o operazione aleatoria non in termini
di speranza matematica dei relativi possibili risultati, bens` in termini del valore atteso
(che chiam`o speranza morale) dei loro logaritmi naturali. Lutilit` a logaritmica pu` o quindi
ritenersi il primo esempio di utilit` a cardinale apparso nellevoluzione storica della teoria
delle decisioni.
33
Che giustica, assieme alle sue propriet`a analitiche (facilit` a nei calcoli), il suo largo
uso nelle applicazioni.
34
Che `e uno degli inconvenienti pi` u gravi nelluso dellutilit` a quadratica per descrivere
le scelte del consumatore. Daltra parte, per le ipotesi analitiche assunte per le funzioni
dutilit` a, la possiamo utilmente impiegare per approssimare localmente nellorigine una
qualsiasi utilit` a u tale che u(0) = 0 e u

(0) < 0; infatti, per il teorema di Taylor, il


polinomio di secondo grado u

(0) c +
1
2
u

(0) c
2
approssima la funzione u in un intorno
dellorigine a meno dinnitesimi di ordine superiore al secondo rispetto allidentit` a.
1.4. AVVERSIONE AL RISCHIO 37
Denizione 1.4.12 Il primo decisore `e avverso al rischio almeno quanto
il secondo se: _

1
1
c
_

2
1
c
per ogni lotteria e ogni conseguenza c
35
.
Supposto che i decisori adottino lo schema dellutilit`a attesa (cio`e, es-
primano le loro preferenze sulle lotterie in termini di utilit`a attesa), indichia-
mo con u
1
,u
2
le rispettive utilit` a e assumiamo che abbiano derivata prima
positiva e seconda continua. Il risultato seguente fornisce alcune caratte-
rizzazioni, della nozione appena introdotta, in termini del costo del rischio
e del coeciente di avversione al rischio; inoltre, mette in evidenza che se il
primo decisore `e avverso al rischio almeno quanto il secondo, allora lutilit` a
del primo `e una trasformata continua, crescente e concava di quella del se-
condo. Precisiamo che R
i
, r
i
sono, rispettivamente, il costo del rischio e il
coeciente di avversione al rischio delli-simo decisore (i = 1, 2).
Teorema 1.4.13 Le seguenti proposizioni sono equivalenti:
(i) Il primo decisore `e avverso al rischio almeno quanto il secondo;
(ii) C
1
() C
2
() per ogni lotteria ;
(iii) R
1
() R
2
() per ogni lotteria ;
(iv) u
1
= u
2
, con = u
1
u
1
2
funzione continua, crescente e concava;
(v) r
1
r
2
.
Dimostrazione Le proposizioni (ii), (iii) sono banalmente equivalenti. Inol-
tre, notato che `e una funzione continua e crescente (Lemma 1.4.9), le equi-
valenze (ii) (iv), (iv) (v) sono equivalenti rispettivamente alle
(ii) concava, (v) concava

. Conseguentemente, la prima
si ottiene dallequivalenza delle proposizioni (i), (ii) del Lemma 1.4.9, una
volta osservato che, per la crescenza di u
1
, si ha
C
1
() C
2
() u
1
1
_
E

(u
1
)
_
u
1
2
_
E

(u
2
)
_
E

(u
1
)
_
E

(u
2
)
_
qualunque sia la lotteria ; la seconda invece dallequivalenza delle propo-
sizioni (ii), (iii) sempre del Lemma 1.4.9.
35
Oppure (la preferenza _

`e completa !), se: 1


c
~

2
1
c
~

1
per ogni lotteria e ogni
conseguenza c. Conseguentemente, il primo decisore `e avverso al rischio almeno quanto
il secondo se non `e disposto a correre un dato rischio ogniqualvolta non lo `e neanche il
secondo.
38 CAPITOLO 1. PREFERENZE E UTILIT
`
A
Verichiamo inne lequivalenza (i) (ii). Assumiamo intanto (i).
Esista (per assurdo) una lotteria tale che c

= C
1
() > C
2
() = c

. Scelto
allora c ]c

, c

[ si ha 1
c
~

1
1
c
e 1
c
~

2
1
c
da cui otteniamo ~

1
1
c
e 1
c
~

2
.
Poich`e il primo decisore `e avverso al rischio almeno quanto il secondo, dalla
~

1
1
c
, risulta _

2
1
c
e quindi ~

2
(Contraddizione!). Assumiamo
ora (ii). Esistano (per assurdo) una lotteria e una conseguenza c tali che
_

1
1
c
e ,_

2
1
c
. Allora, posto c

= C
1
(), c

= C
2
() e tenuto conto della
completezza di _

2
, si ha 1
c
_

1
1
c
e 1
c
~

2
1
c
; ne segue u
1
(c

) u
1
(c),
u
2
(c) > u
2
(c

) e quindi C
1
() = c

c > c

= C
2
() (Contraddizione!).
Concludiamo il capitolo illustrando come le nozioni ed i risultati ottenuti
in questa sezione possano essere usati per analizzare uno dei mercati pi` u
importanti nei quali lincertezza gioca un ruolo sostanziale: il mercato as-
sicurativo. Nel prossimo esempio - considerato un consumatore che intende
assicurarsi contro un danno aleatorio e una compagnia di assicurazione che
ore un contratto assicurativo a copertura del danno - perveniamo (sotto
opportune ipotesi semplicatrici) alla seguente fondamentale propriet` a: il
contratto assicurativo non `e svantaggioso per entrambi i soggetti, anche se
prevede un caricamento del premio equo (a favore della compagnia), qualora
il caricamento risulti contenuto (a favore del consumatore) entro una soglia
opportuna.
Esempio 1.4.14 (Domanda di assicurazione) Consideriamo due soggetti economici
(assicurato e Assicuratore) che intendono concludere un contratto assicurativo che
preveda la copertura di un danno aleatorio X ]0, ] incombente sullassicurato a fronte
del pagamento allAssicuratore di un premio p > 0. In una situazione di questo genere,
`e del tutto naturale ritenere che entrambi i soggetti concordino sulla legge (probabili-
stica) del danno aleatorio, che siano avversi al rischio e che lassicurato sia pi` u avverso al
rischio dellAssicuratore. Conseguentemente, supposto che entrambi adottino lo schema
dellutilit` a attesa e usino utilit` a aventi derivata prima positiva e seconda continua, per
le utilit` a u
a
dellassicurato e u
A
dellassicuratore assumiamo u

a
< 0, u

A
< 0 e r
u
a

r
u
A
, r
u
a
,= r
u
A
; inoltre, tenuto presente che le utilit` a cardinali sono denite a meno di
trasformazioni ani positive, possiamo supporre (senza perdere in generalit` a) u
a
(0) =
u
A
(0) = 0 e u

a
(0) = u

A
(0) = 1. Indicata inne con P la probabilit` a sui boreliani della
retta reale che rappresenta la comune legge del danno aleatorio X, il contratto sar` a non
svantaggioso per:
lassicurato se u
a
(p)
_
R
u
a
(x) P(dx). Infatti, indicata con P

la legge della v.a.


X, lassicurato riterr` a pagare il premio una circostanza non peggiore di quella che preveda
la perdita aleatoria X se (nel suo sistema di preferenze) la lotteria certa 1
p
fosse non
peggiore della lotteria P

, cio`e se u
a
(p) = E
1
p
(u
a
) E
P
(u
a
) =
_
R
u
a
(x) P(dx) (ove
lultima uguaglianza si ottiene dalla proposizione (ii) del teorema fondamentale del calcolo
1.4. AVVERSIONE AL RISCHIO 39
delle probabilit` a B.1.2 considerando la funzione : x x);
lAssicuratore se
_
R
u
A
(p x) P(dx) 0. Infatti, indicata con P

la legge della v.a.


pX, lAssicuratore riterr`a subire la perdita aleatoria pX una circostanza non peggiore di
quella che preveda di non stipulare il contratto se (nel suo sistema di preferenze) la lotteria
P

fosse non peggiore della lotteria certa 1


0
, cio`e se
_
R
u
A
(p x) P(dx) = E
P
(u
A
)
u
A
(0) = 0 (ove la prima uguaglianza si ottiene sempre dalla proposizione (ii) del teorema
fondamentale del calcolo delle probabilit` a considerando la funzione : x p x).
Il contratto sar`a dunque non svantaggioso per entrambi i soggetti se il premio p `e
soluzione del sistema:
_

_
u
a
(p)
_
R
u
a
(x) P(dx)
_
R
u
A
(p x) P(dx) 0
.
Supposto che il massimo danno possibile sia piccolo, possiamo sostituire (con buona
approssimazione) le utilit`a u
a
, u
A
con le loro approssimazioni quadratiche nellorigine:
u
a
(x) = x +
u

a
(0)
2
x
2
, u
A
(x) = x +
u

A
(0)
2
x
2
.
Posto
a
=
1
u

a
(0)
,
A
=
1
u

A
(0)
e tenuto conto dellespressione del coeciente di avver-
sione al rischio nel caso dellutilit` a quadratica, il sistema precedente si trasforma nel si-
stema di disequazioni di secondo grado:
_
p
2
+ 2
a
p 2
a
E(X) + E(X
2
)
p
2
2
_

A
+ E(X)

p +
_
2
A
E(X) + E(X
2
)

0
,
ove
a
<
A
e E(X), E(X
2
) sono i primi due momenti dellimporto aleatorio X. Risol-
vendo le due disequazioni, `e facile constatare che il massimo valore di p che verica la
prima `e dato dallimporto:
p

=
a
+
_

2
a
+ 2
a
E(X) + E(X
2
)
=
a
+
_
_

2
a
+ 2
a
E(X) + E(X)
2

+[E(X
2
) E(X)
2
]
=
a
+
_
_

a
+ E(X)

2
+Var(X)
e il minimo valore di p che verica la seconda `e dato dallimporto:
p

=
A
+ E(X)
_
_

A
+ E(X)

_
2
A
E(X) + E(X
2
)

=
A
+ E(X)
_

2
A
+ E(X)
2
E(X
2
) =
A
+ E(X)
_

2
A
Var(X).
Ricordata, a questo punto, lapprossimazione

a
2
+x a +
1
2a
x(a > 0; x piccolo),
supponiamo che il danno aleatorio sia poco disperso. Possiamo allora approssimare la
40 CAPITOLO 1. PREFERENZE E UTILIT
`
A
radice:
-
_
_

a
+ E(X)

2
+Var(X) con limporto
a
+ E(X) +
Var(X)
2 [
a
+E(X) ]
;
-
_

2
A
Var(X) con limporto
A
+
Var(X)
2
A
e quindi ottenere le seguenti approssimazioni, rispettivamente, di p

e p

:
p

= E(X) +
Var(X)
2
_

a
+ E(X)
, p

= E(X) +
Var(X)
2
A
.
Supposto inne
a
+E(X) <
A
(ricordiamo che la disuguaglianza
a
<
A
gi`a sussiste),
possiamo concludere (con le cautele dovute alle approssimazioni eettuate) che si possono
trovare contratti che prevedano un caricamento del premio equo E(X) non svantaggiosi
per entrambi i soggetti, qualora il caricamento risulti contenuto, sia cio`e compreso tra le
soglie
Var(X)
2
A
e
Var(X)
2 [
a
+E(X) ]
.
Capitolo 2
Decisioni statistiche
Adottando lo schema dellutilit` a attesa, assumiamo che DM esprima le pro-
prie preferenze sulle lotterie della famiglia in termini di utilit` a attesa,
tramite unutilit` a cardinale u, e che presenti la massima estensione possi-
bile per tale rappresentazione numerica (cio`e, coincida con la famiglia delle
lotterie per le quali esista (nito o no) il valore atteso E

(u))
1
.
Supponiamo inoltre che la scelta di una qualsiasi decisione d comporti, per
DM, una conseguenza dipendente (oltre che da d) da un ulteriore elemento, lo
stato di natura Z, di specicazione non nota a DM e da lui ritenuta dovu-
ta solo al caso
2
. Indicati con lo spazio parametrico (cio`e linsieme
delle determinazioni possibili di Z) e, qualunque siano d D e , con
(, d) la corrispondente conseguenza, possiamo introdurre la funzione di
danno L : (, d) u((, d)) che consente a DM di valutare la disutilit` a
L
d
() = L(, d) della scelta della decisione d
3
.
1
Conseguentemente, per il Teorema 1.3.1(i), la relazione di preferenza _

, considerata
solamente sulla famiglia

delle lotterie aventi utilit` a attesa nita, `e un preordinamento


che verica la propriet` a archimedea e quelle di completezza, coerenza, dominanza e in-
dipendenza.
2
Lo stato di natura rappresenta quindi un qualsiasi parametro, rilevante per le scelte
del decisore, che per DM riesca ben denito e - nello stato di informazione relativo al
momento di eettuare la scelta - di determinazione sconosciuta e non inuenzata n`e dal suo
comportamento, n`e da quello di altri individui che intendessero favorirlo o danneggiarlo.
Osserviamo anche che lassunzione di ununica fonte dincertezza per le conseguenze non
`e, in eetti, una condizione restrittiva. Infatti, qualora lincertezza della conseguenza con-
nessa alla decisione d fosse dovuta ad uno stato di natura Z
d
(dipendente da d), basterebbe,
per ricondursi ad ununica fonte dincertezza, considerare come stato di natura di riferi-
mento la famiglia Z = (Z
d
)
dD
.
3
I problemi decisionali che compaiono nelle applicazioni (come, ad esempio, lallocazione
41
42 CAPITOLO 2. DECISIONI STATISTICHE
Assumiamo altres` che a questo contesto decisionale ne sia aancato uno
inferenziale, consentendo cos` a DM di acquisire ulteriori informazioni sullo
stato di natura ricorrendo ad un opportuno esperimento statistico. Precisa-
mente, considerati un fenomeno (per DM) aleatorio X e una -algebra sul
relativo spazio campionario X (cio`e, sullinsieme delle realizzazioni possi-
bili di X)
4
, supponiamo che DM sia in grado di osservare la realizzazione di X
e la ritenga generata in accordo con una legge probabilistica P
Z
su dipen-
dente dalla determinazione vera di Z. Poich`e questa determinazione gli
`e sconosciuta, DM sar` a portato a considerare la legge P
Z
in corrispondenza
ad ogni possibile specicazione dello stato di natura, pervenendo cos` ad una
famiglia (P

di probabilit` a su , parametrizzata sullo spazio parametrico.


Per quanto riguarda le propriet` a da richiedere alle leggi di tale famiglia, ipo-
tizziamo, per semplicit`a, che ogni suo elemento P

ammetta una funzione di


densit`a f

rispetto ad una pressata misura (-nita) di riferimento su


5
.
Precisiamo che chiameremo probabilit`a di campionamento le probabilit` a
P

e densit`a di campionamento le densit`a f

; inoltre, che denoteremo con


la lettera (dotata o no di apici o pedici):
- gli stati, cio`e gli elementi dello spazio parametrico ;
- x i campioni, cio`e gli elementi dello spazio campionario X.
Tenendo presente che le utilit`a cardinali adoperate nelle applicazioni stati-
stiche sono usualmente superiormente limitate (e quindi sostituibili, per il
Teorema 1.3.3, con utilit` a cardinali a valori non positivi), assumiamo inne
L 0. Si ha allora, per il Teorema A.3.5(i), che coincide con la famiglia
di tutte le probabilit` a sulla -algebra di riferimento (.
In particolare, a scopo esemplicativo, faremo quasi sempre riferimento a
funzioni di danno standard; precisamente, nellambito dei problemi di:
- stima puntuale per parametri reali ( D R), alla funzione di danno
di un nuovo aereoporto) sono generalmente talmente complessi che una loro formaliz-
zazione (nel senso qui inteso) non risulta sempre agevole. In anni recenti sono state
sviluppate varie tecniche di analisi delle decisioni che forniscono al decisore un supporto
per individuare, in specici problemi, tutte le componenti rilevanti dello stato di natura
Z (e quindi la struttura dello spazio parametrico ), linsieme delle decisioni D e, in
particolar modo, la forma funzionale della funzione di danno L.
4
Da un punto di vista interpretativo, raccoglie tutti i sottoinsiemi A di X per i quali
levento X A `e di interesse per DM.
5
Pertanto, la probabilit` a Pr

(X A) che il fenomeno aleatorio X assuma un valore


appartenente allinsieme A , in corrispondenza alla determinazione dello stato di
natura, `e data dallintegrale P

(A) =
_
A
f

d.
2.1. REGOLE DI DECISIONE 43
quadratico: L(, d) = ( d)
2
, a quella di danno lineare:
L(, d) =
_
k( d) se > d
(1 k)(d ) se d
(0 k 1)
oppure a quella di danno assoluto: L(, d) = [ d[;
6
- stima intervallare ( R, D famiglia di intervalli limitati di ), alla
funzione di danno lineare: L(, d) = k lg(d) + 1 I
d
() (k > 0), ove lg(d)
`e la lunghezza dellintervallo d;
- verica dipotesi (
0
,
1
partizione di formata da insiemi non vuoti e
D = d
0
, d
1
), a funzioni di danno del tipo:
L
i
() = L(, d
i
) =
_
0 se
i
k
i
() se
j
(j ,= i)
(2.1)
con k
i
funzione a valori positivi denita su
j
(j ,= i; i = 1, 2)
7
.
2.1 Regole di decisione
Dopo aver descritto il contesto decisionale-induttivo nel quale DM `e chiamato
a fare le sue scelte, precisiamo ulteriormente il modello di comportamento del
decisore assumendo che DM scelga la decisione da adottare unicamente sulla
base dei possibili risultati sperimentali. Conseguentemente, non essendo a lui
6
Il danno quadratico, introdotto da Adrien M. Legendre (1805) e Karl F. Gauss (1810)
nellambito della valutazione degli errori di misura, `e senza alcun dubbio la funzione di
danno pi` u popolare a causa sia della sua stretta connessione con il classico metodo dei
minimi quadrati che della sua forma che consente sviluppi formali relativamente semplici.
Il danno assoluto `e stato invece introdotto da Pierre S. de Laplace nel 1773 in connessione
con il problema della stima delle orbite dei pianeti e delle comete.
Ricordiamo che una delle principali critiche rivolte alluso di questi due danni (oltre
a quella di pesare allo stesso modo gli errori per difetto e quelli per eccesso) `e che,
in quello quadratico, vengono penalizzate pesantemente le grandi deviazioni dal valore
vero dello stato di natura, mentre, in quello assoluto, le piccole.
7
Poich`e la decisione d
i
determina un danno nullo se e solo se
i
(i = 1, 2),
possiamo interpretare d
0
come laccettazione dellipotesi nulla H
0
: Z
0
e d
1
come
laccettazione dellipotesi alternativa H
1
: Z
1
. In questo ordine di idee, k
0
pu` o
intendersi come il danno relativo ad un errore di I tipo (accettare lipotesi alternativa
mentre `e vera quella nulla) e k
1
come il danno relativo ad un errore di II tipo (accettare
lipotesi nulla mentre `e vera quella alternativa).
44 CAPITOLO 2. DECISIONI STATISTICHE
noto a priori quale campione verr` a osservato, DM sar` a portato a spostare la
sua attenzione dalla scelta di una decisione a quella di un comportamento
che precisi la decisione da adottare in corrispondenza ad ogni possibile cam-
pione.
`
E quindi di fondamentale importanza per DM (al ne di risolvere
in qualche modo il problema decisionale) riuscire ad elicere una relazione di
preferenza che gli consenta di confrontare tra loro i vari comportamenti.
Interpretati, dal punto di vista matematico, tali comportamenti come
applicazioni di dominio lo spazio campionario e a valori nellinsieme delle
decisioni, supponiamo che DM assuma (in via ipotetica) che sia lo stato
vero. Allora, per individuare le conseguenze a cui andrebbe incontro perse-
guendo il comportamento : X D, DM considerer`a la conseguenza
aleatoria (, ) : x (, (x)). Supposto che tale conseguenza aleatoria sia
(, ()-misurabile, rimane individuata una particolare lotteria; precisamente
la legge
()

di (, ):

()

(C) = P

((, ) C)
per ogni C (. Poich`e a DM interessa, in ultima analisi, la conseguen-
za che subir`a a causa del suo comportamento piuttosto che il particolare
meccanismo aleatorio che la genera, viene naturale ritenere che consideri del
tutto equivalenti due comportamenti
1
e
2
che abbiano la medesima legge
(cio`e tali che
(
1
)

=
(
2
)

). Ne viene che DM sar`a indotto ad esprimere le sue


preferenze sui comportamenti mediante la relazione di preferenza _

gi`a
considerata per le lotterie. Indicata allora con _

la relazione di preferenza
sui comportamenti relativa allo stato , si avr`a

1
_


2
E

(
1
)

(u) E

(
2
)

(u)
_
C
ud
(
1
)


_
C
ud
(
2
)

_
X
u((,
1
)) dP


_
X
u((,
2
)) dP

,
ove lultima equivalenza sussiste in forza della proposizione (i) del teorema
fondamentale del calcolo delle probabilit` a B.1.2. Risulter` a pertanto

1
_


2

_
X
L(,
1
(x)) P

(dx)
_
X
L(,
2
(x)) P

(dx).
Ora, essendo in realt` a ignoto a DM lo stato vero, egli sar` a portato a consi-
derare, per ogni stato, la relativa relazione di preferenza e quindi, in deni-
tiva, ad associare, per quanto visto, ad ogni comportamento il numero
aleatorio R

(Z) =
_
X
L(Z, (x)) P
Z
(dx).
2.1. REGOLE DI DECISIONE 45
Le considerazioni svolte suggeriscono e giusticano la denizione seguente
che introduce le nozioni chiave di regola di decisione e di funzione di rischio
(dovute ad Abraham Wald che le consider`o in un lavoro del 1939
8
).
Denizione 2.1.1 Una regola di decisione `e una qualsiasi applicazione
: X Dche assicuri, per ogni stato , lesistenza e la nitezza dellintegrale
E

_
L(, )
_
=
_
X
L(, (x)) P

(dx)
9
. Inoltre, la funzione di rischio della
regola di decisione `e la funzione R

: E

_
L(, )
_
10
. Inne, denota
linsieme delle regole di decisione e (dotata o no di apici o pedici) un suo
elemento generico.
Ovviamente, tra le regole di decisione ci sono anche le applicazioni costanti
di X in D. Osservato che la funzione di rischio della costante di valore d `e
la funzione L
d
(detta funzione di danno relativa a d), le applicazioni
costanti possono essere intese come quelle particolari regole di decisione atte
a rappresentare i comportamenti di un decisore che, non intendendo o non
potendo usufruire dellinformazione campionaria, eettui la sua scelta sola-
mente riferendosi alle funzioni di danno relative alle decisioni. Ne viene che
lanalisi delle scelte individuali in condizioni dincertezza senza acquisione di
dati (obiettivo specico della teoria delle decisioni) pu`o essere condotta, nello
schema decisionale-inferenziale qui considerato, supponendo che lo spazio
campionario abbia un solo elemento (e quindi identicando le regole di de-
cisione con le decisioni e le funzioni di rischio con quelle di danno relativo a
decisioni).
Prima di mostrare che nelle usuali modellizzazioni statistiche si possono
trovare funzioni di rischio sia continue che discontinue che costanti, determi-
niamo le espressioni che la funzione di rischio assume nei problemi di stima
8
Cogliamo loccasione per ricordare che, nel medesimo lavoro, Wald introdusse anche
le nozioni di regola di decisione ammissibile, bayesiana e minimax che, come vedremo, for-
mano limpalcatura concettuale della teoria delle decisioni statistiche. Osserviamo inoltre
che tale teoria costituisce il riferimento di fondo di una parte rilevante della statistica (sia
teorica che applicata).
9
Quindi, nel caso particolare che X sia discreto, ogni applicazione di X in D `e una
funzione di decisione (in quanto, in questo caso, viene identicata con linsieme delle
parti).
10
Che associa, ad ogni stato , il danno medio (nito) a cui va incontro DM adottando
il comportamento , qualora sia lo stato vero. Osserviamo che limitarsi a conside-
rare solamente comportamenti che implicano un danno medio nito (in ogni stato),
se da una parte esclude la possibilit` a di sviluppare la teoria delle decisioni statistiche in
tutta generalit` a, dallaltra consente comunque di ottenere i principali risultati che vengono
adoperati nelle sue usuali applicazioni a contesti reali.
46 CAPITOLO 2. DECISIONI STATISTICHE
puntuale con danno quadratico, in quelli di stima intervallare con danno
lineare e in quelli di verica dipotesi con danno (2.1).
Osservazione 2.1.2 (i) Con riferimento alla stima puntuale per parametri
reali, consideriamo il danno quadratico e chiamiamo errore quadratico
medio di uno stimatore (regola di decisione) la sua funzione di rischio che,
prendendo spunto dalla corrispondente frase inglese Mean Squared Error,
denotiamo con il simbolo MSE

. Riesce pertanto
MSE

() = E

_
( )
2
_
=
_
X
[ (x))
2
P

(dx)
per ogni stato . Tenuto conto che, per denizione, la funzione ()
`e a quadrato P

-integrabile, possiamo concludere che `e pure P

-integrabile
(Teorema A.3.5(v)). Conseguentemente, E

() = E

( ) R e quindi
la speranza matematica E

() `e nita. Riesce allora


MSE

() = E

_
[( E

()) + (E

() )]
2
_
= E

_
( E

())
2
_
+E

_
(E

() )
2
_
+ 2E

_
( E

())(E

() ) )
= Var

() + (E

() )
2
+ 2
_
E

() E

())(E

() ) )
e quindi
MSE

() = Var

() + Bias

()
2
, (2.2)
avendo posto Bias

() = E

() . Nello stato , lerrore quadratico medio


incorpora quindi due componenti: una - Var

() - che misura la variabilit` a


(precisione) dello stimatore e laltra - Bias

() - che ne misura la distorsione


(accuratezza).
(ii) Con riferimento alla stima intervallare, chiamiamo stimatore inter-
vallare ogni regola di decisione tale che la lunghezza aleatoria lg() sia una
funzione -Borel misurabile e linsieme di copertura di appartenga a
per ogni stato . Considerato ora il danno lineare, per la relativa funzione di
rischio, otteniamo R

() = E

(k lg()+1I

()) = kE

(lg())+1E

(I

())
e quindi
R

() = kE

(lg()) + 1 P

( ). (2.3)
2.1. REGOLE DI DECISIONE 47
Nello stato , la funzione di rischio incorpora dunque due componenti: una
- E

(lg()) - che contempla la lunghezza media dellintervallo aleatorio (X)


e laltra - P

( ) - che considera la probabilit`a di copertura di , cio`e


la probabilit` a che lintervallo aleatorio contenga .
(iii) Con riferimento alla verica dipotesi, chiamiamo test ogni regola
di decisione tale che la regione di accettazione X
()
0
= = d
0
di e
la regione di riuto X
()
1
= = d
1
di appartengano a . Inoltre, per
funzione di potenza del test intendiamo la funzione

: P

(X
()
1
)
che associa, ad ogni stato, la probabilit` a relativa a quello stato che il test
riuti lipotesi nulla. Considerato ora il danno (2.1), per la relativa funzione
di rischio, otteniamo
R

() =
_
X
()
0
L(, ) dP

+
_
X
()
1
L(, ) dP

=
_
X
()
0
L
0
() dP

+
_
X
()
1
L
1
() dP

= L
0
() P

(X
()
0
) + L
1
() P

(X
()
1
)
= L
0
() [1 P

(X
()
1
)] + L
1
() P

(X
()
1
) = L
0
() +

()[L
1
() L
0
()]
e quindi
R

() =
_
k
1
()

() se
0
k
0
()(1

()) se
1
. (2.4)
Nello stato , la funzione di rischio dipende quindi solamente dalla probabilit` a

() che il test riuti lipotesi nulla.


Esempio 2.1.3 (i) Funzione di rischio costante Posto = R e D linsieme degli
intervalli limitati, sia losservabile una v.a. distribuita secondo la normale N(,
2
) in
corrispondenza ad ogni stato . Inoltre, per ogni numero reale c 0, consideriamo lo
stimatore intervallare
c
: x [x c, x + c]. Allora, E

(lg()) = 2c. Osservato che


I
{(x)}
(x) = I
[c,c]
_
x

_
per ogni x, e tenuto conto del Corollario A.4.2, si ha anche
P

( ) = E

_
I
[c,c]
_

__
=
1

2
2
_
+

I
[c,c]
_
x

_
exp
_

(x )
2
2
2
_
dx
=
1

2
2

_
+

I
[c,c]
(x) exp
_

x
2
2
_
dx =
1

2
_
c
c
exp
_

x
2
2
_
dx
=
1

2
_
_
0
c
exp
_

x
2
2
_
dx +
_
c
0
exp
_

x
2
2
_
dx
_
=
2

2
_
c
0
exp
_

x
2
2
_
dx.
48 CAPITOLO 2. DECISIONI STATISTICHE
Adottando il danno lineare riesce allora R

c
() = 2kc +1
2

2
_
c
0
exp
_

x
2
2
_
dx e quindi
la costanza della funzione di rischio.
(ii) Funzione di rischio continua Posto = D = R, sia losservabile costituito
dalle v.a. X
1
, . . . , X
n
indipendenti e distribuite secondo la normale N(,
2
) in corrispon-
denza ad ogni stato . Allora, per (B.10) dellEsempio B.2.18(ii), le densit` a di campiona-
mento assumono la seguente espressione:
f

(x) = (2
2
)

n
2
exp
_

n
i=1
(x
i
x)
2
2
2
_
exp
_

n( x )
2
2
2
_
(2.5)
per ogni x X = R
n
.
11
Al ne di vericare la continuit` a dellerrore quadratico medio di un qualsiasi stimatore
, sia

uno stato generico. Allora, qualunque sia lo stato , si ha

_
( )
2
_
E

_
(

)
2
_

_
( )
2
(

)
2
_

([ ( )
2
(

)
2
[ )
e quindi (ponendo dx = dx
1
dx
n
)

MSE

() MSE

_
E

_
( )
2
_
E

_
( )
2
_
+
_
E

_
( )
2
_
E

_
(

)
2
_

_
( )
2
_
E

_
( )
2
_

_
( )
2
_
E

_
(

)
2
_

_
( )
2
_
E

_
( )
2
_

+E

([ ( )
2
(

)
2
[ )
=

_
R
n
( (x))
2
(f

(x) f

(x)) dx

+
_
R
n
[ ( (x))
2
(

(x))
2
[ f

(x) dx

_
R
n
( (x))
2
[f

(x) f

(x)[ dx
+
_
R
n
[ ( (x))
2
(

(x))
2
[ f

(x) dx.
Posto allora:
I() =
_
R
n
( (x))
2
[f

(x) f

(x)[ dx
J() =
_
R
n
[ ( (x))
2
(

(x))
2
[ f

(x) dx
otteniamo

MSE

() MSE

I() +J(). (2.6)


Inoltre, dalla
( )
2
= [(

) + (

)]
2
= (

)
2
+ (

)
2
+ 2(

)(

)
(

)
2
+ (

)
2
+ [(

)
2
+ (

)
2
]
11
Avendo posto, come usuale nella letteratura statistica, x =
1
n
(x
1
+ +x
n
).
2.1. REGOLE DI DECISIONE 49
si ha
( )
2
2[(

)
2
+ (

)
2
]. (2.7)
Sia ora > 0. Considerata una successione (
k
)
k1
nellintervallo aperto ]

,

+ [
convergente a

, da (2.7) otteniamo
[ (
k
)
2
(

)
2
[ (
k
)
2
+ (

)
2
2
_
(
k


)
2
+ (

)
2

+(

)
2
= 3(

)
2
+ 2(
k


)
2
3(

)
2
+ 2
2
e quindi le funzioni della successione ([ (
k
)
2
(

)
2
[ f

)
k1
sono tutte maggiorate
dalla funzione integrabile (3(

)
2
+ 2
2
) f

. Per il teorema della convergenza dominata


A.3.11 si ha allora
lim
k+
J(
k
) =
_
R
n
lim
k+
[ (
k
(x))
2
(

(x))
2
[ f

(x) dx = 0. (2.8)
Per quanto riguarda invece la funzione che compare nellintegrale I(), riesce, sempre per
(2.7), (
k
)
2
[ f

k
f

[ 2[(
k


)
2
+ (

)
2
] [f

k
+f

] e quindi
(
k
)
2
[ f

k
f

[ 2[(

)
2
+
2
] (f

k
+f

). (2.9)
Ora, qualunque sia il campione x, da (2.5) otteniamo
f

k
(x) = (2
2
)

n
2
exp
_

n
i=1
(x
i
x)
2
+n x
2
2
2
_
exp
_

n
2
k
2
2
_
exp
_

n x
k

2
_
(2
2
)

n
2
exp
_

n
i=1
(x
i
x)
2
+n x
2
2
2
_
K exp
_

n x( x)

2
_
,
avendo posto:
K = sup
]

+[
exp
_

n
2
2
2
_
, ( x) =
_

se x 0

+ se x < 0
.
Osservato che la funzione
g : x (2
2
)

n
2
exp
_

n
i=1
(x
i
x)
2
+n x
2
2
2
_
K exp
_

n x( x)

2
_
`e integrabile, lo `e pure la funzione 2[(

)
2
+
2
] (g + f

). Le funzioni della successione


((
k
)
2
[ f

k
f

[)
k1
sono quindi, per (2.9), tutte maggiorate da una medesima funzione
integrabile. Dal teorema della convergenza dominata si ha allora
lim
k+
I(
k
) =
_
R
n
lim
k+
(
k
(x))
2
[ f

k
(x) f

(x) [ dx
=
_
R
n
(

(x))
2
lim
k+
[ f

k
(x) f

(x) [ dx = 0,
50 CAPITOLO 2. DECISIONI STATISTICHE
tenuto conto di (2.5). Pertanto, tramite (2.6) e (2.8), risulta lim
k+
MSE

(
k
) = MSE

).
Conseguentemente, data larbitrariet`a della successione (
k
)
k1
, lerrore quadratico medio
`e continuo in

.
(iii) Funzione di rischio discontinua Supposto che lo stato di natura sia un
parametro di posizione, poniamo = D = R e scegliamo la funzione di danno:
L(, d) =
_
[ d[ se [ d[ 1
1 se [ d[ > 1
.
Inoltre, consideriamo come osservabile una v.a. avente probabilit` a di campionamento P

tale che
P

( 1) = P

( + 1) =
1
2
per ogni stato . Allora, la funzione di rischio relativa alla regola di decisione:
(x) =
_
x + 1 se x < 0
x 1 se x 0
`e una funzione discontinua. Infatti, dalle R

() =
1
2
_
L(, ( 1)) + L(, ( + 1))

e
( 1) =
_
se < 1
2 se 1
, ( + 1) =
_
+ 2 se < 1
se 1
otteniamo
R

() =
_

_
1
2
[L(, ) + L(, + 2)] se < 1
1
2
[L(, ) + L(, )] se 1 < 1
1
2
[L(, 2) + L(, )] se 1
=
_
0 se 1 < 1
1
2
altrimenti
e quindi la discontinuit` a della funzione di rischio.
La possibilit` a di eettuare osservazioni per acquisire ulteriori informazioni
sullo stato di natura, induce DM a sostituire ex ante le decisioni con le
regole di decisione e quindi a risolvere il problema decisionale individuandone
una che ritenga in qualche senso appetibile. Ora, essendo DM un individuo
razionale, appare evidente che date e

, se riesce R

, allora sar`a
per DM non peggiore di

; se invece si ha R

< R

12
, allora sar`a per
DM migliore di

; se inne risulta R

= R

, allora le due regole saranno


per DM interscambiabili
13
. Queste considerazioni suggeriscono la seguente
12
Cio`e, R

e R

) < R

) per qualche stato



.
13
Pur essendo ovvio, vale la pena rilevare che, data la natura delle funzioni di rischio,
queste preferenze si basano sul confronto dei danni medi ottenuti considerando tutti i pos-
sibili campioni e non sul confronto dei danni medi relativi a qualche campione particolare
(come potrebbe essere, ad esempio, quello osservato).
2.1. REGOLE DI DECISIONE 51
denizione che introduce nellinsieme due preordinamenti (il secondo dei
quali `e un ordinamento stretto) e una equivalenza.
Denizione 2.1.4 Date due regole di decisione e

:
- domina

(in simboli _

) se R

;
- domina strettamente

(in simboli ~

) se R

< R

;
- `e equivalente a

(in simboli

) se R

= R

.
14
Diamo ora alcuni esempi di regole di decisione dominate.
Esempio 2.1.5 Posto = D = R, consideriamo come osservabile una v.a. distribuita
secondo la normale N(,
2
) in corrispondenza ad ogni stato .
(i) Scelto, per ogni numero reale c, lo stimatore lineare
c
: x cx, otteniamo E

(
c
) =
c e quindi Var

(
c
) = c
2

2
e Bias

(
c
) = E

(
c
) = (c 1) . Tramite (2.2) risulta
allora MSE

() = c
2

2
+ (c 1)
2

2
. Conseguentemente,
1
~
c
ogniqualvolta [c[ > 1
oppure c = 1. Infatti, nel primo caso, MSE

1
() =
2
< c
2

2
+ (c 1)
2

2
= MSE

c
()
per ogni stato ; nel secondo MSE

1
(0) =
2
= (1)
2

2
= MSE

1
(0) e MSE

1
() =
2
<

2
+(2)
2

2
= MSE

1
() per ogni stato ,= 0. Per quanto concerne invece gli altri valori
di c diversi dallunit` a,
1
e
c
non sono confrontabili. Infatti, dalla c
2

2
+(c 1)
2

2
>
2
discende
2
>

2
(c+1)
1c
e quindi, per ogni c ] 1, 1[, otteniamo MSE

1
(0) =
2
> c
2

2
=
MSE

c
(0) e, ad esempio, MSE

1
() < MSE

c
() per >
_
c+1
1c
.
(ii) Considerata la funzione di danno 0-1:
L(, d) =
_
0 se d
1 se > d
,
verichiamo che ogni stimatore `e dominato strettamente dallo stimatore incrementato

= + 1. Osservato che
R

() =
_
{<}
f

(x) dx = P

( < )
per ogni , otteniamo R

() = P

< ) = P

( < 1) P

( < 1) + P

( 1
< ) = P

( < ) = R

(). Basta allora provare che, per qualche stato



, si ha
P

1 <

) =
_
{

1<

}
f

(x) dx > 0.
A tal ne, tenuto conto che f

0 per ogni stato e del Teorema A.3.6(vi), proviamo


che (

1 <

) > 0. Considerata una numerazione q
1
, q
2
, . . . dei numeri razionali,
dalla densit` a dei razionali otteniamo R =

n1
q
n
1 < q
n
. Allora
+=
_
_
n1
q
n
1 < q
n

n1
(q
n
1 < q
n
)
14
Osserviamo che ~ e sono, rispettivamente, la parte asimmetrica e quella simmetrica
della relazione di dominanza.
52 CAPITOLO 2. DECISIONI STATISTICHE
e quindi esistono numeri razionali che rendono il rispettivo addendo positivo.
(iii) Con riferimento allEsempio 2.1.3(i), per il teorema di Torricelli, si ha
dR

c
()
dc
=
d
dc
_
2kc
2

2
_
c
0
exp
_

x
2
2
_
dx
_
= 2k
2

2
d
dc
_
c
0
exp
_

x
2
2
_
dx = 2k
2

2
exp
_

c
2
2
_
e quindi
dR

c
()
dc
= 0 c
2
= 2 ln
_
k

2
2
_
. Conseguentemente, se k >
1

2
2
, ogni
stimatore intervallare
c
`e dominato strettamente dagli stimatori intervallari
c
(c

< c);
se invece k
1

2
2
, allora c

=
_
2 ln
_
k

2
2
_
`e un punto di minimo e quindi
c
~
c
,
se c < c

< c

oppure c

< c

< c.
Concludiamo la sezione con un celebre teorema (provato indipendente-
mente da Radhakrishna C. Rao nel 1945 e da David Blackwell nel 1947) che
introduce un metodo per migliorare uno stimatore puntuale, basato sulluso
delle statistiche sucienti. Ricordato che per statistica si intende una qualsia-
si funzione misurabile dei campioni, ssiamo una -algebra T su un insieme
T ,= contenente i singoletti e consideriamo unapplicazione : X T che
sia (, T)-misurabile. Supponiamo inoltre che, con riferimento ad ogni proba-
bilit`a di campionamento P

, esista la legge condizionale (Q


()

(A[))
A
della
funzione identica di X rispetto . Allora, `e una statistica suciente
(per Z) se tale legge condizionale non dipende dallo stato , nel senso che
esiste una famiglia di probabilit` a (Q
()
([t))
tT
su che `e una versione della
legge condizionale (Q
()

(A[))
A
per ogni stato . Conseguentemente, data
una funzione f : X R che sia Q
()
([t)-sommabile per ogni t T e P

-
integrabile, dal Teorema B.2.12 otteniamo che lintegrale
_
X
f(x) Q
()
(dx[)
`e una versione della funzione di regressione E

(f[ = ) di f su (riferita
alla probabilit` a P

).
Teorema 2.1.6 (di Rao-Blackwell) Siano D un intervallo aperto (limi-
tato o no) della retta reale e L(, ) una funzione convessa per ogni stato .
Sia inoltre : X T una statistica suciente. Allora, dato uno stimatore
con speranza matematica E

() nita per ogni stato e Q


()
([t)-integrabile
per ogni t T, la funzione
()
cos` denita:

()
(x) =
_
X
(x

) Q
()
(dx

[(x))
per ogni campione x, `e uno stimatore che domina .
2.1. REGOLE DI DECISIONE 53
Dimostrazione Che
()
sia una funzione a valori nellintervallo D segue
dal Teorema B.1.5(vi). Inoltre, dato uno stato , per il Teorema B.2.9(i) e il
teorema fondamentale del calcolo delle probabilit` a, si ha
R

() =
_
T
E

(L(, )[ = t) (P

(dt) =
_
X
E

_
L(, )[ = (x)
_
P

(dx).
Ora, per il teorema di Jensen B.2.5 (ponendo g = L(, ) e X = ), 0
L
_
, E

()
_
E

_
L(, )
_
= R

() < +e L
_
, E

([)
_
E

(L(, )[) (P

-
q.c.). Osservato che le funzioni E

_
L(, )[ = ()
_
, E

_
[ = ()
_
sono,
rispettivamente, versioni di E

(L(, )[) e E

([), otteniamo E

_
L(, )[ =
()
_
L(, E

([ = ()) (P

-q.c.) e quindi
R

()
_
X
L
_
, E

([ = (x))
_
P

(dx) =
_
T
L
_
, E

([ = t)
_
(P

(dt)
=
_
T
L
_
,
_
X
(x

) Q
()
(dx

[t)
_
(P

(dt)
=
_
X
L
_
,
_
X
(x

) Q
()
(dx

[(x))
_
P

(dx) =
_
X
L(,
()
(x)) P

(dx)
= R

() ().
La dimostrazione `e cos` conclusa.
Il teorema appena provato non assicura che il passaggio allo stimatore
()
comporti (in generale) un eettivo miglioramento; potrebbe infatti avvenire
che i due stimatori
()
e siano equivalenti. Nellesempio seguente consideria-
mo una statistica suciente e uno stimatore per il quale tale passaggio con-
sente di ottenere uno stimatore che lo domina strettamente.
Esempio 2.1.7 Posto =]0, +[, sia losservabile costituito dalle v.a. X
1
, X
2
indipen-
denti e distribuite secondo la distribuzione di Poisson Poi() in corrispondenza ad ogni
stato . Allora, per le probabilit` a di campionamento, si ha
P

(x) = e
2

2 x
x
1
! x
2
!
per ogni x X = N
2
. Inoltre, per il Teorema B.1.16, la v.a. somma X
1
+X
2
`e distribuita
secondo la distribuzione di Poisson Poi(2). Riesce infatti
(P

)
X
1
+X
2
(t) =

k0
(P

)
X
2
(t k)(P

)
X
1
(k) =
t

k=0
e


tk
(t k)!
e


k
k!
= e
2
1
t!
t

k=0
t!
k! (t k)!

k

tk
= e
2
1
t!
t

k=0
_
t
k
_

tk
= e
2
(2)
t
t!
54 CAPITOLO 2. DECISIONI STATISTICHE
per ogni t N. Ne segue, per la distribuzione della media campionaria X : x x,
P

(X = t) = e
2
(2)
2t
(2t)!
_
t T =
_
k
2
; k N
__
e quindi
P

((x
1
, 2t x
1
) [X = t) =
e
2
2t
x
1
! (2tx
1
)!
e
2
(2)
2t
(2t)!
=
(2t)!
x
1
! (2t x
1
)!
_
1
2
_
2t
=
_
2t
x
1
_
_
1
2
_
2t
.
Osservato che
P

(x[X = t) =
_
0 se x
1
+x
2
,= 2t
P

((x
1
,2tx
1
))
P

(X=t)
se x
1
+x
2
= 2t
,
possiamo identicare (Q
(X)
([t))
tT
con la famiglia di probabilit` a:
Q
(X)
(x[t) =
_
_
_
0 se x
1
+x
2
,= 2t
_
2t
x
1
_
_
1
2
_
x
1
_
1
2
_
2tx
1
se x
1
+x
2
= 2t
(t T)
costruita tramite le distribuzioni binomiali del tipo Bin(2t,
1
2
). Conseguentemente, la
media campionaria `e una statistica suciente.
Volendo ora stimare la probabilit` a aleatoria Pr(X
1
= 0) = e
Z
, poniamo D = [0, 1] e
adottiamo il danno quadratico. Considerato, in particolare, lo stimatore:
(x) =
1
2
_
I
{0}N
(x) +I
N{0}
(x)
_
che associa, ad ogni campione x, il numero delle componenti nulle rapportato alla totalit` a
delle componenti, otteniamo

=
(X)
= 4
X
. Si ha infatti

(x) =
1
2
_
N
2
_
I
{0}N
(x

) +I
N{0}
(x

)
_
Q
(X)
(dx

[X(x))
=
1
2
_
Q
(X)
(0 N[X(x)) + Q
(X)
(N 0[X(x))
_
=
1
2
_

m1
Q
(X)
((0, m) [X(x)) +

m1
Q
(X)
((m, 0) [X(x))
_
=
1
2
_
Q
(X)
((0, 2X(x)) [X(x)) + Q
(X)
((2X(x), 0) [X(x))
_
=
1
2
__
1
2
_
2X(x)
+
_
1
2
_
2X(x)
_
=
_
1
4
_
X(x)
.
Passando ai relativi errori quadratici medi, proviamo che MSE

() < MSE

() per ogni
stato . Notato che, per il Teorema B.2.9(i) e il solito teorema fondamentale,
E

() =
_
T
E

([X = t) (P

)
X
(dt) =
_
T
_
_
X
(x

) Q
(X)
(dx

[t)
_
(P

)
X
(dt)
=
_
X
_
_
X
(x

) Q
(X)
(dx

[X(x))
_
P

(dx) =
_
X

(x) P

(dx) = E

),
2.2. CLASSI COMPLETE 55
basta vericare, per (2.2), che Var

) < Var

(). Ora, dato un qualsiasi numero reale


a > 0, si ha
E

(a
X
) =

k0
a
k
2
e
2
(2)
k
k!
= e
2

k0
(2)
k
k!
a
k
2
= e
2

k0
1
k!
_
d
(k)
dy
e
2y
_
(0) (a
1
2
)
k
= e
2
e
2

a
= e
2(

a1)
e quindi
Var

) = E

((

)
2
) E

)
2
= E

_
_
1
16
_
X
_
E

_
_
1
4
_
X
_
2
= e
2(
1
4
1)

_
e
2(
1
2
1)
_
2
= e
2
(e

2
1) = e
2

n1
1
n!
_

2
_
n
,
cio`e
Var

) =
e
2
2
+
e
2
4

n2
1
n!

n
2
n2
. (2.10)
Passando inne alla varianza di , per il Teorema B.1.12, risulta
E

(I
{0}N
) = P

(0 N) = (P

)
X
1
(0) = e

(I
N{0}
) = P

(N 0) = (P

)
X
2
(0) = e

da cui otteniamo
E

(I
{0}N
I
N{0}
) = E

(I
{(0,0)}
) = P

((0, 0)) = e
2
= E

(I
N{0}
) E

(I
N{0}
),
cio`e Cov

(I
{0}N
, I
N{0}
) = 0. Ne segue
Var

() =
1
4
_
Var

(I
{0}N
) + Var

(I
N{0}
)
_
=
1
4
_
e

(1 e

) +e

(1 e

=
1
2
e

(1 e

) =
e
2
2
+
e
2
2
(e

1)
>
e
2
2
+
e
2
4
(e

1) =
e
2
2
+
e
2
4

n2
1
n!

e
2
2
+
e
2
4

n2
1
n!

n
2
n2
e quindi, per (2.10), Var

) < Var

().
2.2 Classi complete
Poich`e riteniamo DM un individuo razionale, ci aspettiamo che escluda (dai
suoi comportamenti) quelle regole di decisione che constata essere stretta-
56 CAPITOLO 2. DECISIONI STATISTICHE
mente dominate
15
, pervenendo cos` ad un insieme pi` u piccolo di possibili
comportamenti (e quindi semplicando, sperabilmente, il problema deci-
sionale)
16
. Siamo allora indotti a dare la seguente basilare denizione (dovuta
ancora a Wald).
Denizione 2.2.1 Una classe completa (di regole di decisione) `e ogni
sottoinsieme

tale che esista, per ogni ,

, una regola di decisione

che domini strettamente . Inoltre, una classe completa propria


`e ogni classe completa diversa da .
Come lesempio successivo rileva, di classi complete proprie ce ne possono
essere una, pi` u di una, oppure nessuna.
Esempio 2.2.2 Poich`e consideriamo solo situazioni che contemplano un numero nito di
stati e di decisioni, rappresentiamo la funzione di danno mediante una tabella nella quale
L(
i
, d
j
) `e lelemento corrispondente alla linea i ed alla colonna j. Supponiamo inoltre che
lo spazio campionario sia costituito da un solo campione.
(i) Siano D = d
1
, d
2
, =
1
,
2
e la funzione di danno tale che:
d
1
d
2

1
1001 1000

2
0 1000
.
Allora, D `e lunica classe completa.
(ii) Siano D = d
1
, d
2
, d
3
, come in (i) e la funzione di danno tale che:
d
1
d
2
d
3

1
2 2 1

2
1 3 4
.
Allora, d
1
, d
3
`e lunica classe completa propria.
(iii) Siano D = d
0
, d
1
, d
2
, . . . un insieme numerabile, come in (i) e la funzione di
danno tale che:
d
0
d
1
. . . d
n
. . .

1
3 2 +
1
2
. . . 2 +
1
2
n
. . .

2
0 2 +
1
3
. . . 2 +
1
3
n
. . .
.
15
Questo dal punto di vista teorico, ove si tiene conto solamente delle funzioni di rischio.
Da un punto di vista pratico invece pu` o talvolta succedere che DM ritenga pi` u opportuno
scegliere una regola di decisione particolarmente semplice e facile da utlizzare ad una
pi` u complicata che, pur dominandola strettamente, comporti solamente una trascurabile
diminuzione dei danni medi.
16
E quindi, nellEsempio 2.1.5(iii), conserver` a degli stimatori
c
, nel caso k >
1

2
2
,
solo lo stimatore puntuale
0
(cio`e la funzione identica), mentre, nel caso opposto, solo lo
stimatore intervallare,
c
.
2.2. CLASSI COMPLETE 57
Allora, le classi complete proprie sono i sottoinsiemi del tipo D

= d
0
, d
k
1
, d
k
2
, . . . con
(k
n
)
n1
successione crescente.
Per quanto detto, DM sar` a portato a scegliere una classe completa propria
(qualora esistente) e quindi, nel caso ce ne fosse pi` u di una, ad individuarne
una tramite un opportuno criterio di scelta. Criterio che, nel caso ne esi-
sta una minima (nel senso dellinclusione), appare ovvio: selezionare quella
minima poich`e consente la massima semplicazione del problema decisionale
(dal punto di vista delle funzioni di rischio). Al ne di individuarla conviene
dare la denizione seguente.
Denizione 2.2.3 Una regola (di decisione) ammissibile `e una qual-
siasi regola di decisione che sia un elemento massimale per la relazione di
dominanza, cio`e tale che non esista alcuna regola di decisione che la domini
strettamente. Inoltre, la classe ammissibile `e linsieme
+
delle regole
ammissibili.
Mostriamo ora che la classe ammissibile pu` o essere vuota, contenere un
solo elemento oppure coincidere con e che lammissibilit`a, se da una parte `e
senza dubbio una propriet` a desiderabile per ogni regola di decisione, dallaltra
non ne assicura, in generale, la ragionevolezza.
Esempio 2.2.4 (i) Con riferimento allEsempio 2.2.2 si ha: D
+
= D in (i); D
+
= d
1
, d
3

in (ii); D
+
= d
0
in (iii). Inoltre, nellEsempio 2.1.5(ii),
+
= .
(ii) Posto = D = [0, 1], sia losservabile costituito dalle v.a. X
1
, . . . , X
n
indipendenti
e distribuite secondo la distribuzione di Bernoulli Ber() in corrispondenza ad ogni stato
. Conseguentemente, per le probabilit`a di campionamento, si ha
P

(x) =
n x
(1 )
n(1 x)
per ogni x X = 0, 1
n
. Per quanto riguarda la funzione di danno, supponiamo L(, d) >
0, se ,= d, e L(, d) = 0, se = d.
Completato lo schema decisionale-inferenziale, proviamo che sono regole ammissibili
tutte le costanti con valori in ]0, 1[. Indicata con

la costante di valore

, basta eviden-
temente vericare che _

. Supposto quindi R

= L

, otteniamo
0 = L(

,

) = L

) R

) =

xX
L(

, (x))

n x
(1

)
n(1 x)
0
e dunque

xX
L(

, (x))

n x
(1

)
n(1 x)
= 0.
58 CAPITOLO 2. DECISIONI STATISTICHE
Qualunque sia il campione x, si ha quindi L(

, (x)) = 0 (

,= 0, 1!). Poich`e L(

, d) > 0
per ogni d ,=

, possiamo concludere che (x) =

per ogni campione x.
Conseguentemente, la scelta di stimare pari a

,= 0, 1 lo stato di natura indipendente-
mente dal risultato sperimentale (perseguendo cos` un comportamento da ritenersi senza
alcun dubbio non ragionevole volendo accedere allesperimento) non pu` o essere in alcun
modo migliorata, in termini di dominanza, da un comportamento pi` u razionale basato
sullinformazione campionaria.
Il prossimo risultato evidenzia il legame intercorrente tra le nozioni di
ammissibilit`a (di una regola di decisione) e di completezza (di un insieme di
regole di decisione).
Teorema 2.2.5 La classe ammissibile `e lintersezione di tutte le classi com-
plete.
Dimostrazione Indicata con
1
lintersezione di tutte le classi complete,
verichiamo intanto che riesce
+

1
. Per assurdo, sia
+

1
. Esiste
allora una classe completa

tale che ,

. Si pu`o quindi trovare

tale che

~ . Ne segue ,
+
(Contraddizione!). Per provare linclusione
opposta, sia (per assurdo)
1

1

+
. Esiste quindi

tale che

~
1
.
Considerato allora linsieme

=
1
, riesce

; inoltre, presa una


qualunque regola di decisione ,

, si ha =
1
e quindi

~ . Con-
seguentemente,

`e una classe completa tale che


1
,

(Contraddizione!).
Nello schema decisionale considerato nellEsempio 2.2.2(iii), la classe am-
missibile d
0
non `e una classe completa. Daltra parte, qualora
+
fosse
completa, sarebbe, per il teorema precedente, la pi` u piccola classe completa
(nel senso dellinclusione). Il risultato successivo asssicura che, nel caso di
completezza, la classe ammissibile `e lunica classe completa minimale (cio`e,
tale che ogni suo sottoinsieme proprio non `e una classe completa).
Teorema 2.2.6 Se
+
`e una classe completa, allora `e lunica classe com-
pleta minimale.
Dimostrazione Sia
+
una classe completa. Essendo ovvia la sua minimali-
t`a, proviamone lunicit` a. Supponiamo quindi che

sia una classe completa


minimale. Poich`e
+

(Teorema 2.2.5), esista (per assurdo)

+
.
Allora,

per qualche regola di decisione

.
Proviamo ora che

`e dominata strettamente da qualche elemento di

. Tenuto conto che

, basta considerare il caso

.
2.2. CLASSI COMPLETE 59
Poich`e

`e una classe completa, esiste


1

tale che
1
~

. Allora,

1
~

e quindi
1
,=

. Dunque,

`e dominata strettamente da
1

.
Al ne di vericare che

`e una classe completa, sia ,

. Ne segue
,

oppure =

; quindi, per quanto provato, possiamo limitarci al caso


,

. Poich`e

`e una classe completa, esiste


2

tale che
2
~ .
Ora, se
2
,=

, si ha
2

; se invece
2
=

, per quanto provato,


2
-
e quindi - `e dominata strettamente da un elemento di

. Pertanto,

`e una classe completa, contraddicendo cos` la minimalit` a di

!).
Il primo e il terzo dei teoremi seguenti riguardano la completezza della
classe ammissibile (e quindi lesistenza della classe completa minimale). Il
primo rileva che, nel caso di un numero nito di regole di decisione, la classe
ammissibile `e sempre completa; il terzo invece fornisce una condizione geo-
metrica per la completezza, nel caso di un numero nito di stati
17
.
Teorema 2.2.7 Se `e nito, allora
+
`e una classe completa.
Dimostrazione Supposto nito, sia (per assurdo)
+
non completa. Esi-
ste allora
1
,
+
non dominata strettamente da regole ammissibili. Poich`e

1
non `e ammissibile, esiste
2
tale che
2
~
1
(e quindi
2
,=
1
). Osservato
che
2
,
+
, esiste
3
tale che
3
~
2
(e quindi
3
,=
2
). Ne segue
3
~
1
(e quindi
3
,=
1
). Allora
3
,
+
e quindi esiste
4
tale che etc.. Cos`
procedendo otteniamo una successione (
n
)
n1
di regole di decisione tutte
tra loro distinte, contraddicendo lipotesi di nitezza.
Passando al caso in cui gli stati sono niti, introduciamo la nozione di
insieme di rischio che fornisce la base geometrica di riferimento per ottenere
sia una caratterizzazione dellammissibilit` a che una condizione suciente per
la completezza della classe ammissibile.
Denizione 2.2.8 Supposto =
1
, . . . ,
m
, linsieme di rischio `e linsie-
me R = (R

(
1
), . . . , R

(
m
)) : [0, +[
m
dei vettori di rischio
y
()
= (R

(
1
), . . . , R

(
m
))
18
.
Denotata, per ogni sottoinsieme non vuoto B R
m
, con B la chiusura
topologica di B e considerata la chiusura inferiore:

L
B = y B : b B(b < y)
17
Dispensando cos` DM dal ricercare un criterio di selezione che individui una classe
completa che sia, ai suoi ni, ragionevolmente piccola.
18
Certamente non vuoto in quanto (L
d
(
1
), . . . , L
d
(
m
)) R per ogni decisione d.
60 CAPITOLO 2. DECISIONI STATISTICHE
di B
19
, otteniamo il risultato seguente che fornisce una caratterizzazione
geometrica delle regole ammissibili.
Teorema 2.2.9 Sia nito. Risulta allora:
(i)
+
y
()

L
R;
(ii)
+
,=
L
R R ,= .
Dimostrazione Poich`e (ii) discende banalmente da (i), proviamo la propo-
sizione (i). Sia intanto
+
. Supposto (per assurdo) y
()
,
L
R, esiste
y R tale che y < y
()
. Allora, y = y
(

)
per qualche regola di decisione

. Ne segue y
(

)
< y
()
, cio`e

~ (Contraddizione!). Sia ora y


()

L
R.
Supposto (per assurdo) ,
+
, esiste una regola di decisione

tale che

~ . Allora y
(

)
< y
()
e quindi y
()
,
L
R (Contraddizione!).
Il lemma successivo consentir`a di provare (nel caso di un numero nito
di stati) che le regole ammissibili formano una classe completa ogniqualvolta
linsieme di rischio include la sua chiusura inferiore.
Lemma 2.2.10 La chiusura inferiore di un insieme non vuoto inferiormente
limitato di m-ple reali non `e vuota.
Dimostrazione Sia B R
m
un insieme non vuoto inferiormente limitato.
Esiste allora un numero reale tale che b
i
(i = 1, . . . , m) per ogni
b B. Considerata la funzione f : y y
1
+ + y
m
, linsieme-immagine
f(B) `e banalmente un sottoinsieme non vuoto inferiormente limitato della
retta reale. Conseguentemente, = inf f(B) `e un numero reale.
Sia ora (b
(n)
)
n1
una successione in B tale che f(b
(n)
) come n
+. Allora, la successione `e superiormente limitata. Infatti, supposto (per
assurdo) che per ogni n esistano due numeri naturali h
n
, k
n
tali che b
(h
n
)
k
n
> n,
otteniamo lim
n+
b
(h
n
)
k
n
= +. Allora, dalla
f(b
(h
n
)
) =
k
n
1

i=1
b
(h
n
)
i
+ b
(h
n
)
k
n
+
m

i=k
n
+1
b
(h
n
)
i
(m1) + b
(h
n
)
k
n
19
Riesce quindi y


L
B B y : y y

= y

per ogni m-pla y

. Ci`o os-
servato, diamo alcuni esempi di chiusure inferiori nel caso m = 2. Posto B =], 0]
2
si ha

L
B = ; B =]0, 1[
2
riesce
L
B = 0 (a, 0) : 0 a 1 (0, b) : 0 b 1 =
L
B;
B = (3, 0), (
5
2
,
7
3
), . . . , (2 +
1
2
n
, 2 +
1
3
n
), . . . , risulta
L
B =
L
B = (3, 0), (2, 2).
2.3. CLASSI ESSENZIALMENTE COMPLETE 61
si ha = lim
n+
f(b
(h
n
)
) lim
n+
[(m1) +b
(h
n
)
k
n
] = + (Contraddizione!).
Poich`e la successione `e anche inferiormente limitata (essendo in B), esiste
una sottosuccessione (b
(i
n
)
)
n1
convergente a qualche m-pla y

. Chiaramente
y

B; inoltre f(y

) = lim
n+
f(b
(i
n
)
) = lim
n+
f(b
(n)
) = (f `e una funzione
continua!). Ne segue y


L
B. Infatti, esista (per assurdo) b B tale
che b < y

. Allora, b
i
y

i
(i = 1, . . . , m) e b
j
< y

j
per qualche j. Rie-
sce pertanto inf f(B) = = f(y

) =

m
i=1
y

i
>

m
i=1
b
i
= f(b) f(B)
(Contraddizione!). Dunque
L
B ,= .
Teorema 2.2.11 Supposto nito, sia
L
R R. Allora,
+
`e una classe
completa.
Dimostrazione Supposto =
1
, . . . ,
m
e
L
R R, sia

,
+
. Esiste
quindi una regola di decisione tale che ~

. Se `e una regola ammissibile,


allora

risulta dominata strettamente da un elemento di


+
. Assumiamo
pertanto ,
+
. Allora, per il Teorema 2.2.9(i), y
()
,
L
R. Considerato
linsieme non vuoto:
B = y R : y y
()
[0, +[
m
,
esiste, per il lemma precedente, y
L
B. Allora y B y : y y
()
R.
Al ne di provare che y
L
R, assumiamo (per assurdo) che esista b R
tale che b < y. Allora, b < y
()
da cui otteniamo b B e quindi y ,
L
B
(Contraddizione!). Pertanto y
L
R. Per lipotesi
L
R R, esiste inne
una regola di decisione

tale che y
(

)
= y
L
R. Conseguentemente, per
il Teorema 2.2.9(i),


+
; inoltre, essendo y
(

)
= y y
()
e y
()
< y
(

)
( ~

!), si ha

.
2.3 Classi essenzialmente complete
Una semplicazione del problema decisionale pu` o avvenire anche in assenza
di una classe completa propria. Infatti, considerato il problema decisionale
(senza acquisizione di dati): =
1
,
2
,
3
, D = d
1
, d
2
, d
3
e funzione di
danno data dalla tabella:
d
1
d
2
d
3

1
1 0 0

2
2 4 4

3
2 3 3
,
62 CAPITOLO 2. DECISIONI STATISTICHE
possiamo ridurre, pur essendo Dlunica classe completa, linsieme delle regole
di decisione procedendo per esclusione di decisioni equivalenti; precisamente,
eliminando la decisione d
3
e sostituendo D con linsieme d
1
, d
2
, oppure
eliminando la decisione d
2
e rimpiazzando D con linsieme d
1
, d
3
. Queste
considerazioni suggeriscono la seguente denizione (introdotta da Erich L.
Lehmann nel 1947).
Denizione 2.3.1 Una classe essenzialmente completa (di regole di de-
cisione) `e ogni sottoinsieme

tale che esista, per ogni ,

, una
regola di decisione

che domini .
Ovviamente, ogni classe completa `e essenzialmente completa. Inoltre,
sussiste il risultato seguente (di verica immediata) che fornisce la relazione
intercorrente tra le regole ammissibili e le classi essenzialmente complete.
Teorema 2.3.2 Sia

una classe essenzialmente completa. Se una regola


ammissibile non appartiene a

, allora esiste una regola ammissibile

tale che

.
Lintroduzione delle classi essenzialmente complete consente di formulare
uno degli obiettivi centrali della teoria delle decisioni statistiche: lindividua-
zione di classi complete o almeno essenzialmente complete. In questa direzio-
ne sono inquadrabili sia teoremi di carattere generale (come il teorema della
classe completa che verr`a considerato nella sezione quinta) che teoremi riguar-
danti specici problemi statistico-decisionali. Nellambito dei problemi di
stima puntuale, abbiamo gi` a incontrato uno di questi teoremi: il teorema
di Rao-Blackwell 2.1.6 che consente, qualora si adotti il danno quadratico o
quello assoluto, di costruire classi essenzialmente complete ricorrendo a stati-
stiche sucienti. Per quanto riguarda invece i problemi di verica dipotesi,
un ruolo chiave viene svolto dal prossimo lemma (provato da Jerzy Neyman e
Egon S. Pearson
20
nel 1933) che fornisce una classe essenzialmente completa
nel caso particolare di ipotesi semplici: H
0
: Z =
0
e H
1
: Z =
1
. Osservia-
mo che, in questo contesto,
0
=
0
,
1
=
1
e, per (2.4), _

se e
solo se

(
0
)

(
0
) e

(
1
)

(
1
). Possiamo inoltre assumere, senza
perdere in generalit` a, che le due densit`a di campionamento f

0
e f

1
siano a
valori niti.
20
Figlio dello statistico, matematico e biologo Karl Pearson, fondatore della biometria
e autore di risultati fondamentali sul metodo dei momenti e sulla distribuzione del test
Chi-quadrato.
2.3. CLASSI ESSENZIALMENTE COMPLETE 63
Lemma 2.3.3 (di Neyman-Pearson) Per ogni t [0, +], sia
(t)
il test
avente come regione di riuto linsieme:
X
(t)
1
=
_
f

1
> tf

0
se t ,= +
f

0
= 0 se t = +
.
Riesce allora:
(i)

(t) (
0
)

(
0
)

(t) (
1
)

(
1
) per ogni test e t [0, +].
Inoltre, supposto P

0
(f

1
= t f

0
) = 0 per ogni numero reale t 0, sussistono
le proposizioni:
(ii) Per ogni [0, 1] esiste t

[0, +] tale che

(t

) (
0
) = ;
(iii) La classe dei test di Neyman-Pearson
(NP)
=
(t)
: 0 k +
`e una classe essenzialmente completa costituita da test ammissibili.
Dimostrazione Posto, per semplicit` a, f
i
= f

i
, P
i
= P

i
(i = 0, 1) e indi-
cata con
t
la funzione potenza del test
(t)
, proviamo che risulta

t
(
1
)

(
1
) t [
t
(
0
)

(
0
)] (t ,= +) (2.11)
per ogni test . A tal ne, posto = I
X
()
1
e
t
= I
X
(t)
1
, consideriamo la
funzione g = (
t
)(f
1
t f
0
). Allora,
g(x) =
_

_
(1 (x))(f
1
(x) t f
0
(x)) 0 se f
1
(x) > t f
0
(x)
(x)(f
1
(x) t f
0
(x)) 0 se f
1
(x) < t f
0
(x)
0 se f
1
(x) = t f
0
(x)
da cui otteniamo
0
_
X
g d =
_
X

t
f
1
d
_
X
f
1
d t
_
X

t
f
0
d + t
_
X
f
0
d
=
_
X
(t)
1
f
1
d
_
X
()
1
f
1
d t
_
_
X
(t)
1
f
0
d
_
X
()
1
f
0
d
_
=
t
(
1
)

(
1
) t [
t
(
0
)

(
0
)]
e quindi (2.11).
64 CAPITOLO 2. DECISIONI STATISTICHE
(i) Supposto
t
(
0
)

(
0
), sia t ,= +. Allora, per (2.11),
t
(
1
)

(
1
) 0, cio`e
t
(
1
)

(
1
). Sia ora t = +. Ne segue

(
0
)
t
(
0
) =
_
{f
0
=0}
f
0
d = 0 e quindi, posto

X = f
0
> 0,
0 =

(
0
) =
_
X
()
1
f
0
d =
_
X
()
1

X
f
0
d =
_
X
I

X
f
0
d.
Allora, per il Teorema A.3.6(v), I

X
f
0
= 0 (-q.o.), cio`e I

X
= 0 (-q.o.) e
quindi I

X
f
1
= 0 (-q.o.). Risulta dunque
_

X
f
1
d = 0 da cui otteniamo

t
(
1
)

(
1
) =
_
X
(t)
1
f
1
d
_
X
()
1
f
1
d =
_
X
(
t
)f
1
d
=
_

X
(
t
)f
1
d +
_

X
c
(
t
)f
1
d
=
_

X
f
1
d +
_

X
c
(1 )f
1
d =
_

X
c
(1 )f
1
d 0,
cio`e
t
(
1
)

(
1
).
Assumiamo ora P
0
(f
1
= t f
0
) = 0 per ogni numero reale t 0.
(ii) Se = 0, allora
+
(
0
) = e quindi t

= +. Sia pertanto
0 < 1. Considerata la v.a. Y su X cos` denita:
Y (x) =
_
f
1
(x)
f
0
(x)
se x

X
0 se x ,

X,
proviamo che la funzione di ripartizione F
0
(t) = P
0
(Y t) `e una funzione
continua. A tal ne, per il Teorema B.1.1(vi), basta vericare che, dato t 0,
si ha P
0
(Y = t) = 0. Dalla P
0
(

X
c
) = P
0
(f
0
= 0) = 0 otteniamo
P
0
(Y = t) = P
0
_
Y = t

X
_
+P
0
_
Y = t

X
c
_
= P
0
_
Y = t

X
_
= P
0
__
f
1
f
0
= t
_

X
_
= P
0
_
f
1
= t f
0


X
_
P
0
(f
1
= t f
0
) = 0.
Poich`e 0 1 < 1, lim
t+
F
0
(t) = 1 e F
0
`e una funzione continua, esiste
t

0 tale che F
0
(t

) = 1 . Riesce allora

t
(
0
) = P
0
(f
1
> t

f
0
) = P
0
_
f
1
> t

f
0


X
_
= P
0
__
f
1
f
0
> t

X
_
= P
0
_
Y > t



X
_
= P
0
(Y > t

) = 1 P
0
(Y t

) = F
0
(t

) = .
2.3. CLASSI ESSENZIALMENTE COMPLETE 65
(iii) Dato un test , esiste (ponendo =

(
0
) in (ii)) t

[0, +] tale
che
t
(
0
) =

(
0
). Da (i) otteniamo allora
t
(
1
)

(
1
) e quindi
(t

)
_
. Rimane da vericare che i test di Neyman-Pearson sono ammissibili. A tal
ne, basta constatare che, dati i test
(t

)
e
(t

)
, non pu` o essere
(t

)
~
(t

)
.
Supposto (per assurdo)
(t

)
~
(t

)
, otteniamo, in particolare,
(t

)
_
(t

)
e
quindi
t
(
0
)
t
(
0
),
t
(
1
)
t
(
1
). Allora, per (i),
t
(
1
)
t
(
1
),
cio`e
t
(
1
) =
t
(
1
). Riesce dunque
t
(
0
) <
t
(
0
). Scelto tale che

t
(
0
) < <
t
(
0
), esiste, per (ii), un test
(

t)
con

t
(
0
) = e quindi

t
(
0
) <

t
(
0
) <
t
(
0
). Allora,

t ,= t

e

t, t

,= +, ricordato che

+
(
0
) = 0. Inne, per (i), si ha anche

t
(
1
) =
t
(
1
). Ponendo allora,
in (2.11), =
(t

)
e t =

t, se

t > 0, e t = t

, se t

> 0, otteniamo 0 =

t
(
1
)
t
(
1
) t [
t
(
0
)
t
(
0
)] > 0 (Contraddizione!).
Osservazione 2.3.4 Qualora non sussista lipotesi P

0
(f

1
= t f

0
) = 0 per
ogni numero reale t 0, pu` o avvenire che la classe
(NP)
non sia essenzial-
mente completa. Supponiamo infatti che lo spazio campionario sia costituito
dagli elementi x
1
, x
2
e che le probabilit`a di campionamento siano fornite
dalla tabella seguente, nella quale riportiamo anche i valori del rapporto
P

1
P

0
.
x
1
x
2
P

0
1
4
3
4
P

1
1
8
7
8
P

1
P

0
1
2
7
6
.
In questa situazione, per il test avente regione di riuto X
()
1
= x
1
risulta

(
0
) =
1
4
e

(
1
) =
1
8
. Inoltre, si ha
X
(t)
1
=
_

_
X se 0 t <
1
2
x
2
se
1
2
t <
7
6
se t
7
6
da cui otteniamo che la funzione potenza

(t) assume i valori riportati nella


tabella:
0 t <
1
2
1
2
t <
7
6
t
7
6

0
1
3
4
0

1
1
7
8
0
.
Conseguentemente, nessun test Neyman-Pearson domina e quindi
(NP)
non `e una classe essenzialmente completa.
66 CAPITOLO 2. DECISIONI STATISTICHE
Nellesempio seguente, con riferimento al campionamento normale con
media incognita, determiniamo la struttura dei test Neyman-Pearson e veri-
chiamo che costituiscono una classe essenzialmente completa.
Esempio 2.3.5 Considerati due numeri reali
0
,
1
con
0
<
1
, sia losservabile co-
stituito dalle v.a. X
1
, . . . , X
n
indipendenti e distribuite secondo la normale N(
i
,
2
) in
corrispondenza allo stato
i
(i = 0, 1). Allora, tramite (2.5), per le densit` a di campiona-
mento si ha
f

i
(x) = (2
2
)

n
2
exp
_

n
i=1
(x
i
x)
2
2
2
_
exp
_

n( x
i
)
2
2
2
_
(i = 0, 1)
per ogni x X = R
n
. Ne segue X
(+)
1
= e
f

1
(x)
f

0
(x)
= exp
_

n( x
1
)
2
2
2
+
n( x
0
)
2
2
2
_
= exp
_
n(
2
0

2
1
)
2
2
+
n(
1

0
) x

.
Per ogni t [0, +[, si ha allora
X
(t)
1
=
_
x :
n(
2
0

2
1
)
2
2
+
n(
1

0
) x

2
> ln t
_
=
_
x : x >

2
n(
1

0
)
ln t +

0
+
1
2
_
.
Conseguentemente, osservato che il secondo membro della disuguaglianza che denisce
X
(t)
1
`e una funzione continua di t che diverge a , come t 0
+
, e diverge a +, come
t +, possiamo concludere che
(NP)
coincide con la famiglia dei test aventi come
regione di riuto, oltre allinsieme vuoto, gli insiemi del tipo x : x > , cio`e i semispazi
aperti positivi individuati dagli iperpiani di R
n
di equazione x
1
+ +x
n
= n.
Notato inne che la misura di Lebesgue n-dimensionale di un iperpiano di R
n
`e nulla
21
,
otteniamo P

0
(f

1
= t f

0
) =
_
{f

1
=t f

0
}
f
0
d
(n)
= 0 e quindi, per la proposizione (iii)
del lemma di Neyman-Pearson,
(NP)
`e una classe essenzialmente completa.
2.4 Indici di preferibilit`a
Nei problemi di decisione statistica connessi a situazioni reali, lindividuazione
delle regole ammissibili non sempre si presenta agevole; inoltre, la loro man-
canza oppure la loro molteplicit` a (nel caso formino una classe completa) pone
a DM - che comunque deve scegliere un comportamento - il problema di
individuarne uno che sia, in qualche modo, il migliore possibile. La meto-
dologia che storicamente `e stata proposta per la sua identicazione si basa
21
Posto B = x : x
1
+ + x
n+1
= a, risulta B((x
1
, . . . , x
n
)) = x
n+1
: x
1
+ +
x
n+1
= a = a (x
1
+ + x
n
) e quindi (per denizione della misura prodotto)

(n+1)
(B) =
_
R
n

_
B((x
1
, . . . , x
n
))
_
dx
1
dx
n
= 0.
2.4. INDICI DI PREFERIBILIT
`
A 67
sullidea di adottare, come criterio di scelta di regole di decisione buone,
la minimizzazione di un opportuno funzionale denito sullinsieme delle fun-
zioni di rischio e a valori nella retta reale ampliata. In questo ordine di idee,
un ruolo cruciale svolgono le nozioni di indice di preferibilit` a e di regola di
decisione ottima che ora introduciamo.
Denizione 2.4.1 Un funzionale : R

: R

`e un indice di
preferibilit`a (per la dominanza) se: _

(R

) (R

) per ogni
,

. Inoltre, una regola (di decisione) -ottima `e ogni regola di


decisione

tale che (R

) = inf

(R

) < +
22
.
Lindividuazione di un indice di preferibilit`a adeguato per un dato pro-
blema di decisione statistica non `e di solito semplice e dipende comunque sia
dagli obiettivi di DM che dal suo atteggiamento verso lincertezza. Nellesem-
pio seguente riportiamo alcuni indici di preferibilit`a classici. Poich`e alcuni
richiedono di considerare distribuzioni di probabilit` a sullo spazio parametri-
co, `e necessario, prima di procedere, fare alcune puntualizzazioni di natura
tecnica.
Le misure (in particolare probabilit` a) che considereremo sullo spazio para-
metrico sono tutte denite su una pressata -algebra di riferimento T su

23
. Inoltre, assumeremo che, per ogni decisione d, la funzione L
d
sia T -
Borel misurabile e prenderemo in esame solamente regole di decisione che
rendano L(, ) una funzione T -Borel misurabile
24
.
Precisiamo inoltre che, per semplicit`a, useremo nel corso dellesposizione
la notazione pi` u snella () al posto della (R

).
Esempio 2.4.2 (Festival degli indici di preferibilit`a) Gli indici individuati dai cri-
teri seguenti sono (come facilmente si verica) esempi di indici di preferibilit`a
25
.
(i) Criterio del minimax Si pone () = sup

() per ogni . Il criterio sostitui-


sce quindi lincertezza sui danni medi con il danno medio massimo che si pu` o ottenere;
conseguentemente, rappresenta un atteggiamento estremamente pessimistico del decisore.
22
Cio`e, tale che nella relativa funzione di rischio R

lindice di preferibilit` a assume


valore sia nito che minimo.
23
Che raccoglie, da un punto di vista interpretativo, tutti i sottoinsiemi

di per i
quali levento Z

`e di interesse per DM.


24
Assicurando in questo modo, per il teorema di Tonelli A.5.4, la T -Borel misurabilit` a
delle relative funzioni di rischio.
25
A dierenza, ad esempio, di quello relativo al criterio media-varianza che si basa
sulla scelta di una probabilit` a P su T , di un numero reale > 0 e sulla minimizzazione
dellindice () = E
P
(R

) +Var
P
(R

). Infatti, considerato il problema decisionale (senza


acquisizione di dati): =
1
,
2
, D = d
1
, d
2
e funzione di danno data dalla tabella:
68 CAPITOLO 2. DECISIONI STATISTICHE
Le relative regole ottime assicurano a DM il meno peggio, cio`e di incorrere al pi` u nel
minimo dei massimi danni medi
26
.
Applicando il criterio alle situazioni considerate nellEsempio 2.2.2, otteniamo che le
decisioni ottime sono d
2
per (i); d
1
per (ii); nessuna per (iii).
(ii) Criterio del pessimismo-ottimismo (Leonid Hurwicz, 1951) Si sceglie
[0, 1] e si pone () = sup

() + (1 ) inf

() per ogni . Il criterio sostituisce


dunque lincertezza sui danni medi con la mistura (di peso ) dei danni medi massimo
e minimo che si possono ottenere. Conseguentemente, il parametro pu` o essere inteso
come una misura del grado di pessimismo del decisore (a = 1 corrisponde il massimo
pessimismo; a = 0 il massimo ottimismo).
Con riferimento allEsempio 2.2.2, le relative decisioni ottime sono, per (ii), d
1
, se
> 0, e d
1
, d
3
, se = 0; per (iii), d
0
, se
2
3
, e nessuna, se >
2
3
.
(iii) Criterio del rimpianto (Leonard J. Savage, 1951) Per ogni regola di decisione
, chiamiamo funzione di rimpianto (di ) la funzione R
(r)

: R

() inf

()
che - fornendo, per ogni stato , lincremento di danno medio rispetto al danno medio
ineliminabile inf

() - pu` o essere intesa come una misura del rimpianto di DM


nellaver seguito il comportamento . Il criterio si ottiene ora applicando il criterio
minimax alle funzioni di rimpianto, ponendo cio`e () = sup

R
(r)

() per ogni .
Con riferimento allEsempio 2.2.2, le funzioni di rimpianto relative alle situazioni (i),
(ii) e (iii) sono date, rispettivamente, dalle tabelle:
d
1
d
2

1
1 0

2
0 1000
d
1
d
2
d
3

1
1 1 0

2
0 2 3
d
1
d
2

1
4,5 5

2
0,5 5
otteniamo d
1
~ d
2
. Daltra parte, posto P(
1
) =
1
2
, si ha (d
2
) = E
P
(L
d
2
) + Var
P
(L
d
2
) =
5 <
13
2
=
5
2
+ 4 = E
P
(L
d
1
) + Var
P
(L
d
1
) = (d
1
).
26
Una giusticazione del criterio pu` o ottenersi ricorrendo alla teoria dei giochi. Conside-
riamo infatti il gioco a somma nulla, avente la Natura come primo giocatore e DM come
secondo, nel quale le strategie della Natura sono gli stati, quelle del decisore le regole di
decisione e la funzione di vincita (della Natura) la funzione v(, ) = R

(). Allora le regole


ottime (secondo il criterio minimax) coincidono con le strategie prudenti di DM che sono
anche sue strategie di equilibrio (se il gioco ammette equilibri di Nash). Conseguentemente,
il decisore sar`a portato ad adottare il criterio del minimax ogniqualvolta ritenga la Natura
un avversario intenzionato ad arrecargli il massimo danno (medio) possibile.
Il criterio del minimax, introdotto nel 1933 da Jerzy Neyman e Egon S. Pearson
nellambito della teoria dei test, svolge un ruolo fondamentale nellassestamento con-
cettuale della statistica matematica operato da Wald negli anni dal 1939 al 1950. La
connessione con i giochi a somma nulla sopra richiamata `e stata rilevata da Wald nel
1945, immediatamente dopo luscita del celebre trattato dedicato alla teoria dei giochi di
von Neumann, J. - Morgenstern, O., Theory of Games and Economic Behavior, Princenton
University Press, Princenton (1944).
2.4. INDICI DI PREFERIBILIT
`
A 69
d
0
d
1
. . . d
n
. . .

1
1
1
2
. . .
1
2
n
. . .

2
0 2 +
1
3
. . . 2 +
1
3
n
. . .
.
Conseguentemente, le relative decisioni ottime sono d
1
per (i)
27
; d
1
per (ii); d
0
per (iii).
Al ne di introdurre indici di preferibilit` a che, a dierenza dei precedenti, tengano
conto di tutti i possibili valori delle funzioni di rischio e non solamente di quelli estremi,
consideriamo una misura di probabilit` a P sulla -algebra T .
(iv) Criterio del valor medio Si pone () = E
P
(R

) =
_

dP per ogni . Il
criterio, gi` a proposto nel primo trattato di calcolo delle probabilit` a (Christiaan Huygens,
Ratiociniis in aleae ludo (1657)), sostituisce quindi lincertezza sui danni medi con il loro
valore atteso. Conseguentemente, le relative regole ottime assicurano a DM di incorrere
al pi` u nella minima media dei danni medi.
Applicando il criterio alle situazioni considerate nellEsempio 2.2.2 con P(
1
) = ,
otteniamo che, nella situazione (ii), le decisioni ottime sono d
1
, se <
3
4
, e d
1
, d
3
, se
=
3
4
, e d
3
, se >
3
4
. Per quanto riguarda invece la situazione (iii), esistono decisioni
ottime (e precisamente d
0
) solamente nel caso
2
3
.
(v) Criterio della soglia critica Si sceglie una soglia > 0 e si pone () =
P(R

> ) per ogni . Il criterio sostituisce quindi lincertezza sui danni medi con la
probabilit` a che essi superino la soglia considerata. Conseguentemente, le relative regole
ottime consentono a DM di garantirsi la minima probabilit` a di superare tale soglia
28
.
Applicando il criterio allEsempio 2.2.2, con =
21
10
e probabilit` a positiva in ogni stato,
otteniamo che le decisioni ottime sono d
1
per (i); d
1
per (ii); d
n
(n 4) per (iii).
(vi) Criterio di Hodges-Lehmann (1952) Si sceglie [0, 1] e si pone () =
E
P
(R

) + (1 ) sup

() per ogni . Il criterio sostituisce quindi lincertezza sui


danni medi con la mistura (di peso ) della media dei danni medi e del massimo danno
medio
29
.
Applicando il criterio allEsempio 2.2.2(ii) con P(
1
) =
7
8
, otteniamo che le decisioni
ottime sono d
1
, se <
4
5
, e d
1
, d
3
, se =
4
5
, e d
3
, se >
4
5
.
27
Ottenendo cos` una soluzione pi` u naturale di quella (pari a d
2
) fornita dal criterio
minimax. Infatti, d
1
sembra pi` u appetibile di d
2
in quanto, a fronte della perdita certa
pari a 1000 (relativa a d
2
), assicura una perdita nulla in corrispondenza a
2
, contro un
incremento di perdita unitario in corrispondenza a
1
.
28
Interpretate le funzioni di rischio come danni monetari medi e la soglia come il livello
che non deve essere superato per evitare il fallimento, le regole ottime sono quelle a cui
corrisponde la massima probabilit` a di non incorrere nel fallimento.
29
Una giusticazione intuitiva del criterio pu` o ottenersi osservando che, in generale, le
opinioni che DM ha sullo stato di natura non sono in grado di individuare una precisa
misura di probabilit` a su T , ma solamente alcune sue propriet` a (come, ad esempio, alcuni
suoi momenti). Conseguentemente, il parametro pu` o essere inteso come una misura
del grado di ducia che DM (sulla base del suo stato dinformazione) ha sulla capacit` a
della probabilit` a P di descrivere lincertezza connessa allo stato di natura. Se la ducia
`e massima (e questo avviene quando lo stato dinformazione individua P), DM adotta il
criterio del valor medio ( = 1), mentre, man mano che tale ducia decresce, DM `e sempre
pi` u propenso a scegliere il meno peggio, cio`e il criterio del minimax ( = 0).
70 CAPITOLO 2. DECISIONI STATISTICHE
Considerato un indice di preferibilit`a , non esiste (in generale) alcun
legame tra le regole di decisione -ottime e quelle ammissibili. Infatti, con rife-
rimento al problema decisionale (senza acquisizione di dati): =
1
,
2
,
3
,
D = d
1
, d
2
, d
3
e funzione di danno data dalla tabella:
d
1
d
2
d
3

1
1 1 0

2
2 5 2

3
3 3 4
,
si ha D
+
= d
1
.d
3
. Inoltre, usando il criterio del valor medio con P(
1
) =
1
4
e
P(
3
) =
3
4
, otteniamo che le decisioni ottime sono d
1
e d
2
. Conseguentemente,
d
3
, pur essendo ammissibile, non `e ottima e d
2
, pur essendo ottima, non `e
ammissibile.
I risultati seguenti forniscono delle condizioni sucienti anch`e il procedi-
mento di minimizzazione dellindice di preferibilit` a possa essere visto come
un particolare criterio di selezione di regole ammissibili.
Teorema 2.4.3 Sia un indice di preferibilit` a tale che tutte le regole -ottime
hanno medesima funzione di rischio. Allora, ogni regola -ottima `e ammissi-
bile. In particolare, se

`e lunica regola -ottima, allora

`e ammissibile.
Dimostrazione Assumiamo (per assurdo) che la regola -ottima

non sia
ammissibile. Esiste allora una regola di decisione tale che ~

. Ne
segue R

,= R

e () (

). Pertanto, () = (

) e quindi `e una regola


-ottima avente funzione di rischio diversa da quella di

(Contraddizione!).
Al ne di ottenere due criteri di ammissibilit` a (il primo dei quali `e di
verica immediata) anche nel caso di regole ottime aventi funzioni di rischio
diverse, introduciamo due particolari tipi di indici di preferibilit` a.
Denizione 2.4.4 Un indice di preferibilit`a `e strettamente monotono
se: ~

() < (

) per ogni ,

. Inoltre, considerata una


misura su T , lindice di preferibilit` a `e -strettamente monotono se:
~

(R

< R

) > 0 () < (

) per ogni ,

.
Teorema 2.4.5 Sia un indice di preferibilit` a strettamente monotono. Allo-
ra ogni regola -ottima `e ammissibile.
2.4. INDICI DI PREFERIBILIT
`
A 71
Teorema 2.4.6 Siano una misura su T e un indice di preferibilit`a -
strettamente monotono. Allora, ogni regola -ottima `e ammissibile ogniqual-
volta sussista una delle due condizioni:
(a) () > 0 per ogni stato ;
(b) R
m
e (W ) > 0 per ogni aperto W di R
m
tale che W ,= ;
inoltre, la funzione di rischio R

`e continua per ogni


30
.
Dimostrazione Per il teorema precedente basta provare la stretta mono-
tonia dellindice . Sia quindi ~

. Allora, R

e R

) < R

) per
qualche stato

.
Assumiamo intanto (a). Da

R

< R

otteniamo 0 < (

)
(R

< R

) e quindi, per la -stretta monotonia, () < (

).
Supponiamo ora che sussista (b). Per il teorema della permanenza del
segno (la funzione R

`e continua!), da (R

)(

) < 0 otteniamo
lesistenza di un intorno aperto W di

tale che (R

)() < 0 per ogni


W. Allora, , = W R

< R

da cui, per lipotesi relativa agli


aperti, si ha 0 < (W ) (R

< R

). Ne segue, per la -stretta


monotonia, () < (

).
Concludiamo la sezione provando che gli indici di preferibilit` a a valori
niti - ottenuti considerando una probabilit` a P su T e operando una trasfor-
mazione crescente della speranza matematica - sono P-strettamente mono-
toni. Conseguentemente, nelle situazioni considerate nel teorema precedente,
la probabilit` a P pu` o essere intesa come mero strumento formale per selezio-
nare regole ammissibili (mediante il criterio del valor medio) piuttosto che
mezzo atto a rappresentare lincertezza del decisore sullo stato di natura
31
.
30
La condizione concernente gli aperti `e banalmente vericata se `e un insieme aperto
o la chiusura di un insieme aperto e `e la misura di Lebesgue m-dimensionale sui boreliani
di (come spesso avviene nelle applicazioni).
31
Allinterpretazione della probabilit` a come strumento (privo talvolta di reale signicato
per lo stato di natura) utile per individuare regole ammissibili fa riferimento limpostazione
classico-frequentista della statistica, dovuta a Ronald A. Fisher che la svilupp`o nei primi
decenni del 900. Basandosi su una concezione della probabilit` a intesa come limite (in
qualche senso) di frequenze osservabili, tale impostazione non `e in grado di strutturare
tutti i problemi statistico-decisionali in termini totalmente probabilistici, in quanto non
ogni tipo di incertezza `e ripetibile e quindi probabilizzabile (nel senso qui inteso).
Allinterpretazione della probabilit` a come mezzo atto a rappresentare lincertezza che
DM ha (in base al suo stato dinformazione) nei riguardi di un dato fenomeno fa invece
72 CAPITOLO 2. DECISIONI STATISTICHE
Teorema 2.4.7 Data una misura su T , sia : R R una funzione
crescente tale che le funzioni composte (R

) risultino tutte -integrabili.


Allora, lindice di preferibilit` a cos` denito:
() =
_

(R

()) (d) R
per ogni , `e -strettamente monotono
32
.
Dimostrazione Sia ~

e (R

< R

) > 0. Allora, R

e quindi
(

) () =
_

(R

) d
_

(R

) d
=
_

[(R

) (R

)] d =
_
{R

<R

}
[(R

) (R

)] d > 0,
tenendo presente la linearit`a dellintegrale e il Teorema A.3.6(vi).
2.5 Regole di decisione bayesiane
Tra i vari criteri considerati nellEsempio 2.4.2, di particolare importanza
`e quello del valor medio in quanto `e lunico criterio che pu` o ritenersi coe-
rente con limpostazione bayesiana della statistica. Infatti, supposto che
DM, seguendo lo schema di Bayes (Sezione B.2.4), esprima le sue opinioni
sullo stato di natura tramite una densit` a iniziale (rispetto alla misura di
riferimento -nita su T ) e consideri sulla -algebra prodotto la probabilit` a
P
(sb)
cos` denita:
P
(sb)
(

A) =
_

A
f

(x)() (d dx)
riferimento limpostazione neo-bayesiana (brevemente bayesiana) della statistica, es-
senzialmente dovuta a Bruno de Finetti che la svilupp` o nella prima met` a del 900. Tale
impostazione, basandosi su una concezione della probabilit` a intesa come grado di ducia
soggettivo sul vericarsi degli eventi, non richiede che lincertezza abbia una natura par-
ticolare e quindi `e in grado di fornire uno sviluppo totalmente probabilistico dei problemi
statistico-decisionali. Non va peraltro taciuto che la richiesta di tradurre lincertezza sullo
stato di natura in una ben precisata distribuzione di probabilit` a non `e sempre facilmente at-
tuabile nellusuale pratica statistica (specialmente nel caso multidimensionale ove lo stato
di natura potrebbe essere un vettore aleatorio con un numero elevato di componenti).
32
Conseguentemente, nel caso particolare che sia una probabilit` a, si ottiene un indice
-strettamente monotono associando ad ogni funzione di rischio R

il suo momento n-simo


E

(R
n

).
2.5. REGOLE DI DECISIONE BAYESIANE 73
per ogni

A T , scegliamo unarbitraria regola di decisione . Rimane
allora individuata una particolare lotteria: precisamente la legge
()
di (, ):

()
(C) = P
(sb)
((, ) C)
per ogni C (. Per quanto riguarda la sua utilit` a attesa, tramite il teorema
fondamentale del calcolo delle probabilit` a e quello di Tonelli, si ha
E

() (u) =
_
C
ud
()
=
_
X
u((, (x))) P
(sb)
(d dx)
=
_

_
_
X
u((, (x)))f

(x) (dx)
_
() (d)
=
_

_
_
X
L(, (x)) P

(dx)
_
() (d) =
_

()() (d).
Supposto inne, come gi` a fatto allinizio del capitolo per giusticare lintrodu-
zione della funzione di rischio, che DM consideri equivalenti due regole di
decisione che hanno la medesima legge, DM sar` a indotto ad esprimere la
relazione di preferenza _

su tali regole tramite la relazione di preferenza _

denita sulle lotterie. Si avr` a quindi

1
_


2
E

(
1
) (u) E

(
2
) (u)
_

1
d
_

2
d.
Pertanto DM, per confrontare regole di decisione, ricorrer` a al confronto dei
valori medi delle corrispondenti funzioni di rischio (calcolati con la probabi-
lit`a generata dalla densit` a iniziale). Possiamo dunque concludere che, nella
impostazione bayesiana, DM `e forzato ad usare il criterio del valor medio
per scegliere una regola di decisione buona.
Le considerazioni svolte giusticano la prossima denizione che introduce
la nozione centrale di regola di decisione bayesiana.
Denizione 2.5.1 Data una probabilit` a P su T :
- il rischio di Bayes di P `e la quantit` a (P) = inf

E
P
(R

) 0
33
;
33
Riferendoci allimpostazione bayesiana, dal teorema di Tonelli otteniamo
E
P
(R

) =
_

_
_
X
L(, )f

d
_
() (d) =
_
X
L(, (x))f

(x)() (d dx)
e quindi il rischio di Bayes pu`o interpretarsi come danno medio ineliminabile connesso
con lesperimento statistico e le opinioni pre-sperimentali di DM sullo stato di natura.
74 CAPITOLO 2. DECISIONI STATISTICHE
- una regola (di decisione) bayesiana per P `e ogni regola di decisiona

tale che (P) = E


P
(R

) < +
34
.
Inoltre, una regola (di decisione) bayesiana `e una qualsiasi regola di
decisione che `e bayesiana per qualche probabilit` a P su T .
Mostriamo ora che le regole bayesiane per una data probabilit` a P possono
anche non esistere e che i test di Neyman-Pearson sono esempi di regole
bayesiane nel problema della verica dipotesi semplici.
Esempio 2.5.2 (i) Considerato il problema decisionale (senza acquisizione di dati): D =
= N e funzione di danno:
L(, 0) = 1, L(, n) =
_
0 se n
2 se > n
(n 1),
sia P una probabilit` a su N tale che
k
= P(k) > 0 per ogni k N. Riesce allora
E
P
(L
k
) =
_
1 se k = 0
2

n>k

n
> 0 se k 1
e quindi lim
k+
E
P
(L
k
) = 0. Conseguentemente, non esistono regole bayesiane per P.
(ii) Con riferimento al problema della verica dipotesi semplici, consideriamo una
distribuzione di probabilit` a P su e poniamo = P(
0
). Dato un test , da (2.4)
(ponendo K
i
= k
i
(
j
) (j ,= i; i = 0, 1)) risulta allora
E
P
(R

) = K
1

(
0
) +K
0
_
1

(
1
)

(1 ) = K
0
(1 ) +K
1

(
0
) K
0
(1 )

(
1
)
= K
0
(1 ) +K
1

_
X
()
1
f

0
d K
0
(1 )
_
X
()
1
f

1
d
= K
0
(1 ) +
_
X
()
1
_
K
1
f

0
K
0
(1 )f

d
= K
0
(1 ) +
_
X
_
K
1
f

0
K
0
(1 )f

I
X
()
1
d.
Per ottenere un test bayesiano per P, basta dunque considerare (per la monotonia dellinte-
grale) un test che minimizzi la funzione
_
K
1
f

0
K
0
(1 )f

I
X
()
1
. Ora, posto g =
K
1
f

0
K
0
(1 )f

1
, si ha
_
K
1
f

0
K
0
(1 )f

I
X
()
1
= (g
+
g

)I
X
()
1
= g
+
I
X
)
1
g

I
X
()
1
e quindi la funzione in oggetto sar` a minimizzata se g
+
I
X
()
1
= 0 e g

I
X
()
1
= g

. Pertanto,
ogni test

tale che g < 0 X


(

)
1
e g > 0 X
(

)
0
`e un test bayesiano per P.
34
Cio`e, ogni regola di decisione con rischio medio nito che sia ottima rispetto al criterio
del valor medio.
2.5. REGOLE DI DECISIONE BAYESIANE 75
Ci`o osservato, supponiamo intanto = 1. Allora, g = K
1
f

0
e quindi f

0
= 0
X
(

)
1
,= o X
(

)
1
= . Conseguentemente, il test di Neyman-Pearson
(+)
`e un test
bayesiano per la probabilit` a che concentra lintera massa in
0
. Sia ora < 1. Allora,
g = K
0
(1 )
_
K
1

K
0
(1 )
f

0
f

1
_
e quindi
_
f
1
>
K
1

K
0
(1 )
f
0
_
X
(

)
1
,
_
f
1
<
K
1

K
0
(1 )
f
0
_
X
(

)
0
.
Conseguentemente, considerato un numero reale t 0, il test di Neyman-Pearson
(t)
`e
un test bayesiano per la probabilit` a che concentra massa
K
0
t
K
0
t+K
1
in
0
.
Il teorema seguente fornisce una condizione geometrica per lesistenza,
nel caso di spazi parametrici niti, di regole bayesiane per ogni probabilit` a
che concentra massa positiva su ogni stato.
Teorema 2.5.3 Supposto nito, assumiamo che linsieme di rischio in-
cluda la sua chiusura inferiore. Allora, per ogni probabilit` a P tale che P() >
0 per ogni stato , esistono regole bayesiane per P.
Dimostrazione Posto =
1
, . . . ,
m
, sia
i
= P(
i
) > 0 (i = 1, . . . , m).
Allora, per ogni , si ha E
P
(R

) =
1
y
()
1
+ +
m
y
()
m
. Conseguentemente,
considerata la funzione f : y
1
y
1
+ +
m
y
m
, bisogna provare che
linsieme-immagine f(R) [0, +[ ammette minimo. A tal ne, poniamo
= inf f(R).
Sia ora (y
(n)
)
n1
una successione in R tale che f(y
(n)
) come n
+. Allora, la successione `e superiormente limitata. Infatti, supposto, per
assurdo, che per ogni n esistano due numeri naturali h
n
, k
n
tali che y
(h
n
)
k
n
> n,
otteniamo lim
n+
y
(h
n
)
k
n
= +. Allora, dalla
f(y
(h
n
)
) =
k
n
1

i=1

i
y
(h
n
)
i
+
k
n
y
(h
n
)
k
n
+
m

i=k
n
+1

i
y
(h
n
)
i

k
n
y
(h
n
)
k
n
si ha = lim
n+
f(y
(h
n
)
) lim
n+

k
n
y
(h
n
)
k
n
= + (Contraddizione!).
Poich`e la successione `e anche inferiormente limitata (essendo in R), esiste
una sottosuccessione (y
(i
n
)
)
n1
convergente a qualche m-pla y

. Chiaramente
y

R; inoltre, f(y

) = lim
n+
f(y
(i
n
)
) = lim
n+
f(y
(n)
) = (f `e una funzione
76 CAPITOLO 2. DECISIONI STATISTICHE
continua!). Ne segue y


L
R. Infatti, esista (per assurdo) y R tale
che y < y

. Allora y
i
y

i
(i = 1, . . . , m) e y
j
< y

j
per qualche j. Riesce
pertanto inf f(R) = = f(y

) =

m
i=1

i
y

i
>

m
i=1

i
y
i
= f(y) f(R)
(Contraddizione!).
Ora, per lipotesi
L
R R, esiste una regola di decisione

tale che
y
(

)
= y

. Allora, f(y
(

)
) = e quindi

`e una regola bayesiana per P.


Come gi` a osservato, il criterio del valor medio pu` o essere utilmente uti-
lizzato per individuare, nelle situazioni considerate nel Teorema 2.4.6, regole
ammissibili. Viene allora naturale chiedersi se questa metodologia sia (per
lammissibilit`a) anche esaustiva, nel senso che per ogni regola ammissibile `e
possibile specicare una probabilit` a P su T rispetto alla quale `e bayesiana.
Per mostrare che (in generale) la risposta `e negativa, consideriamo il proble-
ma decisionale (senza acquisizione di dati): =
1
,
2
, D = d
1
, d
2
, d
3
e
funzione di danno data dalla tabella:
d
1
d
2
d
3

1
1 0
1
2

2
0 1
3
4
.
Allora, la decisione d
3
, pur essendo ammissibile, non `e (come facilmente si
verica) bayesiana.
Proviamo ora che, per spazi parametrici niti, la convessit` a dellinsieme
di rischio `e una condizione suciente anch`e ogni regola ammissibile sia
bayesiana.
Teorema 2.5.4 Supposto nito, sia linsieme di rischio convesso. Allora,
ogni regola ammissibile `e bayesiana.
Dimostrazione Posto =
1
, . . . ,
m
, sia

una regola ammissibile. Al-


lora, per il Teorema 2.2.9(i), y
(

)
= (y

1
, . . . , y

m
)
L
R. Pertanto linsieme
y : y y
(

)
risulta disgiunto da R. Notato che tali insiemi sono convessi,
per il teorema delliperpiano separatore
35
, esistono una m-pla a ,= 0 e un
35
Per teorema delliperpiano separatore intendiamo il seguente risultato: Siano B

, B

,=
due sottoinsiemi convessi e disgiunti di '
m
. Esistono allora una m-pla a ,= 0 e un numero
reale tali che a
1
y
1
+ + a
m
y
m
, per ogni y B

, e a
1
y
1
+ + a
m
y
m
, per
ogni y B

(per una dimostrazione si veda Bazaraa, M.S.-Sherali, H.D.-Shetty, C.M.,


Nonlinear Programming. Theory and Algorithms (Second Edition), John Wiley, New York
(1979), teorema 2.4.8).
2.5. REGOLE DI DECISIONE BAYESIANE 77
numero reale tali che
a
1
y
()
1
+ + a
m
y
()
m
, per ogni (2.12)
a
1
y
1
+ + a
m
y
m
, per ogni y y
(

)
. (2.13)
Per provare che
a
1
y

1
+ + a
m
y

m
= (2.14)
consideriamo un numero reale > 0. Allora (y

1
, . . . , y

m
) y
(

)
da
cui, tramite (2.13), otteniamo a
1
y

1
+ +a
m
y

m
(a
1
+ +a
m
) . Ne
segue, passando al limite per 0
+
, a
1
y

1
+ + a
m
y

m
e quindi, per
(2.12), a
1
y

1
+ + a
m
y

m
= .
Per provare che riesce a 0, sia (per assurdo) a
j
< 0 per qualche j. Dato
n, si ha (y

1
1, . . . , y

j1
1, y

j
n, y

j+1
1, . . . , y

m
1) y
(

)
da cui, per
(2.13), risulta

i=j
a
i
(y

i
1) +a
j
(y

j
n) .
Tenuto conto della a
j
< 0, riesce allora
lim
n+
_

i=j
a
i
(y

i
1) +a
j
(y

j
n)

= +
ottenendo cos` una contraddizione.
Sia ora P la distribuzione di probabilit` a sugli stati tale che:

i
= P(
i
) =
a
i
a
1
+ + a
m
(i = 1, . . . , m).
Considerata una regola , da (2.12), (2.14) otteniamo
E
P
(R

) = p
1
y
()
1
+ + p
m
y
()
m
=
a
1
y
()
1
+ + a
m
y
()
m
a
1
+ + a
m


a
1
+ + a
m
=
a
1
y

1
+ + a
m
y

m
a
1
+ + a
m
= p
1
y

1
+ + p
m
y

m
= E
P
(R

).
Conseguentemente, data larbitrariet` a di , la regola

`e bayesiana per P.
78 CAPITOLO 2. DECISIONI STATISTICHE
Conseguenza immediata del teorema appena provato e del Teorema 2.2.11
`e il seguente importante risultato che delinea una situazione nella quale la
classe bayesiana (cio`e linsieme delle regole bayesiane) `e una classe com-
pleta. In tale contesto DM (per risolvere il problema decisionale) pu` o dunque
limitare la ricerca di un comportamento che, per i suoi scopi, sia il migliore
possibile nellambito delle regole bayesiane.
Teorema 2.5.5 (della classe completa) Supposto nito, sia linsieme
di rischio un insieme convesso che includa la sua chiusura inferiore. Allo-
ra la classe bayesiana `e una classe completa che include la classe completa
minimale delle regole ammissibili.
2.6 Regole bayesiane formali
Poich`e la classe bayesiana svolge, come abbiamo constatato, un ruolo centrale
nei problemi statistico-decisionali, viene naturale cercare di individuarne gli
elementi tramite un procedimento che risulti, in qualche modo, costruttivo.
A tal ne, consideriamo una probabilit` a iniziale P avente come funzione
di densit`a rispetto a una pressata misura di riferimento -nita su T .
Seguendo lo schema di Bayes (Sezione B.2.4), possiamo allora introdurre la
probabilit`a predittiva P
(pr)
individuata dalla -densit`a:
p(x) =
_

(x)() (d)
e, per ogni campione x, la probabilit`a nale P([x) generata dalla -densit`a:
([x) =
_
f

(x)
p(x)
() se 0 < p(x) < +
() altrimenti
.
Supposto, come peraltro gi` a fatto, che la funzione L
d
sia T -Borel misurabile,
consideriamo inoltre, per ogni decisione d e campione x, il danno medio
nale di d relativo a x:

P
(d[x) =
_

L(, d)P(d[x) =
_

L(, d)([x) (d).


Siamo cos` in grado di introdurre, ricorrendo al criterio del valor medio, un
particolare tipo di comportamento da parte di DM: quello di associare ad
ogni campione una decisione che minimizza il danno medio nale relativo a
quel campione.
2.6. REGOLE BAYESIANE FORMALI 79
Denizione 2.6.1 Una funzione di decisione `e una qualsiasi applicazione
: X D appartenente o no a . Inoltre, una funzione di decisione `e una
regola bayesiana formale (per P) se
P
((x)[x) = inf
dD

P
(d[x) < + per
ogni campione x
36
.
Il prossimo esempio mette in evidenza che lappartenenza di una regola
bayesiana formale a non implica necessariamente che sia bayesiana e nep-
pure che sia ammissibile.
Esempio 2.6.2 (Berger, 1985) Posto = D = R, siano losservabile costituito da una
v.a. X distribuita secondo la normale N(, 1) in corrispondenza ad ogni stato e la densit`a
iniziale quella della normale N(0, 1). Allora, per lEsempio B.2.18(ii),
([x) =
1

exp
_

_

x
2
_
2
_
per ogni stato e campione x. Conseguentemente, scelta come funzione di danno la
trasformata del danno quadratico:
L(, d) = ( d)
2
exp
_
3
2
4
_
,
36
Allinizio della sezione precedente, abbiamo appurato che il criterio del valor medio
`e lunico coerente con limpostazione bayesiana della statistica. Conseguentemente, sup-
posto che DM aggiorni le sue opinioni pre-sperimentali basandosi unicamente sulla
conoscenza di quale campione si `e realizzato e nullaltro in pi` u sostituendo la probabilit` a
iniziale con quella nale, DM sceglier` a come decisione una che minimizzi il danno medio
nale relativo al campione osservato perseguendo perci` o, in ultima analisi, un comporta-
mento prescritto da una regola bayesiana formale.
In realt` a `e bene tenere presente che lopinione post-sperimentale del decisore, indotta
dallaver osservato il campione x, non sar` a rappresentabile, salvo casi sostanzialmente ar-
ticiosi, mediante la sola densit` a nale ([x). In eetti, linformazione che DM acquisisce
dallosservazione di x non `e, in generale, limitata alla sola conoscenza della realizzazione
del campione x, ma risulter` a arricchita da ulteriori conoscenze. Ad esempio, supponiamo
che DM sia tifoso di una squadra di calcio e che ne segua settimanalmente gli impegni di
campionato. Essendo interessato allesito dellincontro previsto per la squadra tra due set-
timane, potrebbe, per migliorare il suo attuale pronostico, decidere di osservare quale delle
tre alternative, vittoria, scontta e pareggio, si realizzer`a per la squadra del cuore
nella partita relativa alla prossima settimana.
`
E evidente che, al termine dellincontro,
DM apprender` a non solo quale alternativa si `e vericata (informazione campionaria), ma
anche con quale punteggio la partita `e terminata (2-1, 2-4, 3-3, . . . ), come pure i com-
menti dei giocatori e degli allenatori; informazioni che si aggiungono a quella campionaria
e che sono indubbiamente utili ai ni del pronostico.
Queste considerazioni mettono in evidenza che, in ultima analisi, anche limpostazione
bayesiana svolge, analogamente a quella classico-frequentista, unanalisi del comporta-
mento del decisore di natura essenzialmente pre-sperimentale.
80 CAPITOLO 2. DECISIONI STATISTICHE
otteniamo, qualunque sia la decisione d,

P
(d[x) =
1

_
+

( d)
2
exp
_
3
2
4
(
x
2
)
2
_
d.
Ora, dalla
3
2
4
(
x
2
)
2
=

2
4x +x
2
4
=
(
2
4x + 4x
2
) 3x
2
4
=
3x
2
( 2x)
2
4
risulta

P
(d[x) = 2 exp
_
3x
2
4
_
_
+

( d)
2
1

4
exp
_

( 2x)
2
4
_
d.
Osservato che nellintegrale compare la densit`a della normale N(2x, 2), la funzione
P
([x)
assume, per il Corollario B.2.11, valore minimo nel punto 2x. Esiste dunque una sola
regola bayesiana formale, precisamente la regola di decisione

(x) = 2x avente funzione


di rischio
R

() =
_
+

( 2x)
2
exp
_
3
2
4
_
1

2
exp
_

(x )
2
2
_
dx = exp
_
3
2
4
_
E

_
(2X )
2

.
Ora, dalla (2X )
2
=
_
(2X 2) +

2
= 4(X )
2
+ 4(X ) +
2
otteniamo
E

_
(2X )
2

= 4E

_
(X )
2

+4 [E

(X) ] +
2
= 4Var

(X) +
2
= 4 +
2
e quindi R

() = exp
_
3
2
4
_
(4 +
2
). Allora,
E
P
(R

) =
1

2
_
+

(4 +
2
) exp
_
3
2
4


2
2
_
d =
1

2
_
+

(4 +
2
) exp
_

2
4
_
d

2
_
+

2
exp
_

2
4
_
d =
2

2
_
+
0

2
exp
_

2
4
_
d

2
_
+
1
exp
_

2
4
_
d =
4

2
exp
_

2
4
_

+
1
= +.
Conseguentemente,

non `e una regola bayesiana pur essendo una regola bayesiana for-
male. Inoltre, notato che
R

() = exp
_
3
2
4
_
(4 +
2
) > exp
_
3
2
4
_
per ogni stato , non `e neppure una regola ammissibile in quanto, come facilmente si
verica, `e dominata strettamente dallidentit`a.
Consideriamo ora una regola bayesiana formale tale che L(, ) sia T -
Borel misurabile. Allora, per il teorema di Tonelli, la funzione di rischio
2.6. REGOLE BAYESIANE FORMALI 81
R

: E

(L(, )) di `e T -Borel misurabile e quindi ammette valor medio

P
() = E
P
(R

); inoltre, ricorrendo anche al Teorema B.2.13(ii), otteniamo

P
() =
_

_
_
X
L(, (x))f

(x) (dx)
_
() (d)
=
_
X
L(, (x))f

(x)() (d dx)
=
_
X
L(, (x))([x)p(x) (d dx)
=
_
X
_
_

L(, (x))([x) (d)


_
p(x) (dx)
e quindi la formula di disintegrazione:

P
() =
_
X

p
((x)[x) p(x) (dx) =
_
X

p
((x)[x) P
(pr)
(dx) (2.15)
che consente di calcolare il danno medio misturando i danni medi nali
relativi ai campioni con la probabilit` a predittiva. Inne, data una regola
di decisione , si ha
P
((x)[x)
P
((x)[x) per ogni campione x. Allora,
per (2.15),
P
()
_
X

P
((x)[x) P
(pr)
(dx) =
P
() e quindi, tenuto conto
dellarbitrariet` a di ,

P
() inf

P
() = (P). (2.16)
Conseguentemente, nei problemi statistico-decisionali che ammettono una
regola bayesiana formale tale che
P
() = + (come avviene nellesempio
precedente), il rischio di Bayes di P `e innito e quindi non possono esistere
regole bayesiane per P.
Qualora invece il rischio di Bayes di P risulti nito, ogni regola bayesiana
formale che sia anche una regola di decisione `e, per (2.16), una regola bayesia-
na; inoltre, come messo in evidenza dal prossimo teorema (di notevole im-
portanza sia teorica che applicativa), tale regola caratterizza le regole
bayesiane, nel senso che ognuna le `e uguale a meno di un insieme di campioni
di probabilit` a predittiva nulla.
Teorema 2.6.3 Sia il rischio di Bayes di P nito. Sussistono allora le se-
guenti proposizioni:
82 CAPITOLO 2. DECISIONI STATISTICHE
(i) Sia una regola bayesiana formale per P. Allora, `e bayesiana per P
ogni regola di decisione che coincide con a meno di un insieme di
campioni di probabilit`a predittiva nulla;
(ii) Esista una regola di decisione che sia anche una regola bayesiana for-
male per P. Allora, qualunque sia la regola bayesiana

per P, ha
probabilit`a predittiva nulla linsieme x :
P
(

(x)[x) > inf


dD

P
(d[x)
dei campioni ai quali

associa una decisione che non minimizza il


relativo danno medio nale.
Dimostrazione (i) Sia

una regola di decisione tale che linsieme X


0
=

,= abbia probabilit` a predittiva nulla. Allora, da (2.15), (2.16) si ha

P
(

) =
_
X

P
(

(x)[x) P
(pr)
(dx) =
_
X
c
0

P
(

(x)[x) P
(pr)
(dx)
=
_
X
c
0

P
((x)[x) P
(pr)
(dx) =
_
X

P
((x)[x) P
(pr)
(dx)
=
P
() (P) < +
e quindi

`e una regola bayesiana per P.


(ii) Supposto che

sia una regola bayesiana formale per P, conside-


riamo una regola bayesiana

per P. Proviamo intanto che linsieme X


1
=
x :
P
(

(x)[x) > inf


dD

P
(d[x) appartiene alla -algebra . Ricordato che le
funzioni L(,

), L(,

) sono T -Borel misurabili, dal teorema di Tonelli


otteniamo la -Borel misurabilit`a delle funzioni:
x
_

L(,

(x))([x) (d) = (

(x)[x)
x
_

L(,

(x))([x) (d) = (

(x)[x).
Conseguentemente, X
1
= x :
P
(

(x)[x) >
P
(

(x)[x) .
Ora, supposto (per asssurdo) P
(pr)
(X
1
) > 0, consideriamo la funzione di
decisione:
(x) =
_

(x) se x , X
1

(x) se x X
1
.
2.6. REGOLE BAYESIANE FORMALI 83
Poich`e L(, (x)) = L(,

(x)) I
X
1
(x) +L(,

(x)) I
X
c
1
(x) per ogni campione x,
la funzione L(, ) `e T -Borel misurabile (Lemma A.5.1(iii)) e inoltre
R

() = E

_
L(,

) I
X
1
_
+E

_
L(,

) I
X
c
1
_
E

_
L(,

)
_
+E

_
L(,

)
_
= R

() + R

() < +
per ogni stato . Dunque, `e una regola di decisione. Passando a considerare
il relativo danno medio, da (2.15) si ha

P
() =
_
X
1

P
((x)[x) P
(pr)
(dx) +
_
X
c
1

P
((x)[x) P
(pr)
(dx)
=
_
X
1

P
(

(x)[x) P
(pr)
(dx) +
_
X
c
1

P
(

(x)[x) P
(pr)
(dx)
<
_
X
1

P
(

(x)[x) P
(pr)
(dx) +
_
X
c
1

P
(

(x)[x) P
(pr)
(dx)
=
_
X

P
(

(x)[x) P
(pr)
(dx) =
P
(

),
ove la disuguaglianza sussiste in forza del Teorema A.3.6(vi), notato che

P
(

(x)[x) >
P
(

(x)[x) per ogni x X


1
e
_
X
1

P
(

(x)[x) P
(pr)
(dx) < +.
Ricordato inne che e che

`e una regola bayesiana per P, otteniamo

P
() <
P
(

)
P
() (Contraddizione!).
Data la loro importanza pratica, nelle sottosezioni seguenti (ove

P denota
una probabilit` a iniziale qualsiasi) vengono riportate, indipendentemente dalla
specica forma funzionale della densit` a iniziale, le regole bayesiane formali
relative ad alcune funzioni di danno standard.
2.6.1 Regole bayesiane formali nella stima puntuale
Supposto D R con Dintervallo (limitato o no), assumiamo che il valor
medio E

P
(Z) =
_

P(d) sia nito. Allora, per linternalit` a della speranza


matematica, E

P
(Z) D. Ci`o precisato, andiamo a determinare le regole
bayesiane formali relative ai danni quadratico, lineare e assoluto.
Danno quadratico Supposto che anche il momento secondo E

P
(Z
2
) =
_

P(d) sia nito, dal Corollario B.2.11, otteniamo che il valor medio
E

P
(Z) `e lunico punto di minimo della funzione d E

P
(L
d
). Ci`o osservato,
proviamo il teorema seguente.
84 CAPITOLO 2. DECISIONI STATISTICHE
Teorema 2.6.4 Il momento secondo nale E
P
(Z
2
[x) = E
P(|x)
(Z
2
) sia nito
per ogni campione x. Allora, la funzione
(P)
(x) = E
P
(Z[x) = E
P(|x)
(Z), che
associa ad ogni campione il valor medio nale dello stato di natura relativo a
quel campione, `e lunica regola bayesiana formale. Inoltre, posto Var
P
(Z[x) =
_

[
(P)
(x)]
2
P(d[x) per ogni campione x, si ha

P
(
(P)
) =
_
X
Var
P
(Z[x) P
(pr)
(dx)
e quindi il danno medio relativo alla regola bayesiana formale si ottiene mi-
sturando le varianze nali dello stato di natura con la probabilit` a predittiva.
Dimostrazione Ponendo

P = P([x) al variare del campione x, otteniamo
intanto che
(P)
`e lunica regola bayesiana formale. Inoltre, osservato che, per
il teorema di Fubini A.5.5,
(P)
`e -Borel misurabile, dal Teorema A.5.1(iii)
risulta la T -Borel misurabilit`a di L(,
(P)
). Da (2.15) si ha allora

P
(
(P)
) =
_
X

P
(
(P)
(x)[x) P
(pr)
(dx) =
_
X
_
_

L(,
(P)
(x)) P(d[x)
_
P
(pr)
(dx)
=
_
X
_
_

_

(P)
(x)

2
P(d[x)
_
P
(pr)
(dx).
La dimostrazione `e cos` conclusa.
Danno lineare Sia d

un quantile di livello k relativo a



P, cio`e
tale che

P(] , d

]) k e

P([d

, +[) 1 k. Per provare che d

mini-
mizza la funzione d E

P
(L
d
) basta vericare, essendo i danni medi E

P
(L
d
),
E

P
(L
d
) niti (E

P
(Z) nita!), la disuguaglianza:
E

P
(L
d
) E

P
(L
d
) = E

P
(L
d
L
d
) 0. (2.17)
Sia intanto d > d

. Riesce allora
L
d
() L
d
() =
_

_
(1 k)(d d

) se d

k(d

d) + d se d

< d
k(d

d) se > d
= k(d

d) +
_

_
d d

se d

d se d

< d
0 se > d
2.6. REGOLE BAYESIANE FORMALI 85
qualunque sia lo stato . Ne segue
E

P
(L
d
L
d
) = k(d

d) + (d d

P(] , d

]) +
_
]d

,d ]
(d )

P(d)
k(d

d) + (d d

P(] , d

])
k(d

d) + k(d d

) = 0,
ricordato che

P(] , d

]) k. Assunto ora d < d

si ha
L
d
() L
d
() =
_

_
(1 k)(d d

) se d
k(d

d) + d

se d < < d

k(d

d) se d

= k(d

d) +
_

_
d d

se d
d

se d < < d

0 se d

qualunque sia lo stato . Ne segue


E

P
(L
d
L
d
) = k(d

d) + (d d

P(] , d]) +
_
]d,d

[
( d

P(d)
k(d

d) + (d d

P(] , d]) + (d d

P(]d, d

[)
= k(d

d) + (d d

P(] , d

[)
e quindi
E

P
(L
d
L
d
) k(d

d) + (d d

)
_
1

P([d

, +[)

k(d

d) + k(d d

) = 0,
ricordato che

P([d

, +[) 1 k e d d

< 0. La dimostrazione della


disuguaglianza (2.17) `e cos` conclusa. Sussiste pertanto il risultato seguente.
Teorema 2.6.5 Il valor medio nale E
P
(Z[x) sia nito per ogni campione
x. Allora, una funzione di decisione che associa ad ogni campione x un quan-
tile di livello k della distribuzione nale relativa a x `e una regola bayesiana
formale.
Danno assoluto Ponendo, in particolare, k =
1
2
nella funzione di danno
lineare, dal teorema precedente otteniamo che sono regole bayesiane formali
tutte le funzioni di decisione che associano ad ogni campione x una mediana
della distribuzione nale relativa a x.
86 CAPITOLO 2. DECISIONI STATISTICHE
Nellesempio seguente troviamo le regole bayesiane e il rischio di Bayes
relativi ai campionamenti di Bernoulli e normale (con media incognita), nel-
lipotesi che vengano scelte densit` a iniziali appartenenti alle classi coniugate
delle rispettive densit`a di campionamento e si adotti, per il primo campio-
namento, il danno quadratico e per il secondo sia quello quadratico che as-
soluto.
Esempio 2.6.6 (i) Posto = D = [0, 1], sia losservabile costituito dalle v.a. X
1
, . . . , X
n
indipendenti e distribuite secondo la distribuzione di Bernoulli Ber() in corrispondenza ad
ogni stato . Scelta come densit`a iniziale quella della distribuzione Beta(, ), dallEsempio
B.2.18(i) otteniamo che la densit`a nale relativa a x `e quella della distribuzione Beta(+
n x, +n(1 x)). Allora, la regola di decisione:

(,)
n
(x) =
n x +
+ +n
(2.18)
`e, per il Teorema 2.6.4, lunica regola bayesiana formale
37
. Inoltre, `e anche uno stimatore.
Infatti, posto

=
(,)
n
, si ha
38
Var

) =
n
2
(n + + 1)
2
Var

X) =
n
2
(n + + 1)
2

( + + 1)( +)
2
Bias

) = E

) =
nE

X) +
+ + 1
=
n

+
+
+ + 1
e quindi, per (2.2), MSE

() = Var

) + Bias

)
2
R.
Conseguentemente, per il Teorema 2.6.3,
(,)
n
`e anche uno stimatore bayesiano; inol-
tre, ogni altro stimatore bayesiano pu` o essere ottenuto modicando opportunamente
(,)
n
su un insieme di probabilit` a predittiva nulla (come lo sono, ad esempio, gli insiemi discreti
e linsieme continuo di Cantor). Inne, osservato che gli errori quadratici medi
MSE

() =

xX
L(, (x))
n x
(1 )
n(1 x)
sono delle funzioni continue, che lindice di preferibilit` a individuato dalla speranza matema-
tica `e P-strettamente monotono (Teorema 2.4.7) e che la probabilit` a P verica la situazione
(b) del Teorema 2.4.6, possiamo concludere che tutti gli stimatori bayesiani sono delle re-
gole ammissibili (e quindi, in particolare, anche
(,)
n
).
Passando a considerare inne il rischio di Bayes (, ) della probabilit` a iniziale, dal
Teorema 2.6.4 otteniamo
(, ) = E
P
(pr)
_
( +n

X)
_
+n(1

X)

( + +n + 1)( + +n)
2
_

( +n)( +n)
( + +n + 1)( + +n)
2
37
Ricordiamo che la distribuzione Beta(
1
,
1
) ha valor medio

1

1
+
1
e varianza

1
(
1
+
1
+1)(
1
+
1
)
2
.
38
Ricordiamo che, considerate le v.a. Y
1
, . . . , Y
n
indipendenti e equidistribuite, la media
campionaria

Y ha valor medio E(

Y) = E(Y
1
) e varianza Var(

Y) =
Var(Y
1
)
n
.
2.6. REGOLE BAYESIANE FORMALI 87
e quindi il danno medio ineliminabile `e un innitesimo al divergere del numero delle os-
servazioni.
(ii) Posto = D = R, sia losservabile costituito dalle v.a. X
1
, . . . , X
n
indipendenti
e distribuite secondo la normale N(,
2
) in corrispondenza ad ogni stato . Scelta come
densit`a iniziale quella della normale N(,
2
), dallEsempio B.2.18(ii) otteniamo che la
densit`a nale relativa a x `e quella della normale N(
n
(x),
2
n
), con

n
(x) =
_

2
+
n x

2
_

2
n
,
2
n
=
_
1

2
+
n

2
_
1
.
Allora, la funzione di decisione:

(,
2
)
n
(x) =
n
(x) =
n

2
x +
1

2
+
1

2
=
n
2
x +
2

n
2
+
2
, (2.19)
ottenuta facendo la media aritmetica ponderata della media campionaria e del valor medio
iniziale dello stato di natura, `e lunica regola bayesiana formale (Teorema 2.6.4). Inoltre,
`e anche uno stimatore. Infatti, posto

=
(,
2
)
n
, si ha
Var

) =
n
2

4
(n
2
+
2
)
2
Var

X) =
n
2

4
(n
2
+
2
)
2

2
n
Bias

) = E

) =
n
2
E

X) +
2

n
2
+
2
=
n
2
+
2

n
2
+
2
e quindi, per (2.2), MSE

() = Var

) + Bias

)
2
R.
Conseguentemente, per il Teorema 2.6.3,
(,
2
)
n
`e anche uno stimatore bayesiano;
inoltre, ogni altro stimatore bayesiano pu` o essere ottenuto modicando opportunamente

(,
2
)
n
su un insieme di probabilit` a predittiva nulla. Inne, ricordato che lindice di preferi-
bilit` a individuato dalla speranza matematica `e P-strettamente monotono (Teorema 2.4.7),
che le funzioni di rischio degli stimatori sono funzioni continue (Esempio 2.1.3(ii)) e che la
probabilit` a P verica la situazione (b) del Teorema 2.4.6, possiamo concludere che tutti
gli stimatori bayesiani sono ammissibili (e quindi, in particolare, anche
(,
2
)
n
).
Passando a considerare inne il rischio di Bayes (,
2
) della probabilit` a iniziale, dal
Teorema 2.6.4 otteniamo
(,
2
) =
2
n
=

2

2
+n
2
(2.20)
e quindi il danno medio ineliminabile `e un innitesimo al divergere del numero delle os-
servazioni.
(iii) Con riferimento al campionamento considerato in (ii), assumiamo al posto del
danno quadratico quello assoluto. Allora, per la simmetria della distribuzione normale,

=
(,
2
)
n
`e una regola bayesiana che `e anche lunica regola bayesiana formale. Ci`o
osservato, dato un campione x, risulta

P
(

(x)[x) =
_


n
(x)

P(d[x) =
1
_
2
2
n
_
+


n
(x)

exp
_

(
n
(x))
2
2
2
n
_
d.
88 CAPITOLO 2. DECISIONI STATISTICHE
Considerata la traslazione :
n
(x) della retta reale, dal Corollario A.4.2 si ha

P
(

(x)[x) =
1
_
2
2
n
_
+

[[ exp
_


2
2
2
n
_
d
e quindi, per la simmetria della distribuzione normale,

P
(

(x)[x) =
2
_
2
2
n
_
+
0
exp
_


2
2
2
n
_
d =
2
2
n
_
2
2
n
exp
_


2
2
2
n
_

+
0
=
2
2
n
_
2
2
n
=
_
2
2
n

2
2

2
(
2
+n
2
)
.
Ne segue, tramite (2.15), che
_
2
2

2
(
2
+n
2
)
`e il rischio di Bayes della probabilit`a iniziale.
Nei problemi di stima puntuale appare naturale richiedere che lo stimatore
non produca deviazioni sistematiche rispetto allo stato di natura. Ne viene
che, negli usuali problemi di stima di un parametro reale, si considerano di
norma stimatori non distorti, cio`e tali che E

() = per ogni stato


39
.
Il prossimo teorema mostra che lesistenza di uno stimatore che sia baye-
siano formale e non distorto `e una situazione ideale, nellambito del danno
quadratico, in quanto assicura un rischio di Bayes nullo.
Teorema 2.6.7 Sia
1
uno stimatore -Borel misurabile, non distorto e
bayesiano formale per P rispetto al danno quadratico. Inoltre, sia E
P
(Z
2
)
nita. Allora, (P) = 0.
Dimostrazione Indicata con P la probabilit` a dello schema di Bayes P
(sb)
,
dal teorema di Tonelli e (2.16) otteniamo
(P) =
P
(
1
) =
_

_
_
X
L(,
1
(x))f

(x) (dx)
_
() (d)
=
_
X
L(,
1
(x))f

(x)() (d dx)
=
_
X
(
1
(x))
2
P(d dx) = E
P
((Z
1
)
2
).
39
Ottenendo cos` sia un buon comportamento in media che una semplicazione del-
lerrore quadratico medio che viene, per (2.2), a coincidere su ogni stato con la varianza
dello stimatore relativa a quello stato.
2.6. REGOLE BAYESIANE FORMALI 89
Proviamo ora che esiste nita E
P
(Z
1
). Per i teoremi di Tonelli e B.2.13(ii),
E
P
(Z
2
) =
_

_
_
X
f

(x) (dx)
_

2
() (d)
=
_
X
_
_

2
([x) (d)
_
p(x) (dx) =
_
X
E
P
(Z
2
[x) P
(pr)
(dx)
e quindi, per il Teorema A.3.6(vii), P
(pr)
(X
0
) = 1, avendo posto X
0
= x :
E
P
(Z
2
[x) nita. Notato che
1
(x) = E
P
(Z[x) per ogni x X
0
(
1
stima-
tore bayesiano formale!), dal teorema di Jensen B.2.5 otteniamo
2
1
(x) =
E
P
(Z[x)
2
E
P
(Z
2
[x) per ogni x X
0
e quindi
_
X

2
1
dP
(pr)
=
_
X
0

2
1
dP
(pr)

_
X
0
E
P
(Z
2
[x) P
(pr)
(dx) =
_
X
E
P
(Z
2
[x) P
(pr)
(dx) < +.
Allora, osservato inne che per i teoremi di Tonelli e B.2.13(ii), E
P
(Z
2
) =
E
P
(Z
2
) e E
P
(
2
1
) = E
P
(pr) (
2
1
), esiste ed `e nita, per il Teorema A.3.5(iv), la
speranza matematica E
P
(Z
1
).
Riesce pertanto
(P) = E
P
((Z
1
)
2
) =
_
E
P
(Z
2
) E
P
(Z
1
)

+
_
E
P
(
2
1
) E
P
(Z
1
)

e quindi basta vericare che sono nulli i due addendi. Risulta


E
P
(Z
1
) =
_
X

1
(x)f

(x)() (d dx)
=
_

_
_
X

1
(x)f

(x) (dx)
_
P(d) =
_

(
1
) P(d)
e quindi E
P
(Z
1
) =
_

2
P(d) = E
P
(Z
2
) (
1
non distorto!). Inoltre,
E
P
(Z
1
) =
_
X

1
(x)([x)p(x) (d dx)
=
_
X
_
_

([x) (d)
_

1
(x) P
(pr)
(dx) =
_
X
E
P
(Z[x)
1
(x) P
(pr)
(dx)
e quindi E
P
(Z
1
) =
_
X

2
1
dP
(pr)
= E
P
(
2
1
).
90 CAPITOLO 2. DECISIONI STATISTICHE
Nel corso della dimostrazione si `e provato che (P) = E
P
((Z
1
)
2
).
Lannullarsi del rischio di Bayes implica quindi, per il Teorema A.3.6(v),
luguaglianza quasi certa di
1
e Z, cio`e che la stima dello stato di natura `e
quasi certamente perfetta. Poich`e una situazione cos` ottimale non `e realiz-
zabile nei problemi statistico-decisionali reali, il teorema mette in evidenza
lincompatibilit` a pratica delle due nozioni di non distorsione e di bayesianeit` a.
A titolo desempio, mostriamo che la media campionaria nel campionamento
di Bernoulli `e uno stimatore bayesiano solamente nel caso piuttosto estre-
mo che la probabilit` a iniziale concentri lintera massa sullinsieme 0, 1.
Esempio 2.6.8 Posto = D = [0, 1], sia losservabile costituito dalle v.a. X
1
, . . . , X
n
indipendenti e distribuite secondo la distribuzione di Bernoulli Ber() in corrispondenza ad
ogni stato . Osservato che la media campionaria `e uno stimatore non distorto, andiamo
a determinare le probabilit` a iniziali per le quali `e uno stimatore bayesiano formale. Per
(2.2),
P
(X) =
_
[0,1]
Var

(X) P(d) =
1
n
_
[0,1]
(1 ) P(d). Osservato che lintegrale, per
il Teorema A.3.6(vi), si annulla se e solo se P(]0, 1[) = 0, la probabilit` a P deve depositare
lintera massa su 0, 1. In questo caso, data una regola bayesiana

(formale o no), da
(2.16) otteniamo
P
(

) = MSE

(0)P(0) + MSE

(1)P(1) = 0 e quindi MSE

(i) = 0, se
P(i) > 0 (i = 0, 1). Osservato che MSE

(0) =

(0)
2
e MSE

(1) = (1

((1, . . . , 1)))
2
,
otteniamo

(0) = 0, se P(0) > 0, e

((1, . . . , 1)) = 1, se P(1) > 0. Poich`e, viceversa, per


questo tipo di probabilit` a ogni stimatore che verica queste due condizioni `e banalmente
bayesiano, possiamo concludere che lo `e anche la media campionaria.
Passando al problema della stima di un parametro vettoriale, non si in-
contrano novit` a sostanziali in quanto le tre funzioni di danno considerate per
il caso unidimensionale si possono estendere opportunamente a quello mul-
tidimensionale. Mostriamolo per il danno quadratico considerando il caso
bivariato
40
. Identichiamo dunque lo stato di natura con la coppia aleatoria
(Z
1
, Z
2
) e assumiamo che
i
sia una misura -nita di riferimento sui boreliani
dellinsieme
i
R dei valori possibili di Z
i
(i = 1, 2). Posto =
1

2
e
T = B
(2)
, supponiamo che sia una densit` a della probabilit` a congiunta
iniziale

P (rispetto la misura prodotto =
1

2
) e che il valor medio
E

P
(Z
i
) =
_

i
(
1
,
2
) (d
1
d
2
) sia nito (i = 1, 2). Per quanto riguarda
la parte decisionale, identicate le m-ple con i vettori-colonna, assumiamo
D R
m
, con D insieme convesso chiuso, e come funzione di danno la
forma quadratica (nelle componenti del vettore d):
L(, d) = ( d)
T
M( d), (2.21)
40
Che non comporta alcuna restrizione sostanziale, in quanto le relative argomentazioni
sono immediatamente estendibili a dimensioni superiori.
2.6. REGOLE BAYESIANE FORMALI 91
ove M = (a
ij
)
1i, j2
`e una matrice simmetrica denita positiva
41
. Posto
inne d

=
_
E

P
(Z
1
)
E

P
(Z
2
)
_
, dalla bilinearit` a del prodotto righe per colonne si ha
L(, d) =
_
(d

d) + ( d

T
M
_
(d

d) + ( d

=
_
(d

d)
T
+ ( d

)
T

M
_
(d

d) + ( d

= (d

d)
T
M(d

d)
+ 2(d

d)
T
M( d

) + ( d

)
T
M( d

)
= (d

d)
T
M(d

d)
+ 2
2

i=1
2

j=1
a
ij
(d

i
d
i
)(
j
d

j
)) + ( d

)
T
M( d

).
Osservato che
_

(
j
d

j
)

P(d
1
d
2
) =
_

j
(
1
,
2
) (d
1
d
2
) d

j
= E

P
(Z
j
) d

j
= 0,
otteniamo
E

P
(L(, d)) = (d

d)
T
M(d

d) + E

P
_
( d

)
T
M( d

)
_
.
Conseguentemente, tenuto conto che la matrice M `e denita positiva, d

`e
lunico punto di minimo della funzione d E

P
(L(, d)), indipendentemente
dalla forma particolare della matrice M. Per provare inne che d

`e un
elemento di D, assumiamo (per assurdo) che non vi appartenga. Esistono
allora, per il teorema di separazione punto-insieme convesso chiuso
42
, una
coppia a ,= 0 e un numero reale tali che a
1
d

1
+a
2
d

2
> e a
1
d
1
+a
2
d
2

per ogni d D. Considerata la v.a. Y = a
1
Z
1
+ a
2
Z
2
, dalla seconda
disuguaglianza otteniamo

P(Y ) = 1 e quindi E

P
(Y ) ; ne segue
a
1
d

1
+ a
2
d

2
contraddicendo cos` la prima disuguaglianza.
Sussiste dunque il risultato seguente.
41
Cio`e, tale che x
T
Mx > 0 per ogni vettore non nullo x, avendo indicato con x
T
il
vettore-riga trasposto di x e considerato, come prodotto di matrici, il prodotto righe per
colonne.
42
Per teorema di separazione punto-insieme convesso chiuso intendiamo il seguente risul-
tato: Siano B ,= un insieme convesso chiuso di R
m
e x

R
m
tali che x

, B. Esi-
stono allora una m-pla a ,= 0 e un numero reale tali che a
1
x

1
+ + a
m
x

m
> e
a
1
y
1
+ +a
m
y
m
per ogni y B (per una dimostrazione si veda il teorema 2.4.4 del
testo citato nella nota 35 di pag. 76).
92 CAPITOLO 2. DECISIONI STATISTICHE
Teorema 2.6.9 Il valor medio nale E
P
(Z
i
[x) sia nito per ogni campione
x (i = 1, 2). Allora, considerata la funzione di danno (2.21), esiste una sola
regola bayesiana formale; precisamente, la funzione di decisione:

(P)
(x) =
_
E
P
(Z
1
[x)
E
P
(Z
2
[x)
_
che associa ad ogni campione il vettore dei valori medi nali dello stato di
natura relativi a quel campione.
Esempio 2.6.10 Posto = D = R]0, +], sia losservabile costituito dalle v.a. X
1
,
. . . , X
n
indipendenti e distribuite secondo la normale N(
1
,
2
) in corrispondenza ad ogni
stato = (
1
,
2
). Scelta come densit`a iniziale quella della normale-gamma inversa N-

1
(, , , ), dallEsempio B.2.18(iii) otteniamo che la densit` a nale relativa a x `e quella
della distribuzione normale-gamma inversa N-
1
(
n
(x),
n
,
n
,
n
(x)), con

n
(x) =
n x +
+n
,
n
= +n,
n
= +
n
2
,

n
(x) = +
1
2
_
n

i=1
(x
i
x)
2
+
n( x )
2
+n
_
.
Conseguentemente, per la densit`a marginale nale
1
([x) della prima componente si ha

1
(
1
[x) =
1

n
(x)

n
(
n
)
_
]0,+[

(
n
+
3
2
)
2
exp
_

n
(
1

n
(x))
2
+ 2
n
(x)
2
2
_
d
2
=
1

n
(x)

n
(
n
)

_

n
+
1
2
_
_

n
(
1

n
(x))
2
+ 2
n
(x)
2
_
(
n
+
1
2
)
=
1

n
(x)

n
(
n
)

_

n
+
1
2
_

n
(x)
(
n
+
1
2
)
_
(
1

n
(x))
2
2
n

n
(x)

n
+ 1
_

2
n
+1
2
e quindi la distribuzione nale della prima componente `e una distribuzione di Student
generalizzata StudentGen(
1
,
1
,
2
1
) con
1
= 2
n
> 1,
1
=
n
(x) e
2
1
=

n
(x)

n
.
Per quanto riguarda la densit` a marginale nale
2
([x) della seconda componente
otteniamo

2
(
2
[x) =
1

n
(x)

n
(
n
)

(
n
+
3
2
)
2
exp
_

n
(x)

2
_
_
+

exp
_

n
(
1

n
(x))
2
2
2
_
d
1
=
1

n
(x)

n
(
n
)

(
n
+
3
2
)
2
exp
_

n
(x)

2
_

2
2

n
=

n
(x)

n
(
n
)

(
n
+1)
2
exp
_

n
(x)

2
_
2.6. REGOLE BAYESIANE FORMALI 93
e quindi la distribuzione nale della seconda componente `e una distribuzione gamma-
inversa
1
(
1
,
1
) con
1
=
n
> 0 e
1
=
n
(x).
Possiamo quindi concludere che la funzione di decisione

(P)
(x) =
_

n
(x)

n
(x)

n
1
_
`e lunica regola bayesiana formale, ogniqualvolta risulti +
n
2
=
n
> 1.
2.6.2 Regole bayesiane formali nella stima intervallare
Identicata la misura di riferimento con la misura di Lebesgue, supponiamo
che la probabilit` a

P ammetta una -densit`a che sia continua e unimodale
(in senso forte)
43
. Allora, il seguente problema di massimo vincolato:
_
_
_
max
_
b
a
() d
b a =
(2.22)
ammette una sola soluzione per ogni numero reale > 0. Osservato che
sia la funzione obiettivo che quella relativa al vincolo hanno derivate parziali
continue, usiamo il metodo dei moltiplicatori di Lagrange per individuarne
le soluzioni. Considerata la funzione F(a, b,
1
) =
_
b
a
() d +
1
(b a ),
poniamo dunque

a
F(a, b,
1
) = (a)
1
= 0

b
F(a, b,
1
) = (b) +
1
= 0

1
F(a, b,
1
) = b a = 0
da cui otteniamo
_
(a) = (b)
b a =
43
Ricordiamo che una funzione g su `e unimodale (in senso forte) se esiste un punto
di massimo

tale che g(
1
) < g(
2
), se
1
<
2
<

, e g(
1
) > g(
2
), se

<
1
<
2
.
94 CAPITOLO 2. DECISIONI STATISTICHE
e quindi la densit` a assume gli stessi valori sugli estremi dellintervallo.
Conseguentemente, per la unimodularit` a della densit` a, lintervallo [a, a + ]
tale che (a) = (a + ) `e lunica soluzione del problema (2.22)
44
.
Ci`o osservato, siamo ora in grado di provare il teorema seguente.
Teorema 2.6.11 Siano la misura di Lebesgue e la densit`a nale ( [x)
una funzione continua e unimodale (in senso forte) per ogni campione x.
Inoltre, con riferimento al danno lineare, sia

una regola bayesiana formale


per P. Allora, la funzione di decisione che associa ad ogni campione x la
soluzione del problema (2.22) con = ( [x) e = lg(

(x)) `e una regola


bayesiana formale.
Dimostrazione Indicata con

tale funzione di decisione, risulta

P
(

(x)[x)
P
(

(x)[x) = klg(

(x)) + 1
_

(x)
([x) d
klg(

(x)) + 1
_

(x)
([x) d =
P
(

(x)[x)
per ogni campione x.
Le regole bayesiane formali vanno quindi ricercate tra le funzioni di deci-
sione che associano ad ogni campione x lintervallo di massima probabilit` a
nale tra tutti quelli di lunghezza lg((x)).
Esempio 2.6.12 Posto = R e D linsieme degli intervalli reali limitati, sia losservabile
costituito dalle v.a. X
1
, . . . , X
n
indipendenti e distribuite secondo la normale N(,
2
) in
corrispondenza ad ogni stato . Scelta come densit`a iniziale quella della normale N(,
2
),
44
Osservato che lunica soluzione del problema di minimo vincolato:
_
_
_
min(b a)
_
b
a
() d =
con ]0, 1] verica la condizione (a) = (b), gli intervalli [a, b] con (a) = (b) possono
essere intesi come gli intervalli che sono:
di massima probabilit` a tra quelli di lunghezza ;
di minima lunghezza tra quelli di probabilit` a .
Inoltre, per la unimodularit` a, possono anche essere visti come insiemi del tipo
con [0, 1].
2.6. REGOLE BAYESIANE FORMALI 95
dallEsempio B.2.18(ii) otteniamo che la densit` a nale relativa a x `e quella della normale
N(
n
(x),
2
n
), con

n
(x) =
_

2
+
n x

2
_

2
n
,
2
n
=
_
1

2
+
n

2
_
1
.
Ponendo (a[x) = (b[x) (a < b) si ha (a
n
(x))
2
= (b
n
(x))
2
da cui otteniamo
(ab)(a+b 2
n
(x)) = 0 e quindi b = 2
n
(x) a. Individuata la relazione intercorrente
tra a e b, andiamo a determinare il valore del corrispondente integrale
1
_
2
2
n
_
2
n
(x)a
a
exp
_

(
n
(x))
2
2
2
n
_
d.
Posto uguale a 1 (x) tale valore e considerata la trasformazione standard :

n
(x)

n
della retta reale, dal Corollario A.4.2 risulta
1

2
_

n
(x)a


n
(x)a

n
exp
_

2
2
_
d = 1 (x).
Indicato inne con (x)
2
lo stato tale che
1

2
_
+
(x)
2
exp
_

2
2
_
d =
(x)
2
,
si ha

n
(x)a

n
= (x)
2
e quindi a =
n
(x)
n
(x)
2
. Pertanto, [
n
(x)
n
(x)
2
,
n
(x) +

n
(x)
2
] `e lintervallo di lunghezza 2
n
(x)
2
di massima probabilit` a nale relativa a x.
2.6.3 Regole bayesiane formali nella verica di ipotesi
Osservato che, adottando il danno (2.1), si ha E

P
(L
0
) =
_

1
k
0
d

P e E

P
(L
1
) =
_

0
k
1
d

P, la decisione d

minimizza il danno medio se e solo se:


d

=
_

_
d
0
se
_

1
k
0
d

P <
_

0
k
1
d

P
d
0
o d
1
se
_

1
k
0
d

P =
_

0
k
1
d

P
d
1
se
_

1
k
0
d

P >
_

0
k
1
d

P
.
Sussistono pertanto i risultati seguenti.
Teorema 2.6.13 Ogni funzione di decisione tale che:
(x) =
_
d
0
se
_

1
k
0
() P(d[x) <
_

0
k
1
() P(d[x)
d
1
se
_

1
k
0
() P(d[x) >
_

0
k
1
() P(d[x)
`e un test bayesiano formale per P.
96 CAPITOLO 2. DECISIONI STATISTICHE
Corollario 2.6.14 Sia la funzione k
i
una costante di valore K
i
(i = 0, 1).
Allora, ogni funzione di decisione tale che:
(x) =
_
d
0
se P(
0
[x) >
K
1
K
0
+K
1
d
1
se P(
0
[x) <
K
1
K
0
+K
1
.
`e un test bayesiano formale per P.
Dimostrazione Basta osservare che si ha
_

0
k
1
() P(d[x) = K
1
P(
0
[x) e
_

1
k
0
() P(d[x) = K
0
P(
1
[x) = K
0
_
1 P(
0
[x)

per ogni campione x.


Nel prossimo esempio determiniamo le regole bayesiane formali per de-
cidere se un dato parametro reale `e minore o uguale ad un pressato valore.
Esempio 2.6.15 Posto = R, = e
0
=] ,
0
] (
0
ssato), sia k
0
() = K
0
(
0
)
e k
1
() = K
1
(
0
)
45
. Allora, supposto E
P
(Z[x) nita per ogni campione x, otteniamo
_

0
k
1
() P(d[x) = K
1
_
],
0
]
(
0
) P(d[x) e
_

1
k
0
() P(d[x) = K
0
_
]
0
,+[
(
0
) P(d[x)
= K
0
E
P
(Z
0
[x) K
0
_
],
0
]
(
0
) P(d[x)
= K
0
E
P
(Z[x) K
0

0
+K
0
_
],
0
]
(
0
) P(d[x)
qualunque sia x. Conseguentemente, ogni funzione di decisione tale che:
(x) =
_

_
d
0
se E
P
(Z[x) <
0
+
K
1
K
0
K
0
_
],
0
]
(
0
) P(d[x)
d
1
se E
P
(Z[x) >
0
+
K
1
K
0
K
0
_
],
0
]
(
0
) P(d[x)
`e un test bayesiano formale per P. Nel caso particolare K
0
= K
1
, risulta dunque che `e
bayesiana formale ogni funzione di decisione tale che:
(x) =
_
d
0
se E
P
(Z[x) <
0
d
1
se E
P
(Z[x) >
0
.
45
La funzione k
1
dovrebbe essere, come richiesto da (2.1), positiva su
0
e quindi, in
particolare, dovrebbe risultare k
1
(
0
) > 0, contrariamente a quanto qui avviene per la par-
ticolare scelta funzionale eettuata. Daltra parte, nellindividuazione dei test bayesiani, k
1
interviene solamente nellintegrale
_

0
k
1
() P(d[x) che `e indipendente dal valore k
1
(
0
),
essendo P(
0
[x) =
_
{
0
}
([x) d = 0 per ogni campione x.
2.7. REGOLE DI DECISIONE MINIMAX 97
Concludiamo determinando lespressione dellintegrale
_
],
0
]
(
0
) P(d[x) nel caso
del campionamento normale relativo allEsempio 2.6.12. Considerata la trasformazione
standard :

n
(x)

n
della retta reale, dal Corollario A.4.2 otteniamo
_
],
0
]
(
0
) P(d[x) =
1
_
2
2
n
_

0

(
0
) exp
_

(
n
(x))
2
2
2
n
_
d
=
1

2
_

0

n
(x)

n
(x)
n

_
exp
_

2
2
_
d
=
_

n
(x)
_
1

2
_

0

n
(x)

exp
_

2
2
_
d
+

n

2
_

0

n
(x)

exp
_

2
2
_
d
e quindi
_
],
0
]
(
0
) P(d[x) =
_

n
(x)
_

n
(x)

n
_
+

n

2
exp
_

(
0

n
(x))
2
2
2
n
_
,
avendo indicato con la funzione di ripartizione della normale N(0, 1).
2.7 Regole di decisione minimax
Ritornando allEsempio 2.5.2(i), osserviamo che la decisione d = 0, oltre ad
essere lunica ammissibile, `e pure lunica decisione ottima secondo il crite-
rio del minimax (introdotto nellEsempio 2.4.2(i))
46
. Ricordando che tale
decisione non `e una decisione bayesiana, possiamo allora concludere che, in
generale, il criterio del valor medio non `e in grado di generare tutte le
regole (di decisione) minimax, cio`e quelle particolari regole di decisione
aventi funzione di rischio limitata che sono ottime per il criterio del mini-
max. Daltra parte, qualora lo spazio parametrico sia nito, la convessit` a
dellinsieme di rischio assicura (come metter` a in evidenza il teorema succes-
sivo) che tutte le regole minimax sono bayesiane per un particolare tipo di
probabilit` a che ora introduciamo.
Denizione 2.7.1 Una probabilit` a P su T `e massimamente sfavorevole
(per DM) se (P

) = sup(P) : P probabilit` a su T , cio`e se comporta un


46
Criterio che, a causa del suo carattere prudenziale, `e di uso comune nelle impostazioni
della statistica decisionale che, a dierenza di quella bayesiana, si basano solamente sulla
relazione di dominanza tra regole di decisione escludendo qualsiasi riferimento a valutazioni
probabilistiche relative allo stato di natura.
98 CAPITOLO 2. DECISIONI STATISTICHE
danno medio ineliminabile non inferiore a quello di unaltra qualsiasi pro-
babilit` a su T .
Viene cos` fornita una giusticazione delluso del criterio del minimax
nellambito dellimpostazione bayesiana della statistica: se, in base al suo
stato dinformazione, DM esprime la sua incertezza sullo stato di natura
tramite una probabilit` a massimamente sfavorevole (e quindi ritiene la Natura
a lui avversa almeno per quanto concerne i danni medi ineliminabili), allora
egli sar`a indotto a scegliere una regola minimax.
Precisato che, in questa sezione, P (dotata o no di apici o pedici) denota
una generica probabilit` a su T (relativa o no ad una densit` a iniziale), proviamo
il lemma seguente.
Lemma 2.7.2 Risulta:
(i) sup
P
(P) inf

sup
P

P
();
(ii) sup

() = sup
P

P
() per ogni regola di decisione .
Dimostrazione (i) Dati

e P

, si ha inf


P
()
P
(

) sup
P

P
(

).
Dallarbitrariet` a di

segue allora (P

) = inf


P
() inf

sup
P

P
(). In-
ne, per larbitrariet` a di P

, otteniamo sup
P
(P) inf

sup
P

P
().
(ii) Poich`e la disuguaglianza
P
() = E
P
(R

) sup

() sussiste per
ogni probabilit` a P, si ha intanto sup
P

P
() sup

(). Per vericare la


disuguaglianza opposta, sia (
n
)
n1
una successione di stati tale che R

(
n
)
sup

(). Considerata allora la misura di Dirac 1

n
su T per ogni n, otte-
niamo sup
P

P
()
1

n
() = E
1

n
(R

) = R

(
n
). Passando inne al limite
per n +, riesce sup
P

P
() sup

().
Teorema 2.7.3 Siano nito e linsieme di rischio convesso. Esiste allora
una probabilit`a P

massimamente sfavorevole. Inoltre, ogni regola minimax


`e bayesiana per P

. Inne, per ogni regola minimax

, si ha R


P
(

) e
R

() =
P
(

) per ogni stato tale che P

() > 0.
Dimostrazione Posto =
1
, . . . ,
m
, proviamo intanto luguaglianza:
sup
P
(P) = inf

sup
P

P
(). (2.23)
Notato che, per il Lemma 2.7.2(i), basta provare la disuguaglianza

=
inf

sup
P

P
() sup
P
(P) =

, consideriamo linsieme:
B
t
= y : y
i
t (i = 1, . . . , m) R
m
2.7. REGOLE DI DECISIONE MINIMAX 99
per ogni numero reale t e poniamo = sup t : B
t
R = . Allora, poich`e
R [0, +[
m
, si ha 0. Riesce inoltre < +; infatti, data una regola
di decisione e posto t

= maxR

(
1
), . . . , R

(
m
), otteniamo y
()
RB
t
per ogni t t

e quindi t

< +.
Osservato che, per ottenere la disuguaglianza

, basta constatare
che riesce

, iniziamo col vericare che risulta

. Per la
denizione di si ha B
+
1
n
R ,= e quindi esiste
n
tale che R

n
(
i
) +
1
n
per ogni i m. Allora, per il Lemma 2.7.2(ii),

= inf

sup
P

P
() sup
P

P
(
n
) = sup

n
() +
1
n
.
Ne segue, passando al limite per n +, la disuguaglianza

.
Proviamo ora la disuguaglianza

. Ricordato che linsieme di rischio


R `e convesso e osservato che linsieme B = y : y
i
< (i = 1, . . . , m) dei
punti interni di B

`e un insieme convesso disgiunto da R, per il teorema


delliperpiano separatore (nota 35 a p. 76) esistono una m-pla a ,= 0 e un
numero reale tali che
a
1
y
()
1
+ + a
m
y
()
m
, per ogni (2.24)
a
1
y
1
+ + a
m
y
m
, per ogni y = (, . . . , ). (2.25)
Allora, a 0. Infatti, sia (per assurdo) a
j
< 0 per qualche j. Considerata
la m-pla y
(n)
tale che y
(n)
i
= 1, se i ,= j, e y
(n)
j
= n, si ha y
(n)
e
quindi, per (2.25), ( 1)

i=j
a
i
+ a
j
( n) . Passando al limite per
n + e tenendo conto che a
j
< 0, risulta
lim
n+
_
( 1)

i=j
a
i
+ a
j
( n)
_
= +
ottenendo cos` una contraddizione.
Per provare la disuguaglianza:

a
1
+ + a
m
,
consideriamo un numero reale > 0. Allora (, . . . , ) e quindi,
per (2.25), ()(a
1
+ +a
m
) . Passando al limite per 0
+
, risulta
(a
1
+ + a
m
) .
Sia ora P

la distribuzione di probabilit` a sugli stati tale che:

i
= P

(
i
) =
a
i
a
1
+ + a
m
(i = 1, . . . , m).
100 CAPITOLO 2. DECISIONI STATISTICHE
Poich`e, per (2.24), riesce

P
() =

1
R

(
1
) + +

m
R

(
m
)
=
a
1
y
()
1
+ + a
m
y
()
m
a
1
+ + a
m


a
1
+ + a
m

per ogni regola di decisione , si ha (P

) = inf


P
() .
Dunque

= sup
P
(P) da cui otteniamo

= =

, cio`e (2.23).
Ne segue (P

) =

= sup
P
(P) e quindi la probabilit` a P

`e massi-
mamente sfavorevole.
Passando allultima parte della tesi, sia

una regola minimax. Allora,


sup

() = inf

sup

() da cui, per il Lemma 2.7.2(ii), risulta


sup
P

P
(

) = inf

sup
P

P
().
Considerata ora una regola di decisione , da (2.23) otteniamo

P
(

) sup
P

P
(

) = inf

sup
P

P
()
= sup
P
(P) = (P

) = inf


P
()
P
(),
ove la penultima uguaglianza sussiste in quanto P

`e massimamente sfavorevo-
le. Conseguentemente,

`e una regola bayesiana per P

. Inoltre, scegliendo
in particolare =

, otteniamo
P
(

) = inf

sup
P

P
(). Per il Lemma
2.7.2(ii) si ha allora
R

() sup

() = inf

sup

() = inf

sup
P

P
() =
P
(

)
qualunque sia lo stato .
Supponiamo inne che esista (per assurdo) j tale che R

(
j
) <
P
(

) con

j
> 0. Allora,

j
R

(
j
) <

P
(

) da cui otteniamo

P
(

) =

1
R

(
1
) + +

m
R

(
m
) <

P
(

) + +

P
(

) =
P
(

)
pervenendo cos` ad una contraddizione.
Il teorema appena provato assicura che esiste una probabilit` a (massi-
mamente sfavorevole) P

tale che le regole minimax vanno ricercate tra le


regole bayesiane

per P

per le quali la funzione di rischio R

ha valori
che non superano il rischio di Bayes (P

). Il prossimo risultato evidenzia


che questultima propriet` a consente di individuare, indipendentemente dalla
numerosit` a degli stati, sia regole bayesiane minimax che probabilit` a massi-
mamente sfavorevoli.
2.7. REGOLE DI DECISIONE MINIMAX 101
Teorema 2.7.4 Sia

una regola bayesiana per P

tale che R

(P

).
Allora,

`e una regola minimax e P

`e una probabilit` a massimamente sfa-


vorevole.
Dimostrazione Risulta
inf

sup
P

P
() = inf

sup

()
sup

() (P

) sup
P
(P) inf

sup
P

P
(),
ove la prima uguaglianza discende dal Lemma 2.7.2(ii) e lultima disugua-
glianza dal Lemma 2.7.2(i). Allora, tutte le disuguaglianze sono delle ugua-
glianze e quindi sup

() = inf

sup

() e (P

) = sup
P
(P).
In molti problemi statistico-decisionali, un metodo eciente per trovare
regole minimax consiste nellindividuare regole di decisione con funzione di
rischio costante (dette regole (di decisione) equalizzanti) e provare poi,
come suggerito dal Teorema 2.7.4, che sono bayesiane. Lesempio seguente,
oltre a fornire unapplicazione di tale metodo, mostra che ci pu` o essere pi` u
di una probabilit` a massimamente sfavorevole per il medesimo problema de-
cisionale.
Esempio 2.7.5 Posto = D = [0, 1], sia losservabile costituito dalle v.a. X
1
, . . . , X
n
indipendenti e distribuite secondo la distribuzione di Bernoulli Ber() in corrispondenza
ad ogni stato . Con riferimento al danno quadratico, vediamo se si possono trovare regole
equalizzanti tra le trasformate ani della media campionaria, cio`e del tipo

(x) = ax +b
(a, b 0, a +b 1). Da E

(X) = , Var

(X) =
(1)
n
e (2.2) otteniamo
MSE

() = Var

) + Bias

)
2
= a
2
Var

_
X
_
+
_
aE

(X) +b
_
2
= a
2
(1 )
n
+ [b + (a 1)]
2
=
_
(a 1)
2

a
2
n
_

2
+
_
a
2
n
+ 2b(a 1)
_
+b
2
.
Anch`e la funzione di rischio sia una costante, a e b devono essere soluzioni del sistema:
_
(a 1)
2

a
2
n
= 0
a
2
n
+ 2b(a 1) = 0
.
Risolvendolo (tenendo conto dei vincoli imposti ad a e b) si ha
a =

n
1 +

n
, b =
1
2(1 +

n)
e quindi

(x) =

n x +
1
2
1 +

n
=
nx +

n
2

n +n
=
nx +

n
2

n
2
+

n
2
+n
.
102 CAPITOLO 2. DECISIONI STATISTICHE
Conseguentemente, per (2.18),

coincide con la regola bayesiana corrispondente alla


distribuzione Beta(

n
2
,

n
2
). Possiamo allora concludere, per il Teorema 2.7.4, che

`e
una regola minimax e che la distribuzione Beta(

n
2
,

n
2
) `e massimamente sfavorevole
47
.
Al ne di individuare ulteriori probabilit` a massimamente sfavorevoli basta evidente-
mente trovare densit`a iniziali (rispetto a qualche misura di riferimento ) che rendano

bayesiana per la probabilit` a P determinata da . Anch`e ci`o avvenga, per il Teorema


2.6.4, deve essere

(x) = E
P
(Z[x) =
_
1
0

nx+1
(1 )
n(1x)
() (d)
_
1
0

nx
(1 )
n(1x)
() (d)
o, equivalentemente,

(x) =
n(1x)

k=0
(1)
k
_
n(1 x)
k
__
1
0

nx+k+1
() (d)
n(1x)

k=0
(1)
k
_
n(1 x)
k
__
1
0

nx+k
() (d)
,
tenuto conto della formula di Newton:
(1 )
n(1x)
=
n(1x)

k=0
(1)
k
_
n(1 x)
k
_

k
.
Conseguentemente, anch`e

sia una regola bayesiana per P, basta che tale distribuzione


abbia i primi n + 1 momenti coincidenti con quelli della distribuzione Beta(

n
2
,

n
2
).
Dunque, nel caso particolare di una sola osservazione (n = 1), `e massimamente sfavorevole,
come facilmente si verica, ogni probabilit`a P =
0
1

0
+ (1
0
)1

1
con
1
3

0

2
3
e

0
=
1
2

_
2
0
(1
0
)
4
0
,
1
=
1
2
+
_
2
0
(1
0
)
4(1
0
)
,
notato che il momento secondo della distribuzione Beta(
1
2
,
1
2
) `e pari a
3
8
.
Osservato che nellesempio precedente le regole bayesiane sono anche am-
missibili (Esempio 2.6.6(i)), viene spontaneo chiedersi se, in generale, le re-
gole equalizzanti ammissibili siano anche regole minimax. Risposta positiva
al quesito viene fornita dal risultato seguente.
47
Ricordato che

(+)
2
(++1)
`e la varianza della distribuzione Beta(, ), otteniamo
che la varianza della distribuzione considerata `e
1
4(1+

n)
. Pertanto, quando il numero delle
osservazioni `e elevato, ladozione di questa distribuzione massimamente sfavorevole delinea
una forte credenza nella concentrazione degli stati attorno al valore
1
2
(valor medio della
distribuzione). Osserviamo inne che, nei casi particolari n = 1 e n = 4, tale distribuzione
diviene, rispettivamente, quella non informativa di Jereys e quella uniforme.
2.7. REGOLE DI DECISIONE MINIMAX 103
Teorema 2.7.6 Ogni regola equalizzante ammissibile `e una regola minimax.
Dimostrazione Sia


+
una regola equalizzante. Allora, R

() =
per ogni stato . Supposto (per assurdo) che non sia minimax, esiste tale
che sup

() < sup

() = . Conseguentemente, R

() < R

() per
ogni stato e quindi ~

(Contraddizione!).
Nel prossimo esempio mostriamo, con riferimento al campionamento nor-
male con media incognita e danno quadratico, che la media campionaria `e
uno stimatore minimax constatando che `e uno stimatore sia equalizzante che
ammissibile.
Esempio 2.7.7 Posto = D = R, sia losservabile costituito dalle v.a. X
1
, . . . , X
n
indipendenti e distribuite secondo la normale N(,
2
) in corrispondenza ad ogni stato .
Posto,

= X, da (2.2) otteniamo MSE

() =

2
n
per ogni stato e quindi la media campio-
naria `e uno stimatore equalizzante. Per provare che `e anche ammissibile supponiamo (per
assurdo) che esista una regola di decisione tale che MSE

MSE

e MSE

) < MSE

)
per qualche stato

. Poich`e, per lEsempio 2.1.3(ii), le due funzioni di rischio sono continue,
esistono , > 0 tali che MSE

() MSE

() per ogni [

,

+].
Ci`o osservato, scegliamo come distribuzione iniziale P quella della normale N(0, m).
Allora

P
(

)
P
() =
_
+

(MSE

() MSE

()) P(d)
_
+

(MSE

() MSE

()) P(d)
e quindi

P
(

)
P
()

2m
_
+

exp
_


2
2m
_
d.
Inoltre, considerato il relativo rischio di Bayes (0, m), per (2.20), si ha
(0, m)
P
(

) =
m
2

2
+mn


2
n
=

4
n(mn +
2
)
.
Riesce pertanto
0 (0, m)
P
() = [(0, m)
P
(

)] + [
P
(

)
P
()]


4
n(mn +
2
)
+

2m
_
+

exp
_


2
2m
_
d
da cui otteniamo (moltiplicando per

m il primo e lultimo termine)
0

m
4
n(mn +
2
)
+

2
_
+

exp
_


2
2m
_
d.
104 CAPITOLO 2. DECISIONI STATISTICHE
Poich`e la disuguaglianza sussiste per ogni m, passiamo al limite per m +. Osservato
che
_
exp
_

2
2m
_
m1
`e una successione crescente convergente a 1 per ogni , dal teorema
della convergenza monotona A.3.7 otteniamo
lim
m+
_
+

exp
_


2
2m
_
d =
_
+

lim
m+
exp
_


2
2m
_
d = 2 .
Risulta dunque
0 lim
m+
_

m
4
n(mn +
2
)
+

2
_
+

exp
_


2
2m
_
d
_
=
2

2
> 0
pervenendo cos` ad una contraddizione.
Il risultato seguente fornisce un criterio, per constatare se una regola di
decisione `e minimax, basato sul confronto della funzione di rischio non pi` u
con un rischio di Bayes (come avviene nel Teorema 2.7.4) ma con il limite di
una successione di rischi di Bayes.
Teorema 2.7.8 Sia (P
n
)
n1
una successione di probabilit` a tale che esista
nito il limite lim
n+
(P
n
) dei relativi rischi di Bayes. Allora, ogni regola di
decisione

tale che R

lim
n+
(P
n
) `e una regola minimax
48
.
Dimostrazione Sia = lim
n+
(P
n
). Supposto (per assurdo) che

non sia
una regola minimax, otteniamo sup

() > inf

sup

(). Scelto allora


un numero reale > 0, esiste una regola di decisione

tale che
R

sup

() sup

() .
Inoltre, per denizione di , esiste m tale che (P
m
) > . Riesce pertanto

P
m
(

) =
_

dP
m

_

( )I

dP
m
= < (P
m
) = inf


P
m
()
ottenendo cos` una contraddizione.
48
Alla luce di questo teorema, si poteva provare, con riferimento allesempio precedente,
che la media campionaria `e uno stimatore minimax (senza ricorrere alla sua ammissibilit`a)
considerando, per ogni m, la probabilit` a P
m
avente come densit`a quella della normale
N(0, m) e osservando che lim
m+
(P
(m)
) = lim
m+
m
2
mn+
2
=

2
n
.
2.7. REGOLE DI DECISIONE MINIMAX 105
Come applicazione di questultimo criterio, proviamo che nel campiona-
mento normale bivariato con vettore delle medie incognito e varianza uni-
taria, lo stimatore che associa ad ogni campione il campione medesimo `e una
regola minimax, qualora si adotti la funzione di danno (2.21) con M matrice
identica.
Esempio 2.7.9 Posto = D = R
2
, sia losservabile costituito dalle v.a. X
1
, X
2
indipen-
denti e distribuite, rispettivamente, secondo la normale N(
i
, 1) (i = 1, 2) in corrispon-
denza ad ogni stato = (
1
,
2
). Allora, indicata con f
i
la densit` a della normale N(
i
, 1)
(i = 1, 2), per la densit` a di campionamento si ha f

(x) = f
1
(x
1
)f
2
(x
2
) per ogni x R
2
.
Adottato il danno (2.21) con M matrice identica, otteniamo L(, d) = (
1
d
1
)
2
+(
2
d
2
)
2
.
Proviamo ora che X `e uno stimatore minimax.
Al ne di costruire la successione di probabilit` a (P
m
)
m1
, indichiamo con
(m)
la
funzione di densit` a della normale N(0, m) e assumiamo che P
m
abbia densit` a:
m
() =

(m)
(
1
)
(m)
(
2
) per ogni stato .
Dato il campione x, risulta
m
([x) =
(m)
(
1
[x
1
)
(m)
(
2
[x
2
). Infatti, indicata con
p
i
la densit`a predittiva relativa alle densit` a
(m)
e f
i
(i = 1, 2), dal teorema di Tonelli
otteniamo
p(x) =
_
R
2
f

(x)
m
() d
1
d
2
=
_
+

_
_
+

f
1
(x
1
)
(m)
(
1
) d
1
_
f
2
(x
2
)
(m)
(
2
) d
2
= p
1
(x
1
)p
2
(x
2
)
e quindi

m
([x) =
f

(x)
p(x)

m
() =
_
f
1
(x
1
)
p
1
(x
1
)

m
(
1
)
__
f
2
(x
2
)
p
2
(x
2
)

m
(
2
)
_
=
(m)
(
1
[x
1
)
(m)
(
2
[x
2
).
Posto E
m
(Z
i
[x
i
) =
_
+

(m)
(
i
[x
i
) d
i
(i = 1, 2), per il teorema di Tonelli, si ha
E
P
m
(Z
i
[x) =
_
R
2

m
([x) d
1
d
2
=
_
+

_
_
+

(m)
(
i
[x
i
) d
i
_

(m)
(
j
[x
j
)d
j
(j ,= i; i = 1, 2)
=
_
+

E
m
(Z
i
[x
i
)
(m)
(
j
[x
j
) d
j
= E
m
(Z
i
[x
i
).
Pertanto, per il Teorema 2.6.9, la funzione di decisione:

(m)
(x) =
_
E
m
(Z
1
[x
1
)
E
m
(Z
2
[x
2
)
_
=
m
m+ 1
x
`e una regola bayesiana formale, ricordato che, per lEsempio B.2.18(ii) (riferito allesperi-
mento consistente nella sola osservazione di X
i
), la densit` a nale relativa a x
i
`e quella
della normale di media
m
m+1
x
i
e varianza
m
m+1
(i = 1, 2).
106 CAPITOLO 2. DECISIONI STATISTICHE
Ci`o osservato, data una funzione di decisione (x) =
_

(x
1
)

(x
2
)
_
, andiamo a determinarne
la funzione di rischio. Per il teorema di Tonelli si ha
R

() =
_
R
2
L(, (x))f

(x) dx
1
dx
2
=
_
R
2
_

(x
1
)
_
2
f

(x) dx
1
dx
2
+
_
R
2
_

(x
2
)
_
2
f

(x) dx
1
dx
2
=
_
+

_
_
+

(x
1
)
_
2
f
1
(x
1
) dx
1
_
f
2
(x
2
)dx
2
+
_
+

_
_
+

(x
2
)
_
2
f
2
(x
2
) dx
2
_
f
1
(x
1
)dx
1
e quindi
R

() = MSE

(
1
) + MSE

(
2
). (2.26)
Allora,
(m)
`e uno stimatore in quanto, per lEsempio 2.6.6(ii), le sue componenti sono
stimatori bayesiani. Dunque,
(m)
`e uno stimatore bayesiano e quindi, per (2.20),
(P
m
) =
P
m
(
(m)
) = E
P
m
_
(Z
1

(m)
(x
1
))
2
+ (Z
2

(m)
(x
2
))
2
_
= E
P
m
_
(Z
1

(m)
(x
1
))
2
_
+E
P
m
_
(Z
2

(m)
(x
2
))
2
_
=
2m
m+ 1
.
Inoltre, da (2.26) e (2.2) otteniamo
R
X
() = (Var

1
(X
1
) + Bias

1
(X
1
)
2
) + (Var

2
(X
2
) + Bias

2
(X
2
)
2
) = 1 + 1 = 2
e quindi R
X
= 2 = lim
m+
2m
m+1
= lim
m+

(m)
. Ne segue che X `e minimax
49
.
2.8 Regole di decisione randomizzate
La convessit` a dellinsieme di rischio fornisce, tramite i teoremi 2.5.4, 2.7.3 e
il teorema della classe completa 2.5.5, una giusticazione delluso del criterio
del valore medio nel caso di un numero nito di stati. Descriviamo ora
49
Chiaramente, le argomentazioni svolte possono essere estese pari pari a dimensioni
maggiori di due. Conseguentemente, X `e uno stimatore minimax nel campionamento
normale multivariato con media incognita e varianza unitaria.
Osserviamo che no al 1955 era opinione comune, nellambito statistico, che X fosse uno
stimatore ammissibile (e quindi minimax in forza del Teorema 2.7.6). Purtroppo, questa
credenza era priva di fondamento in quanto Charles Stein scopr` nel 1956 il seguente celebre
risultato (noto come paradosso di Stein): pur avendo tutte le componenti ammissibili,
X `e ammissibile solamente per n 2. Per dimensioni superiori, uno stimatore che domina
strettamente X `e, ad esempio, lo stimatore di James-Stein:
_
1
n2

n
i=1
X
2
i
_
X.
2.8. REGOLE DI DECISIONE RANDOMIZZATE 107
un procedimento che consente, qualora R non sia convesso
50
, di ottenere -
mediante linserimento di nuove decisioni accanto a quelle vecchie - un
problema decisionale (estensione di quello di partenza) avente linsieme di
rischio convesso
51
. Lidea guida della metodologia in parola `e di consentire la
scelta della decisione da adottare non solamente a DM (come sinora fatto),
ma anche al caso tramite meccanismi di estrazione a sorte
52
.
Fissata dunque una -algebra di riferimento T su D
53
e denotata con Q
(dotata o no di apici o pedici) una qualsiasi probabilit` a su T, introduciamo
la nozione chiave di decisione randomizzata.
Denizione 2.8.1 Una decisione randomizzata `e una qualsiasi proba-
bilit` a su T. Inoltre, data una decisione d, la decisione pura relativa a d
`e la probabilit` a 1
d
su T che concentra lintera massa su d
54
.
Supponiamo ora che DM scelga, a dierenza di quanto sinora ammesso,
invece di una decisione pura una decisione randomizzata Q. Allora DM, per
individuare le conseguenze a cui andrebbe incontro qualora fosse lo stato
50
Come, ad esempio, quando sia le decisioni che i campioni sono in numero nito.
51
Lidea di aggiungere nuovi elementi, ad un dato contesto, per soddisfare una propriet` a
che non `e ivi vericata, sta alla base del cosiddetto metodo degli elementi ideali comune-
mente usato nella matematica. Si pensi, ad esempio, allintroduzione dei nuovi numeri
irrazionali accanto ai vecchi numeri razionali, per fornire di estremi ogni insieme limi-
tato di razionali; dei nuovi numeri complessi accanto ai vecchi numeri reali, per dare
soluzione allequazione x
2
= 1; dei nuovi punti impropri accanto ai vecchi punti, per
consentire che ogni coppia di rette abbia almeno un punto in comune.
52
Lidea della casualizzazione delle decisioni pu` o farsi risalire a James Waldegrave che
lutilizz` o nel 1713 nellanalisi di un particolare gioco di carte, chiamato le Her, molto
noto nel 700. Luso delle decisioni aleatorie (nella trattazione delle scelte in condizioni
dincertezza) venne per`o, dopo Waldegrave, abbandonato e rimase sepolto per due secoli
no alla sua riesumazione, avvenuta nel 1921, ad opera di Emile Borel.
`
E interessante notare che il ricorso alla scelta casuale delle decisioni non ha carattere
squisitamente teorico, in quanto non `e aatto inusuale nella concreta pratica decisionale. Si
pensi, ad esempio, ad un collezionista al quale vengano oerti due francobolli alquanto rari.
A causa del loro prezzo, la sua disponibilit` a nanziaria gli consente di comperare sia luno
che laltro, ma non entrambi. Il collezionista deve quindi fare una scelta che si presenta
ardua, poich`e ognuno dei due francobolli `e importante per completare la sua collezione.
Per non avere, in seguito, rimpianti sulla scelta eettuata, egli potrebbe ragionevolmente
lanciare una moneta e far quindi scegliere al caso quale francobollo acquistare.
53
Che, nel caso di D nito, concide con linsieme delle parti di D.
54
Per quanto detto, le decisioni randomizzate vanno intese, da un punto di vista inter-
pretativo, come meccanismi di sorteggio che forniscono a sorte la decisione da adottare.
108 CAPITOLO 2. DECISIONI STATISTICHE
vero, considerer` a lente aleatorio (, ) : D C. Supposto che sia (T, ()-
misurabile), rimarr` a individuata una particolare lotteria; precisamente, la
legge dellente aleatorio:
(Q)

(C) = Q((, ) C) per ogni C (. Supposto


inne che DM ritenga equivalenti due decisioni randomizzate di medesima
legge, egli sar` a indotto ad esprimere la relazione di preferenza _

su tali
decisioni tramite la relazione di preferenza _

denita sulle lotterie. Si avr` a


quindi (con passaggi analoghi a quelli sviluppati a p. 44)
Q
1
_

Q
2

_
D
L(, ) dQ
1

_
D
L(.) dQ
2
.
Ora, essendo in realt` a ignoto a DM lo stato vero, egli sar` a portato ad asso-
ciare ad ogni decisione randomizzata Q il danno medio aleatorio
_
D
L(Z, ) dQ.
Queste considerazioni suggeriscono di assumere la T T-Borel misura-
bilit`a della funzione di danno L e di formulare la seguente nozione di funzione
di danno nellambito delle decisioni randomizzate.
Denizione 2.8.2 La funzione di danno relativa a Q `e la funzione di
dominio lo spazio parametrico:
L
Q
() =
_
D
L(, ) dQ
che associa, ad ogni stato , il danno medio a cui va incontro DM adottando
la decisione randomizzata Q, qualora sia lo stato vero.
Identicando, come `e naturale in questo contesto, ogni decisione d con
la decisione pura 1
d
, linsieme Q delle decisioni randomizzate diviene un
ampliamento dellinsieme D; inoltre, risultando L
1
d
= L
d
per ogni d D,
le funzioni di danno delle decisioni pure coincidono con quelle delle rela-
tive decisioni. Conseguentemente, il problema decisionale avente Q come
insieme delle decisioni, come spazio parametrico e funzione di danno
L
(r)
: (, Q) L
Q
() risulta unestensione del problema decisionale origi-
nario.
Passando inne allaspetto statistico-decisionale, le regole di decisione
divengono, in questo nuovo contesto, quelle particolari applicazioni
(r)
:
X Q - dette regole (di decisione) randomizzate - per le quali esiste ed
`e a valori niti la funzione R

(r) di dominio cos` denita:


R

(r) () = E

_
L
(r)
(,
(r)
)
_
=
_
X
_
_
D
L(, ) d
(r)
(x)
_
P

(dx), (2.27)
2.8. REGOLE DI DECISIONE RANDOMIZZATE 109
detta, per analogia al caso non randomizzato, funzione di rischio di
(r)
.
Identicando inne ogni regola di decisione
1
con la regola randomiz-
zata (
1
)
(r)
: x 1

1
(x)
, linsieme
(r)
delle regole randomizzate diviene un
ampliamento dellinsieme ; inoltre, si ha R

1
= R
(r)
(
1
)
(r)
per ogni
1
.
Il processo di casualizzazione delle decisioni conduce quindi ad una esten-
sione del problema statistico-decisionale originario. Proviamo ora che tale
processo assicura, nel caso di spazi parametrici niti, la convessit` a dellinsieme
di rischio delle regole randomizzate.
Teorema 2.8.3 Sia =
1
, . . . ,
m
. Allora, linsieme di rischio:
R
(r)
= y
(
(r)
)
= (R

(r) (
1
), . . . , R

(r) (
m
)) :
(r)

(r)

relativo alle regole randomizzate `e un insieme convesso.


Dimostrazione Dati
(r)
1
,
(r)
2

(r)
e [0, 1], sia =
(r)
1
+(1 )
(r)
2
.
Allora, (x) `e una decisione randomizzata per ogni campione x; inoltre, dato
uno stato , dal Teorema A.3.4(ii) otteniamo
_
D
L(, ) d(x) =
_
D
L(, ) d
(r)
1
(x) + (1 )
_
D
L(, ) d
(r)
2
(x)
e quindi, per (2.27), R

() = R

(r)
1
() + (1 )R

(r)
2
() `e nito. Allora,

(r)
e quindi y
(
(r)
1
)
+ (1 )y
(
(r)
2
)
= y
()
R
(r)
.
Come esemplicazione della casualizzazione delle decisioni, consideriamo
il problema della verica dipotesi semplici. In questo contesto, una regola
randomizzata
(r)
associa ad ogni campione una distribuzione di probabilit` a
su D = d
0
, d
1
e quindi pu` o essere identicata con la funzione di X in [0, 1]
tale che x
(r)
(d
1
)
55
. Conseguentemente, chiamiamo test randomizzato
ogni applicazione di X in [0, 1] che sia -Borel misurabile. Indicati allora con
(dotato o no di apici o pedici) i test randomizzati, possiamo introdurre la
funzione di potenza

di ponendo:

() = E

() per ogni stato


56
.
55
Cio`e, con la funzione che ad ogni campione assegna (da un punto di vista interpre-
tativo) la probabilit` a che esca la decisione riutare lipotesi nulla in un meccanismo di
sorteggio retto da
(r)
(x).
56
Ottenendo cos` una nozione compatibile con quella data nel caso non randomizzato.
Infatti, notato che il test non randomizzato `e rappresentato, nellambiente randomizzato,
110 CAPITOLO 2. DECISIONI STATISTICHE
Per quanto riguarda la funzione di rischio, da (2.27) risulta
R

() =
_
X
_
_
D
L(, ) d(x)
_
P

(dx)
=
_
X
_
L(, d
0
)(1 (x)) + L(, d
1
)(x)
_
P

(dx)
= L
0
()
_
X
(1 (x)) P

(dx) + L
1
()
_
X
(x) P

(dx)
= L
0
()(1 E

()) + L
1
()E

() = L
0
() (1

()) + L
1
()

()
= L
0
() +

()[L
1
() L
0
()]
da cui, posto K
1
= k
1
(
0
) e K
0
= k
0
(
1
), otteniamo luguaglianza:
R

() =
_
K
1

(
0
) se =
0
K
0
(1

(
1
)) se =
1
,
che `e del tutto analoga a quella relativa al caso non randomizzato. Si ha
quindi, _

se e solo se

(
0
)

(
0
) e

(
1
)

(
1
).
Supposto ora che le densit` a di campionamento siano a valori niti, provia-
mo che la famiglia dei test
(t,)
cos` deniti:

(t,)
(x) =
_

_
1 se f

1
(x) > tf

0
(x)
se f

1
(x) = tf

0
(x)
0 se f

1
(x) < tf

0
(x)
(0 < t < +; 0 1)

(0,0)
(x) =
_
1 se f

1
(x) > 0
0 se f

1
(x) = 0
,
(+,0)
(x) =
_
1 se f

0
(x) = 0
0 se f

0
(x) > 0
`e una classe essenzialmente completa costituita da test randomizzati am-
missibili, senza ricorrere (come fatto nel lemma di Neyman-Pearson 2.3.3)
allipotesi: P

0
(f

1
= t f

0
) = 0 per ogni numero reale t 0
57
.
dal test:

()
(x) =
_
1 se x X
()
1
0 se x , X
()
1
,
si ha

() () = E

(
()
) = P

(
()
= 1) = P

(X
()
1
) =

() per ogni stato .


57
I test
(0,0)
,
(+,0)
sono le versioni randomizzate, rispettivamente, dei test
(0)
e

(+)
considerati nel lemma di Neyman-Pearson; inoltre, per ogni campione x, i test

(t,)
(0 < t < +) riutano lipotesi nulla, se f

1
(x) > tf

0
(x), accettano lipotesi nulla,
se f

1
(x) < tf

0
(x), e accettano lipotesi nulla con probabilit` a 1 , se f

1
(x) = tf

0
(x).
2.8. REGOLE DI DECISIONE RANDOMIZZATE 111
Teorema 2.8.4 Sussistono le seguenti proposizioni:
(i)

(t,) (
0
)

(
0
)

(t,) (
1
)

(
1
) per ogni test randomizzato
e t [0, +], [0, 1];
(ii) Per ogni [0, 1] esistono t

[0, +] e

[0, 1] tali che

(t

) (
0
)
= ;
(iii) La famiglia dei test
(t,)
`e una classe essenzialmente completa costi-
tuita da test randomizzati ammissibili.
Dimostrazione Poniamo, per semplicit` a, f
i
= f

i
, P
i
= P

i
(i = 0, 1) e
indichiamo con
t,
la funzione potenza del test
(t,)
.
(i) Basta ripercorrere la dimostrazione della proposizione (i) del lemma
di Neyman-Pearson considerando, nel caso t ,= +, la funzione g = (
(t,)

)(f
1
tf
0
).
(ii) Se = 0, allora
+,0
(
0
) = 0 e quindi (t

) = (+, 0). Sia


dunque 0 < 1. Posto t ,= + e considerata la v.a. Y su X cos` denita:
Y (x) =
_
f
1
(x)
f
0
(x)
se f
0
(x) > 0
0 se f
0
(x) = 0
,
otteniamo

t,
(
0
) =
_
X

(t,)
dP
0
= P
0
(f
1
> tf
0
) + P
0
(f
1
= tf
0
)
= P
0
__
f
1
f
0
> t f
0
> 0
__
+P
0
__
f
1
f
0
= t f
0
> 0
__
= P
0
_
Y > t f
0
> 0
_
+P
0
_
Y = t f
0
> 0
_
= P
0
(Y > t) + P
0
(Y = t) = 1 P
0
(Y t) + P
0
(Y = t)
e quindi, considerando la funzione di ripartizione F
0
(t) = P
0
(Y t),

t,
(
0
) = 1 F
0
(t) + P
0
(Y = t).
Dobbiamo dunque trovare due numeri reali t 0, [0, 1] tali che F
0
(t)
P
0
(Y = t) = 1 [0, 1[. Ora, se esiste t

tale che F
0
(t

) = 1, poniamo
t = t

e = 0. Altrimenti, per le propriet` a della funzione di ripartizione


112 CAPITOLO 2. DECISIONI STATISTICHE
(Teorema B.1.1(iii), (iv), (v)), esiste t

tale che P
0
(Y < t

) 1 < F
0
(t

).
Allora, poniamo t = t

e
=
F
0
(t

) (1 )
P
0
(Y = t

)
,
notato che P
0
(Y = t

) = F
0
(t

) P
0
(Y < t

) > 0.
(iii) La dimostrazione `e analoga a quella della proposizione (iii) del lemma
di Neyman-Pearson.
Esempio 2.8.5 Con riferimento allOsservazione 2.3.4, posto P
i
= P

i
(i = 0, 1), si ha
P
1
> t P
0
P
1
= t P
0
P
1
< t P
0

0 t <
1
2
X
t =
1
2
x
2
x
1

1
2
< t <
7
6
x
2
x
1

t =
7
6
x
2
x
1

7
6
< t + X
e quindi i test:

(t,)
=
_

_
I
X
se 0 t <
1
2
I
{x
2
}
+I
{x
1
}
se t =
1
2
I
{x
2
}
se
1
2
< t <
7
6
I
{x
2
}
se t =
7
6
I

se t >
7
6
formano una classe essenzialmente completa nellambito dei test randomizzati. Il test con
regione di riuto x
1
, che nel caso non randomizzato non era dominato da alcun test di
Neyman-Pearson, `e ora dominato, ad esempio, dal test
(
7
6
,
1
4
)
.
Appendice A
Richiami
di teoria dellintegrazione
A.1 Misure e loro propriet`a
Prendendo spunto dai concetti di lunghezza, area e volume della geometria
elementare, la nozione astratta di misura `e stata introdotta per assegnare
una estensione agli insiemi. Poich`e, ssato un insieme ambiente ,= ,
non `e possibile, in generale, misurare tutti i suoi sottoinsiemi, si sono
considerate come possibili collezioni di insiemi misurabili quelle famiglie
/ 2

, dette -algebre (su ), che contengono linsieme ambiente e sono


chiuse per complementazione e unioni discrete. Convenuto allora di denotare
con la lettera / una generica -algebra su e con A (dotata o no di apici
o pedici) un suo elemento generico, otteniamo (ricorrendo alle formule di De
Morgan) che sussistono le seguenti propriet` a:
- , /;
- A
1
A
2
/;
-

iI
A
i
,

iI
A
i
/, se I `e un insieme discreto.
Chiaramente, , e linsieme delle parti 2

sono, rispettivamente, la pi` u


piccola e la pi` u grande -algebra; inoltre, `e pure una -algebra linterse-
zione di una collezione arbitraria di -algebre (su ). Conseguentemente,
data una famiglia qualsiasi T 2

, lintersezione (T) di tutte le -algebre


113
114 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
(su ) includenti T `e una -algebra, detta -algebra generata da T
1
.
Nellesempio seguente vengono introdotte alcune -algebre generate di
notevole interesse sia teorico che applicativo.
Esempio A.1.1 (i) -algebra generata da una partizione discreta Data una
partizione discreta T = (F
i
)
iI
di , riesce (T) =

jJ
F
j
: J I . Notato che,
prendendo come sottoinsiemi J i singoletti di I, si ha T ( =

jJ
F
j
: J I e che
ogni -algebra includente la partizione deve includere anche la famiglia (, basta vericare
che ( `e una -algebra. Ora, =

iI
F
i
(; inoltre, (

jJ
F
j
)
c
=

iI\J
F
i
( e

n1
(

jJ
n
F
j
) =

j

n1
J
n
F
j
(.
(ii) -algebra indotta da un sottoinsieme Dato un insieme non vuoto S ,
la famiglia /S = AS : A / `e una -algebra su S, detta traccia di / su S. Infatti,
S = S / S; inoltre, S (A S) = (A S)
c
S = (A
c
S
c
) S = A
c
S / S
e

n1
(A
n
S) = (

n1
A
n
) S / S.
(iii) -algebra indotta da una applicazione Considerata unapplicazione
di un insieme
0
,= in , la famiglia
1
(/) =
1
(A) : A / delle controim-
magini degli elementi di / `e una -algebra su
0
, detta -algebra indotta da
su
0
. Infatti,
0
=
1
()
1
(/); inoltre,
1
(A)
c
=
1
(A
c
)
1
(/) e

n1

1
(A
n
) =
1
(

n1
A
n
)
1
(/).
(iv) -algebra di Borel (di R e di R

) Con riferimento alla retta reale, la -


algebra di Borel (di R) `e la -algebra B su R generata dalla famiglia degli intervalli
limitati inferiormente aperti e superiormente chiusi
2
. Osservato che
]a, b[ =
_
n1

a, b
1
n

, [a, b[ =

n1

a
1
n
, b
_
, [a, b] =

n1

a
1
n
, b +
1
n
_
,
]a, b] =

n1

a, b +
1
n
_
, ]a, b[ =
_
n1
_
a +
1
n
, b
_
, ]a, b[ =
_
n1
_
a +
1
n
, b
1
n

,
] , a] =
_
n1
]a n, a], ]a, b] =] , b] ] , a], ]a, +[ =] , a]
c
,
] , a[ =
_
n1
[a n, a[, [a, b[ =] , b[ ] , a], [a, +[ =] , a[
c
per ogni a, b R, la -algebra B pu` o anche essere descritta come la -algebra generata
da una qualsiasi famiglia dintervalli (limitati o no) del medesimo tipo. Inne, B `e anche
generata dalla famiglia | degli insiemi aperti di R (e quindi anche dalla famiglia W
c
: W
| degli insiemi chiusi). Infatti, dato W |, possiamo associare ad ogni suo elemento w
1
Che verica, per denizione, le propriet` a: (T) (T

), se T T

, e (T) = T, se
T `e una -algebra.
2
La sua introduzione, fatta nel 1898 da Emile Borel, inaugur` o una nuova era dellanalisi
matematica fornendo il punto di partenza sia di una classicazione topologica degli insiemi
di punti che della formulazione astratta della nozione dintegrale.
A.1. MISURE E LORO PROPRIET
`
A 115
un intervallo aperto ]q

w
, q

w
[ di estremi razionali tale che w ]q

w
, q

w
[ W; dunque, W `e
unione discreta di intervalli aperti e quindi appartiene a B. Pertanto, la -algebra (|)
generata dagli insiemi aperti `e inclusa in B. Ne segue, essendo ogni intervallo aperto un
insieme aperto, (|) = B.
Passando alla retta reale ampliata, la -algebra di Borel (di R

) `e la -algebra
B

su R

generata dalla famiglia degli intervalli di R

inferiormente aperti e superior-


mente chiusi. Osservato che [, a[ = ] , a[ =] , +]
c
] , a[ per
ogni a R e tenute presenti le uguaglianze precedenti, possiamo descrivere B

anche
come la -algebra generata dalla famiglia degli intorni di base della retta reale ampliata:
]a, b[, [, a[, ]a, +] (a, b R). Pertanto, con argomentazioni analoghe a quelle relative
al caso della retta reale, B

`e pure generata dalla famiglia degli insiemi aperti della retta


reale ampliata. Notato inne che
[, a] =] , a] ] , +]
c
, ]a, b] = [, b] [, a], ]a, +] = [, a]
c
] , +] =
c
=
_

n1
[, n]

c
per ogni a, b R, possiamo aermare che B

`e anche generata dalla famiglia [, a] : a


R delle semirette inferiori della retta reale ampliata di origine un numero reale. Osservato
inne che R =

n1
] n, n] B

e che la traccia B

R di B

su R include la famiglia
degli intervalli di R inferiormente aperti e superiormente chiusi, otteniamo B B

.
Proviamo inne la chiusura di B per trasformazioni ani della retta reale. Posto
f(x) = x + (, R), consideriamo la famiglia T = B B : f(B) B. Osservato
che R T e tenuto conto delle uguaglianze f(B
c
) = f(B)
c
e f
_
n1
B
n
_
=

n1
f(B
n
),
`e facile vericare che T `e una -algebra. Inoltre, T contiene gli intervalli chiusi in quanto
f([a, b]) = [f(a), f(b)], se 0, e f([a, b]) = [f(b), f(a)], se < 0. Conseguentemente,
T = B e quindi ogni boreliano
3
viene mutato dalla trasformazione f in un boreliano.
Identicate le famiglie degli insiemi misurabili con le -algebre, passia-
mo alla nozione astratta di misura. Con riferimento alla -algebra /, una
applicazione m di /in [0, +] `e una misura (su /) se si annulla sullinsieme
vuoto ed `e numerabilmente additiva (cio`e: m(

n1
A
n
) =

n1
m(A
n
)
per ogni successione disgiunta (A
n
)
n1
).
Nel prossimo esempio illustriamo delle misure di particolare interesse (sia
teorico che applicativo): la misura di Lebesgue unidimensionale e le misure
di conteggio.
Esempio A.1.2 (i) Misura di Lebesgue (unidimensionale) Considerata la famiglia:
= ], ] R : +
costituita dallinsieme vuoto, dalla retta reale, dagli intervalli di R inferiormente aperti e
superiormente chiusi (limitati o no) e da quelli aperti e superiormente illimitati, chiamiamo
3
Chiamiamo, come duso, boreliano di R (di R

) ogni elemento di B (di B

).
116 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
insieme elementare (di R) ogni unione nita di elementi di a due a due disgiunti; inol-
tre, per lunghezza dellinsieme elementare E - unione degli insiemi ]
1
,
1
], . . . , ]
n
,
n
]
a due a due disgiunti - intendiamo lelemento della retta reale ampliata:
lg(E) =
n

i=1
(
i

i
).
Quindi, solamente linsieme vuoto ha lunghezza nulla e gli insiemi elementari illimitati
sono gli unici di lunghezza innita.
Indicata con c la famiglia degli insiemi elementari, possiamo ora introdurre, per ogni
insieme S di numeri reali, la sua misura esterna di Lebesgue:

(S) = inf
_

n1
lg(I
n
) : (I
n
)
n1
successione disgiunta in e S
_
n1
I
n
_
e la sua misura interna di Lebesgue:

(S) = sup
_
lg(E)

(E S) :

(E S) < + E c
_
.
Considerata allora la famiglia:
/=
_
S R :

(S) =

(S)
_
dei sottoinsiemi di R misurabili secondo Lebesgue, la funzione dinsieme di / in
[0, +] cos` denita:
(S) =

(S) =

(S)
per ogni S /, pu` o essere vista come una naturale estensione ad insiemi pi` u complessi
della nozione elementare di lunghezza, essendo c / e (E) = lg(E) per ogni insieme
elementare E.
Per quanto riguarda le propriet` a della famiglia / e della funzione dinsieme , `e noto
che / `e una -algebra tale che B / 2
R
e che `e una misura, detta misura di
Lebesgue (unidimensionale).
4
Unaltra interessante propriet` a di `e che, data una
4
Per la dimostrazione (alquanto complessa) rimandiamo a Rao, M.M., Measure Theory
and Integration, Wiley (1987), sezioni 1.2 e 2.2. Osserviamo solamente che la misura
interna di Lebesgue non pu` o essere sostituita dalla seguente misura interna pi` u semplice:

(S) = sup
_

n1
lg(I
n
) : (I
n
)
n1
successione disgiunta in e
_
n1
I
n
S
_
derivata, per analogia, da quella esterna. Infatti, considerato come S linsieme numerabile
dei numeri razionali dellintervallo [0, 1] e posto S

= [0, 1] S, si avrebbe

([0, 1]) = 1 =

([0, 1]),

(S) = 0 =

(S) e

(S

) = 0 < 1 =

(S

); conseguentemente, con questa


dierente denizione di misura interna, non sarebbe soddisfatta la richiesta, peraltro molto
naturale, che la dierenza di insiemi misurabili sia misurabile.
A.1. MISURE E LORO PROPRIET
`
A 117
trasformazione ane f(x) = x + ( ,= 0) della retta reale, risulta (f(B)) = [[(B)
per ogni B B. Infatti, per ogni insieme elementare E =

n
i=1
]a
i
, b
i
], linsieme
f(E) =
_

n
i=1
]f(a
i
), f(b
i
)] se > 0

n
i=1
]f(b
i
), f(a
i
)] se < 0
`e elementare e riesce
lg(f(E)) =
n

i=1
[[ (b
i
a
i
) = [[
n

i=1
(b
i
a
i
) = [[ lg(E).
Conseguentemente, per ogni boreliano B, si ha
[[ (B) = [[

(B)
= [[ inf
_

n1
lg(I
n
) : (I
n
)
n1
successione disgiunta in e B
_
n1
I
n
_
= inf
_

n1
[[ lg(I
n
) : (I
n
)
n1
successione disgiunta in e B
_
n1
I
n
_
= inf
_

n1
lg(f(I
n
)) : (I
n
)
n1
successione disgiunta in e f(B)
_
n1
f(I
n
)
_
= inf
_

n1
lg(J
n
) : (J
n
)
n1
successione disgiunta in e f(B)
_
n1
J
n
_
=

(f(B)) = (f(B)).
(ii) Misure di conteggio Indicato con #J il numero di elementi di un qualsiasi
insieme nito J, consideriamo un sottoinsieme S di . Allora, la funzione dinsieme

S
: 2

[0, +] cos` denita:

S
(A) =
_
#A S se A S nito
+ altrimenti
,
che conta il numero di elementi comuni ad A e S, `e una misura, detta misura di con-
teggio indotta da S (su ). Poich`e
S
() = 0, per provarlo basta constatare che

S
`e numerabilmente additiva. Sia dunque (A
n
)
n1
una successione disgiunta in 2

e
A =

n1
A
n
. Supponiamo intanto AS nito. Esiste allora m tale che A
n
= per ogni
n > m. Ne segue A S =

m
i=1
(A
i
S) e
S
(A
n
) = 0 per ogni n > m. Riesce pertanto

S
(A) = #A S =
m

i=1
#A
i
S =
m

i=1

S
(A
i
) =

n1

S
(A
n
).
Assumiamo inne AS innito, cio`e
S
(A) = +. Ora, se A
m
S `e innito per qualche
m, si ha

n1

S
(A
n
)
S
(A
m
) = +. Se invece risulta A
n
S nito per ogni n 1,
esiste una sottosuccessione (A
i
n
)
n1
tale che A
i
n
S ,= per ogni n. Riesce quindi

n1

S
(A
n
)

n1

S
(A
i
n
) 1 + 1 +. . . = +.
118 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
In ogni caso si ha dunque

n1

S
(A
n
) = +=
S
(A).
Nel caso particolare che sia S = , la misura di conteggio
{}
viene detta misura
di Dirac di indice e denotata con il simbolo

. Si ha quindi

(A) =
_
1 se A
0 se , A
per ogni sottoinsieme A di .
Nel teorema seguente riportiamo alcune importanti propriet` a delle misu-
re. In particolare, (i), (iv) e (v) assicurano che una misura `e una funzione
dinsieme additiva, monotona e subadditiva (in senso sia nito che numera-
bile) mentre (vi), (vii) che `e continua sulle successioni monotone dinsiemi. La
(viii) invece consente di calcolare la misura di ununione nita di elementi di
/ tramite i valori che la misura assume su tutte le loro possibili intersezioni.
Le (ix), (x) inne che unioni discrete di insiemi di misura nulla sono ancora di
misura nulla e che intersezioni discrete di insiemi di misura massima (purch`e
nita) sono ancora di misura massima.
Teorema A.1.3 Sia m una misura su /. Sussistono allora le seguenti pro-
posizioni:
(i) additivit
`
a: m(

n
i=1
A
i
) =

n
i=1
m(A
i
), se (A
i
)
in
`e disgiunta;
(ii) m(A
1
A
2
) + m(A
1
A
2
) = m(A
1
) + m(A
2
);
(iii) m(A
2
A
1
) = m(A
2
) m(A
1
), se A
1
A
2
e m(A
1
) < +;
(iv) monotonia: m(A
1
) m(A
2
), se A
1
A
2
;
(v) subadditivit
`
a: m(

iI
A
i
)

iI
m(A
i
), se I `e discreto;
(vi) continuit
`
a dal basso: m(A
n
) m(

n1
A
n
), se (A
n
)
n1
`e una
successione non decrescente;
(vii) continuit
`
a dallalto: m(A
n
) m(

n1
A
n
), se (A
n
)
n1
`e una suc-
cessione non crescente tale che m(A
m
) < + per qualche m
5
;
5
Lipotesi di nitezza della misura di qualche termine della successione non pu` o essere,
in generale, omessa. Infatti, posto A
n
= [n, +[ per ogni n, la successione (A
n
)
n1
`e non
crescente; inoltre

n1
A
n
= e (A
n
) = + per ogni n. Si ha pertanto (A
n
) +, =
0 = (

n1
A
n
).
A.1. MISURE E LORO PROPRIET
`
A 119
(viii) formula dinclusione-esclusione: Sia m(A
i
) < +(i = 1, . . . , n).
Allora,
m
_
n
_
i=1
A
i
_
=

J{1,...,n}
(1)
#J1
m
_

jJ
A
j
_
;
(ix) Sia m(A
i
) = 0 per ogni i I con I discreto. Allora, m
_
iI
A
i
_
= 0;
(x) Sia m() < + e m(A
i
) = m() per ogni i I con I discreto. Allora,
m
_
iI
A
i
_
= m()
6
.
Dimostrazione (i) Supposto A
1
, . . . , A
n
a due a due disgiunti, sia A
m
= per ogni
m > n. Allora, da m() = 0 e dalla numerabile additivit` a otteniamo
m
_
n
_
i=1
A
i
_
= m
_
_
n1
A
n
_
=

n1
m(A
n
) =
n

i=1
m(A
i
).
(ii) Poich`e A
1
A
2
= A
1
(A
2
A
1
) e A
2
= (A
2
A
1
) (A
1
A
2
), tramite (i), risulta
m(A
1
A
2
) = m(A
1
) + m(A
2
A
1
) e m(A
2
) = m(A
2
A
1
) + m(A
1
A
2
). Ne segue
m(A
1
A
2
) + m(A
1
A
2
) = [m(A
1
) + m(A
2
A
1
)] + m(A
1
A
2
)
= m(A
1
) + [m(A
2
A
1
) + m(A
1
A
2
)] = m(A
1
) + m(A
2
).
(iii) + (iv) Sia A
1
A
2
. Allora, A
2
= A
1
(A
2
A
1
) e quindi, per (i), m(A
2
) =
m(A
1
) + m(A
2
A
1
).
(v) Sia intanto I numerabile. Allora, posto I = i
1
, i
2
, . . . e tenuto conto dellugua-
glianza
_
n1
A
i
n
= A
i
1

_
n1
[A
i
n+1
(A
i
1
A
i
n
) ], (A.1)
tramite la numerabile additivit` a e (iv) si ha
m
_
_
iI
A
i
_
= m(A
i
1
) +

n1
m(A
i
n+1
(A
i
1
A
i
n
))
m(A
i
1
) +

n1
m(A
i
n+1
) =

n1
m(A
i
n
) =

iI
m(A
i
).
Sia ora I nito. Allora, posto I = i
1
, . . . , i
k
e
A

n
=
_
A
i
n
se n k
se n > m
,
6
Lipotesi di nitezza della misura non pu` o essere, in generale, omessa. Infatti, posto
A
1
=] , 0] e A
2
=]0, +[, otteniamo (A
1
) = (A
2
) = += (R) e (A
1
A
2
) = 0.
120 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
da quanto appena provato e da m() = 0 si ha
m
_
_
iI
A
i
_
= m
_
_
n1
A

n
_

n1
m(A

n
) =
k

i=1
m(A

i
) =

iI
m(A
i
).
(vi) Sia (A
n
)
n1
non decrescente. Allora, per (iv), (m(A
n
))
n1
`e una successione
numerica non decrescente. Per provare che m(A
n
) m(

n1
A
n
), assumiamo intanto
m(A
k
) = + per qualche k. Si ha quindi m(A
n
) = + per ogni n k e, per (iv),
m(

n1
A
n
) = +; dunque m(A
n
) m(

n1
A
n
). Supponiamo ora che m(A
n
) sia
sempre nito. Da (A.1) otteniamo

n1
A
n
= A
1

n1
(A
n+1
A
n
) e quindi, tramite
(i) e la numerabile additivit` a,
m
_
_
n1
A
n
_
= m(A
1
) +

n1
m(A
n+1
A
n
) = lim
n+
_
m(A
1
) +
n

i=1
m(A
i+1
A
i
)
_
= lim
n+
m
_
A
1

_
n
_
i=1
(A
i+1
A
i
)

_
= lim
n+
m(A
n+1
) = lim
n+
m(A
n
).
(vii) Siano (A
n
)
n1
non crescente e m tale che m(A
m
) < +. Allora, per (iv),
m(

n1
A
n
) < +, m(A
n
) < + per ogni n m e la successione numerica (m(A
n
))
n1
`e non crescente. Inoltre, osservato che la successione (A
m
A
n
)
n1
`e non decrescente, da
(iii), (vi) otteniamo
m(A
m
) m
_

n1
A
n
_
= m
_
A
m

n1
A
n
_
= m
_
A
m

_
n1
A
c
n
_
= m
_
_
n1
(A
m
A
n
)
_
= lim
n+
m(A
m
A
n
) = lim
n+
[m(A
m
) m(A
n
)]
= m(A
m
) lim
n+
m(A
n
)
e quindi, essendo m(A
m
) nito, m(A
n
) m(

n1
A
n
).
(viii) Procediamo per induzione su n. Poich`e la base dellinduzione n = 1 `e ovvia,
assumiamo che (viii) sussista per n = k (ipotesi induttiva) e proviamola per n = k + 1.
Sia dunque m(A
i
) < + (i = 1, . . . , k +1). Da (iv), (v) otteniamo m
_
k
i=1
(A
i
A
k+1
)
_

m(

k
i=1
A
i
)

k
i=1
m(A
i
) < + e quindi, per (ii),
m
_
k+1
_
i=1
A
i
_
= m
_
A
k+1

k
_
i=1
A
i
_
= m(A
k+1
) + m
_
k
_
i=1
A
i
_
m
_
k
_
i=1
(A
i
A
k+1
)
_
.
Per lipotesi induttiva riesce allora
m
_
k+1
_
i=1
A
i
_
= m(A
k+1
) +

J{1,...,k}
(1)
#J1
m
_

jJ
A
j
_

J{1,...,k}
(1)
#J1
m
_

jJ
(A
j
A
k+1
)
_
A.1. MISURE E LORO PROPRIET
`
A 121
= m(A
k+1
) +

J{1,...,k}
(1)
#J1
m
_

jJ
A
j
_
+

J{1,...,k}
(1)
#[J{k+1}]1
m
_

jJ
(A
j
A
k+1
)
_
.
Osservato inne che, con riferimento allinsieme I = 1, . . . , k + 1, il primo addendo
della somma riguarda il sottoinsieme di I formato solo dallelemento k + 1, il secondo
i sottoinsiemi di I formati solo con elementi di 1, . . . , k e lultimo i sottoinsiemi di I
contenenti k + 1 e aventi almeno due elementi, otteniamo
m
_
k+1
_
i=1
A
i
_
=

J{1,...,k+1}
(1)
#J1
m
_

jJ
A
j
_
.
(ix) + (x) La proposizione (ix) `e conseguenza immediata di (v). Per quanto riguarda
(x), da (iii) risulta m(A
c
i
) = m() m(A
i
) = 0 per ogni i I. Posto A =

iI
A
i
,
per (ix) si ha allora m(A
c
) = m
_
iI
A
c
i
_
= 0 e quindi, per (iii), m(A) = m( A
c
) =
m() m(A
c
) = m().
Un ruolo chiave (a livello dimostrativo) per ottenere un criterio standard
che assicuri luguaglianza di due misure viene svolto da quelle particolari
famiglie T 2

, dette classi di Dynkin (su ), che vericano le propriet` a:


- T;
- D
c
T, se D T;
-

n1
D
n
T, se (D
n
)
n1
`e una successione disgiunta in T,
cio`e contenenti linsieme ambiente e chiuse per complementazione e unioni
disgiunte numerabili.
Chiaramente, ogni -algebra `e una classe di Dynkin ma non vale il vice-
versa; per constatarlo basta porre = 1, 2, 3, 4 e considerare la classe di
Dynkin T = , 1, 2, 3, 4, 1, 3, 2, 4, . Daltra parte, sono -algebre
le classi di Dynkin T chiuse per intersezioni nite; basta infatti notare che,
per (A.1),

n1
D
n
= D
1

n1
(D
n+1
D
c
1
D
c
n
) per ogni successione
(D
n
)
n1
in T.
Il prossimo lemma assicura che una classe di Dynkin includente una
famiglia chiusa per intersezioni nite `e sucientemente ampia da contenere
anche la -algebra generata dalla famiglia stessa.
Lemma A.1.4 Siano T una classe di Dynkin e T T una famiglia chiusa
per intersezioni nite. Allora, (T) T.
122 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
Dimostrazione Sia T
0
lintersezione di tutte le classi di Dynkin (su ) includenti T.
Allora, T T
0
T e inoltre, come facilmente si verica, T
0
`e una classe di Dynkin.
Basta quindi provare che T
0
`e una -algebra, cio`e che `e chiusa per intersezioni nite. A
tal ne, data unarbitraria famiglia non vuota ( T
0
, proviamo che la famiglia:
T(() = D T
0
: D G T
0
per ogni G ( T
0
`e una classe di Dynkin. Poich`e T
0
e G = G per ogni G ( si ha T((). Sia
ora D T((). Ne segue D T
0
; inoltre, scelto un arbitrario G (, riesce D G T
0
.
Pertanto, D
c
T
0
, D
c
G = (D G)
c
G = [(D G) G
c
]
c
T
0
e quindi D T(().
Sia inne (D
n
)
n1
una successione disgiunta in T((). Allora, qualunque sia n, risulta
D
n
T
0
; inoltre, scelto un arbitrario G (, si ha D
n
G T
0
. Pertanto,

n1
D
n
T
0
e (

n1
D
n
) G =

n1
(D
n
G) T
0
(la successione (D
n
G)
n1
`e disgiunta!). Quindi

n1
D
n
T(().
Scelto ora ( = T e osservato che T T(T) T
0
(T `e chiusa per intersezioni nite!),
dalla denizione di T
0
otteniamo T
0
= T(T). Allora, F D T
0
per ogni D T
0
e F T. Conseguentemente, scelto inne ( = T
0
, si ha T T(T
0
) T
0
e quindi
T
0
= T(T
0
) = D T
0
: D D

T
0
per ogni D

T
0
, cio`e T
0
`e chiusa per inter-
sezioni nite.
Siamo ora in grado di provare un criterio per luguaglianza di misure che,
in particolare, attesta lidentit` a di due misure nite che risultano coincidenti
su un sistema di generatori chiuso per intersezioni nite e contenente linsieme
ambiente.
Teorema A.1.5 (Criterio standard didentit`a) Siano m
1
, m
2
misure su
/ e T una famiglia chiusa per intersezioni nite tale che / = (T) e
m
1
(F) = m
2
(F) per ogni F T. Esista inoltre una successione (F
n
)
n1
in T tale che =

n1
F
n
e m
1
(F
n
) < + per ogni n. Allora, m
1
= m
2
7
.
Dimostrazione Proviamo intanto che, dato F T tale che m
1
(F) < +, risulta
m
1
(F A) = m
2
(F A) per ogni A. A tal ne, posto
T = A (T) : m
1
(F A) = m
2
(F A)
e osservato che T T (T `e chiusa per intersezioni nite!), per il Lemma A.1.4 basta
vericare che T `e una classe di Dynkin. La condizione T `e ovvia. Scelto D T, si ha
D
c
(T) e, per la monotonia della misura, m
2
(F D) = m
1
(F D) m
1
(F) < +.
7
Conseguentemente, la misura di Lebesgue unidimensionale `e lunica misura sui bore-
liani della retta reale che sia compatibile con la lunghezza degli intervalli; infatti, il si-
stema di generatori T = ]a, b] : a, b R `e chiuso per intersezioni nite e, indicato con Z
linsieme dei numeri relativi, R =

zZ
]z, z + 1].
A.2. APPLICAZIONI MISURABILI 123
Ne segue, per il Teorema A.1.3(iii),
m
1
(F D
c
) = m
1
_
F (F D)
_
= m
1
(F) m
1
(F D)
= m
2
(F) m
2
(F D) = m
2
_
F (F D)
_
= m
2
(F D
c
)
e quindi D
c
T. Considerata inne una successione disgiunta (D
n
)
n1
in T, si ha

n1
D
n
(T), m
1
(F D
n
) = m
2
(F D
n
) per ogni n e
m
k
_
F
_
n1
D
n
_
= m
k
_
_
n1
(F D
n
)
_
=

n1
m
k
(F D
n
) (k = 1, 2).
Pertanto

n1
D
n
T.
Proviamo ora che m
1
= m
2
. Dato A, consideriamo la successione non decrescente
_
n
i=1
(A F
i
)
_
n1
. Notato che, per la monotonia della misura, m
k
(A F
n
) < + per
ogni n (k = 1, 2), dalla continuit` a dal basso della misura e dalla formula dinclusione-
esclusione otteniamo allora
m
k
(A) = m
k
(A ) = m
k
_
A
_
n1
F
n
_
= m
k
_
_
n1
(A F
n
)
_
= lim
n+
m
k
_
n
_
i=1
(A F
i
)
_
= lim
n+

J{1,...,n}
(1)
#J1
m
k
_

jJ
(A F
j
)
_
= lim
n+

J{1,...,n}
(1)
#J1
m
k
_
A

jJ
F
j
_
(k = 1, 2).
Ora, dato un arbitrario insieme non vuoto J 1, . . . , n, risulta

jJ
F
j
T (T `e chiusa
per intersezioni nite!) e, per la monotonia della misura, m
1
(

jJ
F
j
) < +; allora,
per quanto provato allinizio della dimostrazione, m
1
(A

jJ
F
j
) = m
2
(A

jJ
F
j
).
Conseguentemente, m
1
(A) = m
2
(A).
A.2 Applicazioni misurabili
Una nozione centrale nella teoria dellintegrazione `e certamente quella di
applicazione misurabile che ora formuliamo. Considerata, accanto alla -
algebra / su , una -algebra /

su un insieme non vuoto

, una appli-
cazione f :

`e (/, /

)-misurabile se la -algebra indotta f


1
(/

) =
_
f
1
(A

) : A

_
(su da f) `e inclusa in /
8
.
8
Da un punto di vista formale, questa nozione presenta una stretta analogia con quella
topologica di funzione continua. Infatti, indicata con |
(n)
la famiglia degli insiemi aperti
di R
n
(n 1), una funzione f : R
m
R
n
`e continua se e solo se f
1
(|
(n)
) =
_
f
1
(U) :
U |
(n)
_
|
m
.
124 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
Chiaramente, ogni applicazione costante di in

`e (/, /

)-misurabile.
Inoltre, se / = 2

o /

= ,

, sono (/, /

)-misurabili tutte le appli-


cazioni di in

. Inne, la misurabilit` a si conserva (come si constata facil-


mente) per composizione, nel senso che - considerata una -algebra /

su un
insieme

,= - sono (/, /

)-misurabili tutte le applicazioni ottenute com-


ponendo applicazioni (/, /

)-misurabili con applicazioni (/

, /

)-misurabili.
Convenendo che la lettera A

(dotata o no di pedici) denoti sempre un


elemento generico di /

, proviamo che - date una partizione discreta (A


i
)
iI
e
una famiglia (f
i
)
iI
di applicazioni (/, /

)-misurabili - la (/, /

)-misurabilit` a
dellapplicazione ottenuta per rincollamento delle f
i
secondo la partizione
(A
i
)
iI
(cio`e, dellapplicazione coincidente, per ogni i I, con f
i
su A
i
).
Lemma A.2.1 Sussistono le seguenti proposizioni:
(i) Siano f unapplicazione (/, /

)-misurabile e S un sottoinsieme non


vuoto di . Allora, considerata la traccia /S di / su S, la restrizione
f

S
`e unapplicazione (/ S, /

)-misurabile;
(ii) Sia (A
i
)
iI
una partizione discreta di . Inoltre, considerata, per ogni
i I, la traccia / A
i
di / su A
i
, sia f
i
: A
i

unapplicazione
(/A
i
, /

)-misurabile. Allora, lapplicazione f :

cos` denita:
f() = f
i
() per ogni A
i
e i I
`e (/, /

)-misurabile.
Dimostrazione (i) Dato A

, otteniamo f
1
(A

) / e quindi (f

S
)
1
(A

) = S :
f() A

= f
1
(A

) S / S.
(ii) Dato A

, risulta
f
1
(A

) = f
1
(A

)
_
iI
A
i
=
_
iI
_
f
1
(A

) A
i
_
=
_
iI
A
i
: f() A

=
_
iI
A
i
: f
i
() A

=
_
iI
f
1
i
(A

).
Osservato che, per ogni i I, si ha f
1
i
(A

) / A
i
/ (A
i
/!), la controimmagine
f
1
(A

) risulta unione discreta di elementi di / e quindi appartiene ad /.


Considerando ora il caso particolare, ma di estrema importanza, delle
funzioni su a valori nella retta reale (o nella retta reale ampliata), pre-
cisiamo che faremo sempre riferimento, per la misurabilit` a, alla -algebra di
A.2. APPLICAZIONI MISURABILI 125
Borel B (o B

) e chiameremo /-Borel misurabile (in breve Borel misu-


rabile) ogni funzione (/, B)-misurabile (o (/, B

)-misurabile). In questo
contesto, di notevole valenza applicativa `e il risultato seguente che consente
di vericare la Borel misurabilit` a limitandosi a constatare lappartenenza ad
/ delle controimmagini delle semirette inferiori di origine un numero reale.
Conseguentemente, possiano sempre supporre che le funzioni Borel misura-
bili siano a valori nella retta reale ampliata (notato che una funzione a valori
in R `e (/, B)-misurabile se e solo se, intesa come funzione a valori in R

, `e
(/, B

)-misurabile).
Teorema A.2.2 (Criterio standard di misurabilit`a) Se T

`e tale
che (T

) = /

, allora unapplicazione f :

`e (/, /

)-misurabile se
f
1
(F

) / per ogni F

. In particolare, una funzione f di in R (in


R

) `e Borel misurabile se f x / per ogni numero reale x


9
.
Dimostrazione Sia (T

) = /

. Posto T

= A

: f
1
(A

) /, si ha

e
(F

)
c
T

, se F

(poich`e f
1
((F

)
c
) = [f
1
(F

)]
c
); inoltre, se (F

n
)
n1
`e una
successione in T

, risulta

n1
F

n
T

(in quanto f
1
(

n1
F

n
) =

n1
f
1
(F

n
) ).
Pertanto, T

`e una -algebra. Allora, notato che T

, si ha /

= (T

) T

da cui otteniamo T

= /

, cio`e la (/, /

)-misurabilit` a di f. La seconda parte della tesi


segue ora immediatamente da quanto stabilito nellEsempio A.1.1(iv).
Il prossimo teorema assicura, in particolare, che trasformate continue o
monotone di funzioni Borel misurabili sono ancora Borel misurabili. Precisia-
mo che, per ogni funzione f a valori nella retta reale ampliata, denotiamo
con f
+
e f

, rispettivamente, la sua parte positiva e la sua parte negativa


10
.
Teorema A.2.3 Sussistono le seguenti proposizioni:
(i) Se S ,= `e un boreliano di R

, sono allora B

S-Borel misurabili le
funzioni di S in R

aventi linsieme dei punti di discontinuit`a discreto;


9
Ovviamente, la verica della Borel misurabilit` a pu` o anche essere condotta scegliendo
uno qualsiasi dei sistemi di generatori considerati nellEsempio A.1.1(iv) e constatando
che le controimmagini dei suoi elementi sono in /.
10
Riesce quindi f
+
= max(0, f) e f

= max(0, f); inoltre, f = f


+
f

e [f[ =
f
+
+f

. Inne, date due funzioni f, g a valori in R

e di medesimo dominio, si ha
(fg)
+
=
_
f g
+
se f 0
f g

se f 0
, (fg)

=
_
f g

se f 0
f g
+
se f 0
.
126 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
(ii) Siano f : R

una funzione Borel misurabile e S un boreliano di R

tale che f() S. Allora, qualunque sia la funzione g : S R

avente
linsieme dei punti di discontinuit`a discreto, la funzione composta g f
`e Borel misurabile. In particolare, sono Borel misurabili [f[, f
+
, f

e, considerati due numeri reali e qualsiasi, f + e anche f

, se
denita ovunque.
Dimostrazione (i) Siano S ,= un boreliano di R

e g : S R

una funzione avente


linsieme S
0
dei punti di discontinuit` a discreto. Allora, S
0
B

e quindi linsieme S
1
=
S S
c
0
dei punti di continuit` a di g `e un boreliano di R

. Proviamo ora che la restrizione


g
1
= g

S
1
`e B

S
1
-Borel misurabile. Per il criterio standard di misurabilit` a, basta
vericare che, dato un numero reale x, risulta g
1
x
c
= g
1
> x B

S
1
. A
tal ne, sia y S
1
tale che x < g(y) +. Poich`e la semiretta ]x, +] `e un intorno
di g(y) e y `e un punto di continuit` a di g, esiste un intorno aperto W
y
di y tale che
y W
y
S
1
g
1
> x. Riesce allora
g
1
> x =
_
y{g
1
>x}
(W
y
S
1
) =
_
_
y{g
1
>x}
W
y
_
S
1
B

S
1
,
notato che

y{g
1
>x}
W
y
`e un insieme aperto di R

.
Per ogni y S
0
, consideriamo inne la restrizione g
y
= g

{y}
che `e banalmente una
funzione B

y-Borel misurabile.
Vengono cos` individuate una partizione discreta S
1
, y (y S
0
) di S costituita da
elementi di B

S e una famiglia di funzioni g


1
, g
y
(y S
0
) tali che g
1
`e B

S
1
-Borel
misurabile e g
y
`e B

y-Borel misurabile per ogni y S


0
. Ne segue, per il Lemma
A.2.1(ii) (ponendo = S e / = B

S), la B

S-Borel misurabilit` a di g.
(ii) Sia g : S R

con insieme dei punti di discontinuit` a discreto. Allora, per (i), g


`e B

S-Borel misurabile. Conseguentemente, dato B B

, riesce g
1
(B) = W S per
qualche W B

e quindi (g f)
1
(B) = f
1
(g
1
(B)) = f
1
(W S) /, osservato che
W S B

. A questo punto, lultima parte della tesi si ottiene immediatamente osser-


vando che le funzioni considerate sono trasformate di f tramite funzioni continue aventi
come insieme di denizione dei boreliani di R

.
Una particolare classe di funzioni, che fornir` a il punto di partenza per la
costruzione dellintegrale di Lebesgue, `e quella delle /-funzioni semplici (in
breve funzioni semplici), cio`e delle funzioni /-Borel misurabili con insieme-
immagine nito. Chiaramente, se f `e una funzione semplice, la famiglia
di controimmagini (f = y)
yf()
`e una partizione nita di costituita
da elementi di / tale che f =

yf()
y I
{f=y}
. Viceversa, comunque si
considerino una partizione nita A
1
, . . . , A
n
/ di e y
i
, . . . , y
n
R

,
la combinazione lineare f =

n
i=1
y
i
I
A
i
`e una funzione semplice; infatti,
A.2. APPLICAZIONI MISURABILI 127
f() = y
1
, . . . , y
n
`e nito e, per il criterio standard di misurabilit` a, f `e
Borel misurabile in quanto f x =

i{i:y
i
x}
A
i
/ per ogni numero
reale x. Pertanto, le funzioni semplici sono tutte e sole le funzioni f : R

che ammettono una rappresentazione del tipo f =

yf()
y I
{f=y}
con f =
y / per ogni y f() e f() nito. In particolare quindi la funzione
indicatrice di un insieme S `e una funzione semplice se e solo se S /.
Il lemma successivo rileva che le usuali manipolazioni algebriche mutano
funzioni semplici in funzioni ancora semplici (qualora risultino ovunque de-
nite); inoltre, che ogni funzione Borel misurabile `e ottenibile come limite di
una successione convergente di funzioni semplici a valori niti.
Lemma A.2.4 (fondamentale) Sussistono le seguenti proposizioni:
(i) Somme, quozienti (se deniti ovunque) e prodotti di funzioni semplici
sono ancora funzioni semplici;
(ii) Sia f una funzione Borel misurabile non negativa. Esiste allora una
successione (f
n
)
n1
di funzioni semplici non negative a valori niti tale
che f
n
f;
(iii) Sia f una funzione Borel misurabile. Esiste allora una successione
(f
n
)
n1
di funzioni semplici a valori niti tale che f
n
f e [f
n
[ [f[
per ogni n.
Dimostrazione (i) Siano f
1
, f
2
funzioni semplici. Allora, f
h
=

n
1
i=1
y
(h)
i
I
A
(h)
i
, avendo
posto f
h
() = y
(h)
1
, . . . , y
(h)
n
h
e A
(h)
i
= f
h
= y
(h)
i
per ogni i n
h
(h = 1, 2). Considera-
ta la partizione nita costituita dagli elementi A
ij
= A
(1)
i
A
(2)
j
/ (i n
1
; j n
2
),
otteniamo (con facili passaggi)
f
1
f
2
=
n
1

i=1
n
2

j=1
y
(1)
i
y
(2)
j
I
A
ij
f
1
+f
2
=
n
1

i=1
n
2

j=1
(y
(1)
i
+y
(2)
j
) I
A
ij
(se f
1
+f
2
`e denita ovunque)
f
1
f
2
=
n
1

i=1
n
2

j=1
y
(1)
i
y
(2)
j
I
A
ij
(se
f
1
f
2
`e denita ovunque).
(ii) Diviso lintervallo reale [0, n] in n2
n
parti, consideriamo le controimmagini:
A
(n)
i
=
_
i 1
2
n
f <
i
2
n
_
(i = 1, . . . , n2
n
)
128 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
e la funzione semplice non negativa a valori niti:
f
n
=
n2
n

i=1
(i 1)
2
n
I
A
(n)
i
+nI
{fn}
.
Allora, (f
n
)
n1
`e una successione non decrescente. Infatti, ssato n e dato , sia
intanto f() < n. Esiste allora i n2
n
tale che
f()
_
i 1
2
n
,
i
2
n
_
=
_
i 1
2
n
,
2i 1
2
n+1
_

_
2i 1
2
n+1
,
i
2
n
_
=
_
(2i 1) 1
2
n+1
,
2i 1
2
n+1
_

_
2i 1
2
n+1
,
2i
2
n+1
_
= A
(n+1)
2i1
A
(n+1)
2i
e quindi
f
n
() =
i 1
2
n

_
i1
2
n
se f() A
(n+1)
2i1
2i1
2
n+1
se f() A
(n+1)
2i
= f
n+1
().
Sia ora f() n. Allora, f
n
() = n e
f() [ n, +[ = [ n, n + 1 [ [ n + 1, +[ =
2
n+1
_
k=1
_
n +
k 1
2
n+1
, n +
k
2
n+1
_
[ n + 1, +[
=
2
n+1
_
k=1
A
(n+1)
n2
n+1
+k
[ n + 1, +[.
Quindi, f
n
() < n + 1 = f
n+1
(), se f() n + 1, e
f
n
() = n
(n2
n+1
+k) 1
2
n+1
= f
n+1
(),
se f() A
(n+1)
n2
n+1
+k
(1 k 2
n+1
). Riesce dunque, in ogni caso, f
n
() f
n+1
().
Per provare che f
n
f, ssiamo e assumiamo intanto f() = +. Allora,
f
n
() = n per ogni n e quindi f
n
() += f(). Supposto inne f() nito, sia > 0.
Esiste allora m tale che f() < m e
1
m
< .
`
E quindi possibile individuare i m2
m
tale
che f() A
(m)
i
. Riesce pertanto f() f
m
() <
i
2
m

i1
2
m
=
1
2
m
< . Ne segue, essendo
(f
n
)
n1
non decrescente, f() f
n
() < per ogni n m. Per larbitrariet` a di , si ha
quindi f
n
() f(). In ogni caso risulta dunque f
n
() f().
(iii) Per (ii) e il Teorema A.2.3(ii), esistono due successioni (g

n
)
n1
, (g

n
)
n1
di fun-
zioni semplici a valori niti tali che 0 g

n
f
+
e 0 g

n
f

. Posto allora f
n
= g

n
g

n
per ogni n, da (i) otteniamo che (f
n
)
n1
`e una successione di funzioni semplici a valori
niti tale che f
n
f e [f
n
[ g

n
+g

n
f
+
+f

= [f[ per ogni n.


Concludiamo la sezione fornendo ulteriori propriet` a delle funzioni Borel
misurabili che, congiuntamente con la proposizione (ii) del Teorema A.2.3,
A.2. APPLICAZIONI MISURABILI 129
assicurano che le usuali manipolazioni dellanalisi (in particolare il passag-
gio al limite di successioni) mutano funzioni Borel misurabili in funzioni (se
denite ovunque) ancora Borel misurabili.
Teorema A.2.5 Sussistono le seguenti proposizioni:
(i) Siano f, g funzioni Borel misurabili. Sono allora elementi di / gli
insiemi f = g, f < g, f > g, f g e f g;
(ii) Sia (f
n
)
n1
una successione di funzioni Borel misurabili. Sono allora
anche Borel misurabili le funzioni inf
n1
f
n
, sup
n1
f
n
, liminf
n+
f
n
e limsup
n+
f
n
.
Inoltre, gli insiemi di convergenza:
A
lim
= : lim
n+
f
n
(), A
(f)
lim
= A
lim
: lim
n+
f
n
() R
appartengono ad / e lim
n+
f
n
`e una funzione Borel misurabile, se
A
lim
= . Inne, se f `e una funzione Borel misurabile, allora linsieme
f
n
f = : f
n
() f() `e un elemento di /;
(iii) Siano f, g funzioni Borel misurabili. Sono allora Borel misurabili le
funzioni fg e, se denite ovunque, f + g e
f
g
;
(iv) Sia (f
n
)
n1
una successione di funzioni Borel misurabili non negative.
Allora, la serie

n1
f
n
`e una funzione Borel misurabile.
Dimostrazione (i) Sia q
1
, q
2
, . . . una numerazione dei numeri razionali. Allora, qualun-
que sia , si ha f() < g() se e solo se f() < q
n
< g() per qualche n. Conseguen-
temente f < g =

n1
f < q
n
< g =

n1
[f < q
n
q
n
< g] /. Evidente-
mente, in modo analogo si prova f > g /. Allora, f ,= g = f < g f > g /
e quindi f = g = f ,= g
c
/. Ne segue f g = f < g f = g / e
f g = f > g f = g /.
(ii) La Borel misurabilit` a di sup
n1
f
n
discende dal criterio standard di misurabilit` a
e dalluguaglianza
_
sup
n1
f
n
x
_
=

n1
f
n
x valida per ogni numero reale x;
quella di inf
n1
f
n
dal Teorema A.2.3(ii) e dalluguaglianza inf
n1
f
n
= sup
n1
(f
n
).
Ne segue, tramite le uguaglianze
liminf
n+
f
n
= sup
k1
_
inf
nk
f
n
_
, limsup
n+
f
n
= inf
k1
_
sup
nk
f
n
_
la Borel misurabilit` a di liminf
n+
f
n
e limsup
n+
f
n
.
130 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
Lappartenenza ad /degli insiemi di convergenza segue allora da (i) e dalle uguaglianze
A
lim
=
_
liminf
n+
f
n
= limsup
n+
f
n
_
A
(f)
lim
= A
lim

_
liminf
n+
f
n
>
_

_
limsup
n+
f
n
< +
_
.
Supposto A
lim
= , la Borel misurabilit` a del limite si ottiene dal criterio standard di
misurabilit` a e dalluguaglianza
_
lim
n+
f
n
x
_
=
_
liminf
n+
f
n
x
_
valida per ogni numero
reale x.
Assunto inne che f sia Borel misurabile, da (i) risulta f = liminf
n+
f
n
, f =
limsup
n+
f
n
/ e quindi f
n
f = f = liminf
n+
f
n
f = limsup
n+
f
n
/.
(iii) Per il lemma fondamentale, esistono due successioni (f
n
)
n1
, (g
n
)
n1
di funzioni
semplici a valori niti tali che f
n
f e g
n
g. Allora, ancora per il lemma fondamentale,
f
n
g
n
e f
n
+g
n
sono, per ogni n, delle funzioni semplici tali che f
n
g
n
fg e, supposto f +g
denita ovunque, f
n
+g
n
f +g. Conseguentemente, per (ii), il prodotto e la somma (se
denita ovunque) sono delle funzioni Borel misurabili. Supposto inne
f
g
denito ovunque
e osservato che, per (i), g
n
= 0 / qualunque sia n, otteniamo, tramite il lemma
fondamentale, che (
f
n
g
n
+I
{g
n
=0}
)
n1
`e una successione di funzioni semplici avente limite
f
g
.
Pertanto, per (ii), pure il quoziente `e una funzione Borel misurabile.
(iv) Segue da (ii) e (iii), tenuto conto della denizione di serie di funzioni.
Osservazione A.2.6 Con riferimento alle funzioni Borel misurabili, `e facile
rendersi conto che la somma, il quoziente e il limite di una successione (an-
che se non deniti ovunque) hanno dominio in / e sono Borel misurabili
rispetto alla traccia di / sul loro dominio. Proviamolo, ad esempio, per la
somma. Indicato con S il suo dominio, otteniamo S
c
=
_
f = g =
+
_

_
f = +g =
_
/, cio`e S /. Ne segue, per il Teorema
A.2.5(iii), la Borel misurabilit` a di fI
S
+gI
S
e quindi, per il Lemma A.2.1(i),
f + g = (fI
S
+ gI
S
)

S
`e / S-Borel misurabile.
Conseguentemente, nel caso che tali funzioni non siano denite ovunque,
possiamo sempre estenderle, per il Lemma A.2.1(ii), su tutto in modo
da renderle Borel misurabili; basta infatti, come faremo implicitamente nel
seguito, porle ducio uguali a zero al di fuori del loro dominio
11
.
A.3 Integrale di Lebesgue
La nozione di integrale, per una funzione denita su un intervallo della retta
reale, venne introdotta nella seconda met` a del 600 (da Isaac Newton e Got-
11
Naturalmente, adotteremo lo stesso tipo di estensione anche per ogni funzione che
abbia dominio in / e che sia Borel misurabile rispetto alla traccia di / sul suo dominio.
A.3. INTEGRALE DI LEBESGUE 131
tfried W. von Leibniz) ricorrendo, in modo pi` u o meno esplicito, agli innite-
simi attuali. A causa della sostanziale vaghezza del concetto dinnitesimo
attuale, questa nozione non era per` o sucientemente precisa da evitare risul-
tati che comportavano un campo di validit` a non chiaramente denito, come
pure dimostrazioni prive di rigore. Bisogn` o attendere il 1867 anch`e Georg
F. B. Riemann ne proponesse una denizione (basata sulla nozione di limi-
te e tuttora presente in ogni testo di analisi matematica) che consentisse
di eliminare tali inconvenienti. Levoluzione della nozione di funzione e lo
studio approfondito delle funzioni numeriche (di variabili reali o no) iniziato
nella seconda met`a dell800 indussero alcuni matematici
12
a sviluppare, tra
il 1890 e il 1920, ricerche che condussero ad un nuovo tipo dintegrale (gene-
ralizzazione di quello di Riemann) - chiamato integrale di Lebesgue -
strettamente legato al concetto astratto di misura e riguardante le funzioni
Borel misurabili. Tra le varie denizioni proposte abbiamo scelto quella che
consente di ottenere rapidamente i risultati di teoria dellintegrazione usati
nel testo.
In seguito, m denoter` a una misura su /. Inoltre, data una qualsiasi
funzione Borel misurabile f, indicheremo con
_

f dm (o
_

f() m(d)) il
relativo integrale di Lebesgue (qualora esistente). Inne, per non appesantire
le dimostrazioni con eccessivi rimandi, non richiameremo di solito i teoremi
A.1.3, A.2.3, A.2.5 e il lemma fondamentale.
A.3.1 Costruzione
Per introdurre la nozione dintegrale (di Lebesgue) per le funzioni Borel misu-
rabili procediamo per passi considerando dapprima il caso delle funzioni sem-
plici non negative, poi quello delle funzioni Borel misurabili non negative e
inne quello delle funzioni Borel misurabili di segno qualsiasi.
Funzioni semplici non negative
Sia f una funzione semplice non negativa. Allora, f() `e un insieme nito e
f = y / per ogni y f(). Possiamo dunque porre:
_

f dm =

yf()
y m(f = y) 0.
12
Tra i quali sono da ricordare Emile Borel, Johann Radon, Thomas J. Stieltjes e, in
particolare, Henri Lebesgue per la notevole importanza della sua opera.
132 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
In particolare, si ha quindi m(A) =
_

I
A
dm per ogni A /.
Proviamo ora che lintegrale cos` denito `e un funzionale lineare monotono
sul cono delle funzioni semplici non negative.
Lemma A.3.1 Siano f, g funzioni semplici non negative. Sussistono allora
le seguenti proposizioni:
(i)
_

n
i=1
y
i
I
A
i
dm =

n
i=1
y
i
m(A
i
) (0 y
i
+; i n);
(ii)
_

(f + g) dm =
_

f dm +
_

g dm (0 , +);
(iii)
_

f I
A
dm = 0, se m(A) = 0;
(iv) Sia g f. Allora,
_

g dm
_

f dm. Inoltre
_

(fg) dm =
_

f dm
_

g dm, se
_

g dm < + e g `e a valori niti;


(v)
_

f dm m(f ) m(f > ) (0 +).


Dimostrazione (i) Siano f =

n
i=1
y
i
I
A
i
e
A
(h
i
)
i
=
_
A
i
se h
i
= 1
A
c
i
se h
i
= 0
(h
i
= 0, 1; i = 1, . . . , n).
Posto allora I = 0, 1
n
, otteniamo che gli insiemi A
h
= A
(h
1
)
1
A
(h
n
)
n
(h =
(h
1
, . . . , h
n
) I) individuano una partizione di formata con elementi di /. Posto
inne y
h
=

n
i=1
h
i
y
i
per ogni h I, si ha
f =

hI
y
h
I
A
h
. (A.2)
Infatti, dato , esiste un solo h

= (h

1
, . . . , h

n
) I tale che A
h
. Allora,
I
A
i
() = h

i
(i = 1, . . . , n), I
A
h

() = 1 e I
A
h
() = 0, se h ,= h

. Risulta quindi
f() =
n

i=1
y
i
I
A
i
() =
n

i=1
h

i
y
i
= y
h
=

hI
y
h
I
A
h
().
Inoltre, dalladditivit` a della misura otteniamo
n

i=1
y
i
m(A
i
) =
n

i=1
y
i
m
_
_
hI
(A
i
A
h
)
_
=
n

i=1
y
i

hI
m(A
i
A
h
) =

hI
n

i=1
y
i
m(A
i
A
h
)
=

hI
n

i=1
y
i
h
i
m(A
h
) =

hI
_
n

i=1
y
i
h
i
_
m(A
h
) =

hI
y
h
m(A
h
).
A.3. INTEGRALE DI LEBESGUE 133
Sia ora f() = y

1
, . . . , y

m
. Notato che gli insiemi A

j
= f = y

j
(j = 1, . . . , m)
costituiscono una partizione di , otteniamo y
h
m(A
h
A

j
) = y

j
m(A
h
A

j
) per ogni
h I e j m; infatti, supposto A
h
A

j
,= e scelto A
h
A

j
, si ha, tramite (A.2),
y
h
= f() = y

j
. Dalladditivit` a della misura segue allora
n

i=1
y
i
m(A
i
) =

hI
y
h
m(A
h
) =

hI
y
h
m
_
m
_
j=1
(A
h
A

j
)
_
=

hI
m

j=1
y
h
m(A
h
A

j
)
=

hI
m

j=1
y

j
m(A
h
A

j
) =
m

j=1

hI
y

j
m(A
h
A

j
)
=
m

j=1
y

j
m
_
_
hI
(A
h
A

j
)
_
=
m

j=1
y

i
m(A

j
) =

yf()
y m(f = y) =
_

f dm.
(ii) Posto f() =
1
, . . . ,
m
, g() =
1
, . . . ,
n
e, per h = 1, . . . , m+n,

h
=
_

h
se 1 h m

hm
se m+ 1 h m+n
, A
h
=
_
f =
h
se 1 h m
g =
hm
se m+ 1 h m+n
otteniamo
f +g =
m

i=1

i
I
{f=
i
}
+
n

j=1

j
I
{g=
j
}
=
m+n

h=1

h
I
A
h
e quindi, tramite (i),
_

(f +g) dm =
m+n

h=1

h
m(A
h
) =
m

i=1

i
m(f =
i
) +
n

j=1

j
m(g =
j
)
=
_

f dm +
_

g dm.
(iii) Per la monotonia della misura, da (i) otteniamo
_

f I
A
dm =
_

_

yf()
y I
{f=y}
_
I
A
dm =
_

yf()
y I
{f=y}A
dm
=

yf()
y m(f = y A)

yf()
y m(A) = 0.
(iv) Supponiamo intanto m(g = +) > 0. Dalla g = + f = + ottenia-
mo, per la monotonia della misura, m(f = +) > 0. Risulta quindi
_

g dm =

yg()
y m(g = y) +m(g = +) = +
e analogamente
_

f dm +, cio`e
_

g dm =
_

f dm. Sia ora m(g = +) = 0.


Posto A = g < +, riesce m(A
c
) = m(g = +) = 0. Considerata allora la funzione
134 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
semplice non negativa a valori niti gI
A
e osservato che f gI
A
`e una funzione semplice
non negativa, da (ii) si ha
_

f dm =
_

[gI
A
+ (f gI
A
)] dm =
_

gI
A
dm +
_

(f gI
A
) dm
e, da (ii), (iii),
_

gI
A
dm =
_

gI
A
dm +
_

gI
A
c dm =
_

g(I
A
+I
A
c ) dm =
_

g dm.
Riesce dunque
_

f dm =
_

g dm +
_

(f gI
A
) dm. Ne segue
_

f dm
_

g dm e,
supposto g a valori niti,
_

(f g) dm =
_

f dm
_

g dm (notato che g = gI
A
).
(v) Conseguenza immediata di (iv), osservato che f I
{f}
I
{f>}
.
Funzioni Borel misurabili non negative
Sia f una funzione Borel misurabile non negativa. Poich`e la funzione nulla ap-
partiene allinsieme g : 0 g f e g funzione semplice, possiamo porre:
_

f dm = sup
_
_

g dm : 0 g f e g funzione semplice
_
0
ottenendo cos` una nozione dintegrale per questo tipo di funzioni che `e coe-
rente, per il Lemma A.3.1(iv), con quella data per le funzioni semplici non
negative.
Il prossimo risultato (di notevole valenza dimostrativa), consente il pas-
saggio del limite sotto il segno dintegrale nel caso di successioni non de-
crescenti di funzioni semplici non negative. Conseguentemente, per il lemma
fondamentale, lintegrale di una funzione Borel misurabile non negativa `e
sempre approssimabile con lintegrale di una opportuna funzione semplice
non negativa a valori niti.
Lemma A.3.2 Sia (f
n
)
n1
una successione di funzioni semplici non nega-
tive tale che f
n
f. Allora,
_

f
n
dm
_

f dm.
Dimostrazione Osservato che, per il Lemma A.3.1(iv), (
_

f
n
dm)
n1
`e una successione
non decrescente tale che lim
n+
_

f
n
dm
_

f dm, basta vericare che, data una funzione


semplice g ,= 0 tale che 0 g f, risulta
_

g dm lim
n+
_

f
n
dm. (A.3)
A.3. INTEGRALE DI LEBESGUE 135
A tal ne, sia un numero reale positivo. Allora, g >

n1
f
n
> ; infatti, dato
g() > , si ha f() > e quindi esiste m tale che f
m
() > , cio`e g
m
>

n1
f
n
> . Ne segue, dalla continuit` a dal basso e dalla monotonia della misura (la
successione (f
n
> )
n1
`e non decrescente!),
lim
n+
m(f
n
> ) = m
_
_
n1
f
n
>
_
m(g > ).
Poich`e, per il Lemma A.3.1(v),
_

f
n
dm m(f
n
> ) per ogni n, risulta inne
lim
n+
_

f
n
dm lim
n+
m(f
n
> ) m(g > ). (A.4)
Procediamo ora considerando i casi: 1) m(g = +) > 0; 2) m(g > 0) = +;
3) m(g = +) = 0 e m(g > 0) < +.
Caso 1. Notato che g = + g > , si ha, per (A.4) e la monotonia della misura,
lim
n+
_

f
n
dm m(g = +). Passando al limite per +, otteniamo allora
lim
n+
_

f
n
dm = + e quindi (A.3).
Caso 2. Poich`e g `e una funzione semplice non ovunque nulla, esiste un numero reale > 0
tale che g > = g > 0. Ne segue, per (A.4), lim
n+
_

f
n
dm m(g > 0) = +
e quindi (A.3).
Caso 3. Posto A = 0 < g < +, dalla monotonia della misura si ha m(A) m(g >
0) < +. Inoltre, osservato che g = gI
{g>0}
= g(I
A
+I
{g=+}
) = gI
A
+gI
{g=+}
, dal
Lemma A.3.1(ii),(iii) otteniamo
_

g dm =
_

g I
A
dm +
_

g I
{g=+}
dm =
_

g I
A
dm. (A.5)
Inne, per il Lemma A.3.1(iv),
_

f
n
dm
_

f
n
I
A
dm per ogni n (poich`e f
n
f
n
I
A
).
Sia ora 0 < < min g(A). Allora, posto A
n
= f
n
g A (n 1), le funzioni
gI
A
n
, (g )I
A
n
e f
n
I
A
n
sono funzioni semplici non negative tali che I
A
n
g I
A
n
e
(g )I
A
n
f
n
I
A
n
f
n
; inoltre, per la monotonia della misura,
_

I
A
n
dm = m(A
n
)
m(A) < +. Dal Lemma A.3.1(iv) segue allora
_

f
n
dm
_

(g )I
A
n
dm =
_

(gI
A
n
I
A
n
) dm
=
_

gI
A
n
dm
_

I
A
n
dm =
_

gI
A
n
dm m(A
n
)

gI
A
n
dm m(A) =
_

g(I
A
I
A\A
n
) dm m(A)
=
_

(gI
A
gI
A\A
n
) dm m(A).
Posto = max g(A), risulta gI
A\A
n
I
A\A
n
I
A
da cui, per il Lemma A.3.1(iv), si
ha
_

gI
A\A
n
dm
_

I
A\A
n
dm = m(A A
n
)
_

I
A
dm = m(A) < +. Notato
136 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
inne che gI
A\A
n
`e a valori niti, sempre tramite il Lemma A.3.1(iv), otteniamo
_

f
n
dm
_

gI
A
dm
_

gI
A\A
n
dm m(A)
_

gI
A
dm m(A A
n
) m(A)
e quindi, per (A.5),
_

f
n
dm
_

g dm m(A A
n
) m(A).
Passando al limite per n +, dalla continuit` a dallalto della misura risulta allora
lim
n+
_

f
n
dm
_

g dm m
_

n1
(A A
n
)
_
m(A),
notato che (A A
n
)
n1
`e una successione non crescente e m(A A
1
) m(A) < +.
Ora, A =

n1
(A A
n
); infatti, dato A, si ha g() < g() f() e quindi
esiste m tale che g() < f
m
(), cio`e A
m


n1
A
n
. Ne segue

n1
(A A
n
) =
A
_
n1
A
n
_
c
= e quindi lim
n+
_

f
n
dm
_

g dm m(A). Passando inne al limite


per 0
+
, otteniamo (A.3).
Proviamo ora che lintegrale `e un funzionale lineare monotono sul cono
delle funzioni Borel misurabili non negative.
Lemma A.3.3 Siano f, g funzioni Borel misurabili non negative. Risulta
allora:
(i)
_

(f + g) dm =
_

f dm +
_

g dm (0 , +);
(ii)
_

g dm
_

f dm, se g f.
Dimostrazione (i) Consideriamo due successioni (f
n
)
n1
, (g
n
)
n1
di funzioni semplici
non negative tali che f
n
f e g
n
g. Allora, la successione (f
n
+ g
n
)
n1
`e costituita
da funzioni semplici non negative tali che f
n
+g
n
f +g. Conseguentemente, per i
lemmi A.3.1(ii) e A.3.2,

f dm +
_

g dm = lim
n+
_

f
n
dm + lim
n+
_

g
n
dm
= lim
n+
_

f
n
dm +
_

g
n
dm
_
= lim
n+
_

(f
n
+g
n
) dm =
_

(f +g) dm.
(ii) Segue banalmente dalla denizione dintegrale.
A.3. INTEGRALE DI LEBESGUE 137
Funzioni Borel misurabili qualsiasi
Sia f una funzione Borel misurabile qualsiasi. Osservato che, per il Teorema
A.2.3(ii), le parti positiva f
+
e negativa f

sono funzioni Borel misurabili


non negative, possiamo considerare i rispettivi integrali
_

f
+
dm e
_

dm.
Qualora tali integrali non siano entrambi inniti, chiamiamo m-sommabile
(in breve sommabile) la funzione f e poniamo:
_

f dm =
_

f
+
dm
_

dm
ottenendo cos` una nozione dintegrale che risulta banalmente coerente con
quella data per le funzioni Borel misurabili non negative.
Il valore dellintegrale di una funzione sommabile f `e quindi:
- +, se
_

f
+
dm = +;
- , se
_

dm = +;
- nito, se
_

f
+
dm e
_

dm sono entrambi niti.


In questultimo caso diremo che f `e m-integrabile (in breve integrabile).
Sia ora A /. Allora, per il Teorema A.2.5(iii), fI
A
`e una funzione Borel
misurabile; inoltre, tenuto conto delle disuguaglianze (fI
A
)
+
= f
+
I
A
f
+
e (fI
A
)

= f

I
A
f

, dal Lemma A.3.3(ii) otteniamo che fI


A
risulta
sommabile (integrabile) se f `e sommabile (integrabile). Conseguentemente,
nel caso di sommabilit`a della funzione f, possiamo porre:
_
A
f dm =
_

fI
A
dm
e chiamare
_
A
f dm lintegrale (di Lebesgue) di f su A.
Una giusticazione della notazione
_
A
f dm pu` o ottenersi constatando (come ora fare-
mo) che lintegrale
_

fI
A
dm coincide (nel caso A ,= ) con lintegrale che si ottiene sce-
gliendo come insieme ambiente A, come -algebra di riferimento la traccia /
1
= /A /
di / su A, come misura la restrizione m
1
= m

A
1
e inne come funzione la restrizione
f
1
= f

A
. Osservato che, per il Lemma A.2.1(i), f
1
`e una funzione /
1
-Borel misurabile, per
provare luguaglianza
_
A
f
1
dm
1
=
_

f I
A
dm assumiamo intanto che f sia una funzione
semplice non negativa. Allora,
fI
A
=
_

yf()
y I
{f=y}
_
I
A
=

yf()
y I
{f=y}A
=

yf(A)
y I
{f=y}A
138 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
da cui, tramite il Lemma A.3.1(i), otteniamo
_
A
f
1
dm
1
=

yf
1
(A)
y m
1
(f
1
= y) =

yf(A)
y m(f = y A) =
_

fI
A
dm.
Supponiamo ora f 0. Allora, per il lemma fondamentale, esiste una successione (g
n
)
n1
di funzioni semplici non negative tale che g
n
f. Conseguentemente, (g
n
I
A
)
n1
`e una
successione di funzioni semplici non negative tale che g
n
I
A
fI
A
e, per il Lemma A.2.1(i),
(g
n

A
)
n1
`e una successione di funzioni /
1
-semplici non negative tale che g
n

A
f
1
. Per
il Lemma A.3.2, si ha quindi
_
A
f
1
dm
1
= lim
n+
_
A
g
n

A
dm
1
= lim
n+
_

g
n
I
A
dm =
_

f I
A
dm.
Sia inne f una funzione m-sommabile. Dalle f
+
1
= f
+

A
e f

1
= f

A
risulta
_
A
f
+
1
dm
1
=
_

f
+
I
A
dm,
_
A
f

1
dm
1
=
_

I
A
dm
e quindi f
1
`e m
1
-sommabile. Ne segue, ricordato che (fI
A
)
+
= f
+
I
A
e (fI
A
)

= f

I
A
,
_
A
f
1
dm
1
=
_
A
f
+
1
dm
1

_
A
f

1
dm
1
=
_

(fI
A
)
+
dm
_

(fI
A
)

dm =
_

fI
A
dm.
Qualora m sia la misura di Lebesgue unidimensionale, al posto delle
notazioni
_
R
f d,
_
],a]
f d,
_
[a,+[
f d e
_
[a,b]
f d, useremo, rispettiva-
mente, le
_
+

f(x) dx,
_
a

f(x) dx,
_
+
a
f(x) dx e
_
b
a
f(x) dx. Ricordiamo
inoltre che questultimo integrale coincide con quello di Riemann se f `e una
funzione limitata integrabile secondo Riemann nellintervallo [a, b]
13
.
A.3.2 Propriet`a elementari
Per provare alcune propriet` a dellintegrale di Lebesgue seguiremo la seguente
procedura standard:
Constatare che la propriet` a sussiste nellambito delle funzioni semplici non
negative;
Vericare che rimane valida anche nellambito delle funzioni Borel misura-
bili non negative tramite il passo precedente, il lemma fondamentale e la
propriet` a di convergenza descritta nel Lemma A.3.2 (che non richiameremo);
Provare che rimane valida anche nellambito delle funzioni sommabili ri-
correndo al passo precedente e alle parti positiva e negativa.
13
Per una dimostrazione si veda la sezione 1.7 del testo di Ash.
A.3. INTEGRALE DI LEBESGUE 139
La prima proposizione del teorema seguente mostra che le funzioni inte-
grabili a valori niti formano uno spazio vettoriale reale e che lintegrale `e un
funzionale lineare su tale spazio; le ultime due assicurano invece che, data una
funzione sommabile f, lapplicazione A
_
A
f dm `e una funzione dinsieme
nitamente additiva su / che si annulla su ogni insieme di misura nulla.
Teorema A.3.4 Sussistono le seguenti proposizioni:
(i) linearit
`
a: Siano f, g funzioni sommabili e , numeri reali tali che
f + g risulti denita ovunque. Allora,
_

(f + g) dm =
_

f dm +
_

g dm
ogniqualvolta non siano inniti di segno opposto gli addendi che com-
paiono al secondo membro delluguaglianza;
(ii) Siano m

una misura su / e f una funzione m-sommabile e m

-sommabi-
le. Allora, qualunque siano i numeri reali non negativi e

, si ha
_

f d(m +

) =
_

f dm +

f dm

ogniqualvolta non siano inniti di segno opposto gli integrali che com-
paiono al secondo membro delluguaglianza;
(iii) additivit
`
a: Sia f una funzione sommabile. Allora,
_
A
1
A
2
f dm =
_
A
1
f dm +
_
A
2
f dm
qualunque siano gli insiemi disgiunti A
1
e A
2
;
(iv) Sia f una funzione sommabile e m(A) = 0. Allora,
_
A
f dm = 0 e
_

f dm =
_
A
c
f dm.
Dimostrazione (i) Iniziamo col provare luguaglianza
_

f dm =
_

f dm. A tal
ne, supponiamo intanto 0. Allora, per il Lemma A.3.3(i),
_

(f)
+
dm =
_

f
+
dm =
_

f
+
dm
_

(f)

dm =
_

dm =
_

dm.
140 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
Conseguentemente, f `e una funzione sommabile e riesce
_

f dm =
_

f
+
dm
_

dm =
_
_

f
+
dm
_

dm
_
=
_

f dm.
Assumiamo inne < 0. Allora, sempre per il Lemma A.3.3(i),
_

(f)
+
dm =
_

()f

dm = ()
_

dm
_

(f)

dm =
_

()f
+
dm = ()
_

f
+
dm.
Quindi, f `e una funzione sommabile e risulta
_

f dm = ()
_

dm +
_

f
+
dm =
__

f
+
dm
_

dm
_
=
_

f dm.
A questo punto, supposto che gli integrali
_

f dm,
_

g dm non siano inniti di segno


opposto, basta vericare luguaglianza
_

(f +g) dm =
_

f dm +
_

g dm. Osservato che


(f + g)
+
+ f

+ g

= (f + g)

+ f
+
+ g
+
, (f + g)
+
f
+
+ g
+
e (f + g)

+ g

,
dal Lemma A.3.3 otteniamo
_

(f +g)
+
dm +
_

dm +
_

dm =
_

(f +g)

dm +
_

f
+
dm +
_

g
+
dm (A.6)
_

(f +g)
+
dm
_

f
+
dm +
_

g
+
dm (A.7)
_

(f +g)

dm
_

dm +
_

dm. (A.8)
Se f e g sono integrabili, gli integrali delle parti positiva e negativa della funzione somma
sono, per (A.7) e (A.8), niti e quindi la funzione somma risulta integrabile. Inoltre, per
(A.6),
_

(f +g) dm =
_

(f +g)
+
dm
_

(f +g)

dm
=
_
_

f
+
dm
_

dm
_
+
_
_

g
+
dm
_

dm
_
=
_

f dm +
_

g dm.
Supposto ora, ad esempio, che f non sia integrabile, assumiamo intanto che risulti in-
nito lintegrale della sua parte positiva. Allora, gli integrali delle parti negative di f e
di g devono essere entrambi niti (in caso contrario, si giungerebbe alla contraddizione
_

f dm = + e
_

g dm = ). Conseguentemente, per (A.8), lintegrale


_

(f +g)

dm
`e nito e quindi la funzione somma risulta sommabile. Pertanto, tramite (A.6),
_

(f +g)
+
dm =
_

(f +g)

dm +
_
_

f
+
dm
_

dm
_
+
_
_

g
+
dm
_

dm
_
=
_

(f +g)

dm +
_

f dm +
_

g dm
A.3. INTEGRALE DI LEBESGUE 141
da cui otteniamo
_

(f +g) dm =
_
_

(f +g)

dm +
_

fdm +
_

g dm
_

(f +g)

dm
=
_

f dm +
_

g dm.
Se invece `e innito lintegrale della parte negativa di f, si procede in modo analogo (usando
(A.7) al posto di (A.8)).
(ii) Considerati due numeri reali ,

0, poniamo m

= m +

. Supposto
che gli integrali del secondo membro delluguaglianza non siano inniti di segno opposto,
assumiamo intanto che f sia una funzione semplice non negativa. Riesce allora
_

f dm

yf()
y m

(f = y) =

yf()
y [m(f = y) +

(f = y)]
=

yf()
ym(f = y) +

yf()
ym

(f = y) =
_

f dm +

f dm

.
Supponiamo ora f 0. Considerata una successione (f
n
)
n1
di funzioni semplici non
negative tale che f
n
f, otteniamo
_

f dm

= lim
n+
_

f
n
dm

= lim
n+
_

f
n
dm +

f
n
dm

_
= lim
n+
_

f
n
dm +

lim
n+
_

f
n
dm

=
_

f dm +

f dm

.
Sia inne f qualsiasi. Poich`e
_

f
+
dm

=
_

f
+
dm +

f
+
dm

(A.9)
_

dm

=
_

dm +

dm

, (A.10)
f `e m

-sommabile. Infatti, se gli integrali


_

f
+
dm,
_

f
+
dm

sono entrambi niti, per


(A.9) `e nito pure lintegrale
_

f
+
dm

. Se invece riesce, ad esempio,


_

f
+
dm = +,
sono entrambi niti gli integrali
_

dm e
_

dm

(in caso contrario, si giungerebbe


alla contraddizione
_

f dm = + e
_

f dm

= ); allora, per (A.10) `e pure nito


lintegrale
_

dm

. In ogni caso quindi f `e m

-sommabile. Inoltre, sempre per (A.9) e


(A.10),
_

fdm

=
_

f
+
dm +

f
+
dm

dm +

dm

_
=
_
_

f
+
dm
_

dm
_

_
_

f
+
dm

dm

_
=
_

f dm +

f dm

.
142 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
(iii) Sia A
1
A
2
= . Allora, I
A
1
A
2
= I
A
1
+I
A
2
e gli integrali
_

fI
A
1
dm,
_

fI
A
2
dm
non possono essere inniti di segno opposto (infatti, se risultasse, ad esempio,
_

fI
A
1
dm =
+,
_

fI
A
2
dm = , si avrebbe, per il Lemma A.3.3(ii), + =
_

(fI
A
1
)
+
dm
_

f
+
dm, + =
_

(fI
A
2
)

dm
_

dm e quindi si otterrebbe la contraddizione


_

f
+
dm =
_

dm = +). Da (i) segue allora


_
A
1
A
2
f dm =
_

(fI
A
1
+fI
A
2
) dm =
_

fI
A
1
dm +
_

fI
A
2
dm =
_
A
1
f dm +
_
A
2
f dm.
(iv) Per provare lannullamento dellintegrale, basta evidentemente vericarlo nel caso
f 0. Considerata una successione (f
n
)
n1
di funzioni semplici non negative tale che
f
n
f, la successione (f
n
I
A
)
n1
`e costituita da funzioni semplici non negative tali che
f
n
I
A
fI
A
. Dal Lemma A.3.1(iii) si ha allora 0 =
_

f
n
I
A
dm
_

fI
A
dm e quindi
_
A
f dm = 0. Ne segue, tramite (iii),
_

f dm =
_
AA
c
f dm =
_
A
f dm +
_
A
c
f dm =
_
A
c
f dm.
La dimostrazione `e cos` conclusa.
Il prossimo risultato identica lintegrabilit` a di una funzione con quella del
suo valore assoluto; inoltre, mette in evidenza che lintegrabilit` a di una fun-
zione `e assicurata qualora il suo valore assoluto sia dominato da qualche fun-
zione integrabile oppure, nel caso che la misura sia nita
14
, dallintegrabilit` a
del suo quadrato.
Teorema A.3.5 Siano f, g funzioni Borel misurabili. Sussistono allora le
seguenti proposizioni:
(i) f `e sommabile se:
- f g con g funzione sommabile tale che
_

g dm > ;
- f g con g funzione sommabile tale che
_

g dm < +;
(ii) f `e integrabile se e solo se lo `e il suo valore assoluto;
(iii) f `e integrabile se [f[ g con g funzione integrabile;
(iv) fg `e integrabile se f
2
, g
2
sono integrabili;
(v) Sia la misura m nita. Allora, f `e integrabile se lo `e il suo quadrato.
Inoltre, ogni funzione limitata `e integrabile.
14
Cio`e, a valori niti o, equivalentemente per la monotonia della misura, che assuma
valore nito sullinsieme ambiente.
A.3. INTEGRALE DI LEBESGUE 143
Dimostrazione (i) Poich`e le dimostrazioni nei due casi sono simili, ci limitiamo a con-
siderare quella relativa al primo. Sia dunque f g e
_

g dm > . Allora, f

e
_

dm < +. Ne segue, per il Lemma A.3.3(ii),


_

dm
_

dm < + e quindi
la sommabilit`a di f.
(ii) Basta osservare che, per la linearit`a dellintegrale,
_

[f[ dm =
_

(f
+
+f

) dm =
_

f
+
dm +
_

dm.
(iii) Segue da (ii), osservato che, per il Lemma A.3.3(ii),
_

[f[ dm
_

g dm < +.
(iv) Siano f
2
, g
2
integrabili. Allora, per la linearit` a dellintegrale,
_

(f
2
+ g
2
) dm =
_

f
2
dm+
_

g
2
dm < +e quindi anche f
2
+g
2
`e integrabile. Ora, dalla 0 ([f[[g[)
2
=
f
2
2[fg[ +g
2
si ha [fg[
f
2
+g
2
2
f
2
+g
2
. Ne segue, tramite (iii), lintegrabilit` a di fg.
(v) Supposto m nita, sia intanto f
2
integrabile. Notato che
_

I
2

dm =
_

dm =
m() < +, da (iv) otteniamo lintegrabilit` a di f = fI

. Sia inne f limitata. Esiste


allora n tale che [f[ n = nI

. Osservato che
_

nI

dm = nm() < +, da (iii) segue


lintegrabilit` a di f.
Lultima proposizione del Teorema A.3.4 mette in evidenza che gli insiemi
di misura nulla sono importanti nella teoria dellintegrazione per la curiosa
ragione che possono essere ignorati ai ni del calcolo degli integrali. Viene
allora naturale chiamare m-trascurabile (in breve trascurabile) ogni sot-
toinsieme S di per il quale esista un insieme A S tale che m(A) = 0;
chiaramente, sono trascurabili, oltre allinsieme vuoto, i sottoinsiemi di un
insieme trascurabile e, per il Teorema A.1.3(ix), lunione di una famiglia
discreta di insiemi trascurabili; inoltre, per la monotonia della misura, un
elemento di / `e trascurabile se e solo se `e di misura nulla. Diremo inne
che una propriet` a P o una relazione binaria , riguardanti applicazioni di
dominio , sussiste m-quasi ovunque (in breve quasi ovunque) se il suo
campo di validit` a include il complementare di un insieme trascurabile; inol-
tre, per indicare tale situazione, useremo, rispettivamente, le notazioni P
(m-q.o.) e (m-q.o.). Cos`, ad esempio, scriveremo:
- f nita (m-q.o.), se linsieme [f[ = + `e trascurabile;
- f g (m-q.o.), se linsieme f > g `e trascurabile;
- f < g (m-q.o.), se linsieme f g `e trascurabile;
- f = g (m-q.o.), se linsieme f ,= g `e trascurabile;
15
15
Le relazioni = (m-q.o.) di uguaglianza quasi ovunque e < (m-q.o.) di quasi
ovunque minore di sono, come facilmente si verica, rispettivamente la parte simmetrica
e quella asimmetrica del preordinamento (m-q.o.). Per quanto riguarda le propriet` a
delluguaglianza quasi ovunque, `e facile vericare che, se f
n
= g
n
(m-q.o.) (n 1), si ha

n
i=1
f
i
=

n
i=1
g
i
(m-q.o.),

n
i=1
f
i
=

n
i=1
g
i
(m-q.o.) per ogni n e f
1
= g
1
(m-q.o.)
per ogni R

; inoltre, g
n
f (m-q.o.), se f
n
f (m-q.o.).
144 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
- lim
n+
f
n
(m-q.o.), se linsieme A
c
lim
`e trascurabile;
- f
n
f (m-q.o.), se linsieme f
n
f
c
`e trascurabile;
- f
n
f (m-q.o.), se linsieme : (f
n
() f()) `e trascurabile.
Il teorema successivo fornisce ulteriori propriet` a dellintegrale di Lebesgue.
In particolare, la prima proposizione assicura che lintegrale `e un funzionale
monotono rispetto al preordinamento (m-q.o.); la seconda che funzioni
Borel misurabili uguali quasi ovunque sono identicabili dal punto di vista
dellintegrazione, nel senso che una `e sommabile se e solo se ne `e laltra e,
in tal caso, i due integrali coincidono; lultima che una funzione integrabile `e
nita quasi ovunque.
Teorema A.3.6 Sia f una funzione sommabile. Sussistono allora le seguenti
proposizioni:
(i) monotonia:
_

g dm
_

f dm, se g f (m-q.o.) e g `e sommabile;


(ii)
_

g dm =
_

f dm, se f = g (m-q.o.) e g `e Borel misurabile;


(iii)

f dm

[f[ dm;
(iv) m(A) inf f(A)
_
A
f dm m(A) sup f(A) per ogni A
16
;
(v) Se f 0 e
_

f dm = 0, allora f = 0 (m-q.o.);
(vi) Se m(A) > 0 e f() > 0 per ogni A, allora
_
A
f dm > 0;
(vii) Se f `e integrabile, allora f `e nita quasi ovunque.
Dimostrazione (i) Sia g una funzione sommabile tale che m(g > f) = 0. Allora,
posto A
1
= g f, riesce gI
A
1
fI
A
1
e m(A
c
1
) = 0. Osservato che (gI
A
1
)
+
(fI
A
1
)
+
e (gI
A
1
)

(fI
A
1
)

, dal Teorema A.3.4(iv) otteniamo


_

g dm =
_
A
1
g dm =
_

(gI
A
1
)
+
dm
_

(gI
A
1
)

dm

(fI
A
1
)
+
dm
_

(fI
A
1
)

dm =
_
A
1
f dm =
_

f dm.
(ii) Sia g una funzione Borel misurabile tale che m(f ,= g) = 0. Allora, f g
(m-q.o.), f g (m-q.o.) e quindi, per (i), basta vericare la sommabilit` a di g. Poich`e
f `e sommabile, gli integrali delle relative parti positiva e negativa non sono entrambi
inniti. Supposto nito, ad esempio, quello della parte positiva, proviamo che
_

g
+
dm
16
Ricordiamo che questa proposizione `e nota come teorema della media integrale.
A.3. INTEGRALE DI LEBESGUE 145
_

f
+
dm. A tal ne, tenuto conto di (i), basta constatare che f
+
= g
+
(m-q.o.). Ora,
osservato che f
+
,= g
+
= max(0, f) ,= max(0, g) f ,= g, dalla monotonia della
misura otteniamo m(f
+
,= g
+
) m(f ,= g) = 0.
(iii) Dalla [f[ f [f[, tramite (i) e la linearit`a dellintegrale, si ha

[f[ dm =
_

[f[ dm
_

f dm
_

[f[ dm
e quindi

f dm

[f[ dm.
(iv) Poich`e le disuguaglianze m(A) inf f(A)
_
A
fdm,
_
A
fdm m(A) sup f(A) si
provano in modo analogo, ci limitiamo a vericare la prima. Per il Teorema A.3.4(iv)
possiamo supporre m(A) > 0 e quindi anche inf f(A) > . Allora, per la linearit` a
dellintegrale, inf f(A) m(A) = inf f(A)
_

I
A
dm =
_

inf f(A) I
A
dm. Ne segue, tenuto
conto di inf f(A) I
A
f I
A
e (i), inf f(A) m(A)
_

f I
A
dm =
_
A
f dm.
(v) Sia f 0 e
_

f dm = 0. Posto A = f > 0 supponiamo (per assurdo) m(A) > 0.


Osservato che la successione non decrescente A
n
= f >
1
n
(n 1) `e tale che A =

n1
A
n
, dalla continuit` a dal basso della misura si ha m(A
n
) m(A). Ne segue che esiste
k tale che m(A
k
) > 0. Considerata allora la funzione semplice g =
1
k
I
A
k
, otteniamo g f
da cui, tramite (i), si ha la contraddizione 0 =
_

f dm
_

g dm =
1
k
m(A
k
) > 0.
(vi) Supposto m(A) > 0 e f() > 0 per ogni A, assumiamo (per assurdo)
_

fI
A
dm =
_
A
f dm = 0. Poich`e fI
A
0, da (v) si ha fI
A
= 0 (m-q.o.). Osservato che
A = fI
A
,= 0, otteniamo allora la contraddizione 0 < m(A) = m(fI
A
,= 0) = 0.
(vii) Sia f integrabile. Allora, per il Teorema A.3.5(ii), `e pure integrabile il suo valore
assoluto. Posto A = [f[ = +, assumiamo (per assurdo) m(A) > 0. Considerata la
funzione semplice g = +I
A
, otteniamo g [f[ e quindi, tramite (i), la contraddizione
+= +m(A) =
_

g dm
_

[f[ dm < +.
A.3.3 Propriet`a di convergenza
In questa sezione proviamo tre fondamentali teoremi di convergenza per
lintegrale di Lebesgue che trovano applicazione in tutti i campi che fanno
uso di modelli statistici o probabilistici. Iniziamo con quello che fornisce una
generalizzazione del Lemma A.3.2.
Teorema A.3.7 (della convergenza monotona) Sia (f
n
)
n1
una succes-
sione di funzioni Borel misurabili tale che f
1
0 (m-q.o.) e f
n
f. Allora,
f 0 (m-q.o.) e
_

f
n
dm
_

f dm.
Dimostrazione Poich`e linsieme f
1
< 0 `e trascurabile, si ha f 0 (m-q.o.) in quanto
f < 0 f
1
< 0; inoltre, posto A =

n1
f
n
0 e osservato che f
1
0 A,
otteniamo A
c
f
1
< 0 e quindi anche A
c
`e un insieme trascurabile. Conseguentemente,
posto

f = fI
A
e

f
n
= f
n
I
A
per ogni n, risulta

f = f (m-q.o.),

f
n


f e

f
n
= f
n
(m-q.o.),

f
n
0 per ogni n. Allora, per il Teorema A.3.6(ii), f, f
n
(n 1) sono funzioni sommabili
146 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
tali che
_

f dm =
_

f dm e
_

f
n
dm =
_

f
n
dm per ogni n. Basta quindi vericare che
_

f
n
dm
_

f dm.
Notato che, per la monotonia dellintegrale, (
_

f
n
dm)
n1
`e una successione non de-
crescente tale che lim
n+
_

f
n
dm
_

f dm, proviamo la disuguaglianza opposta. A tal


ne, per ogni m consideriamo una successione di funzioni semplici non negative (f
(m)
n
)
n1
tale che f
(m)
n


f
m
come n +. Posto allora g
n
= max
mn
f
(m)
n
per ogni n, otteniamo che
(g
n
)
n1
`e una successione non decrescente di funzioni semplici non negative tale che
f
(m)
n
g
n
max
1hn

f
h
=

f
n


f (m n; n 1). (A.11)
Si ha pertanto

f
m
= lim
n+
f
(m)
n
lim
n+
g
n


f. Passando al limite per m +,
riesce allora g
n


f. Ne segue, per il Lemma A.3.2,
_

g
n
dm
_

f dm. Notato inne


che, per la monotonia dellintegrale e (A.11),
_

g
n
dm
_

f
n
dm per ogni n, otteniamo
_

f dm = lim
n+
_

g
n
dm lim
n+
_

f
n
dm.
Il prossimo teorema di convergenza assicura linvertibilit` a delloperatore
dintegrazione con quello di serie nel caso di funzioni integrande non negative.
Teorema A.3.8 (dintegrazione per serie) Siano (f
n
)
n1
una successio-
ne di funzioni Borel misurabili non negative e (
n
)
n1
una successione di
numeri reali non negativi. Allora,
_

n1

n
f
n
dm =

n1

n
_

f
n
dm.
Dimostrazione Procedendo per induzione su n otteniamo che luguaglianza
_

n=1

i
f
i
dm =
n

n=1

i
_

f
i
dm
sussiste qualunque sia n (la base dellinduzione n = 1 `e banale e il passo induttivo segue
dalla linearit` a dellintegrale). Dalla 0

n
i=1

i
f
i

n1

n
f
n
per n + si ha allora
_

n1

n
f
n
dm = lim
n+
_

i=1

i
f
i
dm = lim
n+
n

i=1

i
_

f
i
dm =

n1

n
_

f
n
dm
tenuto conto del teorema della convergenza monotona.
Osservazione A.3.9 Nel caso particolare delle misure di conteggio indotte
da insiemi discreti, possiamo ottenere, mediante il Teorema A.3.6(ii) e quello
dintegrazione per serie, la seguente interessante e utile connessione tra linte-
grale di Lebesgue e le serie numeriche. Dato un insieme discreto S avente
A.3. INTEGRALE DI LEBESGUE 147
N + elementi, sia f : R

una funzione
S
-sommabile. Considerata
allora una numerazione s
1
, s
2
, . . . di S, riesce
_

f d
S
=
N

i=1
f
+
(s
i
)
N

i=1
f

(s
i
) =
N

i=1
f
+
(s
i
) +
N

i=1
(f

(s
i
)) (A.12)
e quindi, qualora sia N = +, lintegrale pu` o essere calcolato sommando
le serie dei valori, rispettivamente, positivi e negativi della restrizione f

S
.
Conseguentemente, sussiste luguaglianza
_

f d
S
=

n1
f(s
n
) ogniqual-
volta la serie numerica

n1
f(s
n
) risulti permutabile, come avviene quando
f `e di segno costante (serie a termini positivi) oppure `e
S
-integrabile (serie
assolutamente convergente).
Per provare (A.12), assumiamo intanto f 0. Posto g =

n1
f(s
n
)I
{s
n
}
,
otteniamo g = f (
S
-q.o.) e quindi, per il Teorema A.3.6(ii),
_

f d
S
=
_

g d
S
=
_

i=1
f(s
i
)I
{s
i
}
d
S
=
N

i=1
f(s
i
)
_

I
{s
i
}
d
S
=
N

i=1
f(s
i
)
S
(s
i
) =
N

i=1
f(s
i
).
Sia ora f qualsiasi. Osservato che
_

f
+
d
S
=

N
i=1
f
+
(s
i
) e
_

d
S
=

N
i=1
f

(s
i
), dalla denizione dellintegrale si ha (A.12).
Il risultato successivo fornisce due disuguaglianze riguardanti, rispetti-
vamente, lintegrale del minimo-limite e quello del massimo-limite di una
successione di funzioni Borel misurabili.
Lemma A.3.10 (di Fatou) Sia (f
n
)
n1
una successione di funzioni Borel
misurabili. Risulta allora:
(i)
_

liminf
n+
f
n
dm liminf
n+
_

f
n
dm, se f
n
0 per ogni n;
(ii)
_

limsup
n+
f
n
dm limsup
n+
_

f
n
dm, se f
n
g per ogni n e g `e integra-
bile.
Dimostrazione (i) Posto g
n
= inf
mn
f
m
0 per ogni n, otteniamo f
n
g
n
(n 1)
e g
n
liminf
n+
f
n
. Allora, per la monotonia dellintegrale e il teorema della convergenza
monotona,
_

liminf
n+
f
n
dm = lim
n+
_

g
n
dm = liminf
n+
_

g
n
dm liminf
n+
_

f
n
dm.
148 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
(ii) Posto g
n
= g f
n
0 per ogni n, otteniamo liminf
n+
g
n
= g limsup
n+
f
n
. Inoltre,
per la linearit` a dellintegrale,
_

g
n
dm =
_

g dm
_

f
n
dm per ogni n e quindi
liminf
n+
_

g
n
dm =
_

g dmlimsup
n+
_

f
n
dm.
Usando ancora la linearit` a dellintegrale, tramite (i), si ha allora
_

g dm
_

limsup
n+
f
n
dm =
_

(g limsup
n+
f
n
) dm =
_

liminf
n+
g
n
dm
liminf
n+
_

g
n
dm =
_

g dmlimsup
n+
_

f
n
dm
e quindi la tesi.
Il seguente celebre teorema di convergenza (dovuto a Henri Lebesgue) `e
senza alcun dubbio una delle pietre miliari della teoria dellintegrazione
e viene usualmente citato per evidenziare la superiorit` a dellintegrale di
Lebesgue rispetto a quello classico di Riemann.
Teorema A.3.11 (della convergenza dominata) Sia (f
n
)
n1
una succes-
sione di funzioni Borel misurabili tale che f
n
f. Inoltre, sia g una funzione
integrabile tale che [f
n
[ g (m-q.o.) per ogni n. Allora, f, f
n
(n 1) sono
integrabili e si ha
_

f
n
dm
_

f dm.
Dimostrazione Per il Teorema A.3.6(vii), g `e nita quasi ovunque, cio`e [g[ = + `e
un insieme trascurabile. Posto allora A = [g[ < +

n1
[f
n
[ g, anche linsieme
A
c
= [g[ = +

n1
[f
n
[ > g `e trascurabile, tenito conto che linsieme [f
n
[ > g
`e trascurabile per ogni n. Conseguentemente, posto

f
n
= f
n
I
A
per ogni n e

f = fI
A
,
risulta

f
n
= f
n
(m-q.o.) per ogni n e

f = f (m-q.o.). Per il Teorema A.3.6(ii), basta
quindi vericare che

f,

f
n
(n 1) sono funzioni integrabili e che
_

f
n
dm
_

fdm.
Ora, posto g = gI
A
, si ha g = g (m-q.o.) e quindi, per il Teorema A.3.6(ii), g `e
integrabile; inoltre, dalle

f
n


f e [

f
n
[ g per ogni n, otteniamo [

f[ g. Ne segue,
[

f

f
n
[ [

f[ + [

f
n
[ 2 g per ogni n e, per il Teorema A.3.5(iii), lintegrabilit` a di

f e di

f
n
(n 1). Osservato inne che la funzione 2 g `e integrabile, dalla linearit` a dellintegrale,
dal Teorema A.3.6(iii) e dalla proposizione (ii) del lemma di Fatou, si ha
0 liminf
n+

f dm
_

f
n
dm

limsup
n+

f dm
_

f
n
dm

= limsup
n+

(

f

f
n
) dm

limsup
n+
_

f

f
n
[ dm

limsup
n+
[

f

f
n
[ dm =
_

lim
n+
[

f

f
n
[ dm = 0
e quindi lim
n+

f dm
_

f
n
dm

= 0, cio`e
_

f
n
dm
_

f dm.
A.3. INTEGRALE DI LEBESGUE 149
Osservazione A.3.12 Qualora non sussista lipotesi g funzione integrabile
e [f
n
[ g (m-q.o.) per ogni n, pu` o avvenire che la convergenza degli integra-
li venga a mancare. Posto infatti = [0, 1], / = B e m =

A
, sia f
n
la
funzione /-Borel misurabile cos` denita:
f
n
(x) =
_

_
2n
2
x se 0 x
1
2n
2n
2
x + 2n se
1
2n
x
1
n
0 se
1
n
x 1
(n 1).
Allora, f
n
f = I

,
_
1
0
f
n
(x) dx =
1
2
per ogni n e
_
1
0
f(x) dx = 0.
Concludiamo la sezione fornendo delle condizioni che consentono linverti-
bilit`a delloperatore di derivazione con quello dintegrazione.
Teorema A.3.13 (di derivazione sotto il segno dintegrale) Siano
un intervallo (limitato o no) della retta reale, / la traccia di B su e m una
misura nita. Sia inoltre f :
2
R una funzione continua con derivata
parziale rispetto alla seconda variabile continua. Riesca inne integrabile la
funzione f(, t) per ogni t . Allora,
_
d
dt
_

f(, t) m(d)
_
(t
0
) =
_

f
t
(, t
0
) m(d)
per ogni t
0
.
Dimostrazione Sia F(t) =
_

f(, t) m(d) per ogni t . Dato t


0
, assumiamo
intanto t
0
< sup . Sia allora (
n
)
n1
una successione decrescente di numeri reali positivi
tale che t
0
+
n
per ogni n e
n
0. Considerato il rapporto incrementale di F
corrispondente allincremento
n
e relativo al punto t
0
, dalla linearit` a dellintegrale si ha
F(t
0
+
n
) F(t
0
)

n
=
_

f(, t
0
+
n
) m(d)
_

f(, t
0
) m(d)

n
=
_

f(, t
0
+
n
) f(, t
0
)

n
m(d). (A.13)
Ora, qualunque sia , la funzione g = f(, ) `e derivabile nellintervallo [t
0
, t
0
+
1
];
inoltre, la derivata g

(t) =
f
t
(, t) `e, per lipotesi di continuit` a della derivata parziale,
limitata su tale intervallo. Esiste quindi k > 0 tale che [g

(t)[ k per ogni t [t


0
, t
0
+
1
].
Allora, posto
R
n
(; t
0
) =
f(, t
0
+
n
) f(, t
0
)

n
=
g(t
0
+
n
) g(t
0
)

n
150 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
e osservato che [t
0
, t
0
+
n
] [t
0
, t
0
+
1
], per il teorema di Lagrange esiste t

[t
0
, t
0
+
n
]
tale che [R
n
(; t
0
)[ = [ g

(t

) [ k.
Conseguentemente, la successione (R
n
(; t
0
))
n1
`e costituita da funzioni continue tutte
dominate dalla funzione costante di valore k. Notato che, per il Teorema A.2.3(i), le
funzioni della successione sono Borel misurabili, dal teorema della convergenza dominata
otteniamo che la funzione limite
f
t
(, t
0
) = lim
n+
R
n
(; t
0
) `e integrabile e riesce
lim
n+
_

R
n
(; t
0
) m(d) =
_

lim
n+
R
n
(; t
0
) m(d) =
_

f
t
(, t
0
) m(d).
Ne segue, tramite (A.13),
lim
n+
F(t
0
+
n
) F(t
0
)

n
=
_

f
t
(, t
0
) m(d).
Tenuto inne conto dellarbitrariet` a della successione (
n
)
n1
, otteniamo che per la derivata
destra
_
dF
dt
_
+
si ha
_
dF
dt
_
+
(t
0
) =
_

f
t
(, t
0
) m(d).
Supponiamo ora t
0
> inf . Possiamo allora provare, con argomentazioni analoghe, che la
derivata sinistra
_
dF
dt
_

verica luguaglianza
_
dF
dt
_

(t
0
) =
_

f
t
(, t
0
) m(d).
Riesce quindi F

(t
0
) =
_

f
t
(, t
0
) m(d).
A.4 Misure denite tramite funzioni
In questa sezione introduciamo due particolari tipi di misure (di fondamentale
importanza per il calcolo delle probabilit` a e le sue applicazioni) e stabiliamo
le regole di calcolo dei relativi integrali.
Iniziamo col considerare unapplicazione :

che sia (/, /

)-
misurabile. Possiamo allora introdurre la misura m

su /

cos` denita:
m

(A

) = m(
1
(A

)) = m( A

)
per ogni A

, detta misura immagine di m mediante . Per constatare


che siamo eettivamente in presenza di una misura basta osservare che, data
A.4. MISURE DEFINITE TRAMITE FUNZIONI 151
una successione disgiunta (A

n
)
n1
, si ha
m

(
_
n1
A

n
) = m(
1
(
_
n1
A

n
))
= m(
_
n1

1
(A

n
)) =

n1
m(
1
(A

n
)) =

n1
m

(A

n
),
notato che ( A

n
)
n1
`e una successione disgiunta.
Il prossimo teorema mostra come lintegrazione rispetto alla misura im-
magine possa essere ricondotta a quella rispetto alla misura originaria. In-
tendendo la relazione

= () come un cambio di variabile di con

,
il risultato pu` o anche essere inteso come un teorema sul cambiamento delle
variabili nellintegrale di Lebesgue.
Teorema A.4.1 (della misura immagine) Sia f :

una funzione
/

-Borel misurabile. Allora, f `e m

-sommabile se e solo se la funzione com-


posta f() `e m-sommabile. Inoltre, nel caso di sommabilit`a, si ha
_
A

f dm

=
_
{A

}
f() dm
per ogni A

.
Dimostrazione Dato A

, assumiamo intanto f = I
A
con A

. Allora
f()() = f(()) =
_
1 se () A

0 se () , A

= I
{A

}
()
per ogni e quindi
_
A

f dm

=
_

I
A
I
A
dm

= m

(A

) = m(
1
(A

))
= m(
1
(A

)
1
(A

)) =
_

I
{A

}
I
{A

}
dm =
_
{A

}
I
{A

}
dm
=
_
{A

}
f() dm.
Sia ora f una funzione semplice non negativa. Dalla linearit` a dellintegrale otteniamo
_
A

f dm

=
_

_

yf(

)
yI
{f=y}
_
I
A
dm

yf(

)
y
_
A

I
{f=y}
dm

yf(

)
y
_
{A

}
I
{f=y}
() dm =
_
{A

}
_

yf(

)
yI
{f=y}
_
() dm
=
_
{A

}
f() dm.
152 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
Sia ora f 0. Considerata una successione (f
n
)
n1
di funzioni /

-semplici non negative


tale che f
n
f, si ha 0 f
n
I
A
fI
A
e 0 f
n
() f(). Allora, poich`e (f
n
())
n1
`e una successione di funzioni Borel misurabili, dal teorema della convergenza monotona
otteniamo
_
A

f dm

= lim
n+
_
A

f
n
dm

= lim
n+
_
{A

}
f
n
() dm =
_
{A

}
lim
n+
f
n
() dm
=
_
{A

}
f() dm.
Sia inne f qualsiasi. Dalle f()
+
= f
+
() e f()

= f

() risulta
_
A

f
+
dm

=
_
{A

}
f
+
() dm =
_
{A

}
f()
+
dm
_
A

dm

=
_
{A

}
f

() dm =
_
{A

}
f()

dm
e quindi, essendo A

del tutto arbitrario, la m

-sommabilit`a di f equivale alla m-sommabilit`a


di f(). Riesce inoltre
_
A

f dm

=
_
A

f
+
dm


_
A

dm

=
_
{A

}
f()
+
dm
_
{A

}
f()

dm =
_
{A

}
fdm
nel caso di sommabilit`a.
Nel corollario seguente forniamo, con riferimento alla misura di Lebesgue
unidimensionale, la formula di trasformazione dellintegrale di Lebesgue rela-
tiva ai cambi di variabile di tipo ane.
Corollario A.4.2 Sia f : R R

una funzione Borel misurabile. Allora,


considerata la trasformazione ane non degenere : x ax + b della retta
reale, la funzione f `e

-sommabile se e solo se la funzione composta f() `e


-sommabile. Inoltre, nel caso di sommabilit`a, risulta
_
B
f(x) dx = [a[
_
1
a
(Bb)
f(ax + b) dx
per ogni boreliano B ,=
17
.
17
Avendo posto, qualunque siano i numeri reali a, b e il sottoinsieme non vuoto S della
retta reale, a S + b = ax + b : x S. Ricordato che la -algebra di Borel `e chiusa per
trasformazioni ani (Esempio A.1.1(iv)), a B +b B per ogni boreliano B ,= .
A.4. MISURE DEFINITE TRAMITE FUNZIONI 153
Dimostrazione Sia B ,= un boreliano. Allora,
1
(B) =
1
a
(B b) da cui ottenia-
mo, per lEsempio A.1.2(i),

(B) = (
1
(B)) =
1
|a|
(B) e quindi, per il Teorema
A.3.4(ii),
_
B
f d

=
1
|a|
_
B
f d. Ne segue, tramite il teorema precedente,
1
|a|
_
B
f d =
_
1
a
(Bb)
f(ax +b) dx.
Passando allaltro tipo di misura, consideriamo una funzione Borel misu-
rabile g : [0, +]. Possiamo allora introdurre la misura g m su / cos`
denita:
g m(A) =
_
A
g dm
per ogni A, detta misura di densit`a g rispetto alla misura (di riferi-
mento) m. Per constatare che siamo eettivamente in presenza di una
misura basta osservare che g m() =
_

g dm = 0 e che, data una suc-


cessione disgiunta (A
n
)
n1
, dal teorema dintegrazione per serie otteniamo
g m(
_
n1
A
n
) =
_

n1
A
n
g dm =
_

gI

n1
A
n
dm =
_

n1
I
A
n
dm
=

n1
_

gI
A
n
dm =

n1
_
A
n
g dm =

n1
g m(A
n
).
Il prossimo teorema mostra come lintegrazione rispetto ad una misura
denita da una densit` a possa essere ricondotta a quella rispetto alla misura
di riferimento.
Teorema A.4.3 Sia f una funzione Borel misurabile. Allora, f `e g m-
sommabile se e solo se fg `e m-sommabile. Inoltre, nel caso di sommabilit`a,
_

f dg m =
_

fg dm.
Dimostrazione Sia intanto f una funzione semplice non negativa. Dalla linearit` a del-
lintegrale risulta allora
_

f dg m =

yf()
y g m(f = y)
=

yf()
y
_

I
{f=y}
g dm =
_

_

yf()
yI
{f=y}
_
g dm =
_

fg dm.
Sia ora f 0. Considerata una successione (f
n
)
n1
di funzioni semplici non negative tale
che f
n
f e osservato che f
n
g fg e che (f
n
g)
n1
`e una successione di funzioni Borel
misurabili non negative, dal teorema della convergenza monotona otteniamo
_

f dg m = lim
n+
_

f
n
dg m = lim
n+
_

f
n
g dm =
_

_
lim
n+
f
n
_
g dm =
_

fg dm.
154 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
Sia inne f qualsiasi. Allora,
_

f
+
dg m =
_

f
+
g dm =
_

(fg)
+
dm
_

dg m =
_

g dm =
_

(fg)

dm
e quindi f `e g m-sommabile se e solo se fg `e m-sommabile. Riesce inoltre
_

f dg m =
_

f
+
dg m
_

dg m =
_

(fg)
+
dm
_

(fg)

dm =
_

fg dm
nel caso di sommabilit`a.
Sia ora g : [0, +] una funzione Borel misurabile. Allora, se g = g
(m-q.o.), dal Teorema A.3.6(ii) risulta g m = g m. Il teorema seguente
assicura che sussiste anche il viceversa se la misura m `e -nita, cio`e se
esiste una partizione discreta (A
n
)
n1
di con m(A
n
) < + per ogni n
18
.
Teorema A.4.4 Siano m una misura -nita e f,

f due funzioni sommabili
tali che
_
A

f dm
_
A
f dm per ogni A. Allora,

f f (m-q.o.). In particolare,

f = f (m-q.o.), se
_
A

f dm =
_
A
f dm per ogni A.
Dimostrazione Assumiamo intanto che la misura sia nita. Supposto (per assurdo)
m(f <

f) > 0 e considerata una numerazione q
1
, q
2
, . . . dei numeri razionali, dalla
subadditivit` a della misura otteniamo
0 < m(f <

f) = m
_
_
n1
f < q
n
<

f
_

n1
m(f < q
n
<

f)
e quindi esiste n tale che m(f < q
n
<

f) > 0. Posto A = f < q
n
<

f, si ha
fI
A
q
n
I
A


fI
A
. Dalladditivit` a e monotonia dellintegrale riesce allora
< q
n
m(A) =
_

q
n
I
A
dm
_

fI
A
dm =
_
A

f dm
+> q
n
m(A) =
_

q
n
I
A
dm
_

fI
A
dm =
_
A
f dm.
Ne segue, tramite il Teorema A.3.6(vi) e la linearit`a dellintegrale, la contraddizione 0
_
A

f dm
_
A
f dm =
_
A
(

f f) dm > 0.
Sia ora la misura -nita. Esiste dunque una partizione discreta (A
n
)
n1
di con
m(A
n
) < +per ogni n. Conseguentemente, la restrizione m
n
di m sulla traccia /A
n

/ di / su A
n
`e una misura nita tale che
_

A
dm
n
=
_

f dm
_

A
f dm =
_

A
f

A
dm
n
18
Esempi di misure -nite sono le misure nite, la misura di Lebesgue unidimensionale
e le misure di conteggio indotte da insiemi discreti.
A.5. MISURA PRODOTTO 155
per ogni

A / A
n
. Ne segue, per la prima parte della dimostrazione,

f

A
n
f

A
n
(m
n
-q.o.). Esiste quindi

A
n
/ A
n
tale che m(

A
n
) = m
n
(

A
n
) = 0 e

f() f() per
ogni A
n


A
n
. Allora, per larbitrariet` a di n, linsieme A =

n1

A
n
`e trascurabile;
inoltre, dato , A, esiste m tale che A
m
A ((A
n
)
n1
`e una partizione!) da cui
otteniamo A
m


n1

A
c
n
=

n1
(A
m


A
c
n
) = A
m


A
m
e quindi

f() f().
Conseguentemente,

f f (m-q.o.).
Lultima parte della tesi segue ora immediatamente da quanto appena provato.
A.5 Misura prodotto
Dato un insieme non vuoto
i
, siano /
i
una algebra su
i
e m
i
una misura
-nita su /
i
(i = 1, 2). Considerate, per ogni sottoinsieme S del prodotto
cartesiano =
1

2
, la sezione di S relativa a
1

1
:
S(
1
) =
2

2
: (
1
,
2
) S
e la sezione di S relativa a
2

2
:
S(
2
) =
1

1
: (
1
,
2
) S,
introduciamo in questa sezione, proseguendo nella presentazione di alcune
misure notevoli, una misura (denita su una opportuna -algebra del prodotto
cartesiano) che verica le seguenti due propriet` a (suggerite dalla nozione di
area delle gure piane e del relativo Principio di Cavalieri):
(a) la misura di un rettangolo A
1
A
2
avente base A
1
/
1
e altezza
A
2
/
2
`e uguale al prodotto m
1
(A
1
) m
2
(A
2
);
(b) due insiemi misurabili A
1
, A
2
di hanno misura uguale se, per qualche
i 1, 2, danno luogo a sezioni di misura uguale in corrispondenza ad
ogni scelta dellelemento che le individua in
i
, cio`e se m
j
(A
1
(
i
)) =
m
j
(A
2
(
i
)) (j ,= i) per ogni
i

i
.
Per quanto riguarda la -algebra di riferimento / su , la identichiamo con
la -algebra prodotto /
1
/
2
(di /
1
e /
2
), cio`e con la -algebra generata
dalla famiglia chiusa per intersezioni nite 1 = A
1
A
2
: A
i
/
i
(i = 1, 2)
dei rettangoli misurabili (di )
19
.
19
La chiusura per intersezioni nite `e evidente osservato che (A
1
A
2
) (A

1
A

2
) =
(A
1
A

1
) (A
2
A

2
) 1 per ogni A
i
, A

i
/
i
(i = 1, 2).
156 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
Il risultato seguente collega la Borel misurabilit` a rispetto alla -algebra
prodotto con quelle rispetto alle -algebre /
1
e /
2
; in particolare, assicura
che le restrizioni di una funzione /
1
/
2
-Borel misurabile su rette paral-
lele allasse
i
sono /
i
-Borel misurabili (i = 1, 2). Per non appesantire
lesposizione, denotiamo con
i
, A
i
elementi generici, rispettivamente, di
i
e /
i
(i = 1, 2) e assumiamo che i, j rappresentino (limitatamente a questa
sezione) elementi distinti di 1, 2.
Lemma A.5.1 Sussistono le seguenti proposizioni:
(i) Sia A /
1
/
2
. Allora, A(
i
) /
j
per ogni
i
(i = 1, 2);
(ii) Sia f una funzione /
1
/
2
-Borel misurabile. Allora, le restrizioni
f(
1
, ), f(,
2
) sono, rispettivamente, /
2
-Borel misurabile e /
1
-Borel
misurabile qualunque sia
i
(i = 1, 2);
(iii) Sia f
i
una funzione /
i
-Borel misurabile. Allora, la funzione (
1
,
2
)
f
i
(
i
) `e /
1
/
2
-Borel misurabile (i = 1, 2).
Dimostrazione Osservato preliminarmente che, qualunque sia
i
(i = 1, 2), si ha
S
c
(
i
) = S(
i
)
c
(A.14)
_

n1
S
n
_
(
i
) =

n1
S
n
(
i
),
_
_
n1
S
n
_
(
i
) =
_
n1
S
n
(
i
) (A.15)
I
S(
1
)
() = I
S
(
1
, ), I
S(
2
)
() = I
S
(,
2
) (A.16)
per ogni S, S
1
, S
2
, . . . e
(E
1
E
2
)(
i
) =
_
E
j
se
i
E
i
se
i
, E
i
(A.17)
per ogni E
1

1
e E
2

2
, consideriamo solo il caso i = 1, essendo la dimostrazione
relativa a i = 2 del tutto analoga.
(i) Dato
1
, sia T = A /
1
/
2
: A(
1
) /
2
. Allora, per (A.14), (A.15) e
(A.17), T `e una -algebra includente i rettangoli misurabili. Conseguentemente, T
(1) = /
1
/
2
e quindi T = /
1
/
2
.
(ii) Sia intanto f una funzione /
1
/
2
-semplice. Allora, f =

yf()
yI
{f=y}
e
quindi, per (A.16), f(
1
, ) =

yf()
yI
{f=y}
(
1
, ) =

yf()
yI
{f=y}(
1
)
(). Dunque,
f(
1
, ) `e /
2
-Borel misurabile in quanto combinazione lineare, per (i), di funzioni /
2
-
Borel misurabili. Sia inne f qualsiasi. Considerata una successione (f
n
)
n1
di funzioni
A.5. MISURA PRODOTTO 157
/
1
/
2
-semplici tale che f
n
f, si ha f
n
(
1
, ) f(
1
, ) e quindi f(
1
, ) `e /
2
-Borel
misurabile in quanto limite di funzioni /
2
-Borel misurabili.
(iii) Sia f

1
: (
1
,
2
) f
1
(
1
). Allora, dato un boreliano B della retta reale ampliata,
si ha f

1
B = (
1
,
2
) : f

1
(
1
,
2
) B = (
1
,
2
) : f
1
(
1
) B = f
1
B
2

/
1
/
2
.
Ricordato che la misura m
i
`e -nita, consideriamo ora una partizione
(A
in
)
n1
di
i
tale che m
i
(A
in
) < + per ogni n (i = 1, 2). Allora, posto
A
nm
= A
1n
A
2m
per ogni n e m, otteniamo che (A
nm
)
n,m1
`e una partizione
discreta di formata da rettangoli misurabili. Siamo cos` in grado di provare
il lemma successivo che fornisce la propriet`a chiave per la costruzione della
misura sulla -algebra prodotto vericante le propriet` a (a) e (b).
Lemma A.5.2 Sia A /
1
/
2
. Allora,
i
m
j
(A(
i
)) `e una funzione
/
i
-Borel misurabile (i = 1, 2).
Dimostrazione Poich`e le dimostrazioni per i = 1 e i = 2 sono simili, sviluppiamo
solo quella relativa a i = 1. Posto f
A
:
1
m
2
(A(
1
)) e considerata, per ogni n e m,
lapplicazione f
(nm)
A
:
1
m
2
((A A
nm
)(
1
)), da (A.15) otteniamo
f
A
(
1
) = m
2
__
A
_
n,m1
A
nm
_
(
1
)
_
= m
2
__
_
n,m1
(A A
nm
)
_
(
1
)
_
= m
2
_
_
n,m1
(A A
nm
)(
1
)
_
=

n,m1
m
2
((A A
nm
)(
1
)) =

n,m1
f
(nm)
A
(
1
)
per ogni
1
. Allora, per il Teorema A.2.5(iv), basta constatare la /
1
-Borel misurabilit` a
delle funzioni f
(nm)
A
per ogni n e m. A tal ne, ssati n, m e tenuto conto del Lemma
A.1.4, proviamo che la famiglia T = A /
1
/
2
: f
(nm)
A
`e /
1
-Borel misurabile `e una
classe di Dynkin includente la famiglia 1. Supposto A = A
1
A
2
, da (A.17) si ha
f
(nm)
A
(
1
) = m
2
((A A
nm
)(
1
)) = m
2
__
(A
1
A
1n
) (A
2
A
2m
)

(
1
)
_
= m
2
(A
2
A
2m
) I
A
1
A
1n
(
1
)
per ogni
1
. Ne segue, poich`e A
1
A
1n
/
1
, la /
1
-Borel misurabilit` a di f
(nm)
A
e quindi
A T.
Sia ora A T. Allora, f
(nm)
A
`e una funzione /
1
-Borel misurabile. Inoltre, dato
1
, da
(A.14), (A.15) e (A.17) otteniamo
(A
c
A
nm
)(
1
) = A(
1
)
c
A
nm
(
1
)
= A
nm
(
1
) [A(
1
) A
nm
(
1
)] =
_
A
2m
(A(
1
) A
2m
) se
1
A
1n
se
1
, A
1n
158 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
e quindi, tramite m
2
(A
2m
) < +, la monotonia della misura e il Teorema A.1.3(iii),
f
(nm)
A
c (
1
) = m
2
__
A
2m
(A(
1
) A
2m
)
_
I
A
1n
(
1
)
_
=
_
m
2
(A
2m
) m
2
(A(
1
) A
2m
)

I
A
1n
(
1
) = m
2
(A
2m
) I
A
1n
(
1
) f
(nm)
A
(
1
)
ove lultima uguaglianza sussiste in forza di (A.17). Ne segue la /
1
-Borel misurabilit` a di
f
(nm)
A
c e quindi A
c
T.
Sia inne (A
k
)
k1
una successione disgiunta in T. Allora, f
(nm)
A
k
`e una funzione /
1
-Borel
misurabile qualunque sia k 1. Inoltre, per (A.15),
f
(nm)

k1
A
k
(
1
) = m
2
_
(A
nm

_
k1
A
k
)(
1
)
_
= m
2
__
_
k1
(A
k
A
nm
)
_
(
1
)
_
= m
2
_
_
k1
(A
k
A
nm
)(
1
)
_
=

k1
m
2
_
(A
k
A
nm
)(
1
)
_
=

k1
f
(nm)
A
k
(
1
)
per ogni
1
. Dunque, f
(nm)

k1
A
k
`e /
1
-Borel misurabile e quindi

k1
A
k
T.
Il lemma appena provato consente di considerare sulla -algebra prodotto
la misura m
1
m
2
cos` denita:
m
1
m
2
(A) =
_

1
m
2
(A(
1
)) m
1
(d
1
)
per ogni A /
1
/
2
, detta misura prodotto di m
1
e m
2
. Per constatare
che siamo in presenza di una misura basta osservare che m
1
m
2
() = 0 e
che, per (A.15) e il teorema dintegrazione per serie,
m
1
m
2
(
_
n1
A
n
) =
_

1
m
2
_
_
n1
A
n
(
1
)
_
m
1
(d
1
)
=
_

n1
m
2
(A
n
(
1
)) m
1
(d
1
)
=

n1
_

1
m
2
(A
n
(
1
)) m
1
(d
1
) =

n1
m
1
m
2
(A
n
)
per ogni successione disgiunta (A
n
)
n1
.
Il prossimo teorema assicura che la misura prodotto `e lunica misura sulla
-algebra prodotto che verica le propriet` a (a), (b) (e pertanto `e -nita in
quanto m
1
m
2
(A
nm
) = m
1
(A
1n
) m
2
(A
2m
) < + per ogni n, m).
Teorema A.5.3 Risulta:
A.5. MISURA PRODOTTO 159
(i) m
1
m
2
(A
1
A
2
) = m
1
(A
1
) m
2
(A
2
) per ogni A
1
A
2
;
(ii) m
1
m
2
(A) =
_

2
m
1
(A(
2
)) m
2
(d
2
) per ogni A /
1
/
2
.
Inoltre, qualunque sia la misura m

sulla -algebra prodotto tale che m

R
=
m
1
m
2

R
, riesce m

= m
1
m
2
.
Dimostrazione (i) Da (A.17) otteniamo
m
1
m
2
(A
1
A
2
) =
_

1
m
2
_
(A
1
A
2
)(
1
)
_
m
1
(d
1
) =
_

1
m
2
(A
2
) I
A
1
m
1
(d
1
)
= m
1
(A
1
) m
2
(A
2
).
Proviamo ora lunicit` a della misura prodotto. Sia dunque m

una misura sulla -


algebra prodotto tale che m

R
= m
1
m
2

R
. Allora, ricordato che la famiglia dei rettangoli
misurabili `e chiusa per intersezioni nite e che, per (i), m
1
m
2
(A
nm
) < + per ogni
n e m, dal criterio standard didentit` a otteniamo che m

e la misura prodotto coincidono


sulla -algebra (1) = /
1
/
2
.
(ii) Per il Lemma A.5.2, possiamo considerare sulla -algebra prodotto anche la fun-
zione dinsieme m

: A
_

2
m
1
(A(
2
)) m
2
(d
2
) che, con ragionamenti analoghi a quelli
fatti per la misura prodotto, risulta essere una misura coincidente con m
1
m
2
sui ret-
tangoli misurabili. Ne segue, per lunicit` a della misura prodotto, m

= m
1
m
2
.
I due teoremi seguenti sono ulteriori pietre miliari della teoria dellinte-
grazione in quanto consentono di ridurre lintegrale doppio
_

f dm
1
m
2
20
di una qualsiasi funzione m
1
m
2
-sommabile f ad un integrale iterato come
pure di invertire lordine delle integrazioni successive (analogamente a quanto
avviene, nel caso dellintegrale doppio di Riemann, per una funzione continua
denita su un rettangolo [a, b] [c, d] R
2
).
Teorema A.5.4 (di Tonelli) Sia f una funzione /
1
/
2
-Borel misurabile
non negativa. Allora, per ogni A
1
e A
2
, le funzioni
1

_
A
2
f(
1
, ) dm
2
e

2

_
A
1
f(,
2
) dm
1
sono, rispettivamente, /
1
-Borel misurabile e /
2
-Borel
misurabile; inoltre, si ha
_
A
1
A
2
f dm
1
m
2
=
_
A
1
_
_
A
2
f(
1
, ) dm
2
_
m
1
(d
1
)
=
_
A
2
_
_
A
1
f(,
2
) dm
1
_
m
2
(d
2
).
20
Indicato anche con la notazione
_

f(
1
,
2
) m
1
m
2
(d
1
d
2
).
160 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
Dimostrazione Sia intanto A
i
=
i
(i = 1, 2). Osservato che, per il Lemma A.5.1(ii),
possiamo considerare le funzioni J
1
:
1

_

2
f(
1
, ) dm
2
e J
2
:
2

_

1
f(,
2
) dm
1
,
iniziamo col supporre f = I
A
. Allora, da (A.16), otteniamo
J
i
(
i
) =
_

j
I
A(
i
)
dm
j
= m
j
(A(
i
))
per ogni
i
(i = 1, 2). Ne segue, tramite il Lemma A.5.2, che J
i
`e /
i
-Borel misurabile
(i = 1, 2). Inoltre, per denizione,
m
1
m
2
(A) =
_

1
m
2
(A(
1
)) m
1
(d
1
) =
_

1
J
1
(
1
) m
1
(d
1
)
e, per il Teorema A.5.3(ii),
m
1
m
2
(A) =
_

2
m
1
(A(
2
)) m
2
(d
2
) =
_

2
J
2
(
2
) m
2
(d
2
).
Risulta dunque
_

f dm
1
m
2
=
_

1
J
1
(
1
) m
1
(d
1
) =
_

2
J
2
(
2
) m
2
(d
2
).
Poich`e da questo punto in poi le dimostrazioni per i = 1 e i = 2 sono simili, sviluppia-
mo solo quella relativa al caso i = 1.
Sia ora f una funzione /
1
/
2
-semplice non negativa. Dalla linearit`a dellintegrale risulta
J
1
(
1
) =
_

yf()
yI
{f=y}
(
1
, ) dm
2
=

yf()
y
_

2
I
{f=y}
(
1
, ) dm
2
per ogni
1
. Ne segue la /
1
-Borel misurabilit` a in quanto J
1
`e combinazione lineare di
funzioni /
1
-Borel misurabili. Sempre per la linearit` a dellintegrale si ha inoltre
_

f dm
1
m
2
=

yf()
y
_

I
{f=y}
dm
1
m
2
=

yf()
y
_

1
_
_

2
I
{f=y}
(
1
, ) dm
2
_
m
1
(d
1
)
=
_

1
_

yf()
y
_

2
I
{f=y}
(
1
, ) dm
2
_
m
1
(d
1
) =
_

1
J
1
(
1
) m
1
(d
1
).
Sia inne f qualsiasi. Considerata una successione (f
n
)
n1
di funzioni /
1
/
2
-semplici
non negative tale che f
n
f, si ha 0 f
n
(
1
, ) f(
1
, ) e quindi, per il teorema
della convergenza monotona, 0
_

2
f
n
(
1
, ) dm
2

_

2
f(
1
, ) dm
2
= J
1
(
1
). Pertanto,
essendo
1
arbitrario, J
1
`e /
1
-Borel misurabile in quanto limite di funzioni /
1
-Borel
misurabili. Sempre per il teorema della convergenza monotona otteniamo inoltre
_

f dm
1
m
2
= lim
n+
_

f
n
dm
1
m
2
= lim
n+
_

1
_
_

2
f
n
(
1
, ) dm
2
_
m
1
(d
1
) =
_

1
J
1
(
1
) m
1
(d
1
).
A.5. MISURA PRODOTTO 161
Siano ora A
1
, A
2
arbitrari. Dalluguaglianza I
A

1
A

2
(
1
,
2
) = I
A

1
(
1
)I
A

2
(
2
) valida
per ogni A

i
e
i
(i = 1, 2), risulta che I
A
2
f = I

1
A
2
f e I
A
1
f = I
A
1

2
f sono funzioni
/
1
/
2
-Borel misurabili. Allora, per la prima parte della dimostrazione, le funzioni

1

_
A
2
f(
1
, ) dm
2
=
_

2
I
A
2
f(
1
, ) dm
2
e
2

_
A
1
f(,
2
) dm
1
=
_

1
I
A
1
f(,
2
) dm
1
sono, rispettivamente, /
1
-Borel misurabile e /
2
-Borel misurabile; inoltre, si ha
_
A
1
A
2
f dm
1
m
2
=
_

I
A
1
A
2
f dm
1
m
2
=
_

1
_
_

2
I
A
1
A
2
(
1
, )f(
1
, ) dm
2
_
m
1
(d
1
)
=
_

1
_
_

2
I
A
2
f(
1
, ) dm
2
_
I
A
1
(
1
) m
1
(d
1
)
=
_
A
1
_
_
A
2
f(
1
, ) dm
2
_
m
1
(d
1
)
e, in modo analogo,
_
A
1
A
2
f dm
1
m
2
=
_
A
2
__
A
1
f(,
2
) dm
1
_
m
2
(d
2
).
Teorema A.5.5 (di Fubini) Sia f una funzione m
1
m
2
-sommabile. Esisto-
no allora due insiemi
A
(f)
1

1
: f(
1
, ) `e m
2
-sommabile
A
(f)
2

2
: f(,
2
) `e m
1
-sommabile
tali che A
(f)
i
/
i
e m
i
_
(A
(f)
i
)
c
_
= 0 (i = 1, 2). Inoltre, per ogni A
i
(i = 1, 2),
le funzioni:
g
1
:
1

_
_
A
2
f(
1
, ) dm
2
se
1
A
(f)
1
0 se
1
, A
(f)
1
g
2
:
2

_
_
A
1
f(,
2
) dm
1
se
2
A
(f)
2
0 se
2
, A
(f)
2
sono, rispettivamente, /
1
-Borel misurabile e /
2
-Borel misurabile e tali che
_
A
1
A
2
f dm
1
m
2
=
_
A
1
g
1
dm
1
=
_
A
2
g
2
dm
2
.
Dimostrazione Essendo le dimostrazioni per i = 1 e i = 2 simili, sviluppiamo solo
quella relativa al caso i = 1. Poich`e f `e m
1
m
2
-sommabile, gli integrali delle sue parti
positiva e negativa non possono essere entrambi inniti. Supponiamo quindi che sia, ad
esempio, nito lintegrale
_

dm
1
m
2
. Allora, per il teorema di Tonelli,
_

1
_
_

2
f

(
1
, ) dm
2
_
m
1
(d
1
) =
_

dm
1
m
2
< +
162 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
e quindi, per il Teorema A.3.6(vii), esiste un elemento A
(f)
1
di /
1
tale che m
1
((A
(f)
1
)
c
) = 0
e
_

2
f(
1
, )

dm
2
=
_

2
f

(
1
, ) dm
2
< + per ogni
1
A
(f)
1
. Conseguentemente,
f(
1
, ) `e una funzione m
2
-sommabile per ogni
1
A
(f)
1
.
Sempre per il teorema di Tonelli,
1

_
A
2
f(
1
, )
+
dm
2
,
1

_
A
2
f(
1
, )

dm
2
sono
funzioni /
1
-Borel misurabili. Allora, per il Lemma A.2.1(i), le loro restrizioni su A
(f)
1
sono /
1
A
(f)
1
-Borel misurabili e quindi lo `e pure la loro dierenza g
1

A
(f)
1
. Pertanto,
per il Lemma A.2.1(ii), g
1
`e una funzione /
1
-Borel misurabile. Inoltre, dalla linearit` a
dellintegrale e dai teoremi di Tonelli e A.3.4(iv) otteniamo
_
A
1
A
2
f dm
1
m
2
=
_
A
1
A
2
f
+
dm
1
m
2

_
A
1
A
2
f

dm
1
m
2
=
_
A
1
_
_
A
2
f
+
(
1
, ) dm
2
_
m
1
(d
1
)
_
A
1
_
_
A
2
f

(
1
, ) dm
2
_
m
1
(d
1
)
=
_
A
1
A
(f)
1
_
_
A
2
f(
1
, )
+
dm
2
_
m
1
(d
1
)

_
A
1
A
(f)
1
_
_
A
2
f(
1
, )

dm
2
_
m
1
(d
1
)
=
_
A
1
A
(f)
1
_
_
A
2
f(
1
, )
+
dm
2

_
A
2
f(
1
, )

dm
2
_
m
1
(d
1
)
=
_
A
1
A
(f)
1
_
_
A
2
f(
1
, ) dm
2
_
m
1
(d
1
) =
_
A
1
A
(f)
1
g
1
dm
1
=
_
A
1
g
1
dm
1
.
La dimostrazione `e cos` conclusa.
La nozione di misura prodotto ed i relativi teoremi di Tonelli e Fubini
possono essere estesi al caso di pi` u di due fattori. Infatti, siano /
h
una -
algebra su un insieme
h
,= e m
h
una misura -nita su /
h
(h = 1, . . . , m).
Considerata, analogamente al caso m = 2, la famiglia chiusa per interse-
zioni nite 1 = A
1
A
m
: A
h
/
h
(h = 1, . . . , m) dei rettangoli
misurabili (di =
1

m
), la -algebra prodotto (di /
1
, . . . , /
m
)
`e la -algebra /
1
/
m
generata da 1. Sfruttando i risultati ottenuti
nel caso di due fattori e procedendo per induzione su m `e allora possibile
constatare che esiste una sola misura m
1
m
m
sulla -algebra prodotto
- detta misura prodotto (di m
1
, . . . , m
m
) - tale che m
1
m
m
(A
1

A
m
) =

m
h=1
m
h
(A
h
) per ogni rettangolo misurabile A
1
A
m
. Inoltre, `e
anche possibile provare la seguente generalizzazione dei teoremi di Tonelli e
Fubini che permette di ridurre lintegrale multiplo
_

f dm
1
m
m
21
di una qualsiasi funzione m
1
m
m
-sommabile f ad un integrale iterato
21
Indicato anche con la notazione
_

f(
1
, . . . ,
m
) m
1
m
m
(d
1
d
m
).
A.5. MISURA PRODOTTO 163
come pure di invertire lordine delle integrazioni successive
22
.
Teorema A.5.6 Posto m = m
1
m
m
, sia f una funzione m-sommabile.
Allora, data una permutazione h
1
, . . . , h
m
dellinsieme 1, . . . , m, si ha
_

f dm =
_

h
1
_

_
_

h
m
f(
1
, . . . ,
m
) m
h
m
(d
h
m
)
_

_
m
h
1
(d
h
1
),
dove, nel caso che non sia f 0, ogni integrale
_

h
k
_

_
_

h
m
f(
1
, . . . ,
m
) m
h
m
(d
h
m
)
_

_
m
h
k
(d
h
k
) (k > 1)
esiste per ogni (
h
1
, . . . ,
h
k1
) non appartenente ad un insieme m
h
k1
-trascu-
rabile e viene esteso (per eettuare lintegrazione successiva relativa alla mi-
sura m
h
k1
) su tale insieme dandogli valore zero.
Tramite la -algebra e la misura prodotto possiamo ora introdurre le
versioni m-dimensionali della -algebra di Borel e della misura di Lebesgue
23
.
Esempio A.5.7 Considerato lo spazio numerico delle m-ple reali (m 2), la -algebra
di Borel (di R
m
) `e la -algebra prodotto: B
(m)
=
m volte
..
B B e la misura di Lebesgue
m-dimensionale `e la misura prodotto:
(m)
=
m volte
..
. Inoltre, i boreliani di R
m
sono gli elementi di B
(m)
.
Naturalmente, la -algebra di Borel di (R

)
m
`e, per analogia, la -algebra prodotto:
(B

)
(m)
=
m volte
..
B

B
(m)
costituita dai boreliani di (R

)
m
.
Analogamente al caso unidimensionale, B
(m)
pu` o essere vista come la -algebra gene-
rata dalla famiglia |
(m)
degli insiemi aperti di m-ple. Per provarlo, iniziamo col vericare
linclusione |
(m)
B
(m)
. Dato W |
(m)
, per ogni suo punto w possiamo trovare m
intervalli di estremi razionali ]q
(w)
h1
, q
(w)
h2
] (h = 1, . . . , m) tali che
w ]q
(w)
11
, q
(w)
12
] ]q
(w)
m1
, q
(w)
m2
] W; (A.18)
22
Per le relative dimostrazioni si veda la sezione 2.6 del testo di Ash.
23
La -algebra di Borel m-dimensionale `e, senza alcun dubbio, una delle pi` u importanti
-algebre che si possono considerare sullo spazio numerico R
m
, in quanto vi appartiene
sostanzialmente ogni insieme di m-ple che sia di qualche interesse per le applicazioni. Inol-
tre, la misura di Lebesgue m-dimensionale pu` o essere vista come una naturale estensione
ad insiemi pi` u complessi delle nozioni elementari di area (m = 2) e di volume (m = 3).
164 APPENDICE A. RICHIAMI DI TEORIA DELLINTEGRAZIONE
dunque W `e unione discreta di elementi di B
(m)
e quindi appartiene a B
m
. A questo
punto basta provare che, data una -algebra ( su R
m
tale che |
(m)
(, riesce B
(m)
(.
Scegliendo come famiglia di generatori di B quella degli insiemi aperti e ricorrendo alla
nota 8 di p. 123, otteniamo che ogni funzione continua f : R
m
R `e (-Borel misurabile.
Lo `e quindi, in particolare, la proiezione h-sima p
h
: (x
1
, . . . , x
m
) x
h
(h = 1, . . . , m).
Considerati allora dei boreliani qualsiasi B
1
, . . . , B
m
di R, si ha p
1
h
(B
i
) ( (h = 1, . . . , m)
e quindi B
1
B
m
= p
1
1
(B
1
) p
1
m
(B
m
) (. Ne segue, per denizione, B
(m)
(.
Un altro interessante sistema di generatori di B
(m)
si ottiene considerando gli insiemi
S
x
1
...x
m
=] , x
1
] ] , x
m
] al variare di x
1
, . . . , x
m
R in tutti i modi pos-
sibili. Infatti, posto o
(m)
= S
x
1
...x
m
: x
1
, . . . , x
m
R, si ha (o
(m)
) B
(m)
. Per
provare linclusione opposta, basta evidentemente constatare che ogni insieme aperto W
di R
m
appartiene a (o
(m)
). Ora, per (A.18), W `e unione discreta di rettangoli del tipo
]q
11
, q
12
] ]q
m1
, q
m2
]. Osservato che, indicata con h = (h
1
, . . . , h
m
) la generica m-pla
di 1, 2
m
, si ha
]q
11
, q
12
] ]q
m1
, q
m2
] = S
q
12
...q
m2

_
h{h:k(h
k
=2)}
S
q
1h
1
...q
mh
m
(T),
possiamo concludere che W (o
(m)
).
Osserviamo inne che, per quanto concerne la Borel misurabilit` a rispetto a (B

)
(m)
,
rimane valido il Teorema A.2.3 (ovviamente, per S (B

)
m
e f : (R

)
m
), come
facilmente si constata ripercorrendone la dimostrazione.
Appendice B
Richiami
di teoria della probabilit`a
B.1 Nozioni e risultati di base
B.1.1 Eventi, variabili aleatorie, enti aleatori
Nellimpostazione logica degli eventi `e usuale considerare, a fronte di una
famiglia esaustiva di eventi non impossibili a due a due incompatibili (par-
tizione dellevento certo), la famiglia c() degli eventi logicamente dipendenti
(dalla partizione), cio`e degli eventi di valore logico determinato una volta
noto il valore logico di ogni elemento (caso elementare) della partizione.
Poich`e tali eventi possono essere identicati con gli eventi ottenibili come
disgiunzione (eventualmente innita) di casi elementari, `e possibile instau-
rare una corrispondenza biunivoca tra c() e 2

che muta le operazioni


logiche di negazione, congiunzione, disgiunzione, rispettivamente, in quelle
insiemistiche di complementazione, intersezione, unione e la relazione logica
di implicazione in quella insiemistica di inclusione
1
. Trova cos` giusticazione
lusuale identicazione della logica degli eventi (logicamente dipendenti) con
lalgebra degli insiemi (inclusi in ). In questo contesto, prendendo spunto
da una molteplicit` a di casi concreti, si identicano gli eventi di interesse
con gli insiemi appartenenti ad una -algebra di riferimento / su . Inoltre,
1
Per unampia e approfondita analisi dellimpostazione logica degli eventi si veda
Crisma, L., Introduzione alla teoria delle probabilit` a coerenti, Volume 1, EUT Edizioni
Universit`a di Trieste (2006), capitoli 1,2 e 3.
165
166 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
per quanto riguarda le valutazioni di probabilit` a relative agli eventi di in-
teresse, si suppone che ad ogni elemento A / sia possibile assegnare una
probabilit` a Pr(A) in modo tale che la funzione dinsieme Pr : / [0, 1] cos`
ottenuta sia una misura su /.
Passando a considerare le applicazioni aleatorie X di dominio la partizione
e determinazioni possibili in un insieme X, per individuare i relativi eventi
di interesse si procede di solito scegliendo una -algebra su X e identi-
candoli con gli insiemi del tipo: X A con A
2
. Se poi si desidera
assegnare, sulla base delle conoscenze probabilistiche espresse dalla proba-
bilit`a Pr, anche a questi eventi un valore di probabilit` a basta richiedere che
X A / per ogni elemento A e ricorrere alla misura immagine Pr
X
.
Da un punto di vista astratto, le considerazioni appena svolte suggeriscono
di adottare - come quadro concettuale di riferimento per lo sviluppo della teo-
ria delle probabilit` a - la seguente impostazione (assiomatica) introdotta nel
1933 da Andrej N. Kolmogorov
3
. Considerata, come nellappendice prece-
dente, una -algebra / su un insieme ambiente ,= , chiamiamo:
- caso elementare (di ) ogni elemento di ;
- evento (di ) ogni elemento di /;
- probabilit`a (sugli eventi di ) ogni misura P su / tale che P() = 1;
- variabile aleatoria (su ) ogni funzione /-Borel misurabile a valori nella
retta reale;
- variabile aleatoria estesa (su ) ogni funzione /-Borel misurabile a
valori nella retta reale ampliata;
- ente aleatorio (su ) a valori in X ogni applicazione (/, )-misurabile.
Precisiamo che, dato un qualsiasi ente aleatorio X, useremo le notazioni
P(X A), P(X x), P(X Y 0), etc. al posto delle P(X A),
2
Precisiamo che il termine aleatorio `e sempre inteso in senso relativo associandolo
esclusivamente con ci`o che `e non conosciuto (incerto) in un dato stato di conoscenza per
carenza dinformazione. In questo senso, ogni applicazione di dominio una partizione
dellevento certo (avente almeno due casi elementari) `e un particolare esempio di entit` a
aleatoria, in quanto rappresenta un elemento ben denito (del codominio) ma non noto
ntanto che non sia conosciuto quale caso elementare `e quello vero. Daltra parte, limitarsi
a considerare solo applicazioni aleatorie non lede la generalit`a del discorso in quanto ogni
entit`a aleatoria Y pu` o essere descritta tramite unapplicazione aleatoria; basta considerare,
indicato con X linsieme delle sue possibili determinazioni, la partizione dellevento certo
costituita dai casi elementari
x
= Y = x (x X) e lapplicazione aleatoria X :
x
x.
3
Impostazione che, nonostante diverse critiche che si possono formulare nei suoi con-
fronti, `e tuttora la base pi` u popolare per la costruzione matematica del calcolo delle
probabilit` a.
B.1. NOZIONI E RISULTATI DI BASE 167
P(X x), P(X Y 0), etc.; inoltre, abbrevieremo di solito con
v.a. il nome variabile aleatoria inteso sia al singolare che al plurale.
B.1.2 Legge e densit`a di un ente aleatorio
Dato un ente aleatorio X a valori in X, la legge (o distribuzione) di X `e
la probabilit` a immagine P
X
di P mediante X. Conseguentemente, la legge
di X associa ad ogni A la probabilit` a P(X A) che lente aleatorio X
assuma, come determinazione, un elemento dellinsieme A.
Nel caso particolare che X sia una v.a., considereremo anche la funzione
di ripartizione di X, cio`e la funzione F
X
: R [0, 1] cos` denita: F
X
(x) =
P(X x) = P
X
(] , x]) per ogni numero reale x. Proviamo ora che la
funzione di ripartizione `e una funzione non decrescente continua a destra che
caratterizza la legge della variabile aleatoria
4
. A tal ne, conviene porre S
x
=
] , x] per ogni numero reale x e osservare che la famiglia o = S
x
: x R
`e chiusa per intersezioni nite, R =

n1
S
n
e B = (o).
Teorema B.1.1 Sia X una v.a.. Riesce allora:
(i) F
X
(x) F
X
(x

), se x x

;
(ii) F
X
() = lim
x
F
X
(x) = 0;
(iii) F
X
(+) = lim
x+
F
X
(x) = 1;
(iv) F
X
(x
+
) = lim
tx
+
F
X
(t) = F
X
(x);
(v) F
X
(x

) = lim
tx

F
X
(t) = P(X < x) = P
X
(] , x[);
(vi) F
X
(x
+
) F
X
(x

) = P(X = x).
Inoltre, se m

`e una misura su B tale che m

(] , x]) = F
X
(x) per ogni
numero reale x, si ha m

= P
X
.
4
Consentendo cos` di scegliere, come avviene soprattutto nelle applicazioni, la notazione
_
B
f(x) dF
X
(x) al posto della
_
B
f dP
X
. Scelta peraltro infelice poich`e, essendo gi`a adot-
tata per indicare lusuale integrale di Riemann-Stieltjes, potrebbe indurre a pericolosi
fraintendimenti (se non `e ben precisato il campo di applicazione).
168 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Dimostrazione (i) Conseguenza immediata della monotonia della misura.
(ii) (v) Conseguenza immediata della continuit`a della misura, una volta notato che
la successione:
- (S
n
)
n1
`e non crescente e si ha

n1
S
n
= ;
- (S
n
)
n1
`e non decrescente e si ha

n1
S
n
= R;
- (S
x+
1
n
)
n1
`e non crescente e si ha

n1
S
x+
1
n
= S
x
;
- (S
x
1
n
)
n1
`e non decrescente e si ha

n1
S
x
1
n
=] , x[.
(vi) Conseguenza immediata di (iv), (v) e del Teorema A.1.3(iii).
Passando allultima parte della tesi, per ipotesi m

S
= P
X

S
. Ne segue, tramite il
criterio standard didentit` a A.1.5 e lEsempio A.1.1(iv), m

= P
X
.
Ritornando al caso generale, supponiamo che sulla -algebra sia denita
una misura -nita di riferimento . Chiamiamo allora -densit`a di X
ogni funzione -Borel misurabile f : X [0, +] tale che P
X
= f .
Conseguentemente, ogni -densit`a f di X `e denita a meno di insiemi -
trascurabili (teoremi A.3.6(ii) e A.4.4), `e nita quasi ovunque (Teorema
A.3.6(vii)) e risulta P(X A) =
_
A
f d per ogni A . Inoltre, per
il Teorema A.4.3 e per quello della misura immagine A.4.1, sussiste (come
facilmente si verica) il risultato seguente che consente, in particolare, di
computare integrali riguardanti trasformate di v.a.(rispetto alla probabilit` a
P) ricorrendo al calcolo (in generale pi` u maneggevole) di integrali di fun-
zioni su R rispetto a misure denite sui boreliani della retta reale
5
.
Teorema B.1.2 (fondamentale del calcolo delle probabilit` a) Sussisto-
no le seguenti proposizioni:
(i) Sia g : X R

una funzione sommabile rispetto alla legge di X. Riesce


allora
_
{XA}
g(X) dP =
_
_
A
g dP
X
_
A
g f d se f `e una -densit`a di X
per ogni A ;
(ii) Siano : X

unapplicazione (, /

)-misurabile e g :

una funzione sommabile rispetto alla legge della v.a. trasformata (X).
5
Circostanza che suggerisce (come di solito si fa nei casi concreti) di operare diret-
tamente sulla -algebra B tramite la legge P
X
della v.a. X e dimenticare lambiente
originario (linsieme , la -algebra / e la probabilit` a P).
B.1. NOZIONI E RISULTATI DI BASE 169
Riesce allora P
(X)
= (P
X
)

e
_
A

g dP
(X)
=
_
{A

}
g() dP
X
per ogni A

.
6
Il prossimo esempio rileva che la nozione di -densit`a `e una generaliz-
zazione delle ben note nozioni di funzione di probabilit` a e di funzione di
densit`a relative, rispettivamente, alle variabili aleatorie discrete e a quelle
assolutamente continue.
Esempio B.1.3 (i) Variabili aleatorie discrete Data una v.a. discreta X, sia f la
sua funzione di probabilit` a, cio`e f(x) = P(X = x) per ogni numero reale x. Considerata
allora la misura di conteggio
B
su = 2
R
indotta dallinsieme discreto B = x
1
, x
2
, . . .
dei possibili valori di X, dallOsservazione A.3.9 otteniamo
P
X
(A) = P
_
_
n{n:x
n
A}
X = x
n

_
=

n{n:x
n
A}
f(x
n
) =

n1
f(x
n
) I
A
(x
n
) =
_
A
f d
B
per ogni A . Conseguentemente, la funzione di probabilit` a di X pu` o essere vista come
una particolare
B
-densit` a di X.
(ii) Variabili aleatorie assolutamente continue Data una v.a. assolutamente
continua X, sia f una sua funzione di densit` a, cio`e f 0 e F
X
(x) =
_
x

f(t) dt per ogni


numero reale x. Considerata allora la misura f di densit` a f rispetto alla misura di
Lebesgue unidimensionale , otteniamo
f (S
x
) =
_
S
x
f d =
_
x

f(t) dt = F
X
(x) = P
X
(S
x
)
per ogni x R. Ne segue, tramite il criterio standard didentit` a, f = P
X
. Dunque,
ogni funzione di densit` a di X pu` o essere vista come una particolare -densit`a di X.
Passando a considerare inne due enti aleatori X, Y a valori in X, diremo
che essi sono equidistribuiti se P
X
= P
Y
, cio`e se hanno la medesima legge.
Conseguentemente, X e Y sono equidistribuiti se sono:
- uguali quasi certamente
7
. Infatti, indicato con A linsieme ove coincidono,
6
Chiaramente, sempre per i due teoremi citati, al posto della P
X
-sommabilit`a di g si
pu` o assumere la P-sommabilit`a di g(X) oppure, nel caso della densit` a, la -sommabilit`a
di gf; al posto della P
(X)
-sommabilit`a di g si pu`o assumere la P
X
-sommabilit`a di g().
7
Nellambito della teoria delle probabilit` a `e usuale sostituire la frase quasi ovunque
con quella di quasi certamente, in quanto una propriet` a sussiste a meno di un insieme di
probabilit` a nulla se e solo se `e valida su un insieme di probabilit` a unitaria. Conseguente-
mente, useremo labbreviazione (P-q.c.) al posto della (P-q.o.).
Per quanto riguarda limplicazione inversa, osserviamo che, in generale, X e Y pos-
sono essere equidistribuiti pur non coincidendo in alcun caso elementare. Infatti, basta
considerare un evento A tale che P(A) =
1
2
e porre X = I
A
e Y = I
A
c .
170 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
dalladditivit` a e monotonia della probabilit` a si ha P
X
(B) = P(X B) =
P(X B A) = P(Y B A) = P(Y B) = P
Y
(B) per ogni B B;
- due v.a. con medesima funzione di ripartizione. Infatti, dalla P
X
(S
x
) =
F
X
(x) = F
Y
(x) = P
Y
(S
x
) valida per ogni numero reale x, otteniamo, tramite
il criterio standard didentit` a, P
X
= P
Y
.
B.1.3 Speranza matematica
La speranza matematica (o valor medio) di una v.a. P-sommabile X
`e lelemento della retta reale ampliata: E(X) =
_

X dP. Allora, nelle


ipotesi del teorema fondamentale del calcolo delle probabilit` a, perveniamo
alluguaglianza
E(g(X)) =
_
_
R
g dP
X
_
R
g f d se f `e una -densit`a di X
(B.1)
che risulta molto utile per calcolare la speranza matematica di trasformate di
X mediante funzioni P
X
-sommabili
8
. Nel caso particolare che g sia lidentit` a
si ha quindi
E(X) =
_
_
R
x P
X
(dx)
_
R
x f(x) (dx) se f `e una -densit`a di X
. (B.2)
Ricorrendo alluguaglianza (B.1) ritroviamo, nellesempio seguente, le ben
note espressioni della speranza matematica di trasformate sommabili di v.a.
discrete e di quelle assolutamente continue.
Esempio B.1.4 (i) Variabili aleatorie discrete Data una v.a. discreta X, sia f
la sua funzione di probabilit` a. Allora, supposto che B = x
1
, x
2
, . . . sia linsieme dei
valori possibili di X, dallEsempio B.1.3(i) e dallOsservazione A.3.9 otteniamo
E(g(X)) =
_
R
g fd
B
=

n1
g
+
(x
n
)f(x
n
)

n1
g

(x
n
)f(x
n
)
=

n1
g
+
(x
n
) P(X = x
n
)

n1
g

(x
n
) P(X = x
n
)
per ogni funzione g : R R

che renda nita una delle due serie.


8
Luguaglianza (B.1) `e anche nota come legge dello statistico inconsapevole (uncon-
scious statistician) poich`e viene talvolta intesa (soprattutto nelle applicazioni) come la
denizione di speranza matematica piuttosto che una sua conseguenza.
B.1. NOZIONI E RISULTATI DI BASE 171
(ii) Variabili aleatorie assolutamente continue Data una v.a. assolutamente
continua X, sia f una sua funzione di densit` a. Allora, ricorrendo allEsempio B.1.3(ii),
otteniamo E(g(X)) =
_
+

g(x) f(x) dx per ogni funzione g : R R

che renda il prodotto


gf sommabile rispetto alla misura di Lebesgue unidimensionale
9
.
Essendo la speranza matematica denita come integrale di Lebesgue della
v.a. rispetto alla probabilit` a considerata sugli eventi, valgono per essa tutte
le propriet` a degli integrali provate nella sezione terza dellAppendice A. Per
comodit` a, nel prossimo teorema ne riportiamo alcune accanto ad altre che
dipendono dal fatto che la misura considerata `e una probabilit` a. In par-
ticolare, la propriet` a E(1

) = assicura che la speranza matematica di


una v.a. certa coincide con il suo valore; le proposizioni (i), (ii) e (iii) che
la speranza matematica `e un funzionale lineare monotono e normalizzato
sullo spazio vettoriale delle v.a. P-integrabili che associa medesimo valore a
variabili aleatorie quasi certamente uguali.
Teorema B.1.5 Riesce E(I
A
) = P(A) e E(I

) = per ogni A / e
R. Inoltre, supposto che X, Y siano v.a. con speranza matematica
10
,
sussistono le seguenti proposizioni:
(i) linearit
`
a: E(X+Y ) = E(X)+E(Y ), se , sono numeri reali
tali che E(X) e E(Y ) non sono inniti di segno opposto;
(ii) monotonia: E(X) E(Y ), se X Y (P-q.c.);
(iii) E(X) = E(Y ), se X = Y (P-q.c.);
(iv) [E(X)[ E([X[);
(v) internalit
`
a: inf X E(X) sup X;
(vi) internalit
`
a stretta: < E(X) < , se X .
9
Cogliamo loccasione per rilevare che un semplice esempio di v.a. priva di speranza
matematica `e fornito dalla funzione tangente pensata denita sullintervallo aperto =
]

2
,

2
[. Infatti, posto / = B e P =

A
, la v.a. X : tg ha funzione di
densit`a f(x) =
1
(1+x
2
)
e quindi, data la simmetria, E(X
+
) = E(X

) =
_
+
0
x
(1+x
2
)
dx =

log(1+x
2
)
2

+
0
= + (da un punto di vista interpretativo, possiamo pensare che X sia
ottenuta trasformando, mediante la funzione tangente, un numero aleatorio scelto a caso
nellintervallo ).
10
Come usuale, intendiamo la locuzione v.a. con speranza matematica come sinonimo
della v.a. P-sommabile.
172 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Inne, una v.a. Z ammette speranza matematica se Z X e E(X) >
o Z X e E(X) < +.
Dimostrazione Dalla denizione e linearit` a dellintegrale otteniamo, rispettivamente,
E(I
A
) = P(A) e E(I

) =
_

dP = P() = . Inoltre, (i) (v) seguono immedia-


tamente dalla linearit` a dellintegrale e dalle proposizioni (i) (iv) del Teorema A.3.6.
Inne, lultima parte della tesi discende banalmente dal Teorema A.3.5(i). Rimane al-
lora da provare solamente la proposizione (vi). Supponiamo dunque < X() < per
ogni . Poich`e la verica delle disuguaglianze < E(X) e E(X) < avviene in modo
analogo, proviamo solamente la prima. Da (i) otteniamo E(X) = E(X) E(I

) =
E(X I

) =
_

(X I

) dP e quindi, per il teorema A.3.6(vi), E(X) > 0.


Una conseguenza immediata di questo teorema e di quello della conver-
genza dominata `e il seguente criterio di convergenza riguardante successioni
di v.a. che siano limitate quasi certamente da un medesimo valore.
Teorema B.1.6 Siano (X
n
)
n1
una successione di v.a. tale che X
n
X
e un numero reale tale che [X
n
[ (P-q.c.) per ogni n. Allora, le v.a.
X, X
n
(n 1) ammettono speranza matematica e risulta E(X
n
) E(X).
Osservazione B.1.7 Anche per le v.a. estese si usa la medesima nozione
di speranza matematica. Conseguentemente, (B.1) e (B.2) rimangono valide
sostituendo (come dominio dintegrazione) la retta reale con quella ampliata;
inoltre, sussistono tutte le proposizioni del Teorema B.1.5 con lavvertenza
di supporre, nella proposizione (i), che la combinazione lineare X +Y sia
denita ovunque.
B.1.4 Varianza e covarianza
Data una v.a. X con speranza matematica nita, la varianza di X `e il
momento centrale secondo: Var(X) = E
_
(XE(X))
2
_
che presenta le carat-
teristiche di un parametro di dispersione, nel senso che il suo valore consente
di intendere se i valori possibili di X sono pi` u o meno concentrati attorno alla
speranza matematica E(X) (che ha invece le caratteristiche di un parametro
di posizione)
11
.
11
Anche per le v.a. estese si usa la medesima nozione di varianza. Conviene comunque
osservare che limitarci a considerare, nel caso di nitezza della speranza matematica, solo
v.a. non lede la generalit` a del discorso; infatti, una v.a. estesa con speranza matematica
nita `e, per il Teorema A.3.6(vii), uguale quasi certamente a una variabile aleatoria.
B.1. NOZIONI E RISULTATI DI BASE 173
Nel teorema seguente riportiamo alcune propriet` a basilari della varianza.
In particolare, per la proposizione (iii), le v.a. con varianza nulla coincidono
con quelle che sono certe con probabilit`a unitaria.
Teorema B.1.8 Sia X una v.a. con speranza matematica nita. Risulta
allora:
(i) Var(X) = E(X
2
) E(X)
2
;
(ii) Var(X + ) =
2
Var(X) qualunque siano i numeri reali e ;
(iii) Var(X) = 0 se e solo se X = E(X) (P-q.c.).
Dimostrazione (i) Dalla linearit` a della speranza matematica otteniamo Var(X) =
E
_
X
2
2XE(X) + E(X)
2
_
= E(X
2
) 2E(X)E(X) + E(X)
2
= E(X
2
) E(X)
2
.
(ii) Per la linearit` a della speranza matematica, Var(X+) = E
_
[(X+)E(X+
)]
2
_
= E
_
[X + (E(X) +)]
2
_
= E
_

2
(X E(X))
2
_
=
2
Var(X).
(iii) Conseguenza immediata del Teorema A.3.6(ii),(v).
Considerate ora due v.a. X, Y con speranza matematica nita e tali che
esista nita la speranza matematica E(XY ) del loro prodotto
12
, la covarian-
za di X e Y `e la dierenza: Cov(X, Y ) = E(XY )E(X) E(Y ). Riesce quindi
Cov(X, Y ) = Cov(Y, X) e, in particolare, Var(X) = Cov(X, X). Inoltre, per
la linearit` a della speranza matematica, si ha
E
_
(X E(X))(Y E(Y ))
_
= E
_
XY XE(Y ) Y E(X) + E(X)E(Y )
_
= E(XY ) E(X)E(Y )
E(Y )E(X) + E(X)E(Y )
e quindi luguaglianza
Cov(X, Y ) = E
_
(X E(X))(Y E(Y ))
_
(B.3)
che, tra laltro, induce ad aspettarsi una covarianza positiva quando, con
riferimento alle rispettive speranze matematiche, a valori tendenzialmente
alti (bassi) di X corrispondano valori alti (bassi) di Y .
Il teorema successivo fornisce ulteriori propriet` a della covarianza. Di par-
ticolare interesse `e lultima in quanto assicura che, qualora le v.a. siano a
due a due non correlate (cio`e di covarianza nulla), la varianza della loro
somma `e uguale alla somma delle rispettive varianze.
12
Come lo sono, ad esempio, due v.a. a quadrato integrabile (Teorema A.3.5(iv)).
174 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Teorema B.1.9 Siano X, Y, Z v.a. con speranza matematica nita e tali
che esistano nite le speranze matematiche E(XY ) e E(Y Z). Risulta allora:
(i) Cov(X, Y ) = Cov(X, Y ) per ogni numero reale ;
(ii) Cov(X + Z, Y ) = Cov(X, Y ) + Cov(Y, Z);
(iii) Cov(X, Y )
2
Var(X) Var(Y ) (Disuguaglianza di Cauchy-Schwarz).
Inoltre, se X
1
, . . . , X
n
sono v.a. con speranza matematica nita e tali che
esista nita la speranza matematica E(X
i
X
j
) per ogni i ,= j, si ha
Var
_
n

i=1
X
i
_
=
n

i=1
Var(X
i
) + 2
n1

i=1

j>i
Cov(X
i
, X
j
).
Dimostrazione (i) Dalla linearit` a della speranza matematica otteniamo Cov(X, Y ) =
E(XY ) E(X) E(Y ) = [E(XY ) E(X)E(Y )] = Cov(X, Y ).
(ii) Sempre per la linearit` a della speranza matematica si ha
Cov(X +Z, Y ) = E
_
(X +Z)Y

E(X +Z) E(Y )


= E(XY ) + E(ZY ) E(X)E(Y ) E(Z)E(Y )
=
_
E(XY ) E(X)E(Y )

+
_
E(Y Z) E(Y )E(Z)

= Cov(X, Y ) + Cov(Y, Z).


(iii) Sia intanto Var(X) = 0. Allora, per il teorema B.1.8(iii), X = E(X) (P-q.c.) e
quindi (X E(X))(Y E(Y )) = 0 (P-q.c.); ne segue, per il Teorema B.1.5(iii) e (B.3),
Cov(X, Y ) = 0 da cui otteniamo la disuguaglianza in oggetto. Sia ora Var(X) > 0.
Posto X

= X E(X) e Y

= Y E(Y ), riesce Var(X) Var(Y ) = E([X

[
2
) E([Y

[
2
) e,
per il Teorema B.1.5(iv) e (B.3), Cov(X, Y )
2
= E(X

)
2
= [E(X

)[
2
E([X

[)
2
.
Basta allora provare la disuguaglianza E([X

[ [Y

[)
2
E([X

[
2
) E([Y

[
2
) che, coinvolgendo
solamente [X

[ e [Y

[, riguarda v.a. non negative.


Date dunque due v.a. U 0, V 0 con E(U
2
) > 0, verichiamo che si ha E(U V )
2

E(U
2
) E(V
2
). A tal ne, considerate le v.a. troncate:
U
n
= U I
{Un}
+nI
{U>n}
, V
n
= V I
{V n}
+nI
{V >n}
(n 1),
osserviamo che riesce 0 U
n
V
n
UV , 0 U
2
n
U
2
e 0 V
2
n
V
2
. Ne segue, per
il teorema della convergenza monotona A.3.7, E(U
n
V
n
)
2
E(UV )
2
e E(U
2
n
) E(U
2
),
E(V
2
n
) E(V
2
). Conseguentemente, supposto (senza perdere in generalit`a) E(U
2
n
) > 0
(n 1), basta constatare che la disuguaglianza E(U
n
V
n
)
2
E(U
2
n
) E(V
2
n
) sussiste per
ogni n. A tal ne, dato un numero reale t, consideriamo la v.a. tU
n
+V
n
. Le v.a. U
2
n
, V
2
n
e U
n
V
n
in quanto limitate hanno, per la monotonia della speranza matematica, speranza
matematica nita. Dalla linearit` a e monotonia della speranza matematica risulta allora
0 E
_
(tU
n
+V
n
)
2
_
= E(t
2
U
2
n
+ 2t U
n
V
n
+V
2
n
) = E(U
2
n
) t
2
+ 2 E(U
n
V
n
) t + E(V
2
n
).
B.1. NOZIONI E RISULTATI DI BASE 175
Pertanto, data larbitrariet` a di t, lequazione di secondo grado a coecienti reali
E(U
2
n
) t
2
+ 2 E(U
n
V
n
) t + E(V
2
n
) = 0
ammette al pi` u una sola soluzione. Ne segue che il suo discriminante deve essere minore
o uguale a zero e quindi E(U
n
V
n
)
2
E(U
2
n
) E(V
2
n
) 0, cio`e E(U
n
V
n
)
2
E(U
2
n
) E(V
2
n
).
Per quanto riguarda lultima parte della tesi, sia intanto n = 2. Dalla linearit` a della
speranza matematica e (B.3) otteniamo
Var(X +Y ) = E
_
[(X +Y ) E(X +Y )]
2
_
= E
_
[(X E(X)) + (Y E(Y ))]
2
_
= E
_
(X E(X))
2
+ (Y E(Y ))
2
+ 2(X E(X))(Y E(Y ))
_
= E
_
(X E(X))
2
_
+E
_
(Y E(Y ))
2
_
+2 E
_
(X E(X))(Y E(Y ))
_
= Var(X) + Var(Y ) + 2 Cov(X, Y ).
Procedendo per induzione su n, supponiamo che luguaglianza sussista per m 2 (ipotesi
induttiva) e proviamola per n = m+ 1. Allora, per il caso n = 2 e (ii), si ha
Var
_
n

i=1
X
i
_
= Var
_
m

i=1
X
i
+X
n
_
= Var
_
m

i=1
X
i
_
+Var(X
n
) + 2 Cov
_
m

i=1
X
i
, X
n
_
=
m

i=1
Var(X
i
) + 2
m1

i=1

j>i
Cov(X
i
, X
j
)
+ Var(X
n
) + 2
m

i=1
Cov(X
i
, X
n
)
e quindi la tesi.
B.1.5 Leggi congiunte e indipendenza
Considerata una -algebra
i
sullinsieme non vuoto X
i
(i = 1, 2), siano X il
prodotto cartesiano X
1
X
2
e la -algebra prodotto
1

2
. Chiamato
allora coppia aleatoria ogni ente aleatorio su a valori in X, lapplicazione
X = (X
1
, X
2
) : (X
1
(), X
2
()) di in X `e una coppia aleatoria se e
solo se la sua componente i-sima X
i
(i = 1, 2) `e un ente aleatorio a valori in
X
i
(cio`e, unapplicazione (/,
i
)-misurabile)
13
.
Ci`o osservato, dato lente aleatorio X
i
a valori in X
i
(i = 1, 2), la legge (o
distribuzione) congiunta di X
1
e X
2
`e la legge P
X
della coppia aleatoria X.
13
Per constatarlo, ricordato che `e generata dalla famiglia dei rettangoli misurabili e
il criterio standard di misurabilit` a A.1.5, basta osservare che X
1
1
(A
1
) = X
1
(A
1
X
2
),
X
1
2
(A
2
) = X
1
(X
1
A
2
) e X
1
(A
1
A
2
) = X
1
1
(A
1
) X
1
2
(A
2
) per ogni A
1

1
e
A
2

2
.
176 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Supposto poi che su
i
sia denita una misura -nita di riferimento
i
(i =
1, 2), una (
1
,
2
)-densit`a congiunta di X
1
e X
2
`e ogni funzione -Borel
misurabile f : X [0, +] tale che P
X
= f(
1

2
). Conseguentemente, se
f `e una (
1
,
2
)-densit`a congiunta di X
1
e X
2
, si ha P(X A) =
_
A
f d
1

2
per ogni A ; inoltre, f `e nita quasi certamente (Teorema A.3.6(vii)) ed
`e denita, ricordato che la misura prodotto `e -nita, a meno di insiemi

2
-trascurabili (teoremi A.3.6(ii) e A.4.4).
Nel caso particolare che X
1
, X
2
siano v.a., considereremo anche la fun-
zione di ripartizione congiunta di X
1
e X
2
, cio`e la funzione F
X
: R
2

[0, 1] cos` denita:


F
X
(x
1
, x
2
) = P
X
_
] , x
1
]] , x
2
]
_
= P
_
(X
1
, X
2
) (x
1
, x
2
)
_
che associa, ad ogni coppia reale (x
1
, x
2
), la probabilit` a dellevento X
1
x
1
e X
2
x
2
.
Precisiamo inne che la legge marginale di X
i
(i = 1, 2) `e la legge P
X
i
;
che una
i
-densit`a marginale di X
i
`e una sua qualsiasi
i
-densit`a; che, nel
caso particolare che X
i
sia una v.a., la funzione di ripartizione marginale
di X
i
`e la funzione di ripartizione F
X
i
.
Il prossimo risultato segue immediatamente dalla proposizione (i) del teo-
rema fondamentale del calcolo delle probabilit` a e ne fornisce una versione
bidimensionale che risulta utile qualora si debba calcolare, ad esempio, la
speranza matematica di una funzione Borel-misurabile dipendente da due
v.a. (come avviene nel caso della covarianza ove `e necessario valutare la
speranza matematica di un prodotto di v.a.).
Teorema B.1.10 Sia g : X R

una funzione sommabile rispetto alla legge


congiunta di X
1
e X
2
. Allora, posto =
1

2
, si ha
_
{XA}
g(X
1
, X
2
) dP =
_
_
A
g dP
X
_
A
g f d se f `e una -densit` a di X
1
e X
2
per ogni A
14
.
Mostriamo ora come la nozione di (
1
,
2
)-densit`a congiunta sia una ge-
neralizzazione delle ben note nozioni di funzione di probabilit` a congiunta e di
funzione di densit`a congiunta relative, rispettivamente, alle coppie aleatorie
14
Per la nota 6 di p. 169, al posto della P
X
-sommabilit`a di g si pu` o assumere la P-
sommabilit` a di g(X) o, nel caso della densit`a congiunta, la -sommabilit`a di gf.
B.1. NOZIONI E RISULTATI DI BASE 177
discrete e a quelle assolutamente continue. A tal ne, ricordiamo che la
famiglia o
(2)
= S
x
1
x
2
=] , x
1
] ] , x
2
] : x
1
, x
2
R `e chiusa per
intersezioni nite e riesce B
(2)
= (o
(2)
) (Esempio A.5.7) e R
2
=

n1
S
nn
.
Esempio B.1.11 (i) Coppia aleatoria discreta Date le v.a. discrete X
1
, X
2
, po-
niamo X
i
= X
i
() = x
i1
, x
i2
, . . . e
i
= 2
X
i
(i = 1, 2). Allora, X `e un insieme discreto e
quindi = 2
X
. Indicata con f la funzione di probabilit` a congiunta della coppia aleatoria
X, otteniamo f(x) = P(X = x) per ogni x = (x
1
, x
2
) X. Considerata inne come
misura di riferimento su
i
la misura di conteggio
i
=
X
i
(i = 1, 2) e ssato un qualsiasi
A , per lOsservazione A.3.9, si ha
P(X A) = P
_
_
(n,m){(n,m):(x
1n
,x
2m
)A}
X = (x
1n
, x
2m
)
_
=

(n,m){(n,m):(x
1n
,x
2m
)A}
f(x
1n
, x
2m
) =

n1

m1
f(x
1n
, x
2m
) I
A
(x
1n
, x
2m
)
=

n1
_
X
2
f(x
1n
, ) I
A
(x
1n
, ) d
2
=
_
X
1
_
_
X
2
f(x
1
, ) I
A
(x
1
, ) d
2
_

1
(dx
1
)
e quindi, per il teorema di Tonelli A.5.4,
P
X
(A) =
_
X
f I
A
d
1

2
=
_
A
f d
1

2
.
Conseguentemente, la funzione di probabilit` a congiunta di X pu` o essere vista come una
particolare (
1
,
2
)-densit`a congiunta delle v.a X
1
e X
2
.
(ii) Coppia aleatoria assolutamente continua Sia f una funzione di densit` a
congiunta della coppia aleatoria assolutamente continua X. Risulta allora f 0 e
f
(2)
(S
x
1
x
2
) =
_
S
x
1
x
2
f(x, y) dxdy = F
X
(x
1
, x
2
) = P
X
(S
x
1
x
2
)
qualunque siano i numeri reali x
1
, x
2
15
. Ne segue, tramite il criterio standard didentit` a,
P
X
= f
(2)
. Conseguentemente, ogni funzione di densit` a congiunta di X pu` o essere
vista come una particolare (, )-densit`a congiunta delle v.a. X
1
e X
2
.
Il risultato seguente mostra come ricavare dalla legge congiunta e dalle
densit`a congiunte, rispettivamente, le leggi marginali e le densit` a marginali
come pure, nel caso particolare che X
1
, X
2
siano v.a., dalla funzione di
ripartizione congiunta le funzioni di ripartizione marginale.
15
Avendo denotato, per ogni m 2 e B B
(m)
, con
_
B
f(x
1
, . . . , x
m
) dx
1
dx
m
lintegrale
_
B
f(x
1
, . . . , x
m
)
(m)
(dx
1
dx
m
).
178 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Teorema B.1.12 Risulta P
X
1
(A
1
) = P
X
(A
1
X
2
) e P
X
2
(A
2
) = P
X
(X
1
A
2
)
per ogni A
i

i
(i = 1, 2). Inoltre, se f `e una (
1
,
2
)-densit`a congiunta di
X
1
e X
2
, la funzione f
X
i
: X
i
[0, +] cos` denita:
f
X
i
(x
i
) =
_
_
X
2
f(x
1
, x
2
)
2
(dx
2
) se i = 1
_
X
1
f(x
1
, x
2
)
1
(dx
1
) se i = 2
per ogni x
i
X
i
, `e una
i
-densit`a marginale di X
i
(i = 1, 2). Inne, nel
caso particolare che X
1
, X
2
siano v.a., F
X
1
(t) = lim
x
2
+
F
X
(t, x
2
) e F
X
2
(t) =
lim
x
1
+
F
X
(x
1
, t) per ogni numero reale t.
Dimostrazione Ci limitiamo a provare il teorema con riferimento allente aleatorio X
1
in quanto le dimostrazioni relative a X
2
sono del tutto simili. Dato A
1

1
, risulta
P
X
1
(A
1
) = P(X
1
A
1
) = P(X A
1
X
2
) = P
X
(A
1
X
2
). Sia ora f una (
1
,
2
)-densit`a
congiunta di X
1
e X
2
. Dal teorema di Tonelli otteniamo allora
P
X
1
(A
1
) = P
X
(A
1
X
2
) =
_
A
1
X
2
f d
1

2
=
_
A
1
_
_
X
2
f(x
1
, ) d
2
_

1
(dx
1
)
qualunque sia A
1

1
. Conseguentemente, f
X
1
`e una
1
-densit`a marginale di X
1
. Sia
inne X
1
una v.a.. Dato un numero reale t, la successione (S
tn
)
n1
`e non decrescente e
riesce

n1
S
tn
=] , t] R. Per la monotonia della funzione di ripartizione congiunta
rispetto a x
2
e la continuit`a della legge congiunta otteniamo allora
lim
x
2
+
F
X
(t, x
2
) = lim
n+
F
X
(t, n) = lim
n+
P
X
(S
tn
)
= P
X
(] , t] R) = P
X
1
(] , t]) = F
X
1
(t).
La dimostrazione `e cos` conclusa.
Mentre la legge, le densit` a e la funzione di ripartizione congiunte con-
sentono di ottenere, rispettivamente, le leggi, le densit` a e le funzioni di
ripartizione marginali, non vale in generale il viceversa. In altre parole,
la conoscenza marginale non `e in grado, senza ulteriori ipotesi, di fornire
informazioni sul comportamento congiunto di due enti aleatori. Daltra
parte, come il prossimo teorema mette in evidenza, `e possibile dedurre dalla
conoscenza marginale quella congiunta se i due enti aleatori X
1
e X
2
sono
indipendenti, cio`e: P
X
(A
1
A
2
) = P
X
1
(A
1
) P
X
2
(A
2
) per ogni rettangolo
misurabile A
1
A
2
.
Teorema B.1.13 Sono equivalenti le seguenti proposizioni:
(i) X
1
e X
2
sono indipendenti;
B.1. NOZIONI E RISULTATI DI BASE 179
(ii) P
X
= P
X
1
P
X
2
.
Inoltre, se f
X
`e una (
1
,
2
)-densit`a congiunta di X
1
e X
2
, (i) `e equivalente
alla proposizione:
(iii) f
X
(x
1
, x
2
) = f
X
1
(x
1
)f
X
2
(x
2
) a meno di un insieme
1

2
-trascurabile.
Inne, se X
1
, X
2
sono v.a., (i) `e equivalente alla proposizione:
(iv) F
X
(x
1
, x
2
) = F
X
1
(x
1
)F
X
2
(x
2
) per ogni x
1
, x
2
R.
Dimostrazione Limplicazione (i) (ii) segue immediatamente dal Teorema A.5.3; la
sua inversa `e invece ovvia.
(i) (iii) Sia f : (x
1
, x
2
) f
X
1
(x
1
)f
X
2
(x
2
). Posto =
1

2
, consideriamo un
rettangolo misurabile A
1
A
2
. Allora, dal teorema di Tonelli otteniamo
f (A
1
A
2
) =
_
A
1
A
2
f d =
_
A
1
_
_
A
2
f(x
1
, x
2
)
2
(dx
2
)
_

1
(dx
1
)
=
_
A
1
_
_
A
2
f
X
2
(x
2
)
2
(dx
2
)
_
f
X
1
(x
1
)
1
(dx
1
)
=
_
_
A
1
f
X
1
d
1
_ _
_
A
2
f
X
2
d
2
_
= P
X
1
(A
1
) P
X
2
(A
2
),
osservato che, per il Teorema B.1.12, f
X
i
`e una
i
-densit`a di X
i
(i = 1, 2). Conseguente-
mente, per larbitrariet` a di A
1
A
2
, dal Teorema A.5.3 si ha f = P
X
1
P
X
2
. A questo
punto, lequivalenza in oggetto segue immediatamente dallequivalenza (i) (ii).
(i) (iv) Siano le due v.a. indipendenti. Allora, F
X
(x
1
, x
2
) = P
X
(S
x
1
x
2
) =
P
X
1
(] , x
1
]) P
X
2
(] , x
2
]) = F
X
1
(x
1
) F
X
2
(x
2
). Viceversa, assumiamo F
X
(x
1
, x
2
) =
F
X
1
(x
1
) F
X
2
(x
2
) per ogni x
1
, x
2
R. Allora
P
X
(S
x
1
x
2
) = P
X
1
(] , x
1
]) P
X
2
(] , x
2
]) = P
X
1
P
X
2
(S
x
1
x
2
)
per ogni x
1
, x
2
R. Ne segue, tramite il criterio standard didentit` a, P
X
= P
X
1
P
X
2
e
quindi, per lequivalenza (i) (ii), X
1
e X
2
sono indipendenti.
Di particolare importanza sono i due risultati successivi in quanto assi-
curano, rispettivamente, che trasformate misurabili certe di enti aleatori
indipendenti sono a loro volta indipendenti e che, nellambito delle v.a. con
speranza matematica nita, lindipendenza implica la non correlazione
16
.
16
Ma, viceversa, la non correlazione non implica, in generale, lindipendenza. Infatti,
posto = [0, 2], / = B e P =
1
2

A
, consideriamo le v.a X
1
: cos e X
2
:
sin (che da un punto di vista interpretativo, possiamo pensare ottenute trasformando,
mediante le funzioni coseno e seno rispettivamente, un numero aleatorio scelto a caso
nellintervallo ). Riesce allora, E(X
1
) = 0 = E(X
1
X
2
) e quindi Cov(X
1
, X
2
) = 0.
Daltra parte, considerati gli insiemi I
1
=
_
1,
1

, I
2
=
_
0,
1

, I
3
=
_
1

2
, 1

e
B =
_
1
4
,
1
2

_
3
2
,
7
4

, `e facile constatare che P


X
1
(I
2
) = P
X
2
(I
1
I
3
) = P
X
_
I
2

(I
1
I
3
)
_
= P(B) =

2
e quindi X
1
, X
2
non sono indipendenti.
180 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Teorema B.1.14 Siano (
i
una -algebra su un insieme non vuoto Y
i
e
g
i
: X
i
Y
i
unapplicazione (
i
, (
i
)-misurabile (i = 1, 2). Siano inoltre X
1
e
X
2
indipendenti. Allora, sono pure indipendenti gli enti aleatori trasformati
g
1
(X
1
) e g
2
(X
2
).
Dimostrazione Considerata la coppia aleatoria Y = (g
1
(X
1
), g
2
(X
2
)), otteniamo
P
Y
(G
1
G
2
) = P
_
(g
1
(X
1
), g
2
(X
2
)) G
1
G
2
_
= P
_
g
1
(X
1
) G
1
g
2
(X
2
) G
2

_
= P
_
X
1
g
1
1
(G
1
) X
2
g
1
2
(G
2
)
_
= P
_
(X
1
, X
2
) g
1
1
(G
1
) g
1
2
(G
2
)
_
= P
X
_
g
1
1
(G
1
) g
1
2
(G
2
)
_
= P
X
1
_
g
1
1
(G
1
)
_
P
X
2
_
g
1
2
(G
2
)
_
= P
_
X
1
1
(g
1
1
(G
1
))
_
P
_
X
1
2
(g
1
2
(G
2
))
_
= P
_
(g
1
X
1
)
1
(G
1
)
_
P
_
(g
2
X
2
)
1
(G
2
)
_
= P
g
1
(X
1
)
(G
1
) P
g
2
(X
2
)
(G
2
)
per ogni rettangolo misurabile G
1
G
2
(
1
(
2
.
Teorema B.1.15 Siano X
1
, X
2
v.a. indipendenti. Allora, se X
i
0 (i =
1, 2) o E(X
i
) nita (i = 1, 2), esiste la speranza matematica del prodotto e si
ha E(X
1
X
2
) = E(X
1
) E(X
2
).
Dimostrazione Dal Teorema B.1.13 risulta P
X
= P
X
1
P
X
2
. Ci`o osservato, sia intanto
X
i
0 (i = 1, 2). Allora, P
X
i
([0, +[) = P
X
([0, +[ [0, +[) = 1 (i = 1, 2) da cui,
tramite i teoremi B.1.10, di Tonelli e (B.2), otteniamo
E(X
1
X
2
) =
_
R
2
x
1
x
2
P
X
(dx
1
dx
2
) =
_
[0,+[ [0,+[
x
1
x
2
P
X
1
P
X
2
(dx
1
dx
2
)
=
_
[0,+[
_
_
[0,+[
x
2
P
X
2
(dx
2
)
_
x
1
P
X
1
(dx
1
)
=
_
_
[0,+[
x
1
P
X
1
(dx
1
)
__
_
[0,+[
x
2
P
X
2
(dx
2
)
_
=
_
_
R
x
1
P
X
1
(dx
1
)
__
_
R
x
2
P
X
2
(dx
2
)
_
= E(X
1
) E(X
2
).
Sia ora E(X
i
) nita (i = 1, 2). Per il teorema precedente, [X
1
[, [X
2
[ sono indipendenti e
quindi, per quanto appena provato, E([X
1
X
2
[) = E([X
1
[ [X
2
[) = E([X
1
[) E([X
2
[) < +,
ove la disuguaglianza sussiste in forza del Teorema A.3.5(ii). Ne segue, sempre per il mede-
simo teorema, che X
1
X
2
ha speranza matematica nita. Allora, la funzione f : (x
1
, x
2
)
x
1
x
2
`e P
X
1
P
X
2
-integrabile e inoltre P
X
1
(x
1
R : f(x
1
, ) `e P
X
2
-sommabile) =
P
X
1
(R) = 1. Conseguentemente, per il teorema di Fubini A.5.5,
E(X
1
X
2
) =
_
R
2
x
1
x
2
P
X
1
P
X
2
(dx
1
dx
2
) =
_
R
_
_
R
x
2
P
X
2
(dx
2
)
_
x
1
P
X
1
(dx
1
)
e quindi E(X
1
X
2
) = E(X
1
) E(X
2
).
B.1. NOZIONI E RISULTATI DI BASE 181
Per semplicit`a di esposizione ci siamo limitati a considerare sin qui so-
lamente il caso delle coppie aleatorie. Daltra parte, dovrebbe essere del
tutto evidente che le denizioni date si possono estendere pari pari (salvo
la numerosit` a delle componenti) al caso delle m-ple aleatorie (m 3) come
pure che cos` facendo rimangono validi tutti i risultati ottenuti. Per quanto
riguarda lindipendenza, osserviamo che se gli enti aleatori X
1
, . . . , X
m
sono
indipendenti, allora lo sono pure quelli ottenuti operando una selezione tra
di essi. Considerata infatti la k-pla aleatoria Y = (X
1
, . . . , X
k
) si ha
Y A
1
A
k
X A
1
A
k
X
k+1
X
m
e quindi
P
Y
(A
1
A
k
) = P
X
(A
1
A
k
X
k+1
X
m
)
= P
X
1
(A
1
) P
X
k
(A
k
) P
X
k+1
(X
k+1
) P
X
m
(X
m
)
= P
X
1
(A
1
) P
X
k
(A
k
)
per ogni A
i

i
(i = 1, . . . , k). Ne segue dalla simmetria della relazione
dindipendenza quanto dichiarato. Pertanto, nel caso particolare che la m-
pla sia costituita da v.a. indipendenti e con speranza matematica nita, le
sue componenti sono, per il Teorema B.1.15, a due e due non correlate.
Concludiamo la sezione con un risultato (di notevole interesse per le ap-
plicazioni) che riguarda la legge della somma di due v.a. indipendenti.
Teorema B.1.16 Siano X
1
, X
2
v.a. indipendenti e Y = X
1
+ X
2
. Allora,
P
Y
(B) =
_
R
P
X
2
(B x
1
) P
X
1
(dx
1
) per ogni boreliano B. Inoltre, se f
i
`e una
funzione di densit`a di X
i
(i = 1, 2), la funzione di dominio la retta reale:
t
_
+

f
1
(x
1
)f
2
(t x
1
) dx
1
`e una funzione di densit`a della v.a. somma.
Dimostrazione Per il Teorema B.1.13, la legge congiunta P
X
`e il prodotto delle leggi
marginali P
1
= P
X
1
e P
2
= P
X
2
. Considerato allora B B, dal Teorema B.1.10 e da
quello di Tonelli si ha
P
Y
(B) =
_

I
{Y B}
dP =
_

I
B
(X
1
+X
2
) dP =
_
R
2
I
B
(x
1
+x
2
) P
1
P
2
(dx
1
dx
2
)
=
_
R
_
_
R
I
B
(x
1
+x
2
) P
2
(dx
2
)
_
P
1
(dx
1
)
182 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
da cui, osservato che I
B
(x
1
+x
2
) = I
Bx
1
(x
2
), otteniamo
P
Y
(B) =
_
R
_
_
R
I
Bx
1
(x
2
) P
2
(dx
2
)
_
P
1
(dx
1
) =
_
R
P
2
(B x
1
) P
1
(dx
1
).
Passando alla seconda parte della tesi, risulta
P
Y
(B) =
_
R
_
_
Bx
1
f
2
(x
2
) dx
2
_
f
1
(x
1
) dx
1
.
Considerata allora la traslazione : t t + x
1
della retta reale, dal Corollario A.4.2
otteniamo
_
Bx
1
f
2
(x
2
) dx
2
=
_
Bx
1
f
2
((x
2
) x
1
) dx
2
=
_
B
f
2
(t x
1
) dt
e quindi, per il teorema di Tonelli,
P
Y
(B) =
_
R
_
_
B
f
2
(t x
1
) dt
_
f
1
(x
1
) dx
1
=
_
RB
f
1
(x
1
)f
2
(t x
1
) dx
1
dt
=
_
B
_
_
R
f
1
(x
1
)f
2
(t x
1
) dx
1
_
dt.
La dimostrazione `e cos` conclusa.
B.2 Speranza matematica condizionata
Lintroduzione delle nozioni di probabilit` a condizionata e di speranza matema-
tica condizionata non presenta alcuna dicolt` a quando levento subordinante
ha probabilit` a positiva. Infatti, dato un evento H con P(H) > 0, possiamo
considerare la probabilit` a P([H) su / cos` denita:
P(A[H) =
P(A H)
P(H)
per ogni A, detta probabilit`a condizionata a H (interpretabile, da un
punto di vista intuitivo, come la probabilit` a che si ottiene aggiornando la
probabilit` a P sapendo che levento H `e vero). Per constatare che siamo
eettivamente in presenza di una probabilit` a basta osservare che P([H) = 1
e che, data una successione disgiunta di eventi (A
n
)
n1
,
P(
_
n1
A
n
[H) =
P(H

n1
A
n
)
P(H)
=
P(

n1
(A
n
H))
P(H)
=

n1
P(A
n
H)
P(H)
=

n1
P(A
n
H)
P(H)
=

n1
P(A
n
[H).
B.2. SPERANZA MATEMATICA CONDIZIONATA 183
Mostriamo ora come lintegrazione rispetto alla probabilit` a condizionata
possa essere ricondotta a quella rispetto alla probabilit` a originaria.
Teorema B.2.1 Sia X una v.a.. Allora, X `e P([H)-sommabile se e solo
se XI
H
`e P-sommabile. Inoltre, nel caso di sommabilit`a,
_

X dP([H) =
_
H
X dP
P(H)
.
Dimostrazione Sia intanto X 0. Considerata la misura m = P(H) P([H), risulta
m(H
c
) = 0 e quindi, per il Teorema A.3.4(iv),
_

X dm =
_
H
X dm; inoltre, osservato che
P, m coincidono sulla traccia / H di / su H, otteniamo
_
H
X dm =
_
H
X dP. Tramite
il Teorema A.3.4(ii) riesce allora
_

X dP([H) =
_

X d
_
1
P(H)
m
_
=
1
P(H)
_

X dm =
1
P(H)
_
H
X dm =
1
P(H)
_
H
X dP.
Sia ora X qualsiasi. Poich`e
_

X
+
dP([H) =
_
H
X
+
dP
P(H)
=
_

(XI
H
)
+
dP
P(H)
_

dP([H) =
_
H
X

dP
P(H)
=
_

(XI
H
)

dP
P(H)
,
la P([H)-sommabilit`a di X equivale alla P-sommabilit` a di XI
H
. Inoltre, nel caso di
sommabilit`a,
_

X dP([H) =
_

X
+
dP([H)
_

dP([H) =
_
H
X
+
dP
_
H
X

dP
P(H)
=
_
H
X dP
P(H)
.
La dimostrazione `e cos` conclusa.
Tramite questo teorema possiamo introdurre, data una v.a. X con speran-
za matematica, la nozione di speranza matematica condizionata di X a
H identicandola. come `e naturale, con lelemento della retta reale ampliata:
E(X[H) =
_

X dP([H). Allora, sempre per il medesimo teorema,


E(X[H) =
_
H
X dP
P(H)
=
E(X I
H
)
P(H)
. (B.4)
Nel caso che levento subordinante abbia probabilit` a nulla, si possono
ancora introdurre le relative nozioni di probabilit` a e speranza matematica
condizionate ricorrendo, sotto convenienti condizioni di regolarit` a, ad op-
portuni passaggi al limite. Tuttavia, volendo introdurle anche in contesti
184 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
pi` u generali, conviene considerare il condizionamento non solo ad un sin-
golo evento (come sinora fatto) ma alla famiglia degli eventi osservabili (cio`e
eventi aleatori il cui valore di verit` a `e acquisibile tramite un pressato pro-
cesso di osservazione). Notato che sono osservabili sia la negazione di un
evento osservabile che la disgiunzione discreta di eventi osservabili, viene
naturale ricorrere alle -algebre per descrivere formalmente linformazione
ottenibile tramite il processo di osservazione. Prendendo spunto da queste
considerazioni, nella sezione seguente introduciamo una nozione di speranza
matematica condizionata a una -algebra di eventi che pu` o ritenersi uno dei
concetti pi` u profondi e potenti (sia dal punto di vista teorico che applicativo)
della teoria delle probabilit` a.
B.2.1 Condizionamento a -algebre
Iniziamo con un semplice esempio per enucleare le motivazioni intuitive che
conducono a formulare la nozione generale di speranza matematica condiziona-
ta allinformazione ottenibile. Assumiamo dunque che tale informazione sia
rappresentata dalla -algebra H generata da una partizione nita di co-
stituita dagli eventi H
1
, . . . , H
n
/. Supponiamo inoltre che X sia una
v.a. con speranza matematica nita. Dato un qualsiasi evento H H,
esistono i
1
, . . . , i
m
1, . . . , n tali che H =

m
h=1
H
i
h
(Esempio A.1.1(i)).
Conseguentemente, posto J
H
= h : P(H
i
h
) > 0 e notato che E(XI
H
i
h
) =
_
H
i
h
X dP = 0 per ogni h , J
H
(Teorema A.3.4(iv)), dalla linearit` a della
speranza matematica otteniamo
E(XI
H
) = E
_
XI

m
h=1
H
i
h
_
= E
_
X
m

h=1
I
H
i
h
_
=
m

h=1
E(XI
H
i
h
) =

hJ
H
E(XI
H
i
h
)
e quindi, tramite (B.4),
_
H
X dP =

hJ
H
E(X[H
i
h
) P(H
i
h
).
Considerata ora la H-funzione semplice:
Y
0
=

i{i:P(H
i
)>0}
E(X[H
i
)I
H
i
,
B.2. SPERANZA MATEMATICA CONDIZIONATA 185
risulta Y
0
I
H
=

hJ
H
E(X[H
i
h
) I
H
i
h
. Ne segue, per la linearit`a dellintegrale,
_
H
Y
0
dP =

hJ
H
E(X[H
i
h
)P(H
i
h
) e quindi luguaglianza
_
H
X dP =
_
H
Y
0
dP. (B.5)
Le speranze matematiche condizionate di X ai costituenti non trascurabili
permettono dunque di costruire una v.a. H-Borel misurabile Y
0
che verica
luguaglianza (B.5) per ogni evento osservabile H.
`
E interessante a questo
punto notare che ogni v.a. H-Borel misurabile Y che (analogamente a Y
0
)
verica la propriet` a E(XI
H
) = E(Y I
H
) per ogni evento osservabile H
coincide quasi certamente con Y
0
(Teorema A.4.4); assume su ogni costi-
tuente H
i
di probabilit` a positiva valore costante pari alla speranza matema-
tica condizionata E(X[H
i
)
17
; consente di calcolare la speranza matematica
condizionata di X a un qualsiasi evento osservabile H di probabilit` a positiva
tramite la relazione E(X[H) =
E(Y I
H
)
P(H)
.
Appare quindi ragionevole ritenere che lassunzione congiunta della H-
Borel misurabilit` a e della validit` a di (B.5) per ogni H H possa essere intesa
come caratterizzante la speranza matematica condizionata allinformazione
ottenibile (rappresentata, nel caso particolare in esame, dalla -algebra gene-
rata).
Adottando questo punto di vista, consideriamo una qualsiasi -algebra
H / i cui elementi, denotati con la lettera H (dotata o no di apici o
pedici), chiamiamo eventi osservabili. Data allora una v.a. X con speran-
za matematica nita, la speranza matematica condizionata di X a H `e
una qualsiasi v.a. estesa E(X[H) tale che:
1. sia H-Borel misurabile
18
;
2. risulti
_
H
X dP =
_
H
E(X[H) dP per ogni evento osservabile H.
19
17
Per constatarlo, ssato
i
H
i
, sia y
i
= Y (
i
). Allora,
i
Y = y
i
H e quindi
esiste, per lEsempio A.1.1(i), J 1, . . . , n tale che Y = y
i
=

jJ
H
j
. Riesce dunque

i
H
i
Y = y
i
= H
i

jJ
H
j
=

jJ
(H
i
H
j
) da cui otteniamo H
i
= H
j
per
qualche j J e quindi H
i
Y = y
i
. Pertanto, Y assume su H
i
valore costante y
i
.
Supposto inne P(H
i
) > 0, dalla
_
H
i
X dP =
_
H
i
Y dP = y
i
P(H
i
), si ha y
i
= E(X[H
i
).
18
E quindi osservabile (cio`e di valore noto qualora sia conosciuto il valore di verit` a di
ogni evento osservabile) in quanto gli eventi E(X[H) = y sono, al variare di y R

,
tutti osservabili.
19
Una denizione analoga viene data anche nel caso di v.a. estese. Comunque, possiamo
186 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Notato che la probabilit` a XP

H
su H si annulla sullosservabile H ogniqual-
volta risulti P(H) = 0 (Teorema A.3.4(iv)), dal teorema di Radon-Nikodym
20
otteniamo intanto lesistenza di E(X[H). Inoltre, per i teoremi A.3.6(vii) e
A.4.4, possiamo anche aermare che E(X[H) `e nita quasi certamente e
risulta denita a meno di eventi osservabili di probabilit` a nulla
21
. Inne,
il risultato seguente assicura che E(X[H) assume quasi certamente il valore
E(X[H) su H, se H `e un P-atomo (in breve atomo) di H, cio`e un evento
osservabile di probabilit` a positiva non ripartibile in due eventi osservabili
ancora di probabilit` a positiva
22
.
Teorema B.2.2 Sia H un P-atomo di H. Esiste allora H
1
H tale che
P(H
1
) = P(H) e E(X[H)() = E(X[H) per ogni H
1
23
. In particolare, se
H `e la -algebra generata da una partizione nita di costituita dagli eventi
H
1
, . . . , H
m
con P(H
i
) > 0 (i = 1, . . . , m), allora E(X[H)() = E(X[H
i
) per
ogni H
i
(i = 1, . . . , m).
Dimostrazione Posto Y = E(X[H), basta vericare che Y `e costante su un sottoinsieme
H
1
H tale che P(H
1
) = P(H). Infatti, supposto Y () = per ogni H
1
, dalla
P(H H
1
) = 0 otteniamo Y I
H
= I
H
(P-q.c.). Ne segue, per il Teorema B.1.5(iii),
E(XI
H
) = E(Y I
H
) = E(I
H
) = P(H) e quindi, per (B.4), =
E(XI
H
)
P(H)
= E(X[H),
ricordato che P(H) > 0.
limitarci a considerare solo v.a. in quanto, essendo richiesta la nitezza della speranza
matematica, una v.a. estesa `e sempre uguale quasi certamente ad una v.a. (Teorema
A.3.6(vii)).
20
Per teorema di Radon-Nikodym intendiamo il seguente risultato (da considerarsi, per le
sue conseguenze, come unaltra pietra miliare della teoria della misura): Con riferimento
alla -algebra /, siano m una misura -nita e : / R

una funzione dinsieme


numerabilmente additiva m-assolutamente continua (cio`e tale che limplicazione m(A) =
0 (A) = 0 sussista per ogni A). Esiste allora una funzione /-Borel misurabile f a
valori nella retta reale ampliata tale che (A) =
_
A
f dm per ogni A (per una dimostrazione
si veda la sezione 2.2 del testo di Ash).
Cogliamo loccasione per osservare che, data una misura -nita di riferimento su ,
gli enti aleatori a valori in X che ammettono -densit`a coincidono, per questo teorema e
il Teorema A.3.4(iv), con quelli aventi legge -assolutamente continua.
21
Conseguentemente, E(X[H) non individua una v.a. ben precisata ma denota piuttosto
lelemento generico della classe delle speranze matematiche condizionate di X a H. Per
questo motivo useremo, nel seguito, la locuzione Z `e una versione di E(X[H) per indicare
che Z `e una di queste speranze matematiche condizionate.
22
In altri termini, per ogni H
1
H si ha P(H
1
) = 0 o P(H
1
) = P(H).
23
Lipotesi di atomicit` a non `e in generale rimovibile. Infatti, posto = [0, 1], / = B
e P =

A
, sia H la -algebra generata dalla partizione H
1
=
_
0,
1
4
_
, H
2
=

1
4
,
3
4

,
H
3
=

3
4
, 1

e X la funzione identica di . Allora, E(X[H


1
H
2
) =
3
8
e E(X[H)() =
1
8
,
se H
1
, e E(X[H)() =
1
2
, se H
2
.
B.2. SPERANZA MATEMATICA CONDIZIONATA 187
Per individuare H
1
, osservato che P(H Y < ) = 0, poniamo:
= supx R

: P(H Y < x) = 0
e verichiamo intanto che P(HY < ) = 0. Essendo luguaglianza ovvia per = ,
supponiamo > . Esiste allora una successione crescente di numeri reali (x
n
)
n1
tale
che x
n
. Poich`e x
n
< , esiste un numero reale x tale che x
n
< x e P(HY < x) = 0.
Riesce dunque, per la monotonia della probabilit` a, P(HY < x
n
) P(HY < x) =
0. Ne segue, per la subadditivit`a della probabilit` a,
P(H Y < ) = P
_
_
n1
H Y < x
n

n1
P(H Y < x
n
) = 0.
Proviamo ora che P(H Y > ) = 0. Essendo luguaglianza ovvia per = +,
supponiamo < +. Esiste allora una successione decrescente di numeri reali (x

n
)
n1
tale che x

n
. Poich`e x

n
> , si ha P(H Y < x

n
) > 0 da cui otteniamo, osservato
che HY < x

n
H e ricordato che H `e un atomo, P(HY < x

n
) = P(H) e quindi,
per ladditivit` a della probabilit` a, P(H Y x

n
) = 0. Ne segue, per la subadditivit` a
della probabilit` a,
P(H Y > ) = P
_
_
n1
H Y x

n1
P(H Y x

n
) = 0.
Riesce dunque P(H Y ,= ) = P(H Y < ) + P(H Y > ) = 0. Posto inne
H
1
= H Y = H, si ha P(H
1
) = P(H) e Y costante su H
1
.
Per quanto riguarda lultima parte della tesi, basta osservare che, per la nota 17 di p.
185, le funzioni H-Borel misurabili sono costanti sui costituenti H
1
, . . . , H
m
e che questi
ultimi sono banalmente degli atomi di H.
Nel teorema successivo elenchiamo ulteriori propriet` a della speranza mate-
matica condizionata allinformazione ottenibile. In particolare, le proposizio-
ni (xi) (xiii) forniscono le versioni condizionate dei teoremi della con-
vergenza monotona A.3.7, dintegrazione per serie A.3.8 e della convergenza
dominata A.3.11. Per quanto riguarda le uguaglianze considerate nelle propo-
sizioni (ii) e (iii), possiamo interpretarle, rispettivamente, nel modo seguente:
qualora linformazione ottenibile sia quella:
- minima (consistente solamente nei valori di verit` a degli eventi certo e im-
possibile), di X possiamo conoscere unicamente la speranza matematica;
- massima (consistente nel sapere quale caso elementare `e vero), di X possia-
mo conoscere il suo valore vero.
La proposizione (xiv) assicura invece che le v.a. limitate e osservabili si
comportano nei confronti della speranza matematica condizionata come le
costanti rispetto alla speranza matematica, nel senso che entrambe possono
188 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
essere estratte dalloperatore di speranza matematica. Inne, la propo-
sizione (xv) mette in evidenza che il risultato del condizionamento sequen-
ziale relativo a due -algebre di eventi osservabili / H non dipende da
quale condizionamento venga eettuato per primo ma solamente dalla pi` u
piccola informazione ottenibile (rappresentata da /).
Teorema B.2.3 Siano X, Y, X
1
, X
2
, etc. v.a. con speranza matematica ni-
ta. Riesce allora:
(i) E
_
E(X[H)
_
= E(X);
(ii) E(X[, ) = E(X).
Valgono inoltre le proposizioni seguenti nelle quali le relazioni riguardanti
speranze matematiche condizionate devono intendersi sussistere P-quasi cer-
tamente.
(iii) E(X[/) = X;
(iv) Se X `e anche H-Borel misurabile, allora E(X[H) = X. In particolare,
E(I

[H) = per ogni numero reale ;


(v) monotonia: E(X[H) E(Y [H), se X Y (P-q.c.);
(vi) E(X[H) = E(Y [H), se X = Y (P-q.c.);
(vii) internalit
`
a: a E(X[H) b, se a X b (P-q.c.);
(viii) internalit
`
a stretta: a < E(X[H) < b, se a < X < b (P-q.c.);
(ix) linearit
`
a: E
_
n
i=1

i
X
i
[H
_
=

n
i=1

i
E(X
i
[H) qualunque siano i nu-
meri reali
1
, . . . ,
n
;
(x)

E(X[H)

E([X[ [H);
(xi) E(X
n
[H) E(X[H), se X
n
X e X
1
0 (P-q.c.);
(xii) E
_
n1

n
X
n
[H
_
=

n1

n
E(X
n
[H), se (
n
)
n1
`e una successione di
numeri reali non negativi, X
n
0 per ogni n e la speranza matematica
della serie

n1

n
X
n
`e nita;
(xiii) E(X
n
[H) E(X[H), se [X
n
[ Z (P-q.c.) per ogni n, E(Z) nita e
X
n
X;
B.2. SPERANZA MATEMATICA CONDIZIONATA 189
(xiv) E(Z X[H) = Z E(X[H), se Z `e H-Borel misurabile e limitata;
(xv) Se / `e una sotto -algebra di H, allora E
_
E(X[H)[/
_
= E(X[/) e
E
_
E(X[/)[H
_
= E(X[/).
Dimostrazione Le proposizioni (i) (iv) sono conseguenza immediata della denizione.
Dalla proposizione (v) discendono invece (vi), (vii) (tenuto conto di (iv)) come pure (x)
(tenuto presente (ix) e la disuguaglianza [X[ X [X[).
(v) Sia X Y (P-q.c.). Allora, considerato un evento osservabile H, dalla monotonia
dellintegrale si ha
_
H
E(X[H) dP =
_
H
X dP
_
H
Y dP =
_
H
E(Y [H) dP. Ne segue, per
il Teorema A.4.4 (ponendo / = H), E(X[H) E(Y [H) (P-q.c.).
(viii) Per la linearit` a dellintegrale, E(X[H) a `e una versione di E(Xa[H). Inoltre,
posto A = a < X < b, H = a < E(X[H) < b, H
1
= E(X[H) a e H
2
=
E(X[H) b, otteniamo P(A) = 1 e P(H
c
) = P(H
1
) +P(H
2
). Ci` o osservato, assumiamo
(per assurdo) P(H
1
) > 0. Allora, P(A
c
H
1
) = 0, P(AH
1
) = P(H
1
) > 0 da cui, tramite
i teoremi A.3.4(iv) e A.3.6(i),(vi), risulta
0
_
H
1
_
E(X[H) a
_
dP =
_
H
1
(X a) dP =
_
AH
1
(X a) dP > 0
pervenendo cos` ad una contraddizione. La prova di P(H
2
) = 0 `e del tutto analoga.
(ix) Per la linearit` a della speranza matematica, la v.a. somma ha speranza matematica
nita per cui ha senso considerare E(

n
i=1

i
X
i
[H). Ora, essendo le speranze matematiche
condizionate nite quasi certamente, per losservabile H

=

n
i=1
_
E(X
i
[H) R
_
risulta
P(H

) = 1. Considerata allora, per ogni n, la v.a. X

i
= E(X
i
[H)I
H
, otteniamo X

i
=
E(X
i
[H) (P-q.c.) (i = 1, . . . , n) e

n
i=1

i
X

i
=

n
i=1

i
E(X
i
[H) (P-q.c.). Ne segue, per
le solite propriet`a dellintegrale,
_
H
n

i=1

i
X
i
dP =
n

i=1

i
_
H
X
i
dP =
n

i=1

i
_
H
E(X
i
[H) dP
=
n

i=1

i
_
H
X

i
dP =
_
H
n

i=1

i
X

i
dP =
_
H
n

i=1

i
E(X
i
[H) dP
qualunque sia H. Dunque, E(

n
i=1

i
X
i
[H) =

n
i=1

i
E(X
i
[H) (P-q.c.), osservato che la
combinazione lineare

n
i=1

i
E(X
i
[H) `e H-Borel misurabile.
(xi) Sia X
1
0 (P-q.c.) e X
n
X. Allora, X
n
0 (P-q.c.) per ogni n. Risulta
quindi, per (v), (vii), P(E(X
n
[H) 0) = 1 e P
_
E(X
n
[H) E(X
n+1
[H)
_
= 1 per ogni n.
Conseguentemente, posto H

=

n1
_
0 E(X
n
[H) E(X
n+1
[H)
_
, si ha P(H

) = 1.
Considerata allora, per ogni n, la v.a. X

n
= E(X
n
[H)I
H
, otteniamo 0 X

n
X

n+1
,
X

n
= E(X
n
[H) (P-q.c.) per ogni n e lim
n+
X

n
= lim
n+
E(X
n
[H) (P-q.c.). Ne segue, per
il teorema della convergenza monotona,
_
H
X dP = lim
n+
_
H
X
n
dP = lim
n+
_
H
E(X
n
[H) dP
= lim
n+
_
H
X

n
dP =
_
H
lim
n+
X

n
dP =
_
H
lim
n+
E(X
n
[H) dP
190 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
per ogni H. Dunque, E(X
n
[H) E(X[H) (P-q.c.), osservato che il limite lim
n+
E(X
n
[H)
`e H-Borel misurabile. Allora, E(X
n
[H) E(X[H) (P-q.c.), essendo H

E(X
n
[H)
E(X[H) E(X
n
[H) E(X[H).
(xii) Siano X
n
0,
n
0 per ogni n e E
_
n1

n
X
n
_
< +. Allora, per (vii),
P(E(X
n
[H) 0) = 1 per ogni n. Conseguentemente, posto H

=

n1
E(X
n
[H) 0, si
ha P(H

) = 1. Considerata allora, per ogni n, la v.a. X

n
= E(X
n
[H)I
H
, riesce X

n
0,
X

n
= E(X
n
[H) (P-q.c.) per ogni n e

n1
X

n
=

n1
E(X
n
[H) (P-q.c.). Ne segue, per
il teorema dintegrazione per serie,
_
H

n1

n
X
n
dP =

n1

n
_
H
X
n
dP =

n1

n
_
H
E(X
n
[H) dP
=

n1

n
_
H
X

n
dP =
_
H

n1

n
X

n
dP =
_
H

n1

n
E(X
n
[H) dP
per ogni H. Dunque, E(

n1

n
X
n
[H) =

n1

n
E(X
n
[H) (P-q.c.), osservato che la
serie

n1
E(X
n
[H) `e H-Borel misurabile.
(xiii) Siano [X
n
[ Z (P-q.c.) per ogni n, E(Z) nita e X
n
X. Allora, posto
A =

n1
[X
n
[ Z, si ha P(A) = 1, [X
n
[

A
Z

A
per ogni n e quindi [X[

A
Z

A
.
Consideriamo ora, per ogni n, la v.a. Z
n
= sup
mn
[X
m
X[. Allora, Z
n
0;
inoltre, Z
n

A
sup
mn
([X
m
[

A
+ [X[

A
) 2Z

A
da cui otteniamo Z
n
2Z (P-q.c.) e
quindi Z
n
ha speranza matematica nita. Possiamo dunque considerare la successione
_
E(Z
n
[H)
_
n1
. Osservato inne che E(X
n
[H) E(X[H) = E(X
n
X[H) (P-q.c.) (per
(ix)),

E(X
n
X[H)

E([X
n
X[ [H) (P-q.c.) (per (x)) e E([X
n
X[ [H) E(Z
n
[H) (P-
q.c.) (per (v)), otteniamo

E(X
n
[H)E(X[H)

E(Z
n
[H) (P-q.c.). Basta dunque provare
che E(Z
n
[H) 0 (P-q.c.), notato che
_
E(Z
n
[H) 0
_

_
[E(X
n
[H) E(X[H)[ 0
_
=
_
E(X
n
[H) E(X[H)
_
.
Posto ora H

=

n1
_
E(Z
n
[H) E(Z
n+1
[H) 0
_
, da (v), (vii) si ha P(H

) = 1.
Conseguentemente, posto Z

n
= E(Z
n
[H)I
H
0 per ogni n, la successione (Z

n
)
n1
`e
non crescente e quindi possiamo considerare la v.a. Z

= lim
n+
Z

n
0. Osservato che
Z

1
= E(Z
1
[H) (P-q.c.), risulta E(Z

1
) = E
_
E(Z
1
[H)
_
= E(Z
1
) R e quindi, per il teorema
della convergenza dominata e (i),
0 E(Z

) = lim
n+
E(Z

n
) = lim
n+
E
_
E(Z
n
[H)
_
= lim
n+
E(Z
n
) =
_

lim
n+
Z
n
dP = 0,
ricordato che Z
n
0. Dunque, E(Z

) = 0 e quindi, posto H

= Z

= 0, si ha P(H

) = 1
(Teorema A.3.6(v)). Allora, E(Z
n
[H)

0 con P(H

) = 1, cio`e E(Z
n
[H) 0
(P-q.c.).
(xiv) Sia Z una v.a. limitata H-Borel misurabile. Osservato che Z E(X[H) `e H-Borel
misurabile, poniamo [Z[ R. Allora, E([ZX[) E([X[) = E([X[) < + e quindi
ZX ha speranza matematica nita (Teorema A.3.5(ii)). Ci`o osservato, assumiamo intanto
Z = I
H
. Allora,
_
H
ZX dP =
_
HH

X dP =
_
HH

E(X[H) dP =
_
H
Z E(X[H) dP
B.2. SPERANZA MATEMATICA CONDIZIONATA 191
per ogni H; dunque E(ZX[H) = Z E(X[H) (P-q.c.).
Sia ora Z una funzione H-semplice a valori niti. Da (ix) otteniamo
E(ZX[H) = E
_
(

zZ()
zI
{Z=z}
)X[H
_
=

zZ()
zE(I
{Z=z}
X[H) =

zZ()
zI
{Z=z}
E(X[H) = Z E(X[H) (P-q.c.).
Sia inne Z qualsiasi. Per il lemma fondamentale A.2.4, esiste una successione (Z
n
)
n1
di funzioni H-semplici a valori niti tale che Z
n
Z e [Z
n
[ [Z[ per ogni n.
Possiamo allora considerare, per ogni n, la speranza matematica condizionata E(Z
n
X[H)
in quanto E(Z
n
X) `e nita. Posto H

=

n1
_
E(Z
n
X[H) = Z
n
E(X[H) e osservato che
E(Z
n
X[H) = Z
n
E(X[H) (P-q.c.) per ogni n, otteniamo P(H

) = 1 e H

E(Z
n
X[H)
Z E(X[H). Daltra parte, notato che [Z
n
X[ [X[ per ogni n e Z
n
X ZX, da (xiii)
segue E(Z
n
X[H) E(ZX[H) (P-q.c.). Allora, posto H

=
_
E(Z
n
X[H) E(ZX[H)
_
,
si ha P(H

) = 1 e H


_
Z E(X[H) = E(ZX[H)
_
, cio`e E(ZX[H) = Z E(X[H)
(P-q.c.).
(xv) Sia / una sotto -algebra di H. Dato K /, si ha
_
K
E(X[H) dP =
_
K
X dP =
_
K
E(X[/) dP, ove la prima uguaglianza sussiste in quanto K H. Dallarbitrariet` a
di K risulta allora E
_
E(X[H)[/
_
= E(X[/) (P-q.c.). Per quanto riguarda invece laltra
uguaglianza, basta osservare che la v.a. E(X[/) `e H-Borel misurabile (in quanto /-Borel
misurabile) e usare (iv).
Concludiamo la sezione con un risultato (al quale premettiamo un lemma
inerente le funzioni convesse) che fornisce alcune celebri e importanti disugua-
glianze riguardanti le speranze matematiche (condizionate o no) di trasfor-
mate convesse di variabili aleatorie.
Lemma B.2.4 Siano J un intervallo (limitato o no) della retta reale e g :
J R una funzione convessa. Sussistono allora le seguenti proposizioni:
(i) Qualunque siano x
1
, x
2
, x
3
J tali che x
1
< x
2
< x
3
si ha
g(x
2
) g(x
1
)
x
2
x
1

g(x
3
) g(x
1
)
x
3
x
1

g(x
3
) g(x
2
)
x
3
x
2
;
(ii) Per ogni punto interno a di J esiste un numero reale b tale che g(x)
b(x a) + g(a) per ogni x J.
Inoltre, se J `e un intervallo aperto, sono valide anche le proposizioni:
192 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
(iii) Indicato con Q linsieme dei numeri razionali e, per ogni q J Q,
con b
q
un numero reale tale che g(x) b
q
(x q) +g(q) per ogni x J
(esistente per (ii)), risulta g(x) = sup
qJQ
[b
q
(xq)+g(q)] per ogni x J;
(iv) La funzione g `e B J-Borel misurabile.
Dimostrazione (i) Siano x
1
, x
2
, x
3
J tali che x
1
< x
2
< x
3
. Essendo le dimostrazioni
della prima e della seconda disuguaglianza del tutto simili, proviamo solamente la prima.
Per la convessit`a di g si ha
g(x
2
) = g
_
x
3
x
2
x
3
x
1
x
1
+
x
2
x
1
x
3
x
1
x
3
_

x
3
x
2
x
3
x
1
g(x
1
) +
x
2
x
1
x
3
x
1
g(x
3
)
da cui otteniamo
g(x
2
) g(x
1
)
_
x
3
x
2
x
3
x
1
1
_
g(x
1
) +
x
2
x
1
x
3
x
1
g(x
3
)
=
x
1
x
2
x
3
x
1
g(x
1
) +
x
2
x
1
x
3
x
1
g(x
3
) =
x
2
x
1
x
3
x
1
[g(x
3
) g(x
1
)]
e quindi
g(x
2
) g(x
1
)
x
2
x
1

g(x
3
) g(x
1
)
x
3
x
1
.
(ii) Considerati due elementi qualsiasi x

, x

J tali che x

< a < x

, da (i) si ha
g(a) g(x

)
a x


g(x

) g(a)
x

a
.
Ne segue, per larbitrariet` a di x

,
g(a) g(x

)
a x

b = sup
x<a
xJ
g(a) g(x)
a x

g(x

) g(a)
x

a
e quindi b `e un numero reale. Riesce inoltre, per larbitrariet` a di x

, x

in J, g(x)
b(x a) +g(a) per ogni x J.
(iii) Osservato che la disuguaglianza g(x) sup
qJQ
[b
q
(xq)+g(q)] sussiste banalmente
per ogni x J, proviamo la disuguaglianza opposta. Sia dunque x J. Per (ii) (posto
a = x), esiste un numero reale b tale che g(t) b(t x) + g(x) per ogni t J. Ci`o
osservato, sia x

J tale che x < x

. Dato allora un arbitrario numero razionale q

tale
che x < q

< x

, riesce g(x

) b
q
(x

) +g(q

), cio`e b
q

g(x

)g(q

)
x

e quindi
b
q
(x q

) +g(q

) = g(q

) b
q
(q

x)
g(q

)
g(x

) g(q

)
x

(q

x) =
x

x
x

g(q

)
q

x
x

g(x

x
x

_
b(q

x) +g(x)

x
x

g(x

).
B.2. SPERANZA MATEMATICA CONDIZIONATA 193
Dunque
sup
qJQ
_
b
q
(x q) +g(q)

x
x

_
b(q

x) +g(x)

x
x

g(x

)
per ogni numero razionale q

tale che x < q

< x

. Risulta pertanto
g(x) = lim
q

x
+
q

Q
_
x

x
x

_
b(q

x) +g(x)

x
x

g(x

)
_
sup
qJQ
_
b
q
(x q) +g(q)

.
(iv) Per ogni numero razionale q J, la funzione x b
q
(x q) + g(q) di dominio J
`e, per il Teorema A.2.3(i), B J-Borel misurabile. Allora, per (iii) e il Teorema A.2.5(ii),
lo `e pure g.
Teorema B.2.5 (di Jensen) Dato un intervallo aperto J (limitato o no)
della retta reale, siano g : J R una funzione convessa e X : J una
v.a. con speranza matematica nita. Allora, E(X[H) J (P-q.c.). Inoltre,
la v.a. trasformata g(X) ammette speranza matematica e risulta g(E(X))
E(g(X)). Inne, nel caso che E(g(X)) sia nita, g(E(X[H)) E(g(X)[H)
(P-q.c.).
Dimostrazione Dalla disuguaglianza inf J X sup J otteniamo, tramite il Teo-
rema B.2.3(viii), E(X[H) J (P-q.c.). Proviamo ora che g(X) `e una v.a. con speranza
matematica. Che sia una v.a. `e conseguenza immediata del Lemma B.2.4(iv). Per quanto
riguarda la sommabilit` a, osserviamo che, per il Teorema B.1.5(vi), E(X) J. Esiste
quindi, per il Lemma B.2.4(ii), un numero reale b tale che g(x) b [x E(X)] +g(E(X))
per ogni x J. Considerata allora la v.a. Y = b [X E(X)] +g(E(X)), si ha g(X) Y e
E(Y ) = b [E(X) E(X)] + E
_
g(E(X))I

_
= g(E(X)) R.
Ne segue, per il Teorema B.1.5 (ponendo Z = g(X) e X = Y ), la sommabilit` a di g(X).
A questo punto la disuguaglianza g(E(X)) E(g(X)) discende immediatamente dalla
g(X) Y e dalla monotonia della speranza matematica.
Sia ora E(g(X)) nita. Dato un numero razionale q J, dal Lemma B.2.4(iii) ottenia-
mo g(X) b
q
(X q) +g(q). Allora, posto X

= E(X[H), dal Teorema B.2.3(iv),(v),(ix)


risulta E(g(X)[H) b
q
(X

q) + g(q) (P-q.c.). Dunque, posto H


q
= E(g(X)[H)
b
q
(X

q) +g(q), si ha P(H
q
) = 1. Posto inne H = X

qJQ
H
q
, otteniamo
P(H) = 1 e, per il Lemma B.2.4(iii),
g(X

()) = sup
qJQ
[b
q
(X

() q) +g(q)] E(g(X)[H)()
per ogni H, cio`e g
_
E(X[H)
_
E(g(X)[H) (P-q.c.).
194 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
B.2.2 Funzione di regressione
In moltissime situazioni pratiche linformazione ottenibile consiste nellosser-
vare il valore di un dato ente aleatorio. Al ne di inquadrare questa situa-
zione nellambito del condizionamento a -algebre assumiamo, con riferi-
mento allente aleatorio X, che la -algebra contenga i singoletti. Sup-
posto che linformazione ottenibile sia losservazione di X, viene naturale
identicare la -algebra degli eventi osservabili H con la -algebra indotta
X
1
() / da X su (Esempio A.1.1(iii))
24
; inoltre, per ogni v.a. Y con
speranza matematica nita, considerare la speranza matematica condiziona-
ta E(Y [X) = E(Y [X
1
()) come la speranza matematica condizionata di Y
allosservazione di X.
Il seguente notevole risultato assicura che la speranza matematica con-
dizionata alla -algebra indotta pu` o sempre ottenersi come trasformata certa
dellosservabile X tramite una opportuna funzione Borel misurabile.
Teorema B.2.6 Siano Y una v.a. con speranza matematica nita e Z una
versione di E(Y [X). Esiste allora una funzione -Borel misurabile g : X
R

tale che Z = g(X).


Dimostrazione Posto H = X
1
() e ricordato che Z `e H-Borel misurabile, supponiamo
intanto che Z sia una funzione H-semplice a valori niti, cio`e Z =

n
i=1

i
I
H
i
con H
i
He

i
R (i = 1, . . . , n). Esistono allora A
1
, . . . A
n
tali che H
i
= X A
i
(i = 1, . . . , n).
Conseguentemente, g =

n
i=1
I
A
i
`e -Borel misurabile e
g(X()) =
n

i=1

i
I
A
i
(X()) =
n

i=1

i
I
{XA
i
}
() =
n

i=1

i
I
H
i
() = Z()
per ogni , cio`e Z = g(X). Assumiamo inne che Z sia una funzione H-Borel
misurabile non necessariamente semplice. Per il lemma fondamentale A.2.4, esiste una
successione (Z
n
)
n1
di funzioni H-semplici a valori niti tale che Z
n
Z. Per quanto ap-
pena provato, esiste inoltre una successione (g
n
)
n1
di funzioni -Borel misurabili tale che
Z
n
= g
n
(X) per ogni n. Allora,
lim
=
_
x X : lim
n+
g
n
(x)
_
e quindi lapplicazione
g : X R

cos` denita:
g(x) =
_
lim
n+
g
n
(x) se x
lim
0 se x /
lim
`e, per lOsservazione A.2.6, -Borel misurabile. Risulta inoltre Z() = lim
n+
Z
n
() =
lim
n+
g
n
(X()) = g(X()) per ogni , cio`e Z = g(X).
24
In quanto, da un punto di vista interpretativo, la conoscenza dei valori di verit` a di
tutti gli eventi di tale -algebra equivale alla conoscenza del vero valore di X.
B.2. SPERANZA MATEMATICA CONDIZIONATA 195
Considerata allora una v.a. Y con speranza matematica nita, possiamo
trovare funzioni P
X
-integrabili g tali che
_
{XA}
Y dP =
_
A
g dP
X
per ogni
A ; infatti, scelta una versione Z di E(Y [X), esiste (per il teorema prece-
dente) una funzione -Borel misurabile g tale che Z = g(X) e quindi, per il
teorema fondamentale del calcolo delle probabilit` a,
_
{XA}
Y dP =
_
{XA}
Z dP =
_
{XA}
g(X) dP =
_
A
g dP
X
per ogni A . Ci`o constatato, chiamiamo funzione di regressione di Y
su X ogni funzione E(Y [X = ) : X R

tale che:
1. sia P
X
-integrabile;
2. risulti
_
{XA}
Y dP =
_
A
E(Y [X = x) P
X
(dx) per ogni A .
Conseguentemente, per i teoremi A.3.6(vii) e A.4.4, E(X[T = ) `e nita P
X
-
quasi certamente ed `e denita a meno di insiemi P
X
-trascurabili. Inoltre,
E
_
Y [X = X()
_
`e una versione di E(Y [ X). Infatti, sempre per il teorema
fondamentale del calcolo delle probabilit` a,
_
{XA}
Y dP =
_
A
E(Y [X = x) P
X
(dx) =
_
{XA}
E(Y [X = X()) P(d)
per ogni A ; inoltre, la X
1
()-Borel misurabilit` a segue banalmente osser-
vando che E
_
Y [X = X()
_
si ottiene componendo lapplicazione (X
1
(), )-
misurabile X con una funzione -Borel misurabile
25
. Inne, il prossimo risul-
tato rileva che la funzione di regressione assume come valore lusuale speranza
matematica condizionata sugli eventi osservabili X = x
0
di probabilit` a
positiva.
25
Una funzione di regressione consente quindi di legare funzionalmente (con pratica
certezza) la media di Y condizionata allinformazione ottenibile con losservabile X. Viene
cos` giusticato luso del termine regressione che nel linguaggio probabilistico-statistico
`e sinonimo di relazione funzionale tra due enti aleatori. Ricordiamo che il termine deriva
da un famoso lavoro di Francis Galton (pubblicato nel 1885) relativo al confronto delle
altezze di 928 adulti con le altezze medie dei loro genitori. Avendo constatato che le altezze
medie dei gli tendevano ad allinearsi con laltezza media (se i genitori erano pi` u bassi
(pi` u alti) della media generale, le altezze medie dei gli salivano (calavano) in modo da
recuperare il divario), scrisse che ci`o costituiva una regression towards mediocrity.
196 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Teorema B.2.7 Sia x
0
X tale che P(X = x
0
) > 0. Allora,
E(Y [X = x
0
) =
_
{X=x
0
}
Y dP
P(X = x
0
)
= E(Y [X = x
0
).
Dimostrazione Proviamo intanto che lunico sottoinsieme proprio di H
0
= X = x
0

che appartenga alla -algebra indotta H = X


1
() `e linsieme vuoto. Dato X A H
0
,
si ha x
0
/ A (in caso contrario, si avrebbe la contraddizione H
0
X A H
0
) e quindi
X A = H
0
X A = .
Dunque, H
0
`e un atomo di H. Allora, per il Teorema B.2.2, esiste un sottoinsieme
H
1
H di H
0
tale che P(H
1
) = P(H
0
) > 0 e sul quale E(Y [X) `e la costante di valo-
re = E(Y [H
0
). Inoltre, poich`e E(Y [X) = E(Y [X = X()) (P-q.c.), esiste H
2
H
tale che P(H
2
) = 1 e E(Y [X)() = E(Y [X = X()) per ogni H
2
. Posto allora
H = H
1
H
2
H
0
, si ha P(H) = P(H
1
) +P(H
2
) P(H
1
H
2
) = P(H
1
) > 0 da cui otte-
niamo H ,= e quindi H = H
0
. Scelto inne
0
H
0
, risulta E(Y [X = x
0
) = E(Y [X =
X(
0
)) = E(Y [X)(
0
) = . Laltra uguaglianza si ottiene invece da (B.4)
Nellesempio seguente individuiamo (in alcuni casi semplici) una versione
della funzione di regressione E(Y [X = )
26
, partendo da una versione Z
della speranza matematica condizionata E(Y [X) e trovando il legame fun-
zionale sussistente tra Z e losservabile X. Viene cos` messa concretamente
in evidenza la profonda dierenza concettuale delle due nozioni: funzione
dipendente dai valori osservabili la prima; dai casi elementari la seconda.
Esempio B.2.8 Posto = [0, 1], siano / = B e P =

A
. Supposto inoltre X = R e
= B, consideriamo una funzione continua Y di dominio e andiamo a determinare sia
la speranza matematica condizionata di Y a H = X
1
(B) che la funzione di regressione
di Y su X, relativamente a quattro diverse ipotesi sulla forma funzionale dellosservabile.
(i) Sia X una funzione continua strettamente monotona (crescente o decrescente).
Allora, dato un qualsiasi intervallo chiuso [a, b] di si ha [a, b] H; infatti, [a, b] =
X
1
([X(a), X(b)]), se X `e crescente, e [a, b] = X
1
([X(b), X(a)]), se X `e decrescente.
Ne segue, [a, b] : a, b R H e quindi H = / (ricordato che B `e generata dagli
intervalli chiusi)
27
. La v.a. Y risulta dunque H-Borel misurabile e quindi, per il Teorema
26
Analogamente al caso del condizionamento a -algebre, usiamo la locuzione g `e una
versione di E(Y [X = ) per indicare che g `e una funzione di regressione di Y su X.
27
Con riferimento al caso generale, sussiste infatti il risultato seguente: Data una fami-
glia T 2

tale che / = (T), la traccia / S `e generata dalla famiglia T S =


F S : F T. Infatti, sia ( / S la -algebra su S generata da T S e /

=
A : A S ( /. Allora, /

, notato che S = S (; A
c
/

se A /

,
osservato che A
c
S = S (A S) (;

n1
A
n
/

se A
n
/

per ogni n, in quanto


(

n1
A
n
) S =

n1
(A
n
S) (. Pertanto, /

`e una -algebra su includente T. Ne


segue /

= / e quindi ( = / S.
B.2. SPERANZA MATEMATICA CONDIZIONATA 197
B.2.3(iv), Y `e una versione di E(Y [X). Conseguentemente, notato che la funzione:
g(x) =
_
Y (X
1
(x)) se x X()
0 se x / X()
`e Borel misurabile
28
e Y = g(X), possiamo concludere che g `e una versione di E(Y [X = ).
(ii) Sia X tale che X() = 1, se <
1
3
, e X() = 1, se
1
3
. Allora, posto
H
1
= [0,
1
3
[ e H
2
= [
1
3
, 1], otteniamo H = , , H
1
, H
2
e P(H
1
) = (H
1
) =
1
3
, P(H
2
) =
(H
2
) =
2
3
. Conseguentemente, per il Teorema B.2.2 e (B.4),
E(Y [X)() =
_

_
E(Y [H
1
) = 3
_ 1
3
0
Y (x) dx se <
1
3
E(Y [H
2
) =
3
2
_
1
1
3
Y (x) dx se
1
3
e quindi la funzione:
g(x) =
_

_
3
_ 1
3
0
Y (x) dx se x = 1
3
2
_
1
1
3
Y (x) dx se x = 1
0 altrimenti
`e Borel misurabile e riesce E(Y [X) = g(X). Pertanto, g `e una versione di E(Y [X = ).
(iii) Con riferimento agli intervalli H
1
, H
2
considerati in (ii), sia X tale che X() = 1,
se H
1
, e X() =
1
2
(3 1), se H
2
. Allora, posto B

= B H
2
, otteniamo
H = B

H
1
: B

e quindi H
1
`e lunico atomo di H. Ne segue che la v.a.
H-Borel misurabile:
Z() =
_

_
E(Y [H
1
) = 3
_ 1
3
0
Y (x) dx se <
1
3
_
Y

H
2
_
() se
1
3
`e una versione di E(Y [X). Infatti, dato H H, luguaglianza
_
H
Y dP =
_
H
Z dP `e ovvia
sia per H = H
1
che per H B

; inoltre, per ladditivit` a dellintegrale,


_
B

H
1
Y dP =
_
B

Y dP +
_
H
1
Y dP =
_
B

Z dP +
_
H
1
Y dP
P(H
1
)
P(H
1
)
=
_
B

Z dP + E(Y [H
1
)P(H
1
) =
_
B

Z dP +
_
H
1
Z dP =
_
B

H
1
Z dP
28
Essendo, per il teorema di connessione delle funzioni continue, J = X() un intervallo
chiuso della retta reale, la funzione inversa X
1
: J `e continua (in quanto inversa
di una funzione strettamente monotona denita su un intervallo) e quindi, per il Teorema
A.2.3(ii), Y X
1
: J R `e B J-Borel misurabile. Ne segue, per il Lemma A.2.1(ii), la
Borel misurabilit` a di g.
198 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
per ogni H = B

H
1
con B

. Conseguentemente, la funzione:
g(x) =
_

_
3
_ 1
3
0
Y (x) dx se x = 1
Y (X
1
(x)) = Y (
2x+1
3
) se 0 x 1
0 altrimenti
`e Borel misurabile e riesce Z = g(X). Pertanto, g `e una versione di E(Y [X = ).
(iv) Sia X() = (
1
2
)
2
per ogni . Allora, H = A(1 A) : A /H
0
/
29
,
avendo posto H
0
= [0,
1
2
]. Infatti, dato B B e posto A = X
1
(B) H
0
/ H
0
,
otteniamo X
1
(B) = A(1A); viceversa, dato A /H
0
e posto B =
_
X

H
0
_
1
(A)
B, si ha X
1
(B) = A (1 A). Per individuare una versione di E(Y [X), ssiamo un
arbitrario elemento A / H
0
e valutiamo lintegrale
_
A(1A)
Y dP. Ora, considerata
la trasformazione : t 1 t della retta reale, dal Corollario A.4.2 risulta
_
A
Y d =
_
1A
Y (1 x) dx e
_
1A
Y d =
_
A
Y (1 x) dx. Ne segue, per ladditivit` a dellintegrale,
_
A(1A)
Y dP =
_
A
Y d +
_
1A
Y d
=
_
A
Y (x) dx +
_
A
Y (1 x) dx
2
+
_
1A
Y (1 x) dx +
_
1A
Y (x) dx
2
=
_
A
Y (x) +Y (1 x)
2
dx +
_
1A
Y (x) +Y (1 x)
2
dx
=
_
A(1A)
Y (x) +Y (1 x)
2
dx.
Allora, la v.a. H-Borel misurabile:
Z() =
Y () +Y (1 )
2
`e una versione di E(Y [X). Pertanto, la funzione:
g(x) =
_
1
2
_
Y (
1
2
+

x) +Y (
1
2

x)

se 0 x
1
4
0 altrimenti
`e Borel misurabile e riesce Z = g(X). Dunque, g `e una versione di E(Y [X = ).
Nel teorema successivo vengono elencate propriet` a della funzione di re-
gressione analoghe (eccetto le ultime due) a quelle considerate nel Teorema
B.2.3 per la speranza matematica condizionata a -algebre.
29
Essendo 1 A un boreliano in quanto B `e chiusa per trasformazioni ani (Esempio
A.1.1(iv)).
B.2. SPERANZA MATEMATICA CONDIZIONATA 199
Teorema B.2.9 Siano Y, Y
1
, Y
2
etc. v.a. con speranza matematica nita.
Riesce allora:
(i) E(Y ) =
_
X
E(Y [X = x) P
X
(dx).
Valgono inoltre le proposizioni seguenti nelle quali le relazioni riguardanti
funzioni di regressione devono intendersi sussistere P
X
-quasi certamente.
(ii) Se X = x
0
X (P-q.c.), allora E(Y [X = ) = E(Y ). Inoltre, se X `e
lapplicazione identica, allora E(Y [X = ) = Y ;
(iii) E(I

[X = ) = ;
(iv) monotonia: E(Y
1
[X = ) E(Y
2
[X = ), se Y
1
Y
2
(P-q.c.);
(v) E(Y
1
[X = ) = E(Y
2
[X = ), se Y
1
= Y
2
(P-q.c.);
(vi) internalit
`
a: a E(Y [X = ) b, se a Y b (P-q.c.);
(vii) internalit
`
a stretta: a < E(Y [X = ) < b, se a < Y < b (P-q.c.);
(viii) linearit
`
a: E
_
n
i=1

i
Y
i
[X =
_
=

n
i=1

i
E(Y
i
[X = ) qualunque
siano i numeri reali
1
, . . . ,
n
;
(ix)

E(Y [X = )

E([Y [ [X = );
(x) E(Y
n
[X = ) E(Y [X = ), se Y
n
Y e Y
1
0 (P-q.c.);
(xi) E
_
n1

n
Y
n
[X =
_
=

n1

n
E(Y
n
[X = ), se (
n
)
n1
`e una suc-
cessione di numeri reali non negativi, Y
n
0 per ogni n e la speranza
matematica della serie

n1

n
Y
n
`e nita;
(xii) E(Y
n
[X = ) E(Y [X = ), se [Y
n
[ Z (P-q.c.) per ogni n, E(Z)
nita e Y
n
Y ;
(xiii) Sia g : X R

una funzione -Borel misurabile tale che la v.a. g(X)Y


ammetta speranza matematica nita. Allora,
E(g(X)Y [X = ) = g() E(Y [X = ).
In particolare, E(g(X)[X = ) = g();
(xiv) E(Y [X = ) = E(Y ), se X e Y sono indipendenti.
200 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Dimostrazione Le proposizioni (i), (iii) sono conseguenza immediata della denizione.
Le dimostrazioni di (iv) (xii) si ottengono, con ovvie modiche, da quelle delle propo-
sizioni (v) (xiii) del Teorema B.2.3.
(ii) Sia X = x
0
(P-q.c). Dato A , sia intanto x
0
A. Allora, P
X
(A) = P(X A) =
1 e quindi, per il Teorema A.3.4(iv),
_
{XA}
Y dP =
_

Y dP = E(Y ) =
_
A
E(Y ) dP
X
. Sia
ora x
0
/ A. Ne segue P
X
(A) = 0 e quindi
_
{XA}
Y dP =
_

Y dP = 0 =
_
A
E(Y ) dP
X
.
Sia X lapplicazione identica di . Allora, = /, H = / e P
X
= P. Conseguentemen-
te, Y `e P
X
-integrabile e
_
{XA}
Y dP =
_
A
Y dP
X
per ogni A /.
(xiii) Sia intanto g = I
A
con A

. Riesce allora
_
{XA}
g(X)Y dP =
_
{XA}
I
{XA

}
Y dP =
_
{XAA

}
Y dP
=
_
AA

E(Y [X = x) P
X
(dx) =
_
A
g(x) E(Y [X = x) P
X
(dx).
Conseguentemente, la tesi sussiste per g funzione indicatrice. Le dimostrazioni per g
semplice e g arbitraria sono del tutto analoghe a quelle sviluppate nella dimostrazione della
proposizione (xiv) del Teorema B.2.3. Lultima parte della tesi segue immediatamente da
quanto appena provato e da (iii) (prendendo come Y la costante unitaria).
(xiv) Dato A , per il Teorema B.1.14, le v.a. Y e I
{XA}
sono indipendenti e quindi
E(Y I
{XA}
) = E(Y )E(I
{XA}
) = E(Y )P(X A) =
_
{XA}
E(Y ) dP
X
,
tenuto conto del Teorema B.1.15.
Concludiamo la sezione mettendo in luce limportanza fondamentale della
funzione di regressione nella soluzione del problema (centrale nella proble-
matica statistica e di grande interesse applicativo) di stimare, a partire
dallosservabile X, il non osservabile Y commettendo un errore pi` u piccolo
possibile. Ovviamente occorre precisare, prima di procedere, cosa dobbiamo
intendere per errore pi` u piccolo possibile. A tal ne, consideriamo una
stima g(X) di Y . Notato che, data una funzione continua e crescente tale
che (0) = 0 e lim
x+
(x) = +, la speranza matematica E
_
([Y g(X)[)
_
`e una quantit` a che tende ad essere grande, se g(X) assume valori distanti
da Y , e piccola, se g(X) assume valori vicini a Y , viene naturale usarla per
misurare la bont` a dellapprossimazione di Y con g(X). Tra le varie scelte
possibili di , adottiamo quella relativa al metodo dei minimi quadrati, cio`e
poniamo (x) = x
2
. Giungiamo cos` ad intendere la frase errore pi` u pic-
colo possibile nel senso di errore quadratico medio pi` u piccolo possibile e
quindi a cercare una funzione g

tale che
E
_
(Y g

(X))
2
_
E
_
(Y g(X))
2
_
B.2. SPERANZA MATEMATICA CONDIZIONATA 201
per ogni funzione g a quadrato P
X
-integrabile
30
. Il prossimo risultato collega
la funzione di regressione con il metodo dei minimi quadrati assicurando che
ogni versione della funzione di regressione di Y su X fornisce un esempio di
stima dei minimi quadrati di Y .
Teorema B.2.10 Sia Y una v.a. a quadrato integrabile. Allora,
E
_
(Y E(Y [X))
2
_
= min
_
E
_
(Y g(X))
2
_
:
_
X
g
2
dP
X
< +
_
.
Dimostrazione Per il teorema di Jensen B.2.5, E(Y [X)
2
E(Y
2
[X) (P-q.c.) e quindi
0
_
X
E(Y [X = x)
2
P
X
(dx) =
_

E(Y [X)
2
dP
_

E(Y
2
[X) dP =
_

Y
2
dP < +,
cio`e E(Y [X = ) `e a quadrato P
X
-integrabile. Inoltre, per il Teorema B.2.9(i), E(Y
2
) =
_
X
E(Y
2
[X = x) P
X
(dx) 0 e quindi anche E(Y
2
[X = ) `e a quadrato P
X
-integrabile.
Ci`o osservato, sia g una qualsiasi funzione a quadrato P
X
-integrabile. Allora, 0
_

g(X)
2
dP =
_
X
g
2
dP
X
< + e quindi, per il Teorema A.3.5(iv), la v.a. g(X)Y ha
speranza matematica nita.
Considerato ora linsieme X

= x X : [E(Y
2
[X = x)[, [E(Y [X = x)[, [g(x)[ R,
dai teoremi A.3.5(v) e A.5.6(vii) otteniamo P
X
(X

) = 1. Ne segue, per il Teorema B.2.9(i),


E
_
(Y g(X))
2
_
=
_
X
E
_
(Y g(X))
2
[X = x
_
P
X
(dx)
=
_
X

E
_
(Y g(X))
2
[X = x
_
P
X
(dx)
=
_
X

E
_
Y
2
2g(X)Y +g(X)
2
[X = x
_
P
X
(dx)
e quindi, tramite il Teorema B.2.9(viii),(xiii),
E
_
(Y g(X))
2
_
=
_
X

_
E(Y
2
[X = x) 2g(x)E(Y [X = x) +g(x)
2
_
P
X
(dx). (B.6)
In particolare, ponendo g() = E(Y [X = ), si ha dunque
E
_
(Y E(Y [X))
2
_
=
_
X

_
E(Y
2
[X = x) E(Y [X = x)
2
_
P
X
(dx).
30
Il metodo dei minimi quadrati risale a lavori di Adrien-Marie Legendre (che lo in-
trodusse nel 1805 senza alcuna giusticazione) e di Carl F. Gauss (che invece ne forn`
una giusticazione nel 1809). In particolare, Gauss ne studi` o le propriet` a statistiche pro-
ponendo anche algoritmi iterativi per la sua soluzione numerica; lo applic` o a problemi
geodetici, astronomici e al problema della compensazione degli errori casuali (teoria degli
errori).
202 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Notato inne che, per ogni x X

, il polinonio t
2
2t E(Y [X = x) +E(Y
2
[X = x) assume
valore minimo nel punto t = E(Y [X = x), da (B.6) e dalla monotonia dellintegrale segue
allora
E
_
(Y g(X))
2
_

_
X

_
E(Y
2
[X = x) 2E(Y [X = x)
2
+ E(Y [X = x)
2
_
P
X
(dx)
=
_
X

_
E(Y
2
[X = x) E(Y [X = x)
2
_
P
X
(dx) = E
_
(Y E(Y [X))
2
_
.
La dimostrazione `e cos` conclusa.
Il corollario seguente si ottiene immediatamente dal teorema appena prova-
to assumendo che losservabile X sia la costante di valore E(Y ).
Corollario B.2.11 Sia Y una v.a. a quadrato integrabile. Allora,
Var(Y ) = E
_
(Y E(Y ))
2
_
= min
_
E
_
(Y t)
2
_
: t R
_
.
B.2.3 Legge e densit`a condizionali
In questa sezione, accanto allosservabile X, consideriamo una -algebra T
su un insieme non vuoto e un ente aleatorio Z a valori in . Osservato
che, per la legge P
Z
di Z, riesce P
Z
(T) =
_

I
{ZT}
dP = E(I
{ZT}
) per
ogni T T , viene naturale considerare la famiglia di funzioni di regressione
parametrizzata sugli elementi di T :
Q
Z|X
(T[ ) = E(I
{ZT}
[X = ) (T T ).
Ora, nel caso particolare che x
0
X sia tale che P(X = x
0
) > 0, dal Teorema
B.2.7 otteniamo
Q
Z|X
(T[x
0
) =
_
{X=x
0
}
I
{ZT}
dP
P(X = x
0
)
=
_

I
{ZT}{X=x
0
}
dP
P(X = x
0
)
=
P(Z T X = x
0
)
P(X = x
0
)
= P(Z T[X = x
0
).
Pertanto, Q
Z|X
([x) assume necessariamente il signicato di legge di Z sapen-
do che X ha preso il valore x ogniqualvolta la probabilit` a dellevento X =
x risulti positiva. Daltra parte, al di fuori di questo caso, Q
Z|X
([x) non
presenta un particolare signicato intuitivo in quanto non `e possibile assicu-
rare, nel contesto generale dato, che sia una probabilit` a su T o almeno lo
B.2. SPERANZA MATEMATICA CONDIZIONATA 203
sia a meno di un insieme P
X
-trascurabile. Tuttavia, questa situazione `e, per
molti versi, patologica essendo presente in contesti alquanto articiosi e di
scarsa (se non addirittura nulla) importanza per le applicazioni usuali della
probabilit` a.
Motivati da questultima osservazione, abbandoniamo il caso generale
considerando solo le leggi condizionali di Z rispetto X, cio`e quelle par-
ticolari famiglie di funzioni di regressione
_
Q
Z|X
(T[)
_
TT
parametrizzate su
T che vericano le seguenti propriet` a:
1. esiste X

tale che P
X
(X

) = 1 e Q
Z|X
([x) `e una probabilit` a su T
per ogni x X

;
2. Q
Z|X
(T[ ) `e P
X
-integrabile per ogni T T ;
3. risulta
P((Z, X) T A) =
_
A
Q
Z|X
(T[x) P
X
(dx) =
_
AX

Q
Z|X
(T[x) P
X
(dx)
per ogni A e T T .
Prima di constatarne lesistenza in un caso particolare (ma di indubbia
importanza applicativa), proviamo un teorema che le collega alla funzione di
regressione di trasformate certe di Z su X.
Teorema B.2.12 Sia (Q
Z|X
(T[ ))
TT
una legge condizionale di Z rispetto
X. Inoltre, sia g : R una funzione Q
Z|X
([x)-sommabile per ogni x X

e tale che la speranza matematica E(g(Z)) risulti nita. Allora, la funzione:


x
_
_

g() Q
Z|X
(d[x) se x X

0 se x , X

`e una versione della funzione di regressione E(g(Z)[X = ).


Dimostrazione Indicata con f tale funzione, sia intanto g = I
T
. Dato A, si ha
E(g(Z)I
{XA
) = E(I
T
(Z) I
{XA
) = P
_
Z T X A
_
=
_
AX

Q
Z|X
(T[x) P
X
(dx) =
_
AX

_
_

I
T
()Q
Z|X
(d[x)
_
P
X
(dx)
=
_
AX

_
_

g()Q
Z|X
(d[x)
_
P
X
(dx) =
_
AX

f dP
X
=
_
A
f dP
X
.
204 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Ne segue, per larbitrariet` a di A, che f `e una versione di E(g(Z)[X = ).
Sia ora g =

n
i=1
y
i
I
T
i
0 una funzione semplice. Posto:
f
i
(x) =
_
_

I
T
i
() Q
Z|X
(d[x) se x X

0 se x , X

(i = 1, . . . , n),
dalla linearit` a dellintegrale otteniamo f =

n
i=1
y
i
f
i
. Ne segue, poich`e f
i
`e una versione
di E(f
i
(Z)[X = ) (i = 1, . . . , n), dalla linearit` a della funzione di regressione (Teorema
B.2.9(viii)) che f `e una versione di E(

n
i=1
y
i
f
i
(Z)[X = ) = E(g(Z)[X = ).
Sia ora g 0. Considerata una successione (g
n
)
n1
di funzioni semplici non negative tale
che g
n
g, poniamo:
f
n
(x) =
_
_

g
n
() Q
Z|X
(d[x) se x X

0 se x , X

(n 1).
Allora, per il teorema della convergenza monotona, 0 f
n
f. Conseguentemente, poich`e
f
n
`e una versione di E(g
n
(Z)[X = ) (n 1), dal Teorema B.2.9(x) otteniamo che f `e una
versione di E( lim
n+
g
n
(Z)[X = ) = E(g(Z)[X = ).
Sia inne g qualsiasi. Osservato che g(Z)
+
= g
+
(Z) e g(Z)

= g

(Z), si ha la nitezza
delle speranze matematiche E(g
+
(Z)) e E(g

(Z)); inoltre, dallipotesi di Q


Z|X
([x)-somma-
bilit` a risulta
_

g() Q
Z|X
(d[x) =
_

g
+
() Q
Z|X
(d[x)
_

() Q
Z|X
(d[x)
per ogni x X

. Posto allora
f
1
(x) =
_
_

g
+
() Q
Z|X
(d[x) se x X

0 se x , X

f
2
(x) =
_
_

() Q
Z|X
(d[x) se x X

0 se x , X

,
otteniamo f = f
1
f
2
. Ne segue, poich`e f
1
, f
2
sono, rispettivamente, una versione di
E(g
+
(Z)[X = ) e E(g

(Z)[X = ), dalla linearit` a della funzione di regressione che f `e


una versione di E(g
+
(Z) g

(Z)[X = ) = E(g(Z)[X = ).
Per quanto riguarda lesistenza delle leggi condizionali, consideriamo due
misure -nite , di riferimento denite, rispettivamente, su , T e assumia-
mo (no alla ne della sezione) che f : X R

sia una (, )-densit`a


congiunta della coppia aleatoria (Z, X). Posto allora X
0
= 0 < f
X
< +,
introduciamo, per ogni x X, la funzione T -Borel misurabile f
Z|X
([x) su
cos` denita:
f
Z|X
([x) =
_
f(,x)
f
X
(x)
se x X
0
f
Z
() se x / X
0
(B.7)
B.2. SPERANZA MATEMATICA CONDIZIONATA 205
per ogni (Lemma A.5.1(ii)). Il risultato successivo mette il luce la
possibilit`a di ottenere, mediante la famiglia (f
Z|X
([x))
xX
, sia una densit` a
congiunta della coppia aleatoria che una marginale di Z.
Teorema B.2.13 Sussistono le seguenti proposizioni:
(i) P
X
(X
0
) = 1;
(ii) (, x) f
Z|X
([x)f
X
(x) `e una (, )-densit`a congiunta di (Z, X);
(iii) f
Z
() =
_
X
f
Z|X
([x)P
X
(dx) (-q.o.).
Dimostrazione (i) Risulta
P
X
(f
X
0, +) =
_
{f
X
=0}{f
X
=+}
f
X
d =
_
{f
X
=0}
f
X
d +
_
{f
X
=+}
f
X
d
=
_
{f
X
=+}
f
X
d = +(f
X
= +).
Allora, +(f
X
= +) 1 da cui otteniamo (f
X
= +) = 0 e quindi P
X
(X
0
) =
P
X
(f
X
, 0, +) = 1.
(ii) Osservato che, per il Lemma A.5.1(iii), la funzione (, x) f
Z|X
([x) f
X
(x) `e
T -Borel misurabile e che, per (i) e il Teorema B.1.12, P
(Z,X)
(X
0
) = P
X
(X
0
) = 1,
dal Teorema A.3.4(iv) otteniamo
P
(Z,X)
(S) =
_
S(X
0
)
f d =
_
S(X
0
)
f
Z|X
([x) f
X
(x) (d dx)
=
_
S
f
Z|X
([x) f
X
(x) (d dx)
per ogni S T .
(iii) Conseguenza immediata di (ii) e del Teorema B.1.12.
Tramite le funzioni f
Z|X
([x) possiamo introdurre la famiglia:
P
Z|X
(T[x) = f
Z|X
([x) (T) =
_
T
f
Z|X
([x) (d) (x X) (B.8)
di misure sulla -algebra T . Ora, per la linearit` a dellintegrale,
P
Z|X
([x) =
_

f(, x)
f
X
(x)
(d) =
_

f(, x) (d)
f
X
(x)
=
f
X
(x)
f
X
(x)
= 1,
206 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
se x X
0
, e P
Z|X
([x) = P
Z
() = 1, se x , X
0
; inoltre, per i teoremi
B.2.13(ii) e di Tonelli,
P((Z, X) T A) =
_
TA
f
Z|X
([x)f
X
(x) (d dx)
=
_
A
_
_
T
f
Z|X
([x) d
_
f
X
(x) (dx)
=
_
A
P
Z|X
(T[x) P
X
(dx)
per ogni A e T T . Conseguentemente, (P
Z|X
([x))
xX
`e una famiglia
di probabilit` a su T che fornisce una versione della legge condizionale di
Z rispetto X. Tenuto conto della sua costruzione, viene allora naturale
chiamare -densit`a condizionale (in breve densit`a condizionale) di Z
rispetto X la famiglia (f
Z|X
([x))
xX
31
.
Il prossimo esempio mette in evidenza che, in generale, interpretare la
probabilit` a P
Z|X
([x) come la legge di Z sapendo che X ha preso il valore
x anche quando levento X = x `e trascurabile, oltre a non avere alcun
fondamento, pu` o essere fuorviante se non addirittura pericoloso.
Esempio B.2.14 (Paradosso di Borel-Kolmogorov) Sia (Z, Y ) una coppia aleatoria
distribuita in ]0, 1]
2
con densit` a congiunta f(, y) = 4y. Posto J = I
]0,1]
, otteniamo allora
f(, y) = 4yJ(y)J() per ogni y, z R. Considerate le v.a. X = Y Z e X

=
Y
Z
,
determiniamo dapprima la densit` a f
Z|X
([0) e poi la densit`a f
Z|X
([1).
Dati i numeri reali a, b e posto B = (, y) R
2
: a y b, dal teorema di
Tonelli risulta
F
(Z,X)
(a, b) = P((Z, Y ) B) =
_
B
4 yJ(y)J() ddy =
_
R
2
4 yJ(y)J()I
B
(y, ) ddy
=
_
R
2
4 yJ(y)J()I
],b]
(y )I
],a]
() dy d
=
_
R
4
_
_
R
yJ(y)I
],b]
(y ) dy
_
J()I
],a]
() d
=
_
a

4
_
_
R
yJ(y)I
],b]
(y ) dy
_
J() d.
31
Osserviamo che nella denizione (B.7) avremmo potuto considerare al posto della
densit`a marginale f
Z
una qualsiasi altra funzione T -Borel misurabile, senza pregiudicare
n`e la validit` a del Teorema B.2.13(ii) n`e che la famiglia (P
Z|X
([x))
xX
sia una versione
della legge condizionale di Z rispetto X.
B.2. SPERANZA MATEMATICA CONDIZIONATA 207
Considerata la traslazione : y y + della retta reale, dal Corollario A.4.2 otteniamo
_
R
yJ(y)I
],b]
(y ) dy =
_
R
(x + )J(x + )I
],b]
(x) dx =
_
b

(x + )J(x + ) dx. Ne
segue, per il teorema di Tonelli,
F
(Z,X)
(a, b) =
_
a

4
_
_
b

(x +)J(x +)dx
_
J()d =
_
S
ab
4(x +)J(x +)J()ddx.
La coppia aleatoria (Z, X) ha dunque densit` a congiunta f
Z,X
(, x) = 4(x+)J(x+)J().
Ne segue f
X
(0) = 4
_
1
0

2
d =
4
3
e quindi f
Z|X
([0) = 3
2
J() per ogni .
Passando alla seconda densit` a, dati i numeri reali a e b, poniamo B = (, y) R
2
:
a
y

b. Risulta allora
F
(Z,X

)
(a, b) =
_
R
2
4 yJ(y)J()I
B
(, y) ddy =
_
R
2
4 yJ(y)J()I
],b]
_
y

_
I
],a]
() ddy
=
_
R
4
_
_
R
yJ(y)I
],b]
_
y

_
dy
_
J()I
],a]
() d
=
_
a

4
_
_
R
yJ(y)I
],b]
_
y

_
dy
_
J() d.
Dato > 0 e considerata la trasformazione : y y della retta reale, dal Corollario A.4.2
si ha
_
R
yJ(y)I
],b]
_
y

_
dy =
_
R
x
2
J(x)I
],b]
(x) dx =
_
b

x
2
J(x) dx. Ne segue
F
(Z,X

)
(a, b) =
_
a

4
_
_
b

x
2
J(x) dx
_
J() d =
_
S
ab
4 x
3
J(x)J() ddx.
La coppia aleatoria (Z, X

) ha quindi densit` a congiunta f


Z,X
(x, ) = 4 x
3
J(x)J().
Allora, f
X
(1) = 4
_
1
0

3
d = 1 e quindi f
Z|X
([1) = 4
3
J() per ogni .
Riesce dunque P
Z|X
([0) ,= P
Z|X
([1). Se ora si osserva che le proposizioni X ha preso
il valore 0 e X

ha preso il valore 1 descrivono il medesimo evento (precisamente levento


trascurabile Y = Z), quanto provato mostra che `e piuttosto paradossale interpretare
P
Z|X
([0) e P
Z|X
([1), rispettivamente, come le leggi di Z sapendo che X ha preso il
valore 0 e sapendo che X

ha preso il valore 1.
Le probabilit` a P
Z|X
([x) sono di particolare importanza in quanto con-
sentono di ottenere anche versioni della funzione di regressione di trasformate
certe della coppia aleatoria su X come pure una formula di disintegrazione
per la legge congiunta.
Teorema B.2.15 Sussistono le seguenti proposizioni:
(i) Sia g : X [0. + ] una funzione T -Borel misurabile tale
che la funzione composta g(Z, X) ammetta speranza matematica nita.
Allora, la funzione x
_

g(, x) P
Z|X
(d[x) `e una versione della fun-
zione di regressione E(g(Z, X)[X = );
(ii) P
(Z,X)
(S) =
_
X
P
Z|X
(S(x)[x) P
X
(dx) per ogni S T
32
.
32
Ricordiamo che S(x) = : (, x) S e S() = x X : (, x) S.
208 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
Dimostrazione (i) Dato A , dai teoremi B.1.10, B.2.13(ii) e di Tonelli otteniamo
_
{XA}
g(Z, X) dP =
_
X
g(, x)I
A
(x)f
Z|X
([x) f
X
(x) (d dx)
=
_
X
_
_

g(, x)f
Z|X
([x) (d)
_
I
A
(x)f
X
(x) (dx)
=
_
A
_
_

g(, x) P
Z|X
(d[x)
_
P
X
(dx).
(ii) Dato S T , ponendo g = I
S
in (i) risulta
P
(Z,X)
(S) =
_

I
S
(Z, X) dP =
_
X
_
_

I
S
(, x) P
Z|X
(d[x)
_
P
X
(dx)
=
_
X
_
_

I
S(x)
() P
Z|X
(d[x)
_
P
X
(dx) =
_
X
P
Z|X
(S(x)[x) P
X
(dx).
La dimostrazione `e cos` conclusa.
Per la denizione (B.7), la densit`a f
Z|X
([x) coincide con la densit`a margi-
nale di Z qualora x , X
0
. Facciamo ora vedere come si possa instaurare un
legame tra tali densit` a anche al di fuori di questo caso. A tal ne, posto

0
= 0 < f
Z
< +, consideriamo, per ogni , la funzione -Borel
misurabile f
X|Z
([) cos` denita:
f
X|Z
(x[) =
_
f(,x)
f
Z
()
se
0
f
X
(x) se /
0
(B.9)
per ogni x X, e la corrispondente probabilit` a sulla -algebra :
P
X|Z
(A[) = f
X|Z
([) (A) =
_
A
f
X|Z
(x[) (dx)
per ogni A . Allora, con ragionamenti analoghi a quelli fatti in prece-
denza, otteniamo sia che la famiglia (P
X|Z
([))

`e una versione della legge


condizionale di X rispetto Z che la validit` a del prossimo risultato.
Teorema B.2.16 Sussistono le seguenti proposizioni:
(i) P
Z
(
0
) = 1;
(ii) (, x) f
X|Z
(x[)f
Z
() `e una (, )-densit`a congiunta di (Z, X);
(iii) f
X
() =
_

f
X|Z
([)P
Z
(d) (-q.o.);
B.2. SPERANZA MATEMATICA CONDIZIONATA 209
(iv) Sia g : X [0. + ] una funzione T -Borel misurabile tale
che la funzione composta g(Z, X) ammetta speranza matematica nita.
Allora, la funzione
_
X
g(, x) P
X|Z
(dx[) `e una versione della fun-
zione di regressione E(g(Z, X)[Z = );
(v) P
(Z,X)
(S) =
_

P
X|Z
(S()[) P
Z
(d) per ogni S T .
Sussiste inoltre, come facilmente si constata, il seguente teorema di Bayes
che fornisce il collegamento di f
Z
con (f
Z|X
([x))
xX
0
tramite la famiglia
(f
X|Z
([))

chiamata, per analogia al caso precedente, -densit`a con-


dizionale di X rispetto Z
33
.
Teorema B.2.17 (di Bayes) Risulta:
f
Z|X
([x) =
f
X|Z
(x[)
_

f
X|Z
(x[)f
Z
() (d)
f
Z
()
a meno di un insieme -trascurabile.
B.2.4 Densit`a iniziale, nale e predittiva
Gran parte delle applicazioni della statistica (sia inferenziale che decisionale)
fanno riferimento alla struttura seguente (detta esperimento statistico):
considerato un ente aleatorio osservabile X a valori nellinsieme X (spazio
campionario), si suppone che non sia possibile individuarne con precisione
(per mancanza dinformazione) la legge ma solo ritenerla appartenente ad
una data collezione di probabilit` a T = P

: su parametrizzata
su un insieme (spazio parametrico). Inoltre, interpretati (in accordo
con il paradigma bayesiano) gli elementi dellinsieme come possibili de-
terminazioni di un ente aleatorio (parametro) Z, si considera, accanto alla
famiglia T, la legge di Z.
33
La denominazione del teorema deriva da un celebre manoscritto del rev. Thomas Bayes
(pubblicato postumo nel 1764 a tre anni dalla morte) nel quale si fornisce la probabilit` a
condizionata di un evento E al numero di volte che si verica in n osservazioni, nel caso
che la probabilit` a Pr(E) sia distribuita uniformemente nellintervallo [0, 1]. Osserviamo, a
tale proposito, che Pierre S. de Laplace fu il primo a comprendere limportanza cruciale
del risultato di Bayes e ad applicarlo sistematicamente (a partire dal 1774) allo studio di
numerosi problemi, sia delle scienze siche che morali (come, ad esempio, alleccentricit`a
delle orbite dei pianeti e alla validit` a delle testimonianze).
210 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
In questa situazione, viene naturale chiedersi se sia possibile costruire un
contesto che consenta di interpretare T come una versione della legge con-
dizionale di X rispetto Z. Non aronteremo il problema nella sua generalit` a,
ma ci limiteremo a descrivere il procedimento (noto come schema di Bayes)
che risolve positivamente il problema nel caso particolare che le probabilit` a
considerate ammettano densit` a.
Date dunque, come nella sezione precedente, due misure di riferimento -
nite e , rispettivamente su e T , assumiamo che : [0, +] sia una
-densit`a (densit`a iniziale) di Z e, per ogni , che f

sia una -densit`a


di X relativa alla legge P

(detta densit`a di campionamento relativa


a ). Supponiamo inoltre che la funzione (, x) f

(x) sia T -Borel


misurabile. Allora, per il Lemma A.5.1(iii), la funzione (, x) f

(x)() `e
T -Borel misurabile e quindi possiamo considerare sulla -algebra prodotto
la probabilit` a cos` denita:
P
(sb)
(

A) =
_

A
f

(x)() (d dx)
per ogni

A T
34
. Se ora supponiamo che P
(sb)
sia la legge congiunta
P
(Z,X)
della coppia aleatoria (Z, X), la funzione f

: (, x) f

(x)()
diviene una -densit`a congiunta di (Z, X). Allora, tenuto conto della
denizione (B.9), f

() = f

X|Z
([) per ogni
0
= 0 < < + e quindi
P

(A) =
_
A
f

d = P
X|Z
(A[) per ogni A e
0
. Conseguentemente,
lidenticazione P
(sb)
= P
(Z,X)
consente di interpretare la famiglia T come
una versione della legge condizionale di X rispetto Z
35
.
Assumiamo dunque P
(sb)
= P
(Z,X)
. Allora, la densit`a predittiva p di X
cos` denita:
p(x) =
_

(x)() (d)
per ogni x X, `e una densit`a marginale di X mentre la densit`a nale
34
Per constatare che P
(sb)
`e una probabilit` a basta osservare che, per il teorema di Tonelli,
P
(sb)
(X) =
_

__
X
f

(x) (dx)
_
() (d) = 1.
35
Daltra parte, questo `e lunico modo per ottenere tale interpretazione, nel senso che,
assunta lesistenza della densit`a congiunta f e supposto f

() = f
X|Z
([) per ogni

0
, dal Teorema B.2.16(ii) otteniamo che anche f

`e una densit` a congiunta della coppia


aleatoria e quindi deve essere P
(sb)
= P
(Z,X)
.
B.2. SPERANZA MATEMATICA CONDIZIONATA 211

Z|X
([x) di Z relativa a x cos` denita:

Z|X
([x) =
_
f

(x)
p(x)
() se x X
0
() se x / X
0
per ogni , fornisce, al variare di x X, la densit`a condizionale di Z
rispetto X.
Il calcolo della densit`a nale non sempre `e agevole in quanto, in un
contesto generale, la densit` a predittiva pu` o essere individuata solamente ri-
correndo ai metodi dellintegrazione numerica. Una considerevole sempli-
cazione avviene quando si considerino densit` a appartenenti ad una famiglia
coniugata per (f

, cio`e ad una famiglia D di densit`a iniziali tale che,


qualunque siano x X e D, la densit`a nale
Z|X
([x) appartenga a
D
36
. Nellesempio seguente forniamo famiglie coniugate relative a tre model-
li statistico-probabilistici di particolare importanza per le applicazioni; ve-
dremo cos` che le corrispondenti densit` a nali si ottengono semplicemente
aggiornando i parametri delle densit` a iniziali.
Esempio B.2.18 Supponiamo che losservabile X sia una n-pla X = (X
1
, . . . , X
n
) di v.a.
equidistribuite e indipendenti in corrispondenza ad ogni valore del parametro; cio`e, tali
che la densit`a congiunta relativa a sia del tipo f

(x) = g

(x
1
) g

(x
n
) per ogni .
Inoltre, poniamo, come duso, x =
1
n
(x
1
+ +x
n
) per ogni n-pla reale x.
(i) Per ogni = [0, 1], sia g

la distribuzione di Bernoulli Ber(). Allora, f

(x) =

n x
(1 )
n(1 x)
per ogni x X = 0, 1
n
. Supposto che la densit` a iniziale sia quella della
distribuzione Beta(, ), poniamo
() =
( +)
()()

1
(1 )
1
,
ove denota, come duso, la funzione gamma: (t) =
_
+
0

t1
e

d (t > 0). Riesce


allora
f

(x)() = K

n
(x)1
(1 )

n
(x)1
avendo posto:

n
(x) = +n x,
n
(x) = +n(1 x), K =
( +)
()()
.
Passando alla densit`a predittiva, otteniamo
p(x) = K
_
1
0

n
(x)1
(1 )

n
(x)1
d = K
(
n
(x))(
n
(x))
(
n
(x) +
n
(x))
> 0
36
Per maggiori ragguagli si veda, ad esempio, il capitolo nono del testo di DeGroot.
212 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
e quindi X
0
= X. Ne segue

Z|X
([x) =
(
n
(x) +
n
(x))
(
n
(x))(
n
(x))

n
(x)1
(1 )

n
(x)1
.
La densit`a nale di Z relativa a x `e dunque quella della distribuzione Beta(
n
(x),
n
(x)).
(ii) Per ogni = R, sia g

la densit`a della distribuzione normale N(,


2
). Allora
f

(x) = (2
2
)

n
2
exp
_

n
i=1
(x
i
)
2
2
2
_
per ogni x X = R
n
. Conseguentemente, osservato che
n

i=1
(x
i
)
2
=
n

i=1
[(x
i
x) + ( x )]
2
=
n

i=1
_
(x
i
x)
2
+ 2( x )(x
i
x) + ( x )
2

=
n

i=1
(x
i
x)
2
+ 2( x )
n

i=1
(x
i
x) +n( x )
2
=
n

i=1
(x
i
x)
2
+ 2( x )
_
n

i=1
x
i
n x
_
+n( x )
2
=
n

i=1
(x
i
x)
2
+n( x )
2
,
otteniamo
f

(x) = (2
2
)

n
2
exp
_

n
i=1
(x
i
x)
2
2
2
_
exp
_

n( x )
2
2
2
_
. (B.10)
Ne segue, supposto che la densit` a iniziale sia quella della distribuzione normale N(,
2
),
f

(x)() = K
n
(x) exp
_

1
2
_
( )
2

2
+
n( x )
2

2
__
con
K
n
(x) = (2
2
)

n
2
(2
2
)

1
2
exp
_

n
i=1
(x
i
x)
2
2
2
_
.
Posto allora:

2
n
=
_
1

2
+
n

2
_
1
,
n
(x) =
_

2
+
n x

2
_

2
n
, K

n
(x) =

n
(x)
2

2
n

2
+
n x
2

2
_
risulta
f

(x)() = K
n
(x) exp
_
K

n
(x)
2
_
exp
_

[
n
(x)]
2
2
2
n
_
,
B.2. SPERANZA MATEMATICA CONDIZIONATA 213
osservato che
( )
2

2
+
n( x )
2

2
=
_
1

2
+
n

2
_

2
2
_

2
+
n x

2
_
+
_

2
+
n x
2

2
_
=
1

2
n
_

2
2
_

2
+
n x

2
_

2
n
+
_

2
+
n x

2
_
2

2
n
_

2
+
n x

2
_
2

2
n
+
_

2
+
n x
2

2
_
=
[
2
2
n
(x) +
n
(x)]
2

2
n

n
(x)
2

2
n

2
+
n x
2

2
__
=
[
n
(x)]
2

2
n
K

n
(x).
Passando alla densit`a predittiva, si ha allora
p(x) = K
n
(x) exp
_
K

n
(x)
2
_
_
+

exp
_

[
n
(x)]
2
2
2
n
_
d = K
n
(x) exp
_
K

n
(x)
2
_
_
2
2
n
> 0
e quindi X
0
= X. Ne segue

Z|X
([x) =
1
_
2
2
n
exp
_

[
n
(x)]
2
2
2
n
_
.
La densit`a nale di Z relativa a x `e dunque quella della distribuzione normale N(
n
(x),
2
n
).
(iii) Per ogni = (
1
,
2
) = R]0, +[, sia g

la densit` a della distribuzione


normale N(
1
,
2
). Da (B.10) otteniamo allora
f

(x) = (2)

n
2

n
2
2
exp
_

n
i=1
(x
i
x)
2
+n( x
1
)
2
2
2
_
per ogni x X = R
n
. Supposto che la densit` a iniziale sia quella della distribuzione
normale-gamma inversa N-
1
(, , , ), poniamo
() =
1

()

(+
3
2
)
2
exp
_

(
1
)
2
+ 2
2
2
_
.
Ne segue, posto:

n
(x) =
n x +
+n
,
n
= +n,
n
= +
n
2

n
(x) = +
1
2
_
n

i=1
(x
i
x)
2
+
n( x )
2
+n
_
, K
n
= (2)

n+1
2

()
la seguente espressione della densit`a congiunta:
f

(x)() = K
n

(
n
+
3
2
)
2
exp
_

n
(
1

n
(x))
2
+ 2
n
(x)
2
2
_
,
214 APPENDICE B. RICHIAMI DI TEORIA DELLA PROBABILIT
`
A
osservato che
(
1
)
2
+n( x
1
)
2
=
n
_

2
1
2
n
(x)
1
+
n x
2
+
2

n
_
=
n
_
_

2
1
2
n
(x)
1
+
n
(x)
2
_

n
(x)
2
+
n x
2
+
2

n
_
=
n
_

n
(x)
_
2

n
(x)
2
+n x
2
+
2

=
n
_

n
(x)
_
2

(n x +)
2

n
+n x
2
+
2

=
n
_

n
(x)
_
2
+
n( x )
2

n
.
Passando alla densit`a predittiva, si ha allora
p(x) = K
n
_
R]0.+]

(
n
+
3
2
)
2
exp
_

n
(
1

n
(x))
2
+ 2
n
(x)
2
2
_
d
1
d
2
= K
n

2 (
n
)

n
(x)

n
> 0
e quindi X
0
= X. Ne segue

Z|X
([x) =
1

n
(x)

n
(
n
)

(
n
+
3
2
)
2
exp
_

n
(
1

n
(x))
2
+ 2
n
(x)
2
2
_
.
La densit`a nale di Z relativa a x `e dunque quella della distribuzione normale-gamma
inversa N-
1
(
n
(x),
n
,
n
,
n
(x)).
Bibliograa essenziale
[1] Ash, R.B. (1972): Real Analysis and Probability, Academic Press, New
York.
[2] Berger, J.O. (1985): Statistical Decision Theory and Bayesian Analysis
(Second Edition), Springer-Verlag, New York.
[3] Bernardo, J.M. - Smith, A.F.M. (1994): Bayesian Theory, John Wiley
& Sons, Chichester.
[4] DeGroot, M.H. (1970): Optimal Statistical Decisions, McGraw-Hill,
New York.
[5] Ferguson, T.S. (1967): Mathematical Statistics: A Decision Theoretic
Approach, Academic Press, New York
[6] Homann-Jorgensen, J. (1994): Probability with a view toward Stati-
stics, Volumi I e II, Chapman & Hall, New York
[7] Lehmann, E.L. (1983): Theory of Point Estimation, John Wiley & Sons,
New York.
[8] Lehmann, E.L. (1986): Testing Statistical Hypothesis (Second Edition),
John Wiley & Sons, New York.
[9] Piccinato, L. (1996): Metodi per le Decisioni Statistiche, Springer-Verlag
Italia, Milano.
[10] Robert, C.P. (1994): The Bayesian Choice: A Decision-Theoretic Moti-
vation, Springer-Verlag, New York.
[11] Schervish, M.J. (1995): Theory of Statistics, Springer-Verlag, New York.
215