Sei sulla pagina 1di 143

Appunti di probabilit` a e statistica

Ingegneria Civile, Firenze, a.a. 2011/2012.


Daniel Canarutto
Dipartimento di Matematica e Informatica U. Dini
21/1/2013
Sommario
Questi appunti raccolgono il contenuto delle lezioni di probabilit`a e statistica, per il Corso
di Laurea in Ingegneria Civile, svolte nei tre anni accademici dal 2009/2010 al 2011/2012.
Possono essere solo stampati da ciascun individuo per il proprio uso personale di studio. Il
materiale rimane comunque di esclusiva propriet`a dellautore. Ogni altro uso (per esempio
da parte di copisterie per rivenderli in qualsiasi forma) `e espressamente proibito.
Questa versione `e la quarta relativa allanno accademico 2011/2012 (la precedente
era del 14/9/2012). Ulteriori correzioni e piccole modiche potranno essere ancora fatte,
nonostante che a partire dallanno accademico 2012/2013 lautore non tenga pi` u il corso,
per luso degli studenti degli anni precedenti.
II RIFERIMENTI BIBLIOGRAFICI
Riferimenti bibliograci
[1] G. Anichini, Elementi di probabilit`a e statistica, Pitagora Editrice Bologna.
[2] P. Baldi, Calcolo delle probabilit`a e statistica, McGraw-Hill.
[3] C. Franchetti, Sommario lezioni di probabilit`a,
http://www.dma.unifi.it/~franchetti/probab/CorsoProb99.pdf
[4] C. Franchetti, Sommario lezioni di probabilit`a (versione abbreviata),
http://www.dma.unifi.it/~franchetti/probab/ProbAbbr.pdf
[5] E. Giusti, Analisi Matematica 2, Bollati-Boringhieri.
INDICE III
Indice
1 Introduzione 1
1.1 Fenomeni aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 La probabilit`a nel linguaggio comune . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Modelli matematici della probabilit`a 5
2.1 -algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Probabilit`a nel continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Distribuzioni e delta di Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5 Probabilit`a condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Schema di Bernoulli 23
3.1 Testa o croce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Due lanci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 n lanci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4 Legge binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5 Legge di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Lanci no a che... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.7 Lanci di un dado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.8 Decadimento radioattivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.9 Distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.10 Coincidenza di compleanni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Variabili aleatorie 35
4.1 Applicazioni dallo spazio dei campioni in un insieme qualsiasi . . . . . . . . . . 35
4.2 Variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3 Funzione di ripartizione e densit`a . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 Intermezzo: alberi e gra, variazioni sul tema . . . . . . . . . . . . . . . . . . . 41
4.5 Simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Variabili aleatorie vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.7 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.8 Densit`a condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.9 Calcolo di leggi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.10 Il caso di Mary vos Savant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5 Media e momenti 61
5.1 Media di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 Momenti di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Alcuni esempi di media e momenti . . . . . . . . . . . . . . . . . . . . . . . . . 67
6 Compendio delle leggi pi` u importanti 70
6.1 Legge binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.2 Legge di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.3 Distribuzione geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.4 Distribuzione ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.5 Distribuzione normale, o gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . 73
IV INDICE
6.6 Leggi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.7 Legge esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.8 Legge chi quadro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.9 Distribuzione di Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7 La legge dei grandi numeri 82
7.1 La legge empirica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.2 Convergenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.3 Legge debole e legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . 84
7.4 Funzione di ripartizione empirica e graco dei quantili . . . . . . . . . . . . . . 85
7.5 Funzioni caratteristiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.6 Convergenza in legge e Teorema Limite Centrale . . . . . . . . . . . . . . . . . 92
7.7 Approssimazione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8 Elementi di statistica 100
8.1 Statistica descrittiva e statistica inferenziale . . . . . . . . . . . . . . . . . . . . 100
8.2 Stimatori fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.3 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.4 Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.6 Test di Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
8.7 Intervalli di condenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
A Nozioni basilari di calcolo combinatorio 119
A.1 Coecienti binomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
A.2 Coecienti multinomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
A.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
A.4 Disposizioni senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
A.5 Permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
A.6 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
A.7 Partizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
B Numeri complessi 124
B.1 Numeri complessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
B.2 Funzioni elementari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
B.3 Derivata e integrale di una curva a valori complessi . . . . . . . . . . . . . . . . 129
B.4 Serie (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
C Misura e integrazione 133
C.1 Misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
C.2 Integrazione astratta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
C.3 Misura e integrale di Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
1
1 Introduzione
1.1 Fenomeni aleatori
Laggettivo aleatorio (sinonimo di casuale) proviene dal latino alea, dado, e vale a con-
notare fenomeni la cui evoluzione non possiamo prevedere con precisione. In eetti nessuno `e
in grado di lanciare un dado in modo da inuire sul risultato. Questo fatto potrebbe sembrare
in contrasto con la nozione che il moto del dado pu`o essere descritto nellambito della Mecca-
nica Classica, che `e deterministica: una volta note le condizioni iniziali (posizioni e velocit`a
di tutte le particelle che compongono il sistema meccanico studiato) `e possibile in linea di
principio prevederne il moto, almeno in un certo intervallo di tempo, risolvendo le equazioni
di moto (un sistema di equazioni dierenziali del secondordine). Cos` lartigliere `e in grado
di indirizzare il proiettile sul bersaglio, con notevole esattezza, controllandone la direzione e
la velocit`a iniziali.
1.1
Nel caso del dado, tuttavia, il moto `e cos` sensibile alle condizioni iniziali che una varia-
zione minuscola di queste pu`o dar luogo, alla ne, a un risultato completamente diverso; in
pratica, il controllo di dierenze cos` piccole nelle condizioni iniziali `e al di l`a delle possibilit`a
umane, e ci`o rende appunto aleatorio il risultato dellesperimento.
`
E facile pensare ad altri esperimenti di carattere parimenti aleatorio:
- il lancio di una moneta;
- lestrazione (alla cieca) di un numero di una tombola o del lotto;
- lestrazione di una carta da un mazzo
(negli ultimi due esempi, le palline recanti i numeri e le carte devono essere mescolate in modo
appropriato).
Si potrebbe pensare che le situazioni di questi esempi siano molto particolari, ma `e piut-
tosto vero il contrario: di regola, il risultato di un esperimento non pu`o essere previsto con
esattezza. Ci`o in fondo `e vero anche nel caso del lancio di un proiettile, perche piccole varia-
zioni delle condizioni iniziali o uttuazioni imprevedibili delle condizioni atmosferiche fanno
s` che il bersaglio, per quanto lartigliere possa essere accurato, venga colpito solo con una
certa approssimazione (magari molto buona); eseguendo una serie di lanci in condizioni iden-
tiche i proiettili arriveranno in una area (magari ristretta) intorno al bersaglio, ma non tutti
esattamente nello stesso punto.
1.2
Osservazione. A pensarci bene, il lancio del dado non `e poi cos` diverso da quello di un
proiettile, solo che risulta pi` u dicile prevedere la congurazione nale, dopo che `e rimbalzato
e si `e fermato; un qualche grado di prevedibilit`a esiste anche in questo caso (per esempio il dado
si fermer`a pi` u o meno lontano dal lanciatore a seconda della velocit`a iniziale). Il punto per`o
`e che, in questesperimento, il risultato a cui siamo interessati non `e la congurazione nale
completa ma solo uninformazione parziale riguardo a questa: quale faccia viene a trovarsi in
alto.
Esistono poi in natura fenomeni che, almeno allo stato attuale delle conoscenze, sono re-
golati da leggi aventi carattere aleatorio in un senso ancora pi` u radicale: quei fenomeni, per
lo pi` u sub-microscopici, che sono governati dalla Meccanica Quantistica. Consideriamo per
esempio il cosiddetto decadimento radioattivo: un nucleo atomico pu`o emettere spontanea-
mente varie particelle, ed eventualmente disintegrarsi in pi` u pezzi; listante in cui ci`o avviene
1.1
Per un calcolo davvero preciso deve tener conto non solo della forza di gravit` a ma anche delle forze
dinerzia dovute alla rotazione terrestre e della resistenza dellaria; questultima varia con laltezza e dipende
dalla velocit`a e direzione del vento.
1.2
Non ha neanche senso dire che un proiettile arriva esattamente in un punto nel senso matematico.
2 1 INTRODUZIONE
`e del tutto imprevedibile, non solo perche non conosciamo esattamente lo stato del sistema
sico osservato, ma proprio per una questione di principio. In Meccanica Quantistica non vale
il determinismo della sica newtoniana.
1.2 La probabilit`a nel linguaggio comune
Nel linguaggio comune, laggettivo probabile si usa in maniera informale per connotare
eventi futuri dei quali pensiamo che si vericheranno, anche se non ne siamo certi (`e probabile
che oggi non piova); analogamente, laggettivo improbabile serve per connotare eventi
futuri dei quali pensiamo che non si vericheranno (`e improbabile che un meteorite caschi su
Piazza della Signoria). Magari ci spingiamo no a dare dei numeri (la probabilit`a di pioggia
nel pomeriggio `e del 10%). Anche gli addetti ai lavori del mondo del calcio (forse non la
categoria pi` u dotata in quanto a precisione nel pensiero matematico) allinizio del campionato
danno una loro valutazione delle probabilit`a di vittoria nale delle varie squadre in forma di
percentuali (per esempio: Inter 40%, Milan 25%, Juventus 20%, Roma 15% la somma deve
fare 100%).
Quello che noi vogliamo `e per`o una formulazione matematica allinterno della quale la
nozione di probabilit`a possa essere trattata con esattezza e permetta di fare calcoli precisi (e,
magari, di trarre conclusioni non ovvie). Per costruire un tale modello matematico probabilisti-
co dobbiamo prima di tutto precisare quali sono i possibili risultati dellesperimento in esame;
tali risultati vengono etichettati come elementi di un certo insieme che `e tradizional-
mente detto spazio dei campioni. Cos`, nel lancio di un dado, si assumer`a = 1, 2, 3, 4, 5, 6
(ignorando gli altri parametri che caratterizzano la congurazione del dado); nel lancio di una
moneta = testa, croce ; nel lancio di un proiettile, potrebbe essere una certa area in-
torno al bersaglio, allinterno della quale si sa che il proiettile atterrer`a con certezza (tenendo
conto di certe limitazioni alle possibili variazioni delle condizioni iniziali e delle condizioni
atmosferiche). Vedremo vari altri esempi nel seguito.
Vogliamo dare un signicato pi` u preciso alla percentuale che, nel linguaggio corrente,
esprime la maggiore o minore probabilit`a di un evento. Assegnare una probabilit`a del 100%
signica che riteniamo che levento in questione si vericher`a certamente; una probabilit`a
dello 0% signica invece che certamente non si vericher`a. E che dire di una probabilit`a, per
esempio, del 27%? Qui la faccenda `e un po pi` u delicata, e verr`a chiarita meglio in seguito, ma
in sostanza possiamo dire questo: se fossimo in grado di eseguire lesperimento un gran numero
di volte, sempre nelle stesse identiche condizioni, allora ci aspetteremmo che circa i 27/100
dei risultati rientrino nellevento considerato. Nella gura 1, per esempio, sono i riportati i
risulati di quattro serie di lanci di un dado,
1.3
rispettivamente di 60, 600, 6000 e 60000 lanci.
Si constata che, al cresecere del numero dei lanci, la percentuale di ciascun risultato si avvicina
sempre di pi` u a
1
6
= 0.1666...

= 16.67%.
Visti questi dati, diremo allora che nellesperimento lancio di un dado, per ciascuno dei
possibili risultati la probabilit`a `e 1/6 . Questo sembrerebbe ovvio anche a priori: data la sim-
metria del dado, non c`e alcuna ragione per cui un risultato debba uscire pi` u spesso degli altri.
La situazione potrebbe essere dierente: potremmo trovare che, continuando ad aumentare
1.3
Lesperimento non `e stato eseguito lanciando materialmente il dado e prendendo nota del risultato ogni
volta, ma mediante una simulazione al computer. In ogni linguaggio di programmazione esiste infatti una
funzione (random) che simula un output aleatorio. Ovviamente tale funzione non `e veramente aleatoria, in
quanto `e realizzata mediante un algoritmo preciso. Tuttavia questo algoritmo `e congegnato (o dovrebbe esserlo)
in modo tale che se non lo conosciamo esplicitamente non possiamo fare alcuna previsione sul risultato; quindi
per lutilizzatore, a tutti gli eetti, `e come se si trattasse di un fenomeno autenticamente aleatorio (si parla
anche di procedimento pseudo-aleatorio).
1.2 La probabilit`a nel linguaggio comune 3
Figura 1: Lanci di un dado
60 lanci
9 17 9 7 11 7
r
r
r
r
r
r
r
r r
r r
r r
r
r
r
r r
r
r r
600 lanci
111 95 104 108 98 84
r
r
r
r
r
r
r
r r
r r
r r
r
r
r
r r
r
r r
6000 lanci
1010 1047 1008 1012 933 990
r
r
r
r
r
r
r
r r
r r
r r
r
r
r
r r
r
r r
60000 lanci
10037 10019 9868 9987 10139 9950
r
r
r
r
r
r
r
r r
r r
r r
r
r
r
r r
r
r r
il numero dei lanci, certi risultati continuano a uscire pi` u frequentemente di altri; il dado `e
truccato (ci`o pu`o avvenire se il materiale di cui `e fatto non `e omogeneo, per esempio se
allinterno sono inseriti pezzetti di materiale pi` u pesante in posizione asimmetrica). Suppo-
niamo per esempio che le frequenze dei sei possibili risultati si stabilizzino intorno ai valori
_
22%, 12%, 19%, 26%, 11%, 10%
_
; allora diremo che i vari risultati non sono equiprobabili,
o che la distribuzione di probabilit`a non `e uniforme.
Osservazione. Ci si pu`o chiedere che senso abbiano le probabilit`a di vittoria nel campionato
di calcio, visto che il campionato non lo si pu`o ripetere quante volte si vuole nelle stesse
identiche condizioni. Queste probabilit`a sono valutazioni, basate su intuito e ragionamento,
e vanno interpretate in questo senso: laddetto ai lavori ritiene che se si potesse ripetere
il campionato molte volte allora i risultati rispecchierebbero le proprie valutazioni; ma non
esiste modo di vericare no a che punto sono corrette. Notiamo, comunque, che la professione
dellallibratore si basa proprio su valutazioni del genere.
Osservazione. Nei bollettini metereologici
1.4
viene spesso data la probabilit`a di pioggia
per una data giornata: provare a discutere il signicato di questo tipo di probabilit`a.
Da questi esempi, e da questi discorsi un po alla buona, incominciamo a vedere che nella
descrizione matematica di un esperimento aleatorio dovr`a esserci un modo per calcolare la
probabilit`a di ogni evento; tale probabilit`a dovr`a essere rappresentata da un numero compre-
so tra 0 e 1 (la percentuale del linguaggio corrente). Tra gli eventi presi in considerazione
non ci sono solo quelli rappresentati dagli elementi dello spazio dei campioni relativi alle-
sperimento in esame; nel caso del lancio del dado, per rimanere nellambito del nostro esempio
base, uno potrebbe chiedersi qual`e la probabilit`a di ottenere un numero pari, oppure di ot-
tenere un numero 4, o ancora di ottenere un numero primo, eccetera. Queste domande si
1.4
Si veda per esempio http://www.arpa.veneto.it/bollettini/htm/dolomiti meteo.asp .
4 1 INTRODUZIONE
riferiscono alluscita di un risultato che appartiene a un sottoinsieme di . Il modello mate-
matico probabilistico dovr`a fornire risposte coerenti a tali questioni, e la sua validit`a potr`a
essere vericata eseguendo lesperimento un gran numero di volte.
5
2 Modelli matematici della probabilit`a
Il 1.1 e il 1.2, a carattere discorsivo, ci sono serviti come introduzione alla nozione di pro-
babilit`a. A questo punto passiamo a una trattazione pi` u formale, nella speranza che le varie
denizioni e i conseguenti risultati matematici risultino abbastanza digeribili.
La denizione di spazio di probabilit`a potrebbe essere data, in forma molto sinteti-
ca,
2.1
riferendoci a concetti introdotti e discussi nellAppendice C (Misura e integrazione).
Per non obbligare il lettore a studiarla subito in dettaglio arriviamo alla denizione per gradi,
riformulando i concetti essenziali.
2.1 -algebra
Se `e un insieme qualsiasi, indichiamo con P() la famiglia di tutti i sottoinsiemi di
(inclusi stesso e linsieme vuoto ).
Denizione 2.1 Una -algebra su `e una famiglia E P() con le seguenti propriet`a:
a) E.
b) E E E E.
c) E
k
E k N
kN
E
k
E.
I sottoinsiemi E E sono detti misurabili, e la coppia (, E) `e detta spazio misurabile.
La propriet`a c) della precedente denizione dice che lunione di una famiglia numerabile
2.2
di insiemi misurabili `e ancora un insieme misurabile. Si noti che `e condizione molto pi` u
forte che non richiedere solamente che lunione di un numero nito di insiemi misurabili sia
misurabile. In eetti limportanza di tale propriet`a risulter`a dagli esempi.
Osservazione. E , linsieme di tutti gli elementi di che non appartengono a E , `e detto
il complementare di E in , e se non c`e pericolo di confusione (linsieme ambiente `e
ssato) si indica semplicemente con E
c
. Si trovano altre notazioni per E
c
, ad esempio

E, ma questa `e usata anche con signicati dierenti e quindi sar`a meglio evitarla.
Dalle propriet`a richieste dalla denizione 2.1 si ricavano facilmente le seguenti:
d) E.
e) E
k
E k N
kN
E
k
E.
f) E
k
E, k = 1, . . . , n
k
E
k
E.
g) E, F E E F E.
Dimostrazione:
d) E = E .
e) Segue dalla legge di de Morgan (E F)
c
= E
c
F
c
, che vale anche per una famiglia
numerabile di sottoinsiemi: (
kN
E
k
)
c
=
kN
E
c
k
.
2.1
Ovvero: uno spazio di probabilit` a `e uno spazio di misura
_
, E, P
_
tale che P() = 1 .
2.2
Ricordiamo che un insieme S si dice numerabile se esiste una biiezione S N, cio`e se i suoi elementi
possono essere numerati: esiste una successione N S : n sn la cui immagine `e tutto S.
6 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
f)
`
E ovvia.
g) Segue da E F = E F
c
.

Dunque una -algebra su `e una famiglia di sottoinsiemi di che si comporta in maniera


naturale rispetto allunione e allintersezione; e ci`o non solo per le unioni e intersezioni
di famiglie nite di sottoinsiemi, ma anche quando si considerino famiglie innite, purche
numerabili.
Osservazione. Su qualsiasi insieme esiste una -algebra privilegiata, costituita dalla fa-
miglia P() di tutti i sottoinsiemi di . Ci si potrebbe chiedere allora se considerare tale
famiglia non sia suciente in generale per la nozione di probabilit`a, e se il dare la denizio-
ne 2.1 non sia uninutile complicazione. In eetti, nei casi in cui `e nito, oppure `e innito ma
numerabile, di regola basterebbe lapproccio pi` u semplice; ma questo non basta per trattare la
probabilit`a nel continuo, che `e un aspetto importante della teoria. L` esistono necessariamente
anche insiemi non misurabili, che vanno distinti da quelli misurabili.
2.2 Probabilit`a
La nozione di -algebra `e utilizzata, in generale, in teoria della misura. Nellambito della teoria
della probabilit`a si usa una terminologia speciale:
linsieme `e detto spazio dei campioni ;
i sottoinsiemi di che appartengono alla -algebra E P() sono detti eventi.
Denizione 2.2 Chiamiamo probabilit`a, su uno spazio misurabile (, E), una qualsiasi fun-
zione P : E [0, 1] tale che
P() = 1 ;
per ogni famiglia numerabile E
n

nN
E di insiemi misurabili disgiunti valga la
propriet`a (detta -additivit`a)
P(
nN
E
n
) =

nN
P(E
n
) .
La terna (, E, ) `e detta allora uno spazio di probabilit`a.
Osservazione. Uno spazio di probabilit`a `e un caso particolare di spazio di misura. In uno
spazio di misura qualsiasi c`e una funzione : E [0, ] , detta appunto misura, che gode
della propriet`a della -additivit`a ma pu`o assumere qualsiasi valore reale non negativo e ad-
dirittura innito. Daltra parte se una misura assume valori niti su ogni insieme misurabile
allora la si pu`o normalizzare a una probabilit`a ponendo P(E) := (E)/(), E E .
Dai due assiomi precedenti segue:
i) P() = 0.
ii) P(E F) = P(E) +P(F) P(E F).
iii) E F P(E) P(F).
2.2 Probabilit`a 7
Dimostrazione:
i) = 1 = P() = P() +P() = 1 +P() .
ii) Si ha E F = E (F E
c
) da cui P(E F) = P(E) +P(F E
c
) ;
inoltre da F = (F E) (F E
c
) segue P(F) = P(F E) +P(F E
c
) ;
mettendo insieme queste due identit`a si ha lenunciato.
2.3
iii) Se E F si ha F = E (F E) , da cui P(F) = P(E) +P(F E) .

Ovviamente la -additivit`a vale anche per una famiglia nita di insiemi misurabili di-
sgiunti. Per una famiglia numerabile di insiemi misurabili eventualmente non disgiunti si ha
in generale
P(
nN
E
n
)

nN
P(E
n
) .
In eetti, usando ripetutamente la formula P(E F) = P(E) +P(F) P(E F) la si pu`o
generalizzare alla probabilit`a (misura) dellunione di un numero qualsiasi di insiemi misurabili.
Ad esempio
2.4
P(E) +P(F) +P(G) P(E F) P(E G) P(F G) +P(E F G) .
Una successione E
n
di insiemi si dice crescente se m < n E
m
E
n
, e decrescente se
m > n E
m
E
n
. Si dimostra:
Teorema 2.1.
Sia E
n
una successione crescente di insiemi misurabili; si ha
lim
n
P(E
n
) = P(
nN
E
n
) .
Sia F
n
una successione decrescente di insiemi misurabili; si ha
lim
n
P(F
n
) = P(
nN
F
n
) .
Dimostrazione: Poniamo E

1
E
1
, E

2
E
2
E
1
, . . . , E

n
E
n
E
n1
; allora E

n
E n,
inoltre E
n
= E

1
E

n
e
nN
E

n
=
nN
E
n
. Pertanto P(E
n
) =

n
k=1
E

k
, e
P(
nN
E
n
) =

n=1
P(E

n
) lim
n
n

k=1
P(E

n
) = lim
n
P(E
n
) .
Poniamo ora D
n
F
1
F
n
. Allora i D
n
costituiscono una successione crescente di sot-
toinsiemi di ; inoltre si ha P(D
n
) = P(F
1
) P(F
n
) ,
nN
D
n
= F
1
(
nN
F
n
) . Pertanto,
applicando alla successione D
n
il risultato precedente, si ottiene
P(F
1
) P(
nN
F
n
) = lim
n
P(D
n
) = lim
n
[P(F
1
) P(F
n
)] = P(F
1
) lim
n
P(F
n
) ,
da cui segue lenunciato.
2.3
Oppure si pu` o osservare che E F = (E \ (E F)) (F \ (E F)) (E F) , da cui
P(E F) = (P(E) P(E F)) + (P(F) P(E F)) +P(E F) = P(E) +P(F) P(E F) .
2.4
P(E F G) = P((E F) G) = P(E F) +P(G) P((E F) G) =
= P(E) +P(F) P(E F) +P(G) P((E G) (F G)) =
= P(E) +P(F) +P(G) P(E F) P(E G) P(F G) +P(E F G)
8 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
Esempio 2.1. Supponiamo che sia di cardinalit`a
2.5
[[ = n N nita, ed etichettiamo i
suoi elementi come
=
1
,
2
, . . . ,
n
.
Poniamo poi E P() , nella quale famiglia sono inclusi i singoletti
i
, i N
n
. Allora
per assegnare una probabilit`a `e suciente assegnare gli n numeri
p
i
P(
i
) , con
n

i=1
p
i
= 1 .
La misura di ogni sottoinsieme (necessariamente nito) E `e data allora da
P(E) =

E
P() ,
dove per semplicit`a si `e utilizzata la notazione P() P() . Diremo che la probabilit`a `e
uniforme se tutti i p
i
sono uguali, p
i
= 1/n i N
n
.
Esempio 2.2. Supponiamo ora che sia un insieme innito, ma numerabile, e consideriamo
unarbitraria biiezione N , ovvero una successione (
i
) la cui immagine sia tutto .
Scriviamo cio`e
=
1
,
2
, . . . ,
i
, . . . .
Come nellesempio precedente poniamo E P() , e assegnamo la probabilit`a assegnando la
successione (p
i
), a valori in [0, 1] ,
p
i
P(
i
) , con

i=1
p
i
= 1 .
Si noti che la condizione P() = 1 `e ora espressa in termini della somma di una serie, e che
tale somma `e indipendente dallordine in quanto i termini sono non negativi (convergenza
assoluta); ci`o vale anche per qualsiasi sottoinsieme (nito o innito) E , vale a dire che
si ha
P(E) =

E
P()
indipendentemente dallordine in cui sono numerati gli elementi di E . Si noti, inoltre, che
se [[ non `e nito la probabilit`a non pu`o essere uniforme, in quanto i termini di una serie
convergente devono tendere a zero.
Esempio 2.3. Consideriamo ancora uno spazio di probabilit`a (, E, P) , con

. Allora
E pu`o essere vista come una famiglia di sottoinsiemi di

, ma evidentemente non `e una -


algebra in

; per`o genera una -algebra E

P(

) , ovvero la pi` u piccola -algebra che


contiene E . Si osservi che E

contiene tutti i complementari in

degli elementi di E, ma in
generale non contiene i singoletti
2.6
di

.
2.5
La cardinalit` a di un insieme nito `e data semplicemente dal numero dei suoi elementi. Altrimenti si parla
di cardinalit`a discreta se linsieme in questione `e numerabile, oppure di di cardinalit` a del continuo se esiste
una biiezione tra linsieme ed R. Esistono poi insiemi di cardinalit` a ancora pi` u elevate (ad esempio linsieme
di tutte le funzioni R R).
2.6
Per esempio si consideri = {a, b, c} , E = P() ,

= {a, b, c, d, e} . Allora
E

=
_
, a, b, c, ab, ac, bc, abc, de, ade, bde, cde, abde, acde, bcde, abcde
_
,
dove si `e utilizzata labbreviazione abc per {a, b, c} eccetera. Nei sottoinsiemi di

appartenenti a E

i due
elementi d, e

\ compaiono entrambi o nessuno dei due.


2.3 Probabilit`a nel continuo 9
Si ottiene allora una probabilit`a su tutto

imponendo
P(E) = P(E ) , E E

,
da cui, in particolare, P(

) = 0 .
Pu`o anche darsi il caso che sia numerabile e

no; allora la probabilit`a di un elemento


di E

`e comunque espresso come somma di una serie.


Osservazione. Vogliamo vericare, in maniera un po informale, un risultato che sar`a utile
in alcune discussioni, e cio`e il fatto che linsieme Q R dei numeri razionali `e numerabile.
r r r r r r r
r r r r r r r
r r r r r r r
r r r r r r r
r r r r r r r
r r r r r r r
r r r r r r r
1
2
3
4
5
6
7
1 2 3 4 5 6 7
Facciamo vedere esplicitamente che `e possibile trovare una corrispon-
denza biunivoca tra N e linsieme (0, 1)Q dei razionali compresi tra 0
e 1 . Se contrassegnamo con un punto nel piano ogni coppia di numeri
naturali, `e chiaro che si pu`o trovare un percorso che li attraversa tutti,
oppure (come in gura) un percorso che attraversa tutti i punti corri-
spondenti alle coppie (n
1
, n
2
) tali che n
1
< n
2
. Queste coppie danno
luogo a tutti i quozienti di numeri naturali con numeratore inferiore al
denominatore, quindi a tutti gli elementi in (0, 1) Q.
A dire il vero, nella successione trovata ogni razionale viene raggiunto pi` u volte, o meglio in-
nite volte (frazioni equivalenti); perci`o va ranata saltando ogni numero che `e gi`a comparso
precedentemente. Senza entrare in dettagli formali, dovrebbe essere chiaro che in tal modo si
riesce a denire la biiezione N (0, 1) Q cercata.
2.7
Dovrebbe essere chiaro anche come si
pu`o denire una successione la cui immagine sia tutto Q (non solo (0, 1) Q) .
2.3 Probabilit`a nel continuo
Gli esempi precedenti, sia di cardinalit`a nita che innita, rientrano nel caso della probabilit`a
nel discreto. Abbiamo gi`a accennato al fatto che nel continuo alcuni aspetti sono un po
pi` u complessi e delicati, e vogliamo ora cercare di capire lessenza della questione senza troppi
tecnicismi. Per qualche dettaglio e spiegazione in pi` u si invita a leggere lAppendice C (Misura
e integrazione).
Quando si parla di probabilit`a nel continuo si intende, prima di tutto, che lo spazio
dei campioni `e un opportuno sottoinsieme di R
n
. Per esempio, potrebbe essere linterno
di una sfera o di unaltra qualsiasi supercie in R
3
, oppure la supercie stessa; ma potrebbe
anche essere un insieme non limitato, anche tutto R
3
.
Abbiamo detto che la probabilit`a `e un caso particolare di misura. Ora, in R
n
la parola
misura del linguaggio comune assume un signicato standard preciso: in R, per esempio, si
misurano le lunghezze; in R
2
si misurano le aree e le lunghezze; in R
3
i volumi, le superci e le
lunghezze; e cos` via. Queste misure (che sono legate alla nozione di integrale) sono di solito,
nei corsi di base, denite in termini della cosiddetta misura di Peano-Jordan; riassumiamone
le idee principali.
2.7
Non `e dicile scrivere un algoritmo che permetta di elencare i primi n razionali di questa successione. Per
n = 200 otteniamo (1/2, 1/3, 2/3, 3/4, 1/4, 1/5, 2/5, 3/5, 4/5, 5/6, 1/6, 1/7, 2/7, 3/7, 4/7, 5/7, 6/7, 7/8,
5/8, 3/8, 1/8, 1/9, 2/9, 4/9, 5/9, 7/9, 8/9, 9/10, 7/10, 3/10, 1/10, 1/11, 2/11, 3/11, 4/11, 5/11, 6/11, 7/11,
8/11, 9/11, 10/11, 11/12, 7/12, 5/12, 1/12, 1/13, 2/13, 3/13, 4/13, 5/13, 6/13, 7/13, 8/13, 9/13, 10/13, 11/13,
12/13, 13/14, 11/14, 9/14, 5/14, 3/14, 1/14, 1/15, 2/15, 4/15, 7/15, 8/15, 11/15, 13/15, 14/15, 15/16, 13/16,
11/16, 9/16, 7/16, 5/16, 3/16, 1/16, 1/17, 2/17, 3/17, 4/17, 5/17, 6/17, 7/17, 8/17, 9/17, 10/17, 11/17, 12/17,
13/17, 14/17, 15/17, 16/17, 17/18, 13/18, 11/18, 7/18, 5/18, 1/18, 1/19, 2/19, 3/19, 4/19, 5/19, 6/19, 7/19,
8/19, 9/19, 10/19, 11/19, 12/19, 13/19, 14/19, 15/19, 16/19, 17/19, 18/19, 19/20, 17/20, 13/20, 11/20, 9/20,
7/20, 3/20, 1/20, 1/21, 2/21, 4/21, 5/21, 8/21, 10/21) .
10 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
Figura 2: Una gura piana S (delimitata dalla linea curva, pi` u spessa) e due pluri-intervalli, uno
contenuto in essa e uno che la contiene. Le aree dei due pluri-intervalli approssimano larea di S
rispettivamente per difetto e per eccesso. Se lestremo superiore delle aree di tutti i pluri-intervalli
contenuti nella gura coincide con lestremo inferiore delle aree di tutti i pluri-intervalli contenenti la
gura, allora si dice che la gura stessa `e misurabile secondo Peano-Jordan. Tuttavia questa nozione
di misurabilit`a non ha la propriet`a della -additivit`a.
S
Ricordiamo che un iper-intervallo di R
n
`e il prodotto cartesiano di n intervalli di R (in
R
2
, per esempio, `e un rettangolo con i lati paralleli ai vettori della base canonica, in R
3
`e un
parallelepipedo, eccetera), e che un pluri-intervallo di R
n
`e lunione di un numero nito di
iper-intervalli; la misura di un pluri-intervallo in R
n
pu`o essere denita in modo naturale ed
elementare.
Per ogni sottoinsieme E R
n
indichiamo con m
#
(E) lestremo inferiore di tutte le
misure di pluri-intervalli contenenti E , e con m

(E) lestremo superiore di tutte le misu-


re di pluri-intervalli contenuti in E (gura 2). Si dice che E `e misurabile secondo Peano-
Jordan se m
#
(E) = m

(E); tuttavia, la famiglia PJ di tutti gli insiemi misurabili secondo


Peano-Jordan non `e una -algebra. Infatti, come vedremo tra poco con un esempio, la -
additivit`a non vale in PJ se non per una famiglia nita di sottoinsiemi. Quindi la funzione
m : PJ [0, +] : E m(E) := m
#
(E) = m

(E), detta misura di Peano-Jordan, non `e a


rigore una vera misura; o meglio, soddisfa una denizione di misura pi` u debole.
Esempio 2.4. Per vedere che la misura di Peano-Jordan non verica la -additivit`a osserviamo
prima di tutto che la misura di un singoletto (insieme costituito da un unico punto) `e zero,
in quanto esistono pluri-intervalli di misura arbitrariamente piccola che lo contengono. Ma
abbiamo visto che linsieme E (0, 1)Q dei numeri razionali compresi tra 0 e 1 `e numerabile,
esiste cio`e una successione (q
n
) la cui immagine coincide con E . Pertanto se valesse la -
additivit`a per m si dovrebbe avere
m(E) =

n=1
m(q
n
) =

n=1
0 = 0 .
Dalta parte, il pi` u piccolo intervallo aperto contenente E `e (0, 1) , che ha misura 1 , mentre
qualsiasi intervallo contenuto in E `e un singoletto, che ha misura zero. Dunque m
#
(E) = 1 ,
m

(E) = 0 ; poiche le due misure (superiore e inferiore) non coincidono, linsieme E considerato
2.3 Probabilit`a nel continuo 11
non `e misurabile secondo Peano-Jordan, pur essendo unione numerabile di insiemi misurabili.

E veniamo al punto essenziale della presente discussione: un teorema fondamentale aerma


che esiste in R
n
ununica misura, detta misura di Lebesgue, che soddisfa a certe condizioni
naturali e che coincide con la misura di Peano-Jordan per gli insiemi che sono misurabili
in quel senso.
2.8
In particolare, sono misurabili secondo Lebesgue tutti gli insiemi aperti.
2.9
La -algebra M P(R
n
) degli insiemi misurabili secondo Lebesgue `e cos` grande che non
si riesce a dare esempi concreti di sottoinsiemi di R
n
che non siano misurabili. E tuttavia si
dimostra che tali insiemi non misurabili esistono; `e proprio questo il punto che rende necessaria
la nozione di -algebra nella denizione di spazio di misura e, in particolare, di spazio di
probabilit`a (altrimenti si potrebbe denire una probabilit`a semplicemente come una funzione
sulla famiglia P(R
n
) di tutti i sottoinsiemi di R
n
).
Alla nozione di misura `e associata quella di integrazione; alla misura di Lebesgue `e associa-
ta lintegrazione secondo Lebesgue. Non abbiamo bisogno qui di entrare nei dettagli, baster`a
aver presente che lintegrale secondo Lebesgue coincide con il familiare integrale secondo Rie-
mann per quelle funzioni che sono integrabili in tal senso; daltra parte, una funzione pu`o
essere integrabile secondo Lebesgue ma non secondo Riemann. Inoltre la nuova nozione di
integrale ha propriet`a pi` u forti.
2.10

E
F
E F
Tutto ci`o suggerisce, in maniera naturale, esem-
pi di spazi di probabilit`a nel continuo in cui
coincide con un sottoinsieme di R
n
avente mi-
sura 1 , con la -algebra degli insiemi misura-
bili secondo Lebesgue e contenuti in . For-
se per avere unimmagine intuitiva di quello di
cui stiamo discutendo conviene avere presen-
te il caso di R
2
, che `e visualizzabile pi` u facil-
mente (le questioni essenziali sono comunque
le medesime in qualunque dimensione). Sup-
poniamo per esempio che sia un quadrato
di lato 1 . La probabilit`a di un suo sottoin-
sieme misurabile `e semplicemente la sua area
(vedi gura a lato, dove anche la propriet`a
P(E F) = P(E) +P(F) P(E F) risulta
di immediata comprensione).
Questo spazio di probabilit`a matematico potrebbe rappresentare una situazione reale di un
esperimento aleatorio? Possiamo pensare che sia il fondo di un pozzo, avente pareti cos`
irregolari che una pallina di estensione trascurabile, lanciata dentro di esso, per eetto degli
urti contro le pareti stesse atterri in un punto del tutto imprevedibile. Allora la probabilit`a
che la pallina atterri in un qualche sottoinsieme E `e proporzionale allarea di : non c`e
alcuna preferenza tra due zone diverse ma aventi la medesima area.
`
E naturale quindi parlare
2.8
Si veda lAppendice C per un enunciato preciso del teorema. Per la dimostrazione, e per una discussione
pi` u approfondita della misura di Lebesgue, si consiglia di consultare il volume di Analisi II di E. Giusti [5].
2.9
In R
n
possiamo considerare la -algebra B generata da tutti gli aperti; gli elementi di B sono detti Boreliani
(in particolare sono Boreliani gli insiemi chiusi). Si noti, tuttavia, che la -algebra Mdella misura di Lebesgue
`e pi` u grande di B, cio`e esistono insiemi misurabili secondo Lebesgue che non sono Boreliani. Lestensione da B a
M`e importante perche la conseguente nozione di integrazione secondo Lebesgue ha propriet` a particolarmente
buone.
2.10
In particolare sono richieste alla funzione propriet` a meno vincolanti per poter derivare sotto il segno di
integrale.
12 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
di probabilit`a uniforme, analoga alla probabilit`a uniforme su un insieme nito. Daltra
parte, si osservi ancora che potremmo suddividere il quadrato in 25 quadrati di lato 0.2 (per
esempio), e chiederci non in che punto atterra la pallina ma soltanto in quale dei quadrati
pi` u piccoli; saremmo allora tornati nel caso discreto, con probabilit`a uniforme pari a 1/25 per
ciascun quadratino.
Come ulteriore esempio in cui lo spazio dei campioni `e una supercie si consideri il seguente:
un meteorite, abbastanza grande da non essere distrutto nellattraversamento dellatmosfera,
sta per nire sulla Terra, ma non sappiamo quando avverr`a limpatto ne da quale direzione
arriver`a. In base ai dati che abbiamo non siamo quindi in grado di fare alcuna previsione
riguardo al punto della supercie terrestre in cui avverr`a limpatto, pertanto il problema `e
descritto da uno spazio di probabilit`a in cui lo spazio dei campioni `e una supercie sferica e
la probabilit`a `e uniforme, cio`e la probabilit`a che il meteorite atterri in una supercie di area
A `e pari ad A/(4R
2
) essendo R il raggio della Terra.
Daltra parte una situazione di incertezza cos` totale non `e realistica. Gli astronomi hanno
di solito unidea abbastanza precisa della direzione da cui proviene un meteorite e di quando
entrer`a nellatmosfera; saranno quindi in grado di calcolare dove atterrer`a, anche se non con
precisione assoluta. In altri termini, sapranno determinare una distribuzione di probabilit`a
non uniforme, con valore alto in una certa area e basso in unaltra area avente la mede-
sima supercie (se limpatto `e previsto nella zona di Arcore, noi a Firenze possiamo stare
relativamente tranquilli, e ancora pi` u tranquilli saranno in Nuova Zelanda).
`
E facile trovare altri esempi di probabilit`a non uniforme nel continuo. Nel caso dello
sparo di un proiettile dartiglieria, per esempio, la probabilit`a di impatto sar`a pi` u grande
in prossimit`a del bersaglio (stante un minimo di competenza da parte dellartigliere); nel
caso della disintegrazione radioattiva, la probabilit`a che avvenga in un dato intervallo di
tempo non pu`o essere proporzionale alla lunghezza dellintervallo (altrimenti per intervalli
sucientemente grandi si avrebbe probabilit`a maggiore di 1). Lo studente pu`o sbizzarrirsi a
cercare ulteriori esempi.
Per caratterizzare una probabilit`a non uniforme nel continuo utilizziamo la nozione di
densit`a di probabilit`a. Se R
n
`e un insieme misurabile, si dice densit`a una funzione
misurabile
2.11
p : [0, )
tale che
_

p = 1 .
Si ottiene allora lo spazio di probabilit`a (, M, P) dove M`e la famiglia di sottoinsiemi di
che sono misurabili (secondo Lebesgue) e, per ciascun E M, la probabilit`a `e data
P(E) =
_
E
p .
2.11
f : R si dice misurabile se la preimmagine di un aperto `e un insieme misurabile. La nozione di
integrabilit` a, in teoria della misura, `e denita per le funzioni misurabili.
2.4 Distribuzioni e delta di Dirac 13
Esempio 2.5. Uno dei casi pi` u comuni e importanti di densit`a di probabilit`a, in R, `e
dato dalla densit`a normale, o Gaussiana,
3 2 1 1 2 3
0.1
0.2
0.3
0.4
p(x) =
1

2
exp
_

(x )
2
2
2
_
.
Si dimostra che, in eetti,
_
+

p(x) dx = 1 .
Il graco di p(x) per = 0 e = 1 `e riportato qua
accanto.
Le costanti e
2
sono dette rispettivamente media e varianza della distribuzione (vedremo
pi` u avanti il signicato di questi termini i generale). La densit`a normale `e descritta pi` u in
dettaglio nel 6.5.
2.4 Distribuzioni e delta di Dirac
La probabilit`a (e, pi` u in generale, la misura) pu`o essere trattata in forme molto simili nel
discreto e nel continuo, tanto `e vero che quando i due casi vengono svolti separatamente ne
risulta una forte sovrapposizione, con molti enunciati quasi identici. In eetti `e possibile fare
una trattazione unicata, che si specializza nel modo giusto a seconda dei casi. Ci`o si ottiene
mendiante una nozione generalizzata di distribuzione; per svilupparla in maniera completa
e rigorosa ci vorrebbe un intero corso, ma poi risulta facilmente maneggiabile, almeno per
quanto serve a noi, in termini di alcune idee essenziali relativamente semplici.
Osservazione. Una prima maniera abbastanza immediata per mettere in relazione i due casi
consiste nel notare come la probabilit`a nel discreto rientri sostanzialemente nella descrizione
in termini di densit`a introdotta nel 2.3. Infatti la nozione di sommatoria coincide con quella
di integrale relativamente alla misura discreta (per qualche dettaglio a questo proposito si
veda lAppendice C). Allora, in questambito, lapplicazione
p : [0, 1] : P()
pu`o essere vista come la densit`a. Ci sono tuttavia alcuni aspetti, della relazione tra caso
discreto e caso continuo, che possono essere chiariti meglio introducendo la suddetta nozione
di distribuzione.
Partiamo da un esempio che ci permetta di capire lidea di base. Consideriamo la succes-
sione di funzioni f
n
(x) il cui termine n-esimo `e la densit`a Gaussiana (vedi esempio 2.5) con
media e varianza = 1/n (i primi 5 termini sono riportati in gura 3). Notiamo subito
che, rimanendo sempre
_
R
f
n
(x) dx = 1 n N, al cresecere di n il graco si appiattisce ai
margini e si restringe al centro, mentre il valore massimo n/

2 cresce. In sostanza possiamo


dire che il grosso dellarea sotto al graco si concentra sempre di pi` u nellintorno di x = ;
pi` u precisamente, si verica facilmente quanto segue: se [a, b] R allora
lim
n
_
b
a
f
n
(x) dx = 1 ,
mentre se , [a, b] R allora
lim
n
_
b
a
f
n
(x) dx = 0 .
14 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
Figura 3: Graco della densit`a normale per = 1, 1/2, 1/3, 1/4, 1/5 .
x=
=
1
5
=
1
4
= 1
Inoltre se : R R `e continua su R, si ha
lim
n
_
+

(x) f
n
(x) dx = () .
La successione di funzioni (f
n
) ora considerata non `e certo lunica ad avere queste stesse
propriet`a; per esempio `e facile vericare (usare il teorema della media integrale) che sono
soddisfatte dalla successione (g
n
) denita da
g
n
(x) =
_
_
_
n, x [
1
2n
,
1
2n
] ,
0 , [x [ >
1
2n
.
Esprimiamo quanto sopra nei termini seguenti: loperazione di passaggio al limite
lim
n
_
+

(x) f
n
(x) dx = lim
n
_
+

(x) g
n
(x) dx = ()
denisce unapplicazione () che associa a ogni funzione continua un numero, e pre-
cisamente il suo valore in x = . Tale applicazione `e ovviamente lineare,
2.12
e pertanto `e
appropriato, usando una terminologia comune in Analisi, dirla un funzionale. Questo partico-
lare funzionale `e detto delta di Dirac,
2.13
e viene indicato con il simbolo

. Pi` u in generale, un
funzionale lineare su uno spazio di funzioni sucientemente regolari `e detto una distribuzio-
ne.
2.14
Ogni distribuzione pu`o essere vista come limite, nel senso sopra esemplicato, di una
successione di funzioni ordinarie; diremo allora che la successione di funzioni `e una particola-
re rappresentazione della distribuzione (una data distribuzione ha innite rappresentazioni).
In particolare, un funzione ordinaria f sucientemente regolare pu`o essere vista come una
distribuzione, mediante la legge

_
+

(x) f(x) dx .
2.12
r +s r () +s () .
2.13
Paul Dirac (19021984), sico britannico e premio Nobel, ha dato contributi fondamentali alla meccanica
quantistica e allelettrodinamica quantistica.
2.14
Lo spazio delle distribuzioni che si considerano `e diverso a seconda del tipo di funzioni a cui vanno applicate;
in questa sede rimaniamo nel generico a questo proposito.
2.4 Distribuzioni e delta di Dirac 15
Se poi f `e una qualsiasi distribuzione, anche non caratterizzabile come funzione, si utilizza
lo stesso la notazione qua sopra; in eetti le principali propriet`a delle distribuzioni possono
essere descritte formalmente come propriet`a dellintegrale (una distribuzione `e anche detta
funzione generalizzata). Per esempio si scrive

()
_
+

(x)

(x) dx
_
+

(x) (x ) dx ,
come se la distribuzione delta di Dirac fosse caratterizzabile mediante una vera funzione (x)

0
(x) . Se dovessimo provare a fare il graco di questa funzione verrebbe zero dappertutto
tranne che in x = , dove avrebbe valore innito, e con inegrale su R pari a 1 (un tempo si
usava talvolta rappresentarla come una freccia verso lalto posizionata in x = ).
Osservazione. Il modo in cui Dirac introdusse la non fu aatto preciso dal punto di vista
matematico, tuttavia grazie alla sua geniale intuizione fu in grado di individuarne le propriet`a
essenziali e di utilizzarla con sicurezza. Solo dopo diversi anni la teoria delle distribuzioni
venne formulata rigorosamente.
Per noi, lo scopo principale di tutti questi discorsi `e quello di scrivere lanalogo di una
densit`a per una probabilit`a nel continuo in cui un sottoinsieme numerabile abbia probabilit`a
1 . Consideriamo per esempio lesperimento lancio di una dado (3.7), in cui lo spazio dei
campioni `e = 1, 2, 3, 4, 5, 6 . Se si considera R, abbiamo lo spazio di probabilit`a
(R, M, P) con densit`a generalizzata
p = p
1

1
+p
2

2
+p
3

3
+p
4

4
+p
5

5
+p
6

6
,
dove p
i
P(i) . Allora ogni sottoinsieme misurabile A R che non contenga uno dei sei
possibili risultati del lancio di un dado ha probabilit`a zero; altrimenti, tenendo conto delle
denizioni e convenzioni introdotte si ha
P(A) =
_
+

p(x) dx =

iA
p
i
,
ovvero un integrale (formale) `e diventato in pratica una somma.
Per estendere il discorso precedente, notiamo che una funzione integrabile pu`o essere ap-
prossimata nel senso delle distribuzioni, e con precisione arbitraria, come una combinazione
lineare di pi` u delta di Dirac. Per capire lessenza di questo discorso supponiamo di voler cal-
colare lintegrale di f sullintervallo [a, b] ; suddividiamolo in n sottointervalli [x
i
, x
i+1
] con
x
0
a , x
n
b , e consideriamo la distribuzione
f
n
=
n

i=1
(x
i
x
i1
) f(x
i
)
x
i
(x
1
x
0
) f(x
1
)
x
1
+ + (x
n
x
n1
) f(x
n
)
xn
;
allora
_
b
a
f
n
(x) (x) dx = (x
1
x
0
) f(x
1
) (x
1
) + + (x
n
x
n1
) f(x
n
) (x
n
)

=

=
_
b
a
f(x) (x) dx ,
dove lapprossimazione `e tanto migliore quanto pi` u tta `e la partizione di [a, b] . Si noti che,
in sostanza, stiamo rifacendo in maniera dierente lapprossimazione dellintegrale mediante
lintegrale di una funzione costante a tratti.
16 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
Osservazione. Nellambito dellanalogia tra densit`a di probabilit`a e densit`a di massa di un
continuo, la delta di Dirac descrive una massa concentrata in un punto , cio`e la massa di quello
che in Meccanica si chiama un punto materiale.
La delta di Dirac non `e aatto lunica distribuzione che non possa essere rappresentata
mediante una funzione vera e propria. In generale, se (f
n
) `e una successione di funzioni tali
che per ogni funzione sucientemente regolare e per ogni sottoinsieme compatto K R
esista nito il limite lim
n
_
K
f
n
(x) (x) dx, allora diciamo che la successione (f
n
) denisce una
distribuzione f lim
n
f
n
, e si scrive
lim
n
_
K
f
n
(x) (x) dx
_
K
f(x) (x) dx
anche se a rigore f non `e una vera e propria funzione (si parla anche di funzione generalizza-
ta). Gli spazi di distribuzioni sono molto ampi e interessanti, ma in questa sede ci limitiamo
essenzialmente a considerare la delta di Dirac e poche altre nozioni associate ad essa.
Osservazione. Consideriamo ancora la successione di funzioni (g
n
) sopra introdotta, e che
costituisce una particolare rappresentazione di

.
`
E immediato vericare che una primitiva
di g
n
`e la funzione G
n
denita da
G
n
(x) =
_
x

g
n
(x

) dx

=
_

_
0 , x
1
2n
,
n(x ) +
1
2
,
1
2n
< x <
1
2n
,
1 , x
1
2n
.
Per n questa successione di funzioni tende puntualmente alla funzione
2.15
G

(x)
1
2
_
1 + sign(x )
_
=
_

_
0 , x 0 ,
1
2
, x = 0 ,
1 , x > 0 ,
che corrisponde alla distribuzione

_
+

(x) dx .
Quando si parla di distribuzioni possiamo quindi dire che la delta di Dirac

`e la derivata della
distribuzione denita dalla funzione G

.
2.16
Daltra parte, si pu`o osservare che se si modica
una funzione in un punto
2.17
non cambiano gli integrali in cui viene inserita; pertanto la
distribuzione corrispondente alla G

pu`o essere anche rappresentata mediante la funzione


scalino
2.18
continua a destra
H

(x)
_
_
_
0 , x < 0 ,
1 , x 0 .
2.15
sign(x) x/|x| `e la funzione segno (con sign(0) = 0 ).
2.16
In eetti si pu`o dare una denizione precisa di derivata di una distribuzione, che porta a questo risultato.
Inoltre si arriva alla medesima conclusione se si rappresenta la delta mediante una dierente successione di
funzioni ordinarie, per esempio la successione (fn) di distribuzioni Gaussiane (le cui primitive sono date dalla
funzione dellerrore erf , vedi 6.5).
2.17
O anche in un innit` a numerabile di punti, o pi` u in generale su un insieme di misura nulla.
2.18
In Fisica detta spesso funzione di Heaviside.
2.5 Probabilit`a condizionale 17
Questa rappresentazione sar`a utile per descrivere in maniera unicata la funzione di riparti-
zione di una distribuzione di probabilit`a (4.3). Scriveremo quindi

= H

2.5 Probabilit`a condizionale


Denizione 2.3 Sia (, E, P) uno spazio di probabilit`a. Siano poi E, F E , con P(E) ,= 0 .
Diciamo probabilit`a condizionale di F rispetto ad E il numero
P(F[E) :=
P(E F)
P(E)
[0, 1] .
Per quanto riguarda P(F[E) [0, 1] osserviamo che da E F E segue P(E F) P(E) .
In eetti, una volta ssato E E con P(E) ,= 0 otteniamo un nuovo spazio di probabilit`a
(E, E
E
, P
E
) dove
E
E
= E F, F E ,
P
E
(F

) = P(F

)/P(E) , F

E
E
.
Un altra maniera di vedere la cosa `e la seguente: P
E
`e unaltra probabilit`a su , che assegna
probabilit`a zero agli eventi disgiunti da E .
Per comprendere il signicato della denizione ora data, pensiamo di eseguire molte volte
lesperimento descritto dallo spazio di probabilit`a (, E, P) . Circa in una frazione P(E) di
volte si verica levento E, mentre circa in una frazione P(E F) di volte si vericano sia
levento E che levento F. Dunque la relazione P(E F) = P(E) P(F[E) pu`o essere letta
nel modo seguente: di tutte le volte in cui si `e vericato levento E, in circa una frazione
P(F[E) delle volte si verica anche F. Quindi P(F[E) `e la probabilit`a che si verichi F
quando sappiamo che E si `e vericato.
Esempio 2.6. Lesperimento sia estrazione di una carta da un mazzo di 40 (carte della
briscola). Levento F = esce un fante ha probabilit`a P(F) = 4/40 = 1/10 . Sia poi E =
esce una gura (fante, donna, re), P(E) = 12/40 = 3/10 ; poiche F E si ha P(E F) =
P(F) = 1/10 , e P(F[E) = P(E F)/P(E) = 1/3 : sapendo che `e uscita una gura, la
probabilit`a che si tratti di un fante `e 1/3 .
Esempio 2.7. Nellesperimento lancio di un dado regolare con 20 facce, dunque = N
20
, sia
E = 2, 3, 5, 7, 11, 13, 17, 19 = esce un numero primo, e F = N
12
= esce un numero non
superiore a 12. Si ha P(E) = 8/20 = 2/5 , E F = 2, 3, 5, 7, 11 , P(E F) = 5/20 = 1/4 ,
P(F[E) = P(E F)/P(E) = 5/8 : sapendo che `e uscito un numero primo, la probabilit`a che
questo sia un numero non superiore a 12 `e 5/8 .
Se (, E, P) `e uno spazio di probabilit`a ed E, F E sono eventi qualsiasi, dalla denizione
di probabilit`a condizionale si ha P(F E) = P(F) P(E[F) = P(E) P(F[E) , da cui
P(F[E) = P(E[F)
P(F)
P(E)
.
Utilizzando questa identit`a si ottiene il
18 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
Teorema 2.2. (formula di Bayes)
Sia F
i
, i N, una famiglia (anche innita purche numerabile) di sottoinsiemi costituente
una partizione
2.19
di . Allora se E E `e un qualsiasi altro evento si ha
P(F
i
[E) =
P(F
i
) P(E[F
i
)
P(E)
=
P(F
i
) P(E[F
i
)

j
P(F
j
) P(E[F
j
)
.
Dimostrazione: Per quanto sopra osservato, per ciascun i N
n
si ha
P(F
i
E) = P(F
i
) P(E[F
i
) ,
da cui
P(F
i
[E) =
P(F
i
E)
P(E)
=
P(F
i
) P(E[F
i
)
P(E)
.
Inoltre gli n eventi F
i
E sono due a due disgiunti e la loro unione `e E , pertanto
P(E) =

jN
P(F
j
E) =

jN
P(F
j
) P(E[F
j
) ,
da cui segue lultimo membro dellenunciato.
La formula di Bayes esprime le probabilit`a condizionali P(F
i
[E) in termini delle P(E[F
i
) ,
e ci`o permette di utilizzarla per valutare la probabilit`a che un dato evento sia la causa di un
fenomeno osservato. Il seguente esempio illustra questo modo di ragionare.
Esempio 2.8. Un medico deve fare una diagnosi, dopo che lanamnesi ha ristretto le pos-
sibilit`a a una di tre patologie A, B e C (escludendo che due o pi` u patologie siano presenti
contemporaneamente); i sintomi non danno alcuna indicazione di preferenza, ma uno studio
statistico sulla popolazione mostra che, tra i casi in cui A, B o C `e presente, lincidenza `e
rispettivamente del 45%, 30% e 25%.
Il medico prescrive allora al paziente quattro esami clinici, e
1
, e
2
, e
3
ed e
4
, ciascuno dei
quali pu`o dare un risultato positivo (+) o negativo () . Da unaltro studio statistico `e stata
dedotta la tabella di gura 4, che riporta la probabilit`a di risultato positivo di ciascun esame in
presenza di ciascuna delle patologie. I possibili risultati della quaterna di esami sono 2
4
= 16 ,
Figura 4: Probabilit`a condizionali P(e
i
[A) , P(e
i
[B) , P(e
i
[C) per i = 1, 2, 3, 4
e
1
(+) e
2
(+) e
3
(+) e
4
(+)
A 78% 22% 8% 2%
B 12% 65% 35% 6%
C 3% 9% 58% 72%
e di ciascuno di essi possiamo, a partire dalla precedente tabella, calcolare la probabilit`a in
presenza di ciascuna patologia (tabella a sinistra nella gura 5). Lapprossimazione a 4 cifre
decimali (discutibile in quanto i dati dei singoli esami erano dati con due cifre decimali) serve
per controllare che la somma di ciascuna colonna viene (circa) 1 . Infatti i dati di ciascuna
colonna sono la distribuzione di probabilit`a sullo spazio dei campioni costituito dai possibili
2.19
Ci` o signica che gli Fi sono due a due disgiunti e che la loro unione costituisce tutto .
2.5 Probabilit`a condizionale 19
Figura 5: Probabilit`a dei risultati della quaterna di esami clinici per ciascuna patologia
considerata.
A B C
0.1547 0.1882 0.1038
+ 0.0032 0.0120 0.2669
+ 0.0135 0.1013 0.1434
++ 0.0003 0.0065 0.3686
+ 0.0436 0.3495 0.0103
++ 0.0009 0.0223 0.0264
+ + 0.0038 0.1882 0.0142
+ ++ 0.0001 0.0120 0.0365
+ 0.5485 0.0257 0.0032
++ 0.0112 0.0016 0.0083
++ 0.0477 0.0138 0.0044
+++ 0.0010 0.0009 0.0114
+ + 0.1547 0.0477 0.0003
+ ++ 0.0032 0.0030 0.0008
+ + + 0.0135 0.0257 0.0004
+ + ++ 0.0003 0.0016 0.0011
A B C
0.0696 0.0565 0.0260
+ 0.0014 0.0036 0.0667
+ 0.0061 0.0304 0.0358
++ 0.0001 0.0019 0.0922
+ 0.0196 0.1048 0.0026
++ 0.0004 0.0067 0.0066
+ + 0.0017 0.0565 0.0035
+ ++ 0.0000 0.0036 0.0091
+ 0.2468 0.0077 0.0008
++ 0.0050 0.0005 0.0021
++ 0.0215 0.0041 0.0011
+++ 0.0004 0.0003 0.0029
+ + 0.0696 0.0143 0.0001
+ ++ 0.0014 0.0009 0.0002
+ + + 0.0061 0.0077 0.0001
+ + ++ 0.0001 0.0005 0.0003
risultati dei quattro esami, conosciuta la patologia.
2.20
Per`o lo spazio dei campioni appro-
priato per questa situazione `e un altro: `e linsieme di tutte le coppie (X, E) dove X = A, B, C ,
ed E `e una qualsiasi delle 16 possibili quaterne di risultati degli esami. Si ottiene la distri-
buzione di probabilit`a appropriata su questo spazio dei campioni moltiplicando i valori delle
colonne rispettivamente per 0.45, 0.30 e 0.25 (le incidenze relative delle tre patologie); questa
distribuzione `e riportata nella tabella di destra in gura 5 (dove ora `e la soma di tutti i dati
che fa 1).
Esaminiamo ora tutto ci`o in termini della formula di Bayes. I tre eventi (A, E) , (B, E) ,
e (C, E) , ciascuno costituito da tutti gli atomi la cui probabilit`a `e scritta in una delle colonne
della tabella di destra, svolgono il ruolo degli F
i
della formula (i = 1, 2, 3). Se non c`e pericolo
di confusione li indichiamo, per brevit`a, semplicemente come A, B, C , e scriviamo
P(A) = 0.45 , P(B) = 0.3 , C = 0.25 .
Allo stesso modo ciascun esito E della quaterna di esami clinici pu`o essere identicato con un
evento E , e la sua probabilit`a P(E) `e la somma dei valori riportati nella relativa riga
della tabella a destra in gura 5.
Torniamo ora al medico; se gli esami clinici danno come risultato E, con la formula di
Bayes pu`o calcolare
P(A[E) =
P(A) P(E[A)
P(E)
=
P(A) P(E[A)
P(A) P(E[A) +P(B) P(E[B) +P(C) P(E[C)
;
analogamente, sostituendo A con B e con C al numeratore della formula pu`o calcolare P(B[E)
e P(C[E) . I dati P(A) , P(B) e P(C) sono conosciuti, come si `e detto, e li abbiamo scritti
2.20
`
E in sostanza lo spazio dei campioni di uno schema di Bernoulli di 4 lanci di una moneta (3).
20 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
poco sopra. I dati P(E[A) , P(E[B) e P(E[C) li deve dedurre dai dati della tabella di gura 4,
e sono poi i numeri contenuti nella tabella a sinistra nella gura 5. Non gli serve di ricavarseli
tutti, ma solo quelli relativi al risultato ottenuto negli esami clinici (contenuti nella relativa
riga della suddetta tabella).
Facciamo un esempio nellesempio: il risultato dellesame sia E = ++ . Allora il
medico si calcola prima di tutto
P(E[A) = 0.0477 , P(E[B) = 0.0138 , P(E[C) = 0.0044 ,
cio`e i valori riportati nellundicesima riga di dati della tabella a sinistra di gura 5. Sostituendo
nella formula di Bayes trova
P(A[E) P(A[ ++) = 0.8034 ,
P(B[E) P(B[ ++) = 0.1552 ,
P(C[E) P(C[ ++) = 0.0415 .
Pertanto, approssimando alle due cifre decimali, il medico pu`o valutare intorno all80% la
probabilit`a che il paziente sia aetto dalla patologia A, intorno al 16% la probabilit`a che si
tratti della B, e la C intorno al 4%. Si noti che il medico, in sostanza, deve solo applicare
una formula: non ha bisogno di costruirsi il modello probabilistico completo, con lo spazio
dei campioni e la tabella di gura 5 a destra; tutto ci`o `e servito a noi per chiarirci le
idee (speriamo). Non avendo i problemi del medico a maneggiare i numeri possiamo produrre
Figura 6: Probabilit`a condizionale di ciascuna patologia per ciascun possibile risultato degli
esami clinici (esempio 2.8).
A B C
0.4579 0.3714 0.1707
+ 0.0198 0.0502 0.9300
+ 0.0837 0.4205 0.4957
++ 0.0013 0.0206 0.9781
+ 0.1546 0.8252 0.0202
++ 0.0293 0.4887 0.4820
+ + 0.0277 0.9149 0.0574
+ ++ 0.0027 0.2826 0.7147
+ 0.9667 0.0302 0.0031
++ 0.6635 0.0647 0.2718
++ 0.8034 0.1552 0.0415
+++ 0.1233 0.0745 0.8022
+ + 0.8288 0.1702 0.0009
+ ++ 0.5599 0.3596 0.0804
+ + + 0.4367 0.5554 0.0079
+ + ++ 0.1378 0.5479 0.3143
unultima tabella (gura 6), dove sono riportati i valori di P(A[E) , P(B[E) e P(C[E) per tutti
i possibili risultati degli esami clinici. La somma di ciascuna riga fa (circa) 1, come devessere
2.5 Probabilit`a condizionale 21
in quanto abbiamo basato il nostro modello probabilistico sullipotesi che il paziente abbia
una e una sola delle tre patologie considerate. Osserviamo che in alcuni casi lindicazione `e
netta, in altri meno.
Insomma: la formula di Bayes ci ha permesso di calcolare la probabilit`a che una data
patologia sia la causa di un eetto osservato (il risultato dellesame clinico), a partire dalla
conoscenza delle probabilit`a condizionali che i vari possibili risultati siano eetto delle pato-
logie.

Esempio 2.9. Un prodotto viene commercializzato in quattro versioni: A, B, C e D. Una


ricerca di mercato, i cui risultati sono raccolti nella tabella riportata in basso a sinistra in
gura 7, ha permesso di determinare la frequenza con cui gli gli acquirenti appartenenti a
cinque diverse fasce det`a acquistano una versione o laltra. Si conoscono inoltre le dimensioni
Figura 7: Tabelle relative allesempio 2.9: consistenza relativa delle fasce det`a (in alto), risul-
tati della ricerca di mercato (in basso a sinistra) e probabilit`a di fascia det`a dellaquirente
per tipo di prodotto, calcolate con la formula di Bayes (in basso a destra).
F
1
(20 32) F
2
(33 45) F
3
(46 58) F
4
(59 71) F
5
( > 72)
P(F
i
) 25% 22% 20% 18% 15%
P(A[F
i
) P(B[F
i
) P(C[F
i
) P(D[F
i
)
F
1
37% 19% 11% 4%
F
2
25% 31% 24% 11%
F
3
18% 22% 31% 23%
F
4
12% 16% 19% 34%
F
5
8% 12% 15% 28%
F
1
F
2
F
3
F
4
F
5
A 43% 25% 17% 10% 6%
B 23% 33% 21% 14% 9%
C 14% 27% 31% 17% 11%
D 5% 13% 25% 33% 23%
relative delle fasce det`a, che possono essere espresse in termini delle probabilit`a P(F
i
) che
un individuo di almeno ventanni, scelto a caso, appartenga alla fascia F
i
(gura 7, tabella
in alto). Utilizzando questi dati si possono calcolare, con la formula di Bayes, le probabilit`a
P(A[F
i
), P(B[F
i
) eccetera che lacquisto di un dato tipo di prodotto sia stato fatto da un
appartenente alle varie fasce det`a. Ad esempio, la probabilit`a che lacquisto di un prodotto
di tipo C sia stato fatto da un individuo di et`a compresa tra i 33 e i 45 anni (seconda fascia)
`e
P(F
2
[C) =
P(F
2
) P(C[F
2
)

5
j=1
P(F
j
) P(C[F
j
)

= 0.27 .
I risultati di calcoli analoghi per tutti i tipi di prodotto e per tutte le fasce det`a sono riportati
nella tabella in basso a destra di gura 7, con unapprossimazione di due cifre decimali (la
somma di ciascuna riga pu`o non venire esattamente 1).
22 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
2.6 Indipendenza
Denizione 2.4 Sia (, E, P) uno spazio di probabilit`a. Due eventi E, F E si dicono
indipendenti
2.21
se
P(E F) = P(E) P(F) .
Dalla denizione di probabilit`a condizionale segue allora subito che, se E, F E sono
indipendenti, si ha P(E[F) = P(E) e P(F[E) = P(F) . In termini discorsivi, il fatto che F
si sia vericato non modica la probabilit`a del vericarsi di E (e viceversa): se abbiamo
linformazione che F si `e vericato, ci`o non ci consente di migliorare le nostre previsoni
riguardo ad E .
Un esempio usuale di eventi indipendenti `e dato dallesperimento due lanci di una mo-
neta, che tratteremo in dettaglio nel 3: `e intuitivo che il risultato del secondo lancio `e
indipendente dal risultato del primo, in quanto la moneta non ricorda niente e non pu`o
essere inuenzata dalle esperienze precedenti (vericheremo poi formalmente lindipendenza
degli eventi suddetti nellambito del modello probabilistico),
Meno intuitiva, almeno per alcuni, `e la nozione che il risultato di unestrazione del lotto
sia indipendente dai risultati precedenti.
Pi` u in generale:
Denizione 2.5 Gli eventi di una famiglia F E sono detti due a due indipendenti se
P(E F) = P(E) P(F) per ogni coppia di eventi E, F F . Pi` u in generale, gli eventi di F
sono detti indipendenti se per ogni sottofamiglia nita E
i
F , i N
n
, si ha
P
_
n

i=1
E
i
_
=
n

i=1
P(E
i
) .
Gli eventi di una famiglia possono essere indipendenti due a due, ma non indipendenti nel
senso pi` u ampio. Per esempio si consideri lesperimento lancio di un dado regolare con 4 facce
(tetraedro), con = 1, 2, 3, 4 , e la famiglia costituita dagli eventi E
1
= 1, 4 , E
2
= 2, 4 ,
E
3
= 3, 4 .
`
E immediato allora vericare che gli E
i
sono due a due indipendenti; infatti
P(E
i
) = 1/2 , e lintersezione di due distinti di essi `e 4 che ha probabilit`a 1/4 ; tuttavia
P(E
1
E
2
E
3
) = P(4) =
1
4
,=
1
8
= P(E
1
) P(E
2
) P(E
3
) .
2.21
Questa nozione di indipendenza stocastica non va confusa con quella di indipendenza lineare tra elementi
di uno spazio vettoriale. Sono nozioni che non hanno niente a che fare luna con laltra.
23
3 Schema di Bernoulli
Da qui in poi `e necessario conoscere le nozioni basilari di calcolo combinatorio (A).
3.1 Testa o croce
In Italiano si dice testa o croce anche se la croce non `e pi` u riportata nelle monete attuali.
Le espressioni equivalenti in altre lingue sono dierenti.
3.1
Allora potremmo semplicemente
contrassegnare le due facce di una moneta con i numeri 0 e 1 (magari intendendo alloccorrenza
0 = testa). Pertanto nellesperimento lancio di una moneta lo spazio dei campioni `e
= 0, 1 .
Poiche siamo nel caso discreto, la famiglia E di tutti i sottoinsiemi misurabili coincide con la
famiglia P() di tutti i sottoinsiemi di . Per questo particolare esempio `e facile elencare
esplicitamente tali sottoinsiemi; si ha
P() =
_
, 0, 1, 0, 1
_
.
Di regola, se la moneta non `e truccata, si ha P(0) = P(1) = 1/2 . Altrimenti, in generale,
si pu`o avere P(0) = p [0, 1] e quindi la probabilit`a completa `e data da
P() = 0 , P(0) p
0
= p , P(1) p
1
= 1 p , P(0, 1) = p
0
+p
1
= 1 .
3.2 Due lanci
Consideriamo ora lesperimento due lanci di una moneta; si ha
=
_
(0, 0), (0, 1), (1, 0), (1, 1)
_
,
ovvero lo spazio dei campioni `e costituito da tutte le coppie ordinate di risultati del lancio di
una moneta: il primo elemento di una coppia `e il risultato del primo lancio, il secondo elemento
`e il risultato del secondo lancio.
3.2
Poiche [[ = 4 , si ha [P()[ = 2
4
= 16 (per esercizio,
scrivere esplicitamente tutti i sottoinsiemi di ). La probabilit`a `e determinata quando si
conoscono le probabilit`a dei singoletti. C`e un modo naturale per assegnare questa probabilit`a
nel caso in esame. Ragioniamo infatti come segue: se la moneta che lanciamo due volte `e la
medesima che, nel lancio singolo, d`a P(0) = p , allora eseguendo un gran numero di coppie
di lanci una frazione circa uguale a p di queste coppie avr`a 0 come primo elemento; di queste,
una frazione circa uguale a p avr`a 0 anche come secondo elemento, mentre una frazione circa
uguale a 1 p avr`a 1 come secondo elemento; in maniera analoga si pu`o ragionare per le
coppie che hanno 1 come primo elemento. Siamo quindi portati ad assegnare le probabilit`a
P(0, 0) = p
2
, P(0, 1) = P(1, 0) = p (1 p) , P(1, 1) = (1 p)
2
.
Si verica poi subito che P(0, 0) +P(0, 1) +P(1, 0) +P(1, 1) = 1 . In particolare, se p = 1/2
allora abbiamo ancora probabilit`a uniforme: P(0, 0) = P(0, 1) = P(1, 0) = P(1, 1) = 1/4 .
3.1
Roma antica: caput aut navis; in inglese: head and tail ; Germania: Kopf oder Zahl (testa o numero);
Irlanda: Heads or Harps (teste o arpe); Brasile: Cara ou Coroa (faccia o corona); Messico: Aguila o Sol
(aquila o sole); Honk Kong: testa o parola (il valore delle monete `e scritto per esteso).
3.2
Si noti che la descrizione matematica `e identica se lesperimento consiste invece nel lancio contemporaneo
di due monete (purche le monete rimangano sempre distinguibili).
24 3 SCHEMA DI BERNOULLI
Il ragionamento che ci ha portato ad assegnare le probabilit`a per gli atomi di si basa in
sostanza sulla nozione che il risultato del secondo lancio non dipende dal risultato del primo.
In eetti se E
1
ed E
2
sono gli eventi caratterizzabili rispettivamente come viene 0 al primo
lancio e viene 0 al secondo lancio, allora
E
1
= (0, 0), (0, 1) , E
2
= (0, 0), (1, 0) ,
che sono risultano formalmente indipendenti in quanto
P(E
1
) = P(E
2
) = p
2
+p (1 p) = p , P(E
1
E
2
) = P(0, 0) = p
2
= P(E
1
) P(E
2
) .
3.3 n lanci
Lesperimento n lanci di una moneta `e anche detto schema di Bernoulli. Lo spazio dei
campioni `e linsieme di tutte le n-uple di elementi in 0, 1 . Utilizzando la notazione e la
terminologia dellAppendice A (Nozioni basilari di calcolo combinatorio), pu`o essere visto
come linsieme di tutte le liste di n elementi di 0, 1 , cio`e come linsieme D
2
n
di tutte le
applicazioni N
n
0, 1 . Tale insieme ha cardinalit`a 2
n
; quindi se la probabilit`a `e uniforme
in 0, 1 , cio`e se in ciasun lancio si ha P(0) = P(1) = 1/2 , allora `e uniforme anche nel
caso in esame, e la probabilit`a di ciascuna successione di n elementi in 0, 1 `e pari a 2
n
. In
generale, se P(0) = p si ha
P(E) = p
k
(1 p)
nk
,
dove k `e il numero di volte in cui lelemento 0 `e presente nella successione E (e nk `e il
numero di volte in cui in E compare lelemento 1).
Osservazione. Il fatto che tutte le successioni di n lanci abbiano la medesima probabi-
lit`a (limitandoci al caso di probabilit`a uniforme) d`a luogo a un apparente paradosso, cio`e a
uno di quei risultati non intuitivi che si incontrano di frequente in teoria della probabilit`a.
Consideriamo le due seguenti successioni
3.3
di n = 50 lanci di una moneta:
10011011001011000110010000100010100011101011110110 ,
00000000000000000000000000000000000000000000000000 .
La prima successione non ci colpisce in alcun modo particolare, ci appare cio`e come un risultato
perfettamente plausibile di una successione di 50 lanci (in eetti `e stata ottenuta simulando
i lanci al computer). La seconda non ci sembra altrettanto plausibile, perche corrisponde alla
situazione in cui lanciando 50 volte la moneta si ottiene sempre testa: se uno si trovasse
materialmente in una situazione del genere penserebbe subito impossibile, c`e un trucco
da qualche parte. Eppure, le due successioni di risultati hanno esattamente la medesima
probabilit`a
2
50
=
1
112 589 990 6842 624

= 10
15
.
Ci`o signica che se prima di eseguire i lanci avessi scritto la prima successione su un foglio
di carta, e poi il risultato fosse stato proprio quello, chi assiste allesperimento avrebbe avuto
tutto il diritto di pensare che sono un mago, o comunque di essere altrettanto meravigliato
che nel caso in cui fosse uscito sempre testa (ritorneremo in seguito su questo apparente
paradosso).
3.3
Da qui in avanti utilizziamo di solito labbreviazione 10011011 per (1, 0, 0, 1, 1, 0, 1, 1) , eccetera.
3.4 Legge binomiale 25
3.4 Legge binomiale
Sempre nellambito dello schema di Bernoulli, con P(0) = p ,= 1/2 in generale, ci chiediamo
qual`e la probabilit`a di ottenere k volte testa in n lanci (k n). Sia allora linsieme di tutte
le liste N
n
0, 1 e A
n,k
levento costituito da tutte quelle liste di che contengono
esattamente k volte lelemento 0 ; si ottiene
P(A
n,k
) =
_
n
k
_
p
k
(1 p)
nk
.
Infatti, come si `e visto poco prima, ciascuna successione di n lanci in cui compare k volte il
risultato testa ha probabilit`a p
k
(1 p)
nk
; e queste successioni sono in numero di (
n
k
) ,
tanti quanti sono i sottoinsiemi di cardinalit`a k di un insieme di cardinalit`a n.
Verichiamo che ci`o `e in accordo con lassioma P() = 1 :
P() =
n

k=0
P(A
n,k
) =
n

k=0
_
n
k
_
p
k
(1 p)
nk
=
_
p + (1p)
_
n
= 1
n
= 1 .
La legge di probabilit`a P(A
n,k
) = (
n
k
) p
k
(1 p)
nk
`e detta legge binomiale, e si indica
con B[n, p](k) .
3.5 Legge di Poisson
Supponiamo di avere ancora a che fare con un esperimento che rientra nello schema di Bernoul-
li, e nel quale pertanto la probabilit`a di k successi in n lanci sia data dalla legge binomiale
B[n, p](k) ; ma ora consideriamo il caso in cui la probabilit`a p di successo in un singolo lancio
sia molto piccola, e il numero di lanci molto grande. Poniamo allora p = /n, dove R
+
`e
un numero ssato, e vediamo
3.4
che al crescere di n, con k N ssato, si ha
B
_
n,

n
_
(k)
1
k!
e

1
k!
e
p n
(p n)
k
.
Consideriamo lo spazio dei campioni = 0 N (0, 1, 2, 3, . . . ) . Si vede allora che la
legge di Poisson
p

(k) P

(k) =
1
k!
e

k
denisce una probabilit`a su . In eetti

k=0
p

(k) = e

k=0

k
k!
= e

= 1 .
3.4
Per vericare questa uguaglianza asintotica utilizziamo la nota formula di Stirling n!

2 n(n/e)
n
.
Abbiamo quindi
B
_
n,

n
_
(k) =
_
n
k
_
_

n
_
k
_
1

n
_
nk
=
n!
k! (n k)!

k
n
k
_
1

n
_
n
_
1

n
_
k

2n(
n
e
)
n
_
2(nk) (
nk
e
)
nk

k
e

k! n
k
=
_
n
n k
_
n
n k
_
n
_
n k
e
_
k
k
e

k! n
k

_
1
1
k
n
_
n
_
n k
e n
_
k
k
e

k!

1
e
k
_
1
e
_
k
k
e

k!
=

k
e

k!
.
26 3 SCHEMA DI BERNOULLI
La legge di Poisson pu`o essere considerata unapprossimazione della legge binomiale nel senso
detto prima. Aveva una sua particolare importanza soprattutto quando gli strumenti di calcolo
erano primitivi rispetto alle possibilit`a attuali, per cui rapporti di interi molto grandi, come
n!/(nk)! per n grande, erano ardui da trattare.
Figura 8: Confronto tra il graco (pi` u marcato) della legge di Poisson p

(k) e i graci della


legge binomiale B[n, /n](k) , per = 1 e per n = 2, 3, 4, 8 (a sinistra) e n = 10, 20 (a destra).
Le funzioni rappresentate sono estese a valori reali positivi dellargomento k mediante la
funzione di Eulero (6.6).
1 2 3 4 5 6
0.1
0.2
0.3
0.4
0.5
1 2 3 4 5 6
0.1
0.2
0.3
0.4
Per fare un esempio di utilizzo della legge di Poisson consideriamo il seguente problema:
in un impasto per 500 biscotti alluvetta vengono inseriti 600 acini. Qual`e la probabilit`a che
in un biscotto scelto a caso vi siano k acini? Il numero di acini in un dato biscotto pu`o es-
sere visto come il risultato di 600 prove di Bernoulli con probabilit`a di successo p = 1/500
in ciascuna prova (`e come se si lanciasse 600 volte una moneta, con probabilit`a p = 1/500
che venga testa, e ci si chiedesse qual`e la probabilit`a P(k) che venga testa k volte).
Dunque P(k) = B[600, 1/500](k) , ma possiamo anche utilizzare lapprossimazione di Poisson
P(k) = p

(k) con = np = 6/5 . Confrontando i valori dati dalla legge binomiale e da quella
di Poisson troviamo, fermandoci alla quarta cifra decimale,
k 0 1 2 3 4 5 6 7 8
binomiale 0.3008 0.3617 0.2171 0.0867 0.0259 0.0061 0.0012 0.0002 0.0000
Poisson 0.3012 0.3614 0.2169 0.0867 0.0260 0.0062 0.0012 0.0002 0.0000
(dove le probabilit`a dellultima colonna non sono esattamente zero, ma minori di 0.00005 ; ana-
logamente, le dierenze tra le probabilit`a della terzultima e penultima colonna sono inferiori
a tale valore).
Un esempio meno frivolo: un terrorista si nasconde in un paese di 100 case. Se si sganciano
a caso 400 bombe sul paese, quante sono le probabilit`a che la casa del terrorista venga colpita
k volte? La risposta `e B[400, 1/100](k) oppure, con lapprossimazione di Poisson, p

(k) dove
= 4 .
3.6 Lanci no a che...
Consideriamo ora lesperimento lancio di una moneta nche non venga testa, limitandoci per
il momento al caso in cui la probabilit` a `e uniforme. Pi` u precisamente, lesperimento consiste
in questo: si lancia la moneta una prima volta, e se viene testa (0) lesperimento `e nito;
3.6 Lanci no a che... 27
altrimenti si lancia la moneta una seconda volta, e lesperimento `e nito se viene testa ; e cos`
via. Lo spazio dei campioni `e quindi
=
_
0, 10, 110, 1110, . . .
_
,
cio`e `e costituito da tutte le successioni a valori in 0, 1 , di lunghezza arbitraria, i cui
termini sono tutti 1 tranne lultimo. Si tratta quindi di un insieme di cardinalit`a innita (ma
pur sempre numerabile, cio`e siamo ancora nel caso discreto).
Per assegnare la probabilit`a in questo caso ragioniamo come segue: se eettuo lesperimento
un gran numero di volte, circa nella met`a dei casi verr`a testa subito al primo lancio; della
parte restante dei risultati, in circa la met`a dei casi verr`a testa al lancio successivo; e cos` via.
Siamo quindi indotti naturalmente a porre
P(0) =
1
2
; P(10) =
1
4
; P(110) =
1
8
; . . . P( 11 . . . 1
. .
n1 volte
0) =
1
2
n
.
In eetti si ha
P() =

n=1
1
2
n
=
1
1
1
2
1 = 1 ,
come somma di una serie geometrica
3.5
di ragione 1/2 . Da questo esempio si vede anche come
la propriet`a della -additivit`a sia necessaria in generale.
Consideriamo ancora lesperimento lancio di una moneta nche non venga testa (0), ma
ora con P(0) = p , P(1) = 1 p , e ragioniamo in maniera simile a prima. Se lesperimento
viene eseguito un gran numero N di volte, circa p N volte verr`a testa al primo lancio; in circa
una frazione p delle restanti (1 p) N volte, quindi circa p (1 p) N volte, verr`a testa al
secondo lancio; e cos` via. Dunque assegnamo la probabilit`a p (1 p)
n1
allelemento n-esimo
nella successione che costituisce linsieme dei campioni. Si ha
P() =

n=1
p (1 p)
n1
= p

k=0
(1 p)
k
= p
1
1 (1 p)
= 1 .
La distribuzione g[p](k) := p (1 p)
k
`e detta distribuzione geometrica (vedi anche 6.3).
Osserviamo che si pu`o ottenere lo stesso risultato ragionando in maniera complementare:
la probabilit`a che non venga testa nei primi n1 lanci `e (1 p)
n1
, quindi la probabilit`a che
lesperimento termini al lancio n-esimo `e p (1 p)
n1
.
Questi risultati permettono di rispondere alla seguente domanda: quante volte `e necessario
lanciare una moneta perche la probabilit`a dellevento esce almeno una volta testa abbia un
certo valore s pressato? Se p (1 p)
n1
`e la probabilit`a che esca testa alln-esimo lancio, la
probabilit`a dellevento esce testa entro lh-esimo lancio, con h N, `e la somma nita (vedi
nota 3.5 a pi`e di pagina)
h

n=1
p (1 p)
n1
= p
h1

m=0
(1 p)
m
= p
1 (1 p)
h
1 (1 p)
=
= 1 (1 p)
h
.
3.5
Se q = 1 `e un numero reale o complesso, si ha

h
n=0
q
n
=
1q
h+1
1q
, come si pu` o vericare immediata-
mente svolgendo il prodotto (1+q+q
2
+ +q
h
) (1 q) . Se poi |q| < 1 allora q
h+1
0 per h e quindi

n=0
q
n
=
1
1q
.
28 3 SCHEMA DI BERNOULLI
Se richiediamo che questa probabilit`a sia uguale ad s , con semplici passaggi algebrici si ricava
h =
log(1 s)
log(1 p)
.
Oviamente da questa formula non si ricaver`a in generale un numero intero; ma trattandosi
di una funzione crescente possiamo aermare che la probabilit`a di ottenere almeno una volta
testa `e > s per h pari al pi` u piccolo intero maggiore del numero ricavato dalla formula. In
particolare, per esempio, la probabilit`a di ottenere almeno una volta testa in h lanci `e almeno
1/2 per h log(2)/[ log(1 p)[ .
Esempio 3.1. Come applicazione delle considerazioni precedenti poniamoci la seguente do-
manda: quante volte `e necessario eettuare lesperimento k lanci di una moneta regolare
perche la probabilit`a di ottenere almeno una volta il risultato k volte testa sia almeno s ? La
questione `e equivalente alla seguente: se nel lancio di una moneta non regolare la probabilit`a
di ottenere testa `e 1/2
k
, quante volte `e necessario lanciarla perche la probabilit`a di ottenere
un dato risultato sia almeno s ? (Ancora equivalentemente: abbiamo un dado regolare con
N = 2
k
facce; quante volte `e necessario lanciarlo perche la probabilit`a di ottenere un dato
risultato sia almeno s ?)
Utilizzando la formula sopra trovata si ha che il numero cercato `e il pi` u piccolo intero h
non inferiore a log(1 s)/ log(1 2
k
) . Per s = 1/2 e k = 10 tale espressione `e

= 709.436 ,
e in eetti
1 (1 2
10
)
710

= 0.500275 .
Ci`o vuol dire che se facciamo 710 volte lesperimento 10 lanci di una moneta abbiamo una
probabilit`a di circa il 50% di ottenere almeno una volta una successione 10 volte testa.
Per controllare se il risultato torna, visto che il computer non si lamenta, gli do il seguente
compito: eseguire 1000 volte lesperimento 710 serie di 10 lanci di una moneta, e vedere in
quante di queste 1000 volte si `e ottenuta almeno una volta una successione di 10 teste; anzi,
visto che ci sono gli faccio eseguire pi` u volte la serie di 1000 esperimenti. Ottengo
484, 520, 480, 517, 509, 525, 482, 496, 516, 481, 519, 495, 511, . . .
Insomma sembra proprio che il nostro calcolo sia confermato. Conclusione pi` u generale: se si
ripete una successione di k lanci un numero suciente di volte, non `e poi cos` strano che a un
certo punto appaia k volte di seguito lo stesso risultato.
Esempio 3.2. Uno studente vuole provare a dare un esame senza avere studiato. Supponendo
che la probabilit`a di promozione in una singola prova sia dell1%, quante volte deve tentare
perche la probabilit`a di promozione sia del 50%?
In sostanza lo studente sta lanciando una moneta sperando che esca testa, evento che per`o
ha probabilit`a pari a 1/100 solamente (equivalentemente, lancia un dado regolare con 100
facce, sperando che esca un dato numero). Dobbiamo dunque determinare il pi` u piccolo intero
h log(2)/[ log(.99)[ , che risulta essere h = 69 : con cinque appelli lanno, ci vogliono 14 anni
prima di raggiungere una probabilit`a del 50% di superamento dellesame (e 230 tentativi, cio`e
46 anni, per una probabilit`a del 90%; da qui la frequente richiesta di pi` u appelli).
3.7 Lanci di un dado
Nella sostanza, lesperimento k lanci di un dado non `e molto dierente dai k lanci di una
moneta: rientra nelle k estrazioni di n oggetti con rimpiazzo. Per la moneta si ha n = 2 ,
3.8 Decadimento radioattivo 29
per il dado n = 6 , per il mazzo di carte n = 40 , e cos` via. Facciamo alcune osservazioni sul
caso di un dado usuale,
3.6
sar`a facile generalizzarle.
Lo spazio dei campioni `e costituito da tutte le successioni di k elementi dellinsieme
1, 2, 3, 4, 5, 6 . Dunque [[ = 6
k
e, limitandoci al caso della probabilit`a uniforme, ciascuna
di esse ha probabilit`a 6
k
.
Vogliamo ora considerare, per il dado, un esperimento simile a quello dellultimo esempio
per la moneta: lanciamo il dado nche non viene 6 . Ovviamente, anche qui ha cardinalit`a
innita.
`
E immediato scrivere gli elementi di lunghezza non superiore a due:
= 6 , 16 , 26 , 36 , 46 , 56 , . . . ,
dove al solito 16 sta per (1, 6) eccetera. Gli elementi di lunghezza uguale a 3 hanno un 6 allul-
timo posto, e ai primi due posti hanno una qualunque successione di elementi in 1, 2, 3, 4, 5 ;
dunque sono 5
2
= 25 . Analogamente gli elementi di lunghezza 3 sono in numero di 5
3
= 125 , e
cos` via. Vediamo ora quale probabilit`a assegnare a ciascuno di questi atomi di . Ragionando
in maniera analoga alla successione di lanci di una moneta troviamo che: il primo elemento
della lista, costituito dal solo risultato 6 , ha evidentemente probabilit`a pari a 1/6 ; ciascuno
degli elementi di lunghezza pari a due ha probabilit`a 1/6
2
; e cos` via, a ciascuno dei 5
i1
elementi di lunghezza pari a i corrisponde probabilit`a pari a 1/6
i
. La probabilit`a di ottenere
6 al lancio i-esimo `e 5
i1
/6
i
. Per controllare la giustezza delle nostre conclusioni calcoliamo
P() =

i=1
5
i1
6
i
=

i=0
5
i
6
i+1
=
1
6

i=0
5
i
6
i
=
1
6

1
1
5
6
= 1 .
Analogamente, in generale, se si ha un dado con n facce, e probabilit`a uniforme, la proba-
bilit`a di ottenere un dato risultato al lancio i-esimo `e (n1)
i1
/n
i
. Si osservi che lesperimento
n lanci di un dado a 6 facce `e equivalente allesperimento che potremmo denominare lancio
di un dado con 6
n
facce. Similmente, lesperimento n lanci di una moneta `e equivalente a
lancio di un dado con 2
n
facce.
Inoltre, il lancio di una moneta con P(0) = p = r/s Q (r, s N) pu`o essere visto come
il lancio di un dado regolare con s facce in cui il risultato testa corrisponde alluscita di un
numero tra 1 e r .
3.8 Decadimento radioattivo
Abbiamo gi`a accennato (1.1) alla questione del decadimento radioattivo. Gli esempi pratici
di questo tipo di fenomeno sono innumerevoli, ma a noi interessa pi` u che altro la descrizione
matematica generale. Abbiamo un sistema quantistico che si trova in uno stato corrispondente
a un minimo locale dellenergia potenziale. Il pi` u semplice esempio classico di tale situazione
3.6
Esistono dadi aventi la forma di solidi dierenti dal cubo, e con un numero dierente di facce (tetraedro,
dodecaedro, eccetera).
30 3 SCHEMA DI BERNOULLI
`e ilustrato nella gura:
che rappresenta un punto materiale vincolato a una guida liscia in un piano verticale. Il punto
si trova in una congurazione tale che, se la sua energia cinetica `e abbastanza piccola, non
pu`o uscire dal pozzo in cui si trova. Nel caso di un sistema quantistico che possa essere
descritto in termini analoghi la sica `e invece molto diversa. La particella (per esempio un
elettrone) annusa i dintorni del pozzo e a un certo punto pu`o decidere che pu`o prendere in
prestito un po di energia per poi restituirla una volta uscita; quindi ce la possiamo ritrovare
fuori (si parla anche di eetto tunnel). Il bello poi `e che, per quanto accurata e completa
sia la nostra conoscenza del sistema in esame, non siamo assolutamente in grado di prevedere
quando (e se) la particella uscir`a.
Un nucleo atomico `e un sistema molto pi` u complicato, ma il principio di fondo del decadi-
mento radioattivo `e quello ora esposto. Per poter decadere, cio`e spaccarsi in due o pi` u parti,
il nucleo ha bisogno di un po di energia, in quanto le parti sono tenute insieme da forze che
devono essere vinte; tuttavia una volta che si `e rotto pu`o restituire la suddetta energia con gli
interessi.
Vogliamo quindi formulare un modello probabilistico che descriva tale situazione, che per-
metta cio`e di dire qual`e la probabilit` a che latomo si rompa in un dato intervallo di tempo.
`
E chiaro che si deve trattare di una probabilit`a nel continuo. Tuttavia possiamo dare una
prima approssimazione discreta del modello probabilistico dellesperimento. Scegliamo una
misura t di intervallo di tempo (per esempio un secondo, un minuto, unora) e controlliamo
con frequenza 1/t se latomo si `e rotto oppure no (quindi se t = 1 secondo controlliamo
ogni secondo, se t = 1 minuto controlliamo ogni minuto, e cos` via). Ora se ammettiamo
(come in eetti risulta dai dati sperimentali) che il processo sia privo di memoria, cio`e che la
decisione dellatomo di decadere o no non dipenda dal tempo in cui `e gi`a esistito, o durante
il quale labbiamo osservato, dovrebbe essere evidente che tale processo, nellapprossimazione
discreta, pu`o essere descritto mediante un modello probabilistico che `e identico a uno schema
di Bernoulli. Infatti possiamo vederlo come il lancio di una moneta con frequenza 1/t : se
viene testa latomo decade, altrimenti no. Lunico dato del modello `e la probabilit`a p che la
transizione avvenga in un intervallo di tempo t ; dunque la probabilit`a che la transizione
avvenga nellintervallo di tempo [t, t + t] = [(n1) t , nt] , dove t (n1) t , `e
P[t, t + t] = p (1 p)
n1
= p (1 p)
t/t
.
Il graco della gura 9 va letto solo nel discreto, per valori interi di n = t/t , tuttavia
suggerisce una lettura nel continuo.
`
E naturale allora supporre che lesperimento osservazione
3.8 Decadimento radioattivo 31
Figura 9: Graco di P[t, t + t] in funzione di n = t/t , per p = 0.01 e t = 0.1
10 20 30 40
0.002
0.004
0.006
0.008
0.010
dellistante in cui latomo decade possa essere descritto mediante una densit`a di probabilit`a
del tipo
3.7
f(t) =
1

e
t/
,
da intendersi in questo senso: f(t) dt `e la probabilit`a che il decadimento avvenga nellintervallo
[t, t+dt] , essendo t = 0 listante in cui si iniziano le osservazioni. Allora se t `e un tempo
abbastanza piccolo si avr`a P[t, t + t]

= f(t) t ; facendo il confronto tra descrizione discreta
e continua si ottiene quindi
p (1 p)
t/t

=
1

e
t/
t
p
t
e
(t/t) log(1p)

=
1

e
t/

p
t
e
p t/t

=
1

e
t/
dove si `e utilizzata lapprosimazione log(1 p)

= p (sviluppo in serie di Taylor al primordine
per p piccolo). La corrispondenza (tra la descrizione discreta e quella nel continuo data dalla
f) funziona quindi se si fa lidenticazione = t/p .
C`e unaltro modo in cui si pu`o guardare alla questione del decadimento radioattivo.
Supponiamo di avere alcuni grammi di una sostanza radioattiva. Questa massa contiene un
numero enorme N di atomi.
3.8
Chiediamoci qual`e la probabilit`a che, al tempo t , k di questi
atomi siano decaduti. Ci`o vuol dire ripetere N volte lesperimento osservazione dellatomo
per un tempo t, con spazio dei campioni
t
= 0, 1 dove levento 1 corrisponde a latomo
`e decaduto e levento 0 corrisponde a latomo non `e decaduto, e con
p
t
(1) = P[0, t] =
_
t
0
f(t

) dt

= 1 e
t/
;
e la risposta alla nostra questione `e data dalla probabilit`a di ottenere k successi in N lanci di
uno schema di Bernoulli, con probabilit`a di successo p
t
(1) in ogni lancio. Tale probabilit`a `e
B
_
N, p
t
(1)
_
(k) =
_
N
k
_
(1 e
t/
)
k
(e
t/
)
Nk

=
1
k!
e

k
, (1 e
t/
) N ,
dove si `e utilizzata lapprossimazione mediante la legge di Poisson.
In seguito ci porremo ulteriori domande riguardo a questo esperimento (esempio 5.4).
3.7
`
E immediato vericare che
_

0
f(t) = 1 .
3.8
Per esempio, 235 grammi di uranio-235 contengono 6.0221415 10
23
atomi (numero di Avogadro).
32 3 SCHEMA DI BERNOULLI
3.9 Distribuzione multinomiale
Consideriamo un dado con N facce e probabilit`a non uniforme: per lesperimento un lancio
del dado si ha allora lo spazio dei campioni = N
N
1, 2, . . . , N , e la distribuzione di
probabilit`a `e data da
P(i) = p
i
,
N

i=1
p
i
= 1 , i .
Lo spazio dei campioni dellesperimento n lanci del dado `e il prodotto cartesiano

k

. .
n volte
,
la cui cardinalit`a `e [
n
[ = N
n
.
Sia (
1
, . . . ,
n
)
n
, con
i
. La probabilit`a su
n
`e denita assegnando la
sua distribuzione, cio`e la funzione
p :
n
[0, 1] : p() = P() ,
che `e data da
p() = P

(
1
) P

(
2
) P

(
n
) .
Se in
n
compare k
1
volte lelemento 1 N
N
, k
2
volte lelemento 2 eccetera, con
N

i=1
k
i
= n ,
allora
P() = (p
1
)
k
1
(p
2
)
k
2
(p
N
)
k
N
(si osservi poi che alcuni dei k
i
possono essere nulli).
Daltro canto, il numero di elementi di
n
(cio`e di liste di n elementi di ) che contengono
k
1
volte lelemento 1 , k
2
volte lelemento 2 ,. . . k
N
volte lelemento N , con

N
i=1
k
i
= n, `e
pari al numero di partizioni di un insieme di cardinalit`a n in sottoinsiemi di cardinalit`a k
i
.
Pertanto la probabilit`a dellevento
esce k
1
volte lelemento 1 , k
2
volte lelemento 2 , eccetera
`e data da
P(k
1
, k
2
, . . . , k
N
) =
_
n
k
1
, k
2
, . . . , k
N
_
(p
1
)
k
1
(p
2
)
k
2
(p
N
)
k
N
.
Si ha allora, come devessere,
P(
n
) =

k
1
,k
2
,... ,k
N
_
n
k
1
, k
2
, . . . , k
N
_
p
k
1
1
p
k
2
2
p
k
N
N
= (p
1
+p
2
+ +p
N
)
n
= 1 .
Esempio 3.3. Si esegue lesperimento consistente nel lanciare 20 volte un dado regolare con
20 facce. Ci si chiede qual`e la probabilit`a che escano esattamente 2 volte il numero 1 e 10
volte un numero primo (diverso da 1). Un possibile modo di ragionare consiste nel descrivere
i risultati a cui siamo interessati come provenienti dal lancio di un dado a tre facce con
distribuzione di probabilit`a non uniforme (anche se il dado originale a 20 facce `e regolare).
3.10 Coincidenza di compleanni 33
Consideriamo infatti lo spazio del campioni = a, b, c dove i sottoinsiemi a, b, c N
20
sono
dati da
a = 1 , p
a
= 1/20 ;
b = 2, 3, 5, 7, 11, 13, 17, 19 , p
b
= 8/20 = 2/5 ;
c = 4, 6, 8, 9, 10, 12, 14, 15, 16, 18, 20 , p
c
= 11/20 .
Allora la probababilit`a richiesta `e data da
P(k
a
, k
b
, k
c
) =
_
20
k
a
, k
b
, k
c
_
(p
a
)
ka
(p
b
)
k
b
(p
c
)
kc
,
con k
a
= 2 , k
b
= 10 , k
c
= 20k
a
k
b
= 8 , ovvero
P(k
a
, k
b
, k
c
) = 0.0182...
Proviamo a fare lesperimento (come al solito simulato al computer) 100 000 volte, e ripetiamo
questa successione di 100 000 esperimenti 10 volte. Ecco i successi che otteniamo:
1846, 1892, 1844, 1840, 1816, 1849, 1760, 1861, 1837, 1806,
ovvero un totale di 18 351 successi su un milione di prove. Sembrerebbe quindi che il nostro
calcolo sia sostanzialmente confermato.
3.10 Coincidenza di compleanni
Un classico esercizio di probabilit`a `e il problema dei compleanni : dato un gruppo di k per-
sone prese a caso, trovare la probabilit`a che almeno due di esse festeggino il compleanno nel
medesimo giorno.
Possiamo pensare al problema in questi termini: si lancia k volte un dado regolare con 365
facce, qual`e la probabilit`a dellevento A
k
: in k lanci almeno un risultato esce almeno due
volte? Per rispondere conviene calcolare la probabilit`a dellevento complementare A
c
k
: in k
lanci non esce mai lo stesso risultato due volte. Contiamo allora prima di tutto quante sono
le liste N
k
N
365
che non contengono alcun doppione, ovvero la cardinalit`a dellinsieme D
365
k
di tutte le delle disposizioni senza ripetizione (vedi Appendice A) di k elementi presi da un
insieme di 365. Si ha
[D
365
k
[ = 365 (365 1) (365 k + 1) =
365!
(365 k)!
.
Daltra parte una qualsiasi lista di k elementi di N
365
ha probabilit`a 1/365
k
, in quanto ci sono
in totale 365
k
liste. Pertanto P(A
c
k
) = [D
365
k
[/365
k
, e
P(A
k
) = 1
365 (365 1) (365 k + 1)
365
k
.
34 3 SCHEMA DI BERNOULLI
Il graco di P(A
k
) in funzione di k `e riportato qua sotto
20 40 60 80
0.2
0.4
0.6
0.8
1.0
Guardando i valori che si ottengono ci accorgiamo di alcune cose interessanti: per esempio
P(A
k
) supera il valore 0.5 gi`a per k = 23 , e 0.99 per k = 57 ; inoltre per k = 80 si ha
P(A
k
) = 0.999914... , insomma in una classe di 80 studenti ce ne sono quasi sicuramente
almeno due che festeggiano il compleanno nel medesimo giorno.
35
4 Variabili aleatorie
4.1 Applicazioni dallo spazio dei campioni in un insieme qualsiasi
Sia (, E, P) uno spazio di probabilit`a, e X : S unapplicazione a valori in un insieme
S qualsiasi. Indichiamo poi con X(E) X(E), E E la famiglia di tutte le immagini,
tramite X , dei sottoinsiemi misurabili di . Allora X(E) `e una -algebra di sottoinsiemi di
X() S , che genera (si ricordi lesempio 2.3) una -algebra X P(S) . Otteniamo inoltre
una probabilit`a P
X
: X [0, 1] ponendo
P
X
(A) = P(

X(A)) , A X .
Una notazione comune, per quanto poco precisa, `e
P
X
(A) PX A .
Un esempio di quanto sopra `e quello delles.3.3, con = N
20
, S = a, b, c e
X :
_

_
1 a ,
2, 3, 5, 7, 11, 13, 17, 19 b ,
4, 6, 8, 9, 10, 12, 14, 15, 16, 18, 20 c .
Consideriamone qualcun altro.
Esempio 4.1. Sia = N
6
N
6
lo spazio dei campioni relativo allesperimento lancio di
due dadi (ovvero due lanci di un dado; qui si sta parlando di un normale dado a sei facce,
regolare). Dunque `e linsieme di tutte le coppie (n
1
, n
2
) con 1 n
1
, n
2
6 ; consideriamo
lapplicazione
X : N : (n
1
, n
2
) n
1
+n
2
.
Vediamo subito che limmagine di X non `e tutto N, ma il suo sottoinsieme costituito dai
numeri interi compresi tra 2 e 12 . Allora
X :
_

_
(1, 1) 2 ,
(1, 2), (2, 1) 3 ,
(1, 3), (2, 2) (3, 1) 4 ,
(1, 4), (2, 3) (3, 2) (4, 1) 5 ,
(1, 5), (2, 4) (3, 3) (4, 2) (5, 1) 6 ,
(1, 6), (2, 5) (3, 4) (4, 3) (5, 2) (6, 1) 7 ,
(2, 6), (3, 5) (4, 4) (5, 3) (6, 2) 8 ,
(3, 6), (4, 5) (5, 4) (6, 3) 9 ,
(4, 6), (5, 5) (6, 4) 10 ,
(5, 6), (6, 5) 11 ,
(6, 6) 12 .
36 4 VARIABILI ALEATORIE
Con un semplice conteggio vediamo che la distribuzione di probabilit`a indotta da X su
S 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 `e data da
p(2) = p(12) =
1
36
, p(3) = p(11) =
1
18
, p(4) = p(10) =
1
12
,
p(5) = p(9) =
1
9
, p(6) = p(8) =
5
36
, p(7) =
1
6
.
Utilizzando questi conteggi possiamo divertirci a simulare un esperimento in cui si lanciano
i due dadi un certo numero n di volte; ma il risultato dellesperimento non `e la coppia ordinata
di numeri cos` ottenuta, bens` la loro somma. Chiediamoci (per esempio) qual`e la probabilit`a
che in una successione di 15 lanci di due dadi la somma venga 2 volte 4 , 3 volte 5 e 3 volte
9 . Ricordando quanto visto nel 3.9 vediamo che tale probabilit`a `e data da
_
15
2, 3, 3, 7
_
[p(4)]
2
[p(5)]
3
[p(9)]
3
[1 p(4) p(5) p(9)]
7
= 0.0036676...
Eseguiamo allore lesperimento successione di quindici lanci di due dadi molte volte e ve-
diamo se la frequenza dei risultati che soddisfano alle condizioni suddette `e in accordo con il
calcolo. Facciamo dieci successioni di 100 000 prove; ecco i successi che otteniamo
392, 342, 356, 346, 386, 357, 348, 377, 405, 359,
ovvero un totale di 3668 successi su un milione di prove. Il calcolo della probabilit`a fatto sopra
sembrerebbe confermato.
Esempio 4.2. Sia ancora = N
6
N
6
, ma ora
X : N : (n
1
, n
2
) n
1
n
2
`e il prodotto dei risultati dei singoli dadi. Dunque S X() `e costituito dagli elementi
presenti nella tabellina del 6:
1 2 3 4 5 6
2 4 6 8 10 12
3 6 9 12 15 18
4 8 12 16 20 24
5 10 15 20 25 30
6 12 18 24 30 36
dalla quale si vede anche la molteplicit`a di ciascun risultato, cio`e in quanti modi diversi pu`o
venir fuori. Un semplice conteggio d`a allora immediatamente
p(1) = p(9) = p(16) = p(25) = p(36) =
1
36
, p(4) =
1
12
, p(6) = p(12) =
1
9
,
p(2) = p(3) = p(5) = p(8) = p(10) = p(15) = p(18) = p(20) = p(24) = p(30) =
1
18
.
Esperimento: una successione di 10 lanci di due dadi; chiamiamo successo levento esce 1
volta il 6, 1 volta il 9, 2 volte il 12. La probabilit`a di successo `e
_
10
1, 1, 2, 6
_
p(6) p(9) [p(12)]
2
[1 p(6) p(9) p(12)]
6
= 0.0170898...
Eseguiamo dieci volte una successione di 100 000 esperimenti; otteniamo i successi
1721, 1785, 1722, 1699, 1809, 1709, 1625, 1714, 1711, 1698,
ovvero 17 193 successi su un milione di prove.
4.2 Variabile aleatoria 37
4.2 Variabile aleatoria
Di regola, il termine variabile aleatoria `e riservato a funzioni reali X : R che soddisno la
seguente condizione: per ogni t R, la preimmagine di (, t] `e un sottoinsieme misurabile
di :

X((, t]) E t R .
Non `e dicile vedere che questa condizione equivale a richiedere che X sia una funzione
misurabile, cio`e che la preimmagine di ogni aperto sia misurabile;
4.1
ci`o signica che la -
algebra X di sottoinsiemi di R, generata da X , contiene la -algebra B(R) dei Boreliani.
Abbiamo dunque, tenendo conto delle osservazioni precedenti, lo spazio di probabilit`a
_
R, X, P
X
_
.
In particolare appartengono a X tutti gli intervalli, aperti e chiusi (e semi-chiusi), nonche
tutti i singoletti.
4.3 Funzione di ripartizione e densit`a
Si dice funzione di ripartizione una funzione F : R R che abbia le seguenti propriet`a:
`e non decrescente: x

> x F(x

) F(x) ;
`e continua a destra:
4.2
F(x
+
) = F(x) x R;
lim
x
F(x) = 0 , lim
x+
F(x) = 1 .
Si ha allora, ovviamente,
0 F(x) 1 , x R.
Se P `e una probabilit`a sulla famiglia M(R) dei sottoinsiemi di R misurabili secondo
Lebesgue, allora da P si ottiene una funzione di ripartizione F
P
ponendo
F
P
(x) = P((, x]) .
Infatti si dimostra
4.3
che F
P
cos` denita soddisfa le propriet`a richieste. Si ha poi
4.4
4.1
Dimostriamo questa aermazione. Per prima cosa osserviamo che in generale, se A, B R, allora

X(A B) =

X(A)

X(B) : infatti

X(AB) `e linsieme di tutti gli tali che X() A oppure X() B,


cio`e tali che

X(A) oppure

X(B) ; analogamente

X(A B) =

X(A)

X(B) , e

X(A
c
) = (

X(A))
c
. Per-
tanto se

X(A),

X(B) E allora anche

X(A B) ,

X(A B) e (

X(A))
c
sono eventi. In particolare sono eventi,
per ogni a, b R, gli insiemi

X((a, +)) e

X((a, b]) . Sia poi (an) una successione crescente convergente a b ;


poiche sono eventi tutti gli insiemi

X((an, b]) `e un evento anche la loro intersezione


nN

X((an, b]) =

X({b}) .
A questo punto `e immediato vedere che tutte le preimmagini di intervalli aperti e chiusi sono eventi.
4.2
F(x
+
) `e unabbreviazione per lim
tx
+ F(t) .
4.3
La propriet` a di essere non decrescente `e ovvia. Riguardo alla continuit` a a destra, `e suciente dimostrare
che F(xn) F(x) per ogni successione decrescente xn x. Posto allora En = (, xn] , gli En costituiscono
una successione decrescente, da cui (teorema 2.1) limn F(xn) limn P(En) = P(E) , dove E nEn , e la tesi
segue dal fatto che E = (, x] per cui P(E) = F(x) .
Per dimostrare che limxF(x) = 0 facciamo vedere che F
P
(xn) 0 dove (xn) `e una qualsiasi successione
decrescente a . Si ha F
P
(xn) = P(En) , dove En = (, xn] , e
nN
En = ; dal teorema 2.1 si ha pertanto
P(En) P() = 0 . Laltro limite si dimostra in maniera analoga.
4.4
La prima segue subito da (, a] (, b] e da (, b] \ (, a] = (a, b] . Si ottiene allora la seconda
considerando una successione crescente xn x e P((xn, x]) = F(x) F(xn) .
38 4 VARIABILI ALEATORIE
P((a, b]) = F
P
(b) F
P
(a) , a < b R;
P(x) = F
P
(x) F
P
(x

) ;
P((a, b)) = P((a, b]) P(b) = F
P
(b

) F
P
(a) , a < b R.
In particolare, se F
P
`e continua si ha P(x) = 0 x R: ogni singoletto ha probabilit`a nulla.
Supponiamo ora che P ammetta una densit`a, cio`e che esista una funzione integrabile
p : R [0, ) tale che per ogni sottoinsieme misurabile (secondo Lebesgue) A R si abbia
P(A) =
_
A
p .
Allora si ha, in particolare,
F
P
(x) =
_
x

p(t)dt ,
P([a, b]) = F
P
(b) F
P
(a) =
_
b
a
p(x) dx .
Osservazione. Se la probabilit`a P proviene da una densit`a p , la funzione di ripartizione F
P
`e
una primitiva di p e, necessariamente, `e una funzione assolutamente continua.
4.5
Daltra parte,
una probabilit`a pu`o non ammettere densit`a; pertanto una generica funzione di ripartizione
F pu`o non ammettere densit`a (nonostante che la monotonia implichi la derivabilit`a quasi
ovunque). Se F `e assolutamente continua allora ammette densit`a. Si osservi inoltre che, anche
se P non ammette densit`a nel senso delle funzioni ordinarie, `e possibile tuttavia parlare di
densit`a come distribuzione (2.4) , come si vede dagli esempi 4.3 e successivi.
Siano poi (, E, P) uno spazio di probabilit`a e X : R una variabile aleatoria. Detta
P
X
la probabilit`a indotta da X , e F
X
: R [0, 1] la funzione di ripartizione di P
X
, si ha
evidentemente
F
X
(x) = P
_
X(, x]
_
.
Diremo che X `e assolutamente continua se F
X
`e assolutamente continua; ci`o equivale a
dire che F
X
ammette densit`a (come funzione ordinaria). In ogni caso, se p p
X
`e la densit`a
di P
X
(anche come distribuzione), si usa scrivere
X p ,
e si dice che p `e la legge di X .
Osservazione. Una questione non banale `e: quali sono i sottoinsiemi A R tali che P
X
(A) =
_
A
p
X
. In generale non tutti i sottoinsiemi A M(R) hanno questa propriet`a; tuttavia si
pu`o vedere che non ci sono complicazioni per sottoinsiemi ragionevoli e variabili aleatorie
ragionevoli.
Esempio 4.3. Consideriamo una variabile aleatoria su uno spazio di probabilit`a discreto:
lesperimento lancio di un dado e la variabile aleatoria X : R denita dalla semplice
4.5
Lassoluta continuit` a `e una condizione pi` u forte della continuit` a (per la denizione formale si veda lAp-
pendice C.1). Una funzione che abbia tale propriet` a `e necessariamente derivabile quasi ovunque ed `e primitiva
della sua derivata.
4.3 Funzione di ripartizione e densit`a 39
inclusione N
6
R. Sia A R; allora P
X
(A) ,= 0 se e solo se A N
6
,= , pi` u precisamente
P
X
(A) = [A N
6
[ . Questa probabilit`a `e associata alla funzione di ripartizione
F
X
(t) =
_

_
0 , t < 1 ,
1/6 , 1 t < 2 ,
1/3 , 2 t < 3 ,
1/2 , 3 t < 4 ,
2/3 , 4 t < 5 ,
5/6 , 5 t < 6 ,
1 , 6 t ,
il cui graco `e disegnato qua sotto:
2 2 4 6 8
0.2
0.4
0.6
0.8
1.0
Si noti che a questa funzione di riprtizione non `e associata una densit`a, almeno come funzione
ordinaria: la densit`a qui `e una distribuzione o funzione generalizzata (2.4), che pu`o essere
scritta in termini della delta di Dirac come
p(x) =
1
6
6

i=1

i
(x) =
1
6
6

i=1
(x i) ,
dove
0
e
i
(x) = (x i) . Ricordando che
i
= H

i
, dove H
i
`e la funzione scalino in i ,
possiamo anche scrivere la funzione di ripartizione nella forma
F
X
(x) =
1
6
6

i=1
H
i
(x) =
1
6
_
H
1
(x) +H
2
(x) +H
3
(x) +H
4
(x) +H
5
(x) +H
6
(x)

Esempio 4.4. Nellesperimento lancio di due dadi consideriamo la variabile aleatoria X :


(n
1
, n
2
) n
1
+n
2
, come nellesempio 4.1, ma ora vediamo X come avente valori in R (invece
che nellinsieme 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 N). La funzione di ripartizione ha anche qui
40 4 VARIABILI ALEATORIE
un graco a gradini:
5 10 15
0.2
0.4
0.6
0.8
1.0

Esempio 4.5. Nellesperimento lancio di due dadi consideriamo la variabile aleatoria X :


(n
1
, n
2
) n
1
n
2
, come nellesempio 4.2. Allora F
X
ha il graco
10 20 30 40
0.2
0.4
0.6
0.8
1.0

Esempio 4.6. Una scatola contiene tre palline rosse e tre palline nere; si estrae a caso una
pallina alla volta, se `e rossa viene rimesse nella scatola e se `e nera viene lasciata fuori. Sia poi
S la variabile aleatoria numero di estrazioni necessarie per togliere tutte le palline nere; si
chiede di calcolare P3 S 4 .
Proviamo a descrivere lo spazio dei campioni, anche se ci`o non `e strettamente necessario
per rispondere alla questione; anzi, come si vedr`a tra poco, la soluzione pu`o essere trovata
ragionando nellambito di spazi di probabilit`a diversi.
Un modo per inquadrare la questione nellambito di un esperimento preciso pu`o essere
il seguente: si eseguono le estrazioni (seguite da un eventuale rimpiazzo) una dopo laltra,
e lesperimento termina quando non rimangono palline nere della scatola. Gli atomi sono
le successioni di valori (r, n) del numero di palline rosse e nere contenute nella scatola dopo
ciascuna estrazione (in realt`a basterebbe solo n, perche r vale sempre 3). La variabile aleatoria
S d`a allora la lunghezza del singolo campione. Si noti che ha cardinalit`a innita, in quanto
lesperimento pu`o terminare dopo un numero arbitrariamente grande di estrazioni; tuttavia si
potrebbe anche troncare lesperimento dopo 4 estrazioni, o dopo un numero di estrazioni 4 ,
e la risposta alla domanda posta sarebbe la stessa, come risulter`a chiaro dal ragionamento che
segue.
4.4 Intermezzo: alberi e gra, variazioni sul tema 41
In questo e in altri casi, in cui le pi` u comuni formule del calcolo combinatorio sarebbero di
dicile applicazione, ma al tempo stesso il numero di atomi da prendere in considerazione `e
relativamente piccolo, conviene costruirsi lalbero
4.6
delle possibilit`a.
`
E ci`o che abbiamo fatto
nella gura che segue, riportando tutti i risultati possibili dopo tre estrazioni e, di quelli
possibili dopo quattro estrazioni, solo quelli che hanno come esito n = 0 (dopo k estrazioni i
possibili risultati sono 2
k
).
(3, 3)
(3, 3) (3, 2)
1/2 1/2
(3, 3) (3, 2) (3, 2) (3, 1)
1/2
1/2
2/5
3/5
(3, 3) (3, 2) (3, 2) (3, 1) (3, 2) (3, 1) (3, 1) (3, 0)
1/2 1/2 3/5
2/5 3/5 2/5 3/4 1/4
(3, 0) (3, 0) (3, 0)
1/4 1/4 1/4
Ciascuna linea corrisponde a una possibile estrazione, ed `e contrassegnata con la relativa
probabilit`a (dedotta in maniera ovvia). Ogni percorso a partire dalla congurazione iniziale
descrive i primi tre o quattro elementi di ciascun campione, e abbiamo qui descritti compiu-
tamente tutti i campioni di lunghezza 3 e 4. Un attimo di riessione mostra che le probabilit`a
di ciascuno di questi `e data dal prodotto delle probabilit`a delle singole linee del percorso. A
questo punto la risposta alla domanda posta inizialmente `e quasi immediata. Si ha infatti
PS =3 =
1
2

2
5

1
4
=
1
20
= 0.05 ,
PS =4 =
1
2

1
2

2
5

1
4
+
1
2

3
5

2
5

1
4
+
1
2

2
5

3
4

1
4
=
37
400
= 0.0925 ,
P3 S 4 =
1
20
+
37
400
=
57
400
= 0.1425 .

4.4 Intermezzo: alberi e gra, variazioni sul tema


Il modo in cui abbiamo arontato la questione proposta nellesempio 4.6 suggerisce un altro
punto di vista riguardo a problemi di questo tipo: lalbero che abiamo costruito potrebbe
rappresentare un mappa dei possibili percorsi di un sistema sico, con biforcazioni dove il
4.6
Unimportante branca della matematica `e la teoria dei gra; un grafo `e una coppia (V, E) , dove V `e un
insieme i cui elementi sono detti vertici ed E V V `e linsieme dei lati (edges). Si pu`o rappresentare un grafo
disegnando i vertici come punti, e i lati come linee che uniscono alcune coppie di vertici (non necessariamente
tutte). Un albero (si pensi anche allalbero genealogico) `e un grafo che non ha cammini chiusi.
Si usa anche il termine diagramma, che per` o ha un signicato pi` u generico (la nozione di grafo ha una precisa
denizione matematica).
42 4 VARIABILI ALEATORIE
sistema sceglie la via lanciando una moneta (eventualmente non regolare).
Ad esempio possiamo pensare a un punto materia-
le vincolato a una guida in discesa, come si vede
nella gura qui a destra; alle biforcazioni il deter-
minismo della meccanica classica viene meno, e la
particella pu`o secegliere luna o laltra via con una
distribuzione di probabilit`a assegnata.

.
.
.
.
.
.,
-
-
-
-
-
-


.
`
`

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\
Vengono allora subito in mente possibili generalizzazioni di questo tipo di esperimento.
Prima di tutto, le possibilit`a ad ogni nodo (o vertice del grafo, vedi nota 4.6 a pi`e di pagi-
na 41) potrebbero essere pi` u di due. Ad esempio nella gura seguente, a sinistra, si vede una
triforcazione, (che comunque `e equivalente a una successione di due biforcazioni, come si
vede a destra).
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Qs

+ ?
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Qs
p
1
p
2
p
3
p
1
+ p
2
+ p
3
= 1
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Qs
Q
Q
Qs
Q
Q
Qs

/
p
1
p
2
+ p
3
q
1
q
2
q
1
= p
2
/(p2 + p
3
)
q
2
= p
3
/(p2 + p
3
)
=
Si noti che, in ogni nodo, la somma delle probabilit`a delle possibili alternative deve fare 1 .
La seconda generalizzazione che viene in mente `e la seguente: non c`e nessun motivo per
limitarci a considerare esperimenti tale che il grafo delle possibilit`a sia un albero; per esempio
la particella, nello scendere lungo la guida, potrebbe reimmettersi su uno dei percorsi che non
aveva preso. Il grafo non `e quindi un albero, in quanto contiene dei percorsi chiusi (anche se
la particella non pu`o passare due volte per lo stesso punto: `e soggetta ai sensi unici).
Esempio 4.7. Applichiamo le idee sopra introdotte al grafo disegnato qua sotto.
`
E un caso relativamente semplice: le biforcazioni (nei no-
di A, B, C, E, F e H) corrispondono ad alternative sem-
plici (due possibilit`a) e supponiamo che ciascuna scel-
ta abbia probabilit`a 1/2 . I nodi D e G non richiedono
invece alcuna scelta, sono solo punti di conuenza.
`
E abbastanza facile elencare tutti i possibili percorsi: se-
guendo le frecce a partire dallinizio, ad ogni biforcazio-
ne si fa una copia del percorso gi`a seguito e si prosegue in
ciascuna delle due copie a seconda della scelta corrispon-
dente (per gestire i casi pi` u complicati si pu`o scrivere
un programmino per computer che stili lelenco).
c

d
d
d
A

d
d
d
B

e
e
e
e
e
e
e
e
e
e
e
e
C

d
d
d
E

d
d
d
F

d
d
d
H
1 2 3 4 5
Troviamo che lo spazio dei campioni `e costituito dalle sequenze:
ABE1 ,
ABEG2 , ABDFG2 , ACDFG2 ,
ABDFH3 , ACDFH3 ,
ABDFH4 , ACDFH4 ,
AC5 .
4.4 Intermezzo: alberi e gra, variazioni sul tema 43
La probabilit`a di ciascun campione la si trova inserendo un fattore 1/2 per ciascun nodo,
incontrato nel percorso, che richieda una scelta; questi nodi sono stati (per comodit`a del
lettore) sottolineati, ed `e immediato scrivere:
p(ABE1) =
1
8
,
p(ABEG2) = p(ABDFG2) = p(ACDFG2) =
1
8
,
p(ABDFH3) = p(ACDFH3) =
1
16
,
p(ABDFH4) = p(ACDFH4) =
1
8
,
p(AC5) =
1
4
.
Si pu`o allora vericare che P() = 1 . Si noti poi che le possibili congurazioni nali sono
state contrassegnate mediante numeri, in modo che possano essere caratterizzate come i valori
assunti da una variabile aleatoria X ; abbiamo dunque
PX =1 =
1
8
, PX =2 =
3
8
, PX =3 =
1
8
, PX =4 =
1
4
, PX =5 =
1
4
.

Unulteriore estensione che viene in mente, per la descrizione di un esperimento tramite


un grafo, `e di permettere anche nodi che siano incroci, nei quali cio`e due o pi` u percorsi
conuiscano in una congurazione nella quale sono possibili due o pi` u scelte (un semplice
esercizio potrebbe essere quello di modicare lesempio 4.7 aggiungendo una scorciatoia da
D ad H).
Osservazione. Ma allora anche lesperimento dellesempio 4.6 potrebbe essere rappresentato
in maniera pi` u chiara e compatta mediante il grafo (linizio dellesperimento `e in alto a destra):
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)

1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)

1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)

1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)

1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)

1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)

1/2
1/2
2/5
2/5
1/4
3/4
Linconveniente di questo tipo di rappresentazione `e forse che risulta meno immediato scrivere
tutti i percorsi che portano a una data congurazione nale; ma, nel caso in esame, non `e
aatto dicile scrivere tutti i percorsi aventi una data lunghezza (non troppo grande).
Esempio 4.8. Unurna contiene 30 palline, di cui 2 contrassegnate. Si fanno estrazioni suc-
cessive (senza rimpiazzo) no a quando tutte e due le palline contrassegnate non sono state
estratte. Il numero di estrazioni necessarie `e una variabile aleatoria S riguardo alla quale si
chiede: determinare il pi` u piccolo intero h N tale che si abbia PS h 1/2 .
Questo esperimento termina dopo 30 estrazioni al massimo. Il grafo (con incroci) che lo
descrive, iniziando stavolta in alto a sinistra, `e
44 4 VARIABILI ALEATORIE
(28, 2)
(28, 1)
(28, 0)
S = 2
(27, 2)
(27, 1)
(27, 0)
S = 3
(26, 2)
(26, 1)
(26, 0)
S = 4
(25, 2)
(25, 1)
(25, 0)
S = 5
(1, 2)
(1, 1)
(1, 0)
S = 29
(0, 2)
(0, 1)
(0, 0)
S = 30
-
?
-
?
-
?
-
?
-
?
-
?
-
?
-
?
-
? ?
-
? ?
28/30 27/29 26/28 25/27 1/3
28/29 27/28 26/27 25/26 1/2
2/30
1/29
2/29
1/28
2/28
1/27
2/27
1/26
2/3
1/2
1
1
Un passo in orizzontale corrisponde allestrazione di una pallina non contrassegnata, un passo
in verticale allestrazione di una pallina contrassegnata. Tutti i percorsi che terminano in
una data congurazione hanno lo stesso numero di passi, cio`e il medesimo valore di S (che
`e riportato corrispondentemente sotto). La cosa curiosa `e che, come si verica subito, tutti i
percorsi hanno la medesima probabilit` a
p =
2
30 29
=
1
435
;
abbiamo insomma, un po inaspettatamente, una distribuzione uniforme. Notiamo poi che ci
sono k 1 percorsi corrispondenti a un dato valore S = k , con 2 k 30 . Pertanto
PS =k =
k 1
435
,
PS h =
1
435
h

k=2
(k 1) =
1
435
h(h 1)
2
=
h(h 1)
870
,
e, in particolare, PS 30 = 1 come devessere.
Per rispondere alla questione proposta dobbiamo quindi risolvere rispetto ad h la disequa-
zione
h(h 1)
870

1
2
h(h 1) 435 .
Le radici del polinomio h(h 1) 435 sono
1
2
(1

1741) , corrispondenti a h

= 20.3626 e
h

= 21.3626 . La risposta cercata `e pertanto h = 22 (il polinomio `e crescente per h > 1/2) .

4.5 Simulazione
La funzione random di un qualsiasi linguaggio di programmazione fornisce di solito risultati
pseudo-aleatori con distribuzione uniforme; il risultato di una simulazione con tale funzione `e
riportato in gura 10. Sono stati estratti N volte (con N = 10 000, 100 000, 1 000 000) numeri
a caso nellintervallo [0, 1] ; poi lintervallo `e stato suddiviso in 100 intervalli di ampiezza
0.01 , e per ciascun intervallino si `e riportato in graco la frazione di volte in cui il risultato
dellestrazione `e caduto in esso. Si vede chiaramente come, al crescere di N, tale frazione tenda
dappertutto a 1/100 (riga orizzontale).
Ora vogliamo fare una simulazione nella quale i numeri vengano estratti secondo una
densit`a dierente. Per vedere come procedere, conviene prima di tutto ricordare il teorema
del cambiamento di variabile negli integrali deniti. Siano [, ] e [a, b] intervalli di R, e
4.5 Simulazione 45
Figura 10: Simulazione con densit`a uniforme
N = 10 000
N = 100 000 N = 1 000 000
: [, ] [a, b] unapplicazione derivabile tale che () = a , () = b .
[ ]
t

E

[ ]
x
a b
E
f
R
Si ha allora
4.7
_

f((t))

(t) dt =
_
b
a
f(x) dx .
Supponiamo ora che f sia una funzione strettamente positiva nellintervallo [a, b] e tale che
_
b
a
f(x) dx = 1 , ovvero una densit`a su [a, b] , e che sia strettamente crescente.
4.8
Allora per
ogni intervallo [a

, b

] [a, b] si ha
P([a

, b

]) =
_
b

f(x) dx =
_

f((t))

(t) dt ,
con



(a

) ,



(b

) . In particolare, se si riesce a trovare tale che t [, ] si abbia


f((t))

(t) = 1 , si ottiene
P
f
([a

, b

]) =



(b

(a

) ,
cio`e la probabilit`a di [a

, b

] , secondo la densit`a f , `e la misura dellintervallo



([a

, b

]) . In altri
termini, P
f
`e la probabilit`a su [a, b] determinata dalla variabile aleatoria : [, ] [a, b] ,
dove = 1 e la probabilit`a su [, ] `e data dalla misura di Lebesgue (con densit`a
pari a 1 , costante).
La condizione f((t))

(t) = 1 signica (regola di derivazione della funzione inversa)


f(x) =

(x) ,
4.7
Nella pratica si usa dire che si fa il cambiamento di variabile x = (t) , da cui dx =

(t) dt , e si cambiano
gli estremi di integrazione t = e t = con x = () = a e x = () = b .
4.8
Questa densit` a su [a, b] pu` o essere estesa a una densit` a

f tutto R ponendo

f(x) = 0 per x [a, b] .
46 4 VARIABILI ALEATORIE
Figura 11: Graci della densit`a f(x) = 2/((1 + x
2
)) sullintervallo [1, 1] , della funzione di
partizione F(x) e della sua inversa : [1, 1] [0, 1] .
f(x)
1.0 0.5 0.5 1.0
0.2
0.4
0.6
0.8
1.0
(t)
0.2 0.4 0.6 0.8 1.0
1.0
0.5
0.5
1.0
F(x)
cio`e

: [a, b] [, ] ha da essere una primitiva di f : [a, b] [0, 1] . Inoltre

(a) = ,
pertanto

(x) = +
_
x
a
f() d .
Di regola converr`a, soprattutto nelle simulazioni al computer, prendere [, ] = [0, 1] ; pertanto
la variabile aleatoria cercata sar`a linversa di

(x) =
_
x
a
f() d .
Si noti che questultima non `e altro che la funzione di ripartizione della densit`a f .
Esempio 4.9. Consideriamo sullintervallo [a, b] [1, 1] la densit`a f data da (gura 11)
f(x) =
2
(1 +x
2
)
.
Dato che una primitiva di 1/(1 +x
2
) `e arctan x, la funzione di partizione F `e data da
F(x) =
_
x
1
f() d =
1
2
+
2

arctan x ,
e la sua inversa (ottenuta risolvendo rispetto a x lequazione F(x) = t) da
(t) = tan
_

2
_
t
1
2
_
.
Controlliamo allora la giustezza dei nostri calcoli e ragionamenti mediante una simulazione
al computer. Procediamo cos`: prima di tutto estraiamo a caso, con la funzione random (quindi
4.6 Variabili aleatorie vettoriali 47
con densit`a uniforme), N reali nellintervallo [0, 1] ; poi applichiamo a ciascuno di questi numeri
la funzione . Otteniamo cos` N numeri nellintervallo [1, 1] . Inne rappresentiamo con il
solito graco a barre (gura 12) la frazione di risultati nei sottointervalli di ampiezza 0.01 .
Confrontando il graco a barre con il graco di f si vede chiaramente che la simulazione cos`
costruita riproduce la densit`a assegnata.
Figura 12: Graci a barre della simulazione di N estrazioni con densit`a f(x) = 2/((1 +x
2
))
sullintervallo [1, 1] .
N = 10 000
N = 100 000
N = 1 000 000
4.6 Variabili aleatorie vettoriali
Sia (, E, P) uno spazio di probabilit`a. Diremo variabile aleatoria vettoriale, o vettore aleato-
rio, unapplicazione X (X
1
, . . . , X
m
) : R
m
le cui componenti X
i
: R siano varia-
bili aleatorie scalari, cio`e variabili aleatorie nel senso precedentemente introdotto. Analoga-
mente al caso scalare, X determina una struttura di spazio di probabilit`a su R
m
; se A R
m
`e un insieme misurabile, la probabilit`a `e
P
X
(A) = PX A P(

X(A)) .
Se x (x
1
, . . . , x
m
) R
m
allora

X(x) =
_
:

X
1
(x
1
) =

X
2
(x
2
) = =

X
m
(x
m
) =
_
=
=

X
1
(x
1
)

X
2
(x
2
)

X
m
(x
m
) .
48 4 VARIABILI ALEATORIE
Se A R
m
`e un sottoinsieme qualsiasi allora

X(A) =
_
xA

X(x) =
_
xA
_

X
1
(x
1
)

X
2
(x
2
)

X
m
(x
m
)
_
.
Se I = I
1
I
m
`e un iper-intervallo si ha, pi` u semplicemente,
4.9

X(I) =

X
1
(I
1
)

X
m
(I
m
) .
In particolare considereremo gli iper-intervalli del tipo
J
x
= J
x
1
J
x
2
J
xm
, x (x
1
, . . . , x
m
) R
m
,
dove J
x
i
= (, x
i
] R, ovvero
J
x
:= u = (u
i
) R
m
: u
i
x
i
, 1 i m .
Diciamo allora funzione di ripartizione congiunta la funzione F
X
: R
m
[0, 1] denita da
F
X
(x) = P(J
x
) , x (x
i
) (x
1
, . . . , x
m
) R
m
.
Diremo poi che F
X
ammette densit`a congiunta
4.10
p
X
: R
m
[0, ) se P
X
ha densit`a p
X
;
in tal caso

_
R
m
p
X
= 1 ,
F
X
(x) =
_
Jx
p
X

_
x
1

du
1
. . .
_
xm

du
m
p
X
(u
1
, . . . , u
m
) .
Le funzioni di ripartizione F
X
i
e le densit`a p
X
i
delle variabili aleatorie componenti X
i
sono
dette, rispettivamente, funzioni di ripartizione e densit`a marginali. Conoscendo F
X
e p
X
si
conoscono anche le F
X
i
e le densit`a p
X
i
; si ha infatti
F
X
i
(x
i
) = lim
x
1
,..., x
i
,...xm
F
X
(x
1
, . . . , x
i
, . . . x
m
) , dove il cappello sopra un simbolo signi-
ca che `e eliminato dalla lista (quindi non si fa il limite rispetto a x
i
);
p
X
i
(x
i
) =
_
R
m1
p
X
(x) dx
1
, . . . ,

dx
i
, . . . dx
m
,
p
X
(x
1
. . . x
m
) =

m
x
1
. . . x
m
F
X
(x) .
Per chiarezza sar`a opportuno riscrivere queste due formule nel caso m = 2 ; indicando allora
con Z = (X, Y ) la variabile aleatoria bidimensionale si ha
F
X
(x) = lim
y
F
Z
(x, y) , F
Y
(y) = lim
x
F
Z
(x, y) ;
4.9
Se m = 2 (il caso generale si dimostra analogamente) si ha

X(I) =

X(I1 I2) = :

X1() I1 ,

X2() I2 } =

X1(I1)

X2(I2) .
4.10
Come nel caso scalare, a rigore la densit` a non riguarda tanto il vettore aleatorio X quanto con la
probabilit` a P. In molti casi pratici comunque P `e determinata da un vettore aleatorio, e anzi pu` o sempre
essere vista in tal senso.
4.6 Variabili aleatorie vettoriali 49
p
X
(x) =
_
+

p
Z
(x, y) dy , p
Y
(y) =
_
+

p
Z
(x, y) dx ,
p
Z
(x, y) =

2
xy
F
Z
(x, y) .
Per vericare le formule precedenti ragioniamo come segue (ci limitiamo al caso bidimen-
sionale, lestensione a dimensione qualsiasi dovrebbe essere ovvio). Dalle solite denizioni di
funzione di ripartizione e di densit`a per una variabile aleatoria scalare abbiamo
F
X
(x) = P
_
X(, x]
_
= P
_
X(, x]
_
= P
_
X(, x]

Y (, +)
_
=
= lim
y
P
_
X(, x]

Y (, y)
_
= lim
y
F
Z
(x, y) ,
p
X
(x) =
d
dx
F
X
(x) =
d
dx
_
x

du
_
+

dy p
Z
(u, y) =
_
+

p
Z
(x, y) dy ,
p
Z
(x, y) =

2
xy
_
_
x

du
_
y

dv p
Z
(u, v)
_
=

2
xy
F
Z
(x, y) .
Osservazione. Pu`o essere utile, ai ni di una migliore comprensione, tenere presente (qui
come in altre situazioni che vedremo) lanalogia tra densit`a di probabilit`a e densit`a di massa.
Consideriamo un corpo continuo, che a un dato istante occupi un congurazione C che, scelto
un sistema di coordinate cartesiano, pu`o essere visto come un opportuno sottoinsieme di R
3
.
La densit`a di massa `e una funzione scalare : C R (avendo scelto delle unit`a di misura per
le masse e per le lunghezze), e la massa del corpo `e il numero m =
_
C
. Allora la densit`a
normalizzata p /m `e (almeno dal punto di vista tecnico) una densit`a di probabilit`a su
C .
La visualizzazione dei concetti `e pi` u agevole quando si consideri una congurazione bidi-
mensionale, C R
2
. Nelle illustrazioni che seguono, la curva chiusa rappresenta il bordo di
C ; le aree colorate della prima riga rappresentano i domini di integrazione
4.11
per la densit`a
che danno rispettivamente F
X
(x) , F
Y
(y) e F
Z
(x, y) . Nella prima gura della seconda riga la
strisciolina compresa tra x e x+dx `e il dominio sul quale lintegrale della densit`a congiunta
d`a p
X
(x) dx; analogamente, nella seconda gura della seconda riga la strisciolina compresa
tra y e y +dy `e il dominio sul quale lintegrale della densit`a congiunta d`a p
Y
(y) dy ; inne,
nellultima gura, il rettangolino pi` u scuro di lati dx e dy ha probabilit`a p(x, y) dxdy (gli
integrali sono proporzionali alle aree se la densit`a `e costante).
x
F
X
(x)
y
F
Y
(y)
r(x, y)
F
Z
(x, y)
4.11
I domini eettivi di integrazione qui sono compatti perche C `e un insieme limitato.
50 4 VARIABILI ALEATORIE
p
X
(x)dx
x x+dx
p
Y
(y)dy
y
y+dy
p(x, y)dxdy
Dunque la densit`a congiunta determina le densit`a marginali. Non basta invece, in generale,
conoscere le densit`a marginali per conoscere la densit`a congiunta: densit`a congiunte diverse
possono avere le stesse densit`a marginali.
4.12
Esempio 4.10. Consideriamo gli spazi di probabilit`a aventi come spazio dei campioni rispetti-
vamente

= D
6
2
(due lanci di un dado) = D
6
2

(due estrazioni senza rimpiazzo di due


elementi da un insieme di sei), con probabilit`a uniforme in entrambi i casi. Si ha [

[ = 36 ,
[[ = 6 5 = 30 ; la densit`a, costante, vale quindi p

= 1/36 nel primo caso e p = 1/30 nel


secondo. Indichiamo poi con X

1
(risp. X
1
) la variabile aleatoria risultato del primo lancio
(estrazione) e con X

2
(risp. X
2
) la variabile aleatoria risultato del secondo lancio (estra-
zione), e poniamo X (X
1
, X
2
) . Dunque p
X

= 1/36 (costante) e p
X

= 1/30 (costante).
Calcoliamo ora le densit`a marginali nei due casi:
p
X

1
(i) =
6

j=1
p

(i, j) = 6
1
36
=
1
6
, p
X

2
(i) =
6

j=1
p

(j, i) = 6
1
36
=
1
6
,
p
X
1
(i) =

j=i
p(i, j) = 5
1
30
=
1
6
, p
X
2
(i) =

j=i
p(j, i) = 5
1
30
=
1
6
.
Dunque le densit`a marginali relative a X e X

sono le stesse, ma le densit`a p e p

sono dierenti.
Si noti poi che linclusione

fa s` che p e X possano essere viste come una densit`a e una


variabile aleatoria su

(con p(i, i) = 0 , i N
6
).
Se esiste la densit`a, per sottoinsiemi A R
m
ragionevoli e vettori aleatori ragionevoli
si ha
P
X
(A) =
_
A
p
X
.
Osservazione. Pu`o darsi il caso che le componenti di un vettore aleatorio abbiano densit`a
(marginali), ma che non esista la densit`a congiunta.
4.7 Variabili aleatorie indipendenti
Sia X : R
m
un vettore aleatorio; diremo che le sue componenti
_
X
i
_

_
X
1
, X
2
, . . . , X
m
_
sono indipendenti se, per ogni m-upla di sottoinsiemi A
i
R, sono indipendenti gli m eventi

X
i
(A
i
) , 1 i m ,
ovvero se si ha
P
_

1im
_
X
i
(A
i
)
_
_
=

1im
P
_
X
i
(A
i
)
_
.
4.12
La questione ha a che fare con lindipendenza della variabili aleatorie (4.7)
4.7 Variabili aleatorie indipendenti 51
In particolare, X, Y : R sono indipendenti se per ogni coppia di sottoinsiemi A, B R
si ha
P
_

X(A)

Y (B)
_
= P
_
X(A)
_
P
_
Y (B)
_
,
ovvero, in notazione pi` u tradizionale (per i testi di probabilit`a)
PX A, Y B = PX A PY B .
Pi` u in generale le variabili aleatorie di una famiglia numerabile
_
X
i
_
, i N, si dicono in-
dipendenti se una qualsiasi sottofamiglia nita `e costituita da variabili aleatorie indipendenti.
Un condizione suciente per lindipendenza delle
_
X
i
_
, 1 i m, `e chiaramente
lesistenza della densit`a congiunta p p
X
e delle densit`a marginali p
X
i
tali che si abbia
p
X
(x
1
, . . . , x
m
) = p
X
1
(x
1
) p
Xm
(x
m
)
quasi ovunque su R
m
. Viceversa se le densit`a congiunta e marginali esistono e la relazione
qui sopra non vale su un insieme di misura ,= 0 , allora le
_
X
i
_
non sono indipendenti.
4.13
In eetti consideriamo per esempio, nel caso bidimensionale, i sottoinsiemi A = [x, x+x] e
B = [y, y+y] con x e y piccoli; allora
PX A, Y B

= p(x, y) xy ,
mentre
PX A PY B

=
_
p
X
(x) x
_

_
p
Y
(y) y
_
= p
X
(x) p
Y
(y) xy .
Osserviamo poi che la denizione di indipendenza pu`o essere estesa, in maniera del tutto
naturale, al caso di pi` u vettori aleatori (la formulazione esplicita `e lasciata al lettore).
In termini discorsivi, lindipendenza di variabili aleatorie signica che la conoscenza del
valore assunta da una di esse in un esperimento non d`a alcuna informazione che permetta di
migliorare le nostre previsioni riguardo alle altre.
Il seguente risultato `e intuitivamente abbastanza naturale:
Teorema 4.3. Siano X : R
m
e Y : R
n
vettori aleatori indipendenti, e siamo
: R
m
R, : R
n
R funzioni sucientemente regolari. Allora X e Y sono
variabili aleatorie indipendenti.
Lenunciato precedente (che pu`o essere immediatamente esteso al caso di un numero qual-
siasi di vettori aleatori) `e incompleto in quanto non precisa le ipotesi di regolarit`a di e .
Queste ipotesi sono comunque vericate in tutti i casi di interesse pratico; in questa sede non
indagheremo la questione ulteriormente.
4.13
Questo discorso pu` o essere ranato per tener conto del caso in cui la densit` a sia una distribuzione non
rappresentata da una funzione ordinaria (2.4).
52 4 VARIABILI ALEATORIE
Esempio 4.11.
2
0
2
2
0
2
0.0
0.1
0.2
0.3
Un proiettile viene lanciato verso un
bersaglio di coordinate (, ) . Sup-
poniamo che le coordinate X e Y
del punto in cui colpisce siano va-
riabili aleatorie indipendenti, aventi
densit`a normale rispettivamente
f
X
(x) =
1

2
e

(x)
2
2
2
,
f
Y
(y) =
1

2
e

(y)
2
2
2
.
Allora la densit`a congiunta di (X, Y ) `e
f
(X,Y )
(x, y) =
1
2
e

(x)
2
2
2

(y)
2
2
2
.
Il graco di questa funzione `e disegnato qua sopra. Tagliandolo con un piano orizzontale si
ottiene una ellissi, in quanto le varianze
2
e
2
di X e Y sono dierenti.
Scegliamo ora lorigine delle coordinate coincidente con il bersaglio, per cui = = 0 , e
consideriamo le variabili aleatorie R =

X
2
+Y
2
e = arg(X, Y ) , cio`e le coordinate polari
con centro nel bersaglio. Abbiamo anche
X = R cos , Y = R sin .

r
Vogliamo determinare la funzione di ripartizione congiunta
F
(R,)
: R
+
[0, 2 ) [0, 1] . Si ha
F
(R,)
(r, ) = P(J
r,
) PR r, =
_
J
r,
f
(X,Y )
,
dove J
r,
R
2
`e il settore circolare mostrato nella gura qua ac-
canto. Facendo il cambio di variabile x r cos e y r sin ,
da cui dxdy r dr d , si ottiene
F
(R,)
(r, ) =
_

0
d
_
r
0
dr
r
2
e
r
2
(
cos
2

2
2
+
sin
2

2
2
)
,
dove per semplicare la notazione abbiamo indicato con gli stessi simboli la variabile dinte-
grazione e i limiti superiori dellintervallo dintegrazione. Quindi abbiamo la densit`a congiunta
f
(R,)
(r, ) =
r
2
e
r
2
(
cos
2

2
2
+
sin
2

2
2
)
.
`
E evidente che questa non pu`o essere scritta come il prodotto di una funzione di r e di
una funzione di . Comunque le densit`a marginali possono essere calcolate,
4.14
e risulta
f
(R,)
(r, ) ,= f
R
(r) f

() . Dunque R e sono variabili aleatorie non indipendenti. In manie-


ra intuitiva, possiamo renderci conto di questa dipendenza nel modo seguente. Se a, R
+
,
4.14
Lintegrale rispetto alla variabile r si calcola facilmente mediante il cambiamento di variabile r
2
u; si
4.7 Variabili aleatorie indipendenti 53
lintegrale sullintervallo [a, a] di una distribuzione Gaussiana con varianza sucientemen-
te piccola `e 1 ; estendendo questo risultato al caso in esame, vediamo che scegliendo
opportuni valori di e possiamo far s` che P
(X,Y )
[a, a] [b, b] dierisca da 1 per una
quantit`a arbitrariamente piccola. Supponiamo allora che sia b a , cio`e che il rettangolo
[a, a] [b, b] sia molto stretto e disposto con il lato pi` u lungo nella direzione dellasse x.
Se sappiamo che un lancio ha dato un valore di r abbastanza elevato (per esempio r 3 b),
possiamo dedurre che molto probabilmente il punto di arrivo si trova vicino allasse x, e quindi
ha un valore vicino a 0 o ; `e improbabile che il punto si trovi a una distanza dallasse x
paragonabile con a .
Daltra parte, nel caso particolare = si ha
f
(X,Y )
(x, y) =
1
2
2
e

x
2
+y
2
2
2
(la classica campana) che, tramite il solito cambio di variabile, d`a
f
(R,)
(r, ) =
r
2
2
e

r
2
2
2
,
f
R
(r) =
_
2
0
f
(R,)
(r, ) d =
r

2
e

r
2
2
2
f

() =
_

0
f
(R,)
(r, ) dr =
1
2
.
Si ha quindi f
(R,)
(r, ) = f
R
(r) f

() , e le variabili aleatorie R e risultano essere indipen-


denti.

Esempio 4.12. Consideriamo ora una densit`a nel piano R


2
che sia concentrata sul cerchio di
raggio r ed ivi uniforme, ovvero
p(x, y) =
_
_
_
1
r
2
, x
2
+y
2
< r
2
,
0 , x
2
+y
2
r
2
.
Dovrebbe esser abbastanza evidente allora che X e Y (le stesse variabili aleatorie dellesem-
pio 4.11) non sono indipendenti: se (mettiamo) X = x allora Y [

r
2
x
2
,

r
2
x
2
] . Pi` u
precisamente, con facili calcoli si ottiene
p
X
(x) =
_ +

p(x, y) dy =
_

r
2
x
2

r
2
x
2
p(x, y) dy =
2

r
2
x
2
r
2
,
p
Y
(y) =
2
_
r
2
y
2
r
2
,
ottiene
f

() =
_

0
f
(R,)
(r, ) dr =

2 (
2
cos
2
+
2
sin
2
)
.
Lintegrale rispetto a non `e tanto semplice da calcolare, anzi pu` o essere svolto esplicitamente solo in termini
di certe funzioni speciali dette funzioni di Bessel (si tratta di funzioni regolarissime e a pieno titolo, che sono
ampiamente studiate, ma di solito non fanno parte del normale bagaglio appreso nei corsi di base). Si ottiene
infatti
f
R
(r) =
_
2
0
f
(R,)
(r, ) d =
1

r e

r
2
4
(
1

2
+
1

2
)
I0
_
r
2
4
(
1

2

1

2
)
_
,
dove I0(x) appartiene appunto alla suddetta famiglia delle funzioni di Bessel.
54 4 VARIABILI ALEATORIE
e quindi ovviamente p(x, y) ,= p
X
(x) p
Y
(y) . Daltra parte, passando a coordinate polari si ha
p(r, ) =
_
_
_
r
r
2
, r < r ,
0 , r r ,
densit`a (non uniforme) concentrata sulla striscia R
+
[0, 2 ) R
2
. Quindi R e sono
indipendenti, in quanto
p
R
(r) =
_
2
0
p(r, ) d =
_
2 r
r
2
, r < r ,
0 , r r ,
p

() =
_
r
0
p(r, ) dr =
1
2
.
Con ragionamenti analoghi non `e dicile far vedere (esercizio) che se p `e una densit`a
uniforme concentrata sul rettangolo [a, a] [b, b] , con a, b R
+
, allora X e Y sono indi-
pendenti mentre R e non lo sono.

Osservazione. Se una densit`a `e diversa da zero su un sottoinsieme di R


m
che non sia un
prodotto cartesiano di m sottoinsiemi di R, le m variabili aleatorie X
i
: (x
1
, . . . , x
m
) x
i
non
sono indipendenti.
Esempio 4.13. Sia A R
2
il triangolo di vertici (0, 0) , (1, 0) e (0, 1) , e p la densit`a uniforme
su A: quindi p(x, y) = 2 per (x, y) A e p(x, y) = 0 per (x, y) , A. Se (X, Y ) p `e imme-
diato vericare che le densit`a marginali valgono p
X
(x) = 2 (1 x) e p
Y
(y) = 2 (1 y) , dunque
p(x, y) ,= p
X
(x) p
Y
(y) . In eetti si osservi che p(x, y) pu`o essere scritta esplicitamente, senza
vincoli, nella forma p(x, y) = 2 H(x) H(y) H(1 xy) , dove H `e la funzione scalino uni-
tario (introdotta nel 2.4, ultima osservazione).

Esempio 4.14. Nellesperimento lancio di due dadi regolari, quindi = (i, j), 1 i, j 6
e p(i, j) = 1/36 , consideriamo la variabile aleatoria
Z (X, Y ) : R
2
: (i, j) (i +j, i j) ,
Z() = (m, n) : 2 m 12, 5 n 5 .
Le probabilit`a marginali sono riportate nelle tabelle:
x 2 3 4 5 6 7 8 9 10 11 12
p
X
(x)
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
1
36
y 5 4 3 2 1 0 1 2 3 4 5
p
Y
(y)
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
1
36
Il fatto che le distribuzioni p
X
e p
Y
abbiano un andamento simile non signica ovviamente che
conoscendo il valore di X si conosca il valore di Y (o viceversa); tuttavia X e Y non sono
indipendenti, come si vede dalle seguenti due tabelle in cui sono riportati rispettivamente i
valori di 36 p
(X,Y )
(x, y) e di 1296 p
X
(x) p
Y
(y) :
4.8 Densit`a condizionale 55
d
d x
y
5 4 3 2 1 0 1 2 3 4 5
2 0 0 0 0 0 1 0 0 0 0 0
3 0 0 0 0 1 0 1 0 0 0 0
4 0 0 0 1 0 1 0 1 0 0 0
5 0 0 1 0 1 0 1 0 1 0 0
6 0 1 0 1 0 1 0 1 0 1 0
7 1 0 1 0 1 0 1 0 1 0 1
8 0 1 0 1 0 1 0 1 0 1 0
9 0 0 1 0 1 0 1 0 1 0 0
10 0 0 0 1 0 1 0 1 0 0 0
11 0 0 0 0 1 0 1 0 0 0 0
12 0 0 0 0 0 1 0 0 0 0 0
d
d x
y
5 4 3 2 1 0 1 2 3 4 5
2 1 2 3 4 5 6 5 4 3 2 1
3 2 4 6 8 10 12 10 8 6 4 2
4 3 6 9 12 15 18 15 12 9 6 3
5 4 8 12 16 20 24 20 16 12 8 4
6 5 10 15 20 25 30 25 20 15 10 5
7 6 12 18 24 30 36 30 24 18 12 6
8 5 10 15 20 25 30 25 20 15 10 5
9 4 8 12 16 20 24 20 16 12 8 4
10 3 6 9 12 15 18 15 12 9 6 3
11 2 4 6 8 10 12 10 8 6 4 2
12 1 2 3 4 5 6 5 4 3 2 1
Daltra parte, `e evidente che se (per esempio) lesperimento ha dato Y = 0 , allora la X pu`o
prendere solo valori pari, quindi X e Y non possono essere indipendenti.
In maniera analoga, `e facile convincersi che (X, Y ) : R
2
: (i, j) (i +j, i j) non so-
no indipendenti; per esempio, se Y = 36 allora necessariamente X = 12 ; se Y = 12 allora
X 7, 8 , eccetera. Non `e dicile fare le tabelle complete delle densit`a congiunta e margi-
nali anche in questo caso, `e solo un po pi` u lungo perche Y () ha cardinalit`a maggiore.

4.8 Densit`a condizionale


Siano X, Y : R due variabili aleatorie di densit`a congiunta p p
X,Y
e densit`a marginali
p
X
e p
Y
, rispettivamente. Per ciascun y R tale che p
Y
(y) ,= 0 , la densit`a
p
X|Y =y
: R [0, )
data da
p
X|Y =y
(x)
p(x, y)
p
Y
(y)
`e detta densit`a condizionale di X dato Y = y . Il signicato di p
X|Y =y
dovrebbe essere abba-
stanza ovvio: in generale, il sapere che in un eseprimento la Y ha assunto il valore y modica
le nostre previsioni riguardo alla X . Una ovvia denizione analoga vale per la densit`a p
Y |X=x
,
con p
X
(x) ,= 0 .
56 4 VARIABILI ALEATORIE
Se X e Y sono indipendenti si ha subito
p
X|Y =y
(x) = p
X
(x) , p
Y |X=x
(y) = p
Y
(y) .
In generale, se A, B R abbiamo la probabilit`a condizionale
PXA[ Y B =
__
AB
p
X|Y =y
(x) dxdy .
Esempio 4.15. Nel caso della densit`a uniforme sul cerchio di raggio r (esempio 4.12) si ha
p
X|Y =y
(x) =
1
2
_
r
2
y
2
, p
Y |X=x
(y) =
1
2

r
2
x
2
.

4.9 Calcolo di leggi


La densit`a determinata da una variabile aleatoria `e detta anche legge della medesima. Un
problema che capita spesso `e il seguente: data una variabile aleatoria X : R
m
e unappli-
cazione sucientemente regolare : R
m
R
n
, calcolare la legge di (X) X : R
n
.
Un modo ovvio per arontarlo consiste nel trovare la funzione di ripartizione di (X) per poi
derivarla. Si noti anche che se : R
m
R
m
`e un dieomorsmo (unapplicazione invertibile e
derivabile in entrambi i sensi) allora la questione consiste sostanzialmente nel fare un cambio
di variabile in un integrale multiplo (come si `e visto nel 4.5 e negli esempi 4.11 e 4.12).
Esempio 4.16. Sia X : R una variabile aleatoria di densit`a f continua; trovare la densit`a
di a X +b , dove a, b R.
Consideriamo la variabile aleatoria X con (x) = a x +b . Distinguiamo i tre casi
a > 0 , a < 0 , a = 0 . Se a > 0 si ha

(, t] = x R : a x +b t = (,
tb
a
]
F
X
(t) = F
X
(
tb
a
) =
_
(tb)/a

f(x) dx
f
X
(t) =
d
dt
F
X
(t) =
1
a
f(
tb
a
) .
Se a < 0 si ha

(, t] = x R : a x +b t = [
tb
a
, ) = R (,
tb
a
) .
Poiche f `e continua, F `e derivabile (e, in particolare, continua a sinistra); pertanto
F
X
(t) = 1 F
X
(
tb
a
) = 1
_
(tb)/a

f(x) dx
f
X
(t) =
d
dt
F
X
(t) =
1
a
f(
tb
a
) .
4.9 Calcolo di leggi 57
In denitiva, per a positivo o negativo si ottiene f
X
(t) =
1
|a|
f(
tb
a
) . Se a = 0 si ha invece
(R) = b , da cui

(, t] =
_
, t < b ,
R , t b ,
F
X
(t) = H
b
(t)
_
0 , t < b ,
1 , t b ,

f
X
(t) =
d
dt
F
X
(t) =
b
(t) ,
dove si `e utilizzata la relazione tra funzione gradino e delta di Dirac (2.4).
Esempio 4.17. Un caso particolare dellesempio precedente ha una speciale importanza: se la
densit`a di una variabile aleatoria X `e la densit`a normale
p
X
(x) = N[0, 1](x)
1

2
e
x
2
/2
,
allora prendendo : x x+ si ottiene subito
p
X+
(x) = N[,
2
](x)
1

2
e

(x)
2
2
2
.

Esempio 4.18. Sia X : R una variabile aleatoria di densit`a f ; trovare la densit`a di X


2
.
Consideriamo la variabile aleatoria X con (x) = x
2
. Si ha

(, t] =

[0, t] = [

t,

t] F
X
(t) =
_

t

t
f(x) dx
f
X
(t) =
d
dt
F
X
(t) = f(

t)
d

t
dt
f(

t)
d(

t)
dt
=
=
f(

t) +f(

t)
2

t
.
In particolare, sia X N[0, ] . Allora X
2
ha densit`a
p
X
2
(x) =
1
2

x
_
N[0, ](

x) +N[0, ](

x)
_
=
=
1

2
x
1/2
e
x/2
2
,
che risulta essere una particolare legge Gamma (6.6).
Esempio 4.19. Sia X : R
+
R una variabile aleatoria di densit`a f ; trovare la densit`a
di X : R
+
R (

2
,

2
) dove (x, y) = arctan(y/x) .
Per ogni (

2
,

2
) si ha

() = (x, y) R
+
R : y = x tan ,

2
, ] = (x, y) R
+
R : y x tan .
58 4 VARIABILI ALEATORIE
Dunque

2
, ] `e la porzione del semipiano R
+
R R
2
delimitata superiormente dalla
semiretta di equazione y = x tan . Pertanto
F
X
() = P
_
(

2
, ]
_
=
_

0
dx
_
x tan

dy f(x, y)
f
X
() =
d
d
F
X
() =
_

0
_
f(x, x tan )
d(x tan )
d

dx =
=
1
cos
2

_

0
f(x, x tan ) xdx .
Ad esempio se f(x, y) =
1
2
2
e

x
2
+y
2
2
2
si trova facilmente
4.15
f
X
() =
1
2
, F
X
() =

2
.

Del seguente risultato verr`a utilizzato in particolare per dimostrare una propriet`a delle
leggi Gamma (6.6).
Teorema 4.4. Siano X e Y variabili aleatorie reali di densit` a congiunta p(x, y) . Allora la
variabile aleatoria X +Y ha densit`a
p
X+Y
(z) =
_
+

p(x, z x) dx .
Dimostrazione:
y = tx
A
t
La funzione di ripartizione di X +Y `e
F
X+Y
(t) = PX +Y t =
_
At
p(x, y) dxdy ,
dove il semipiano
A
t
= (x, y) R
2
: x+y t R
2
`e rappresentato nella gura a lato come la regione co-
lorata. Facendo prima lintegrale rispetto alla variabile y
(quindi su una strisciolina verticale di ampiezza dx), con
il cambio di variabile z = x+y (da cui dy = dz e z = t per
y = t x), si ottiene
F
X+Y
(t) =
_
+

dx
_
tx

dy p(x, y) =
_
+

dx
_
t

dz p(x, z x) =
=
_
t

_
_
+

p(x, z x) dx
_
dz .
4.15
Ricordando che (1 + tan
2
) = 1/ cos
2
e facendo il cambiamento di variabile u = x
2
, da cui du = 2 xdx,
si ottiene
_

0
f(x, x tan ) xdx =
1
2
2
_

0
e

x
2
2
2
cos
2
xdx =
1
2
2

1
2
_

0
e

u
2
2
cos
2
du =
=
1
4
2
(2
2
cos
2
)
_
e

u
2
2
cos
2

0
=
cos
2

2
[0 1] =
cos
2

2
.
4.10 Il caso di Mary vos Savant 59
Pertanto
p
X+Y
(z) =
d
dt
F
X+Y
(t)

t=z
=
_
+

p(x, z x) dx .

4.10 Il caso di Mary vos Savant


Questo noto
4.16
problema di probabilit`a mostra come anche questioni elementari possano
nascondere sottigliezze e dar luogo a risultati sorprendenti (o comunque poco intuitivi).
In un gioco a premi ci sono tre scatole, una sola delle quale contiene il premio. Il concorrente
ne sceglie una, che non viene aperta. A questo punto il presentatore, che sa dove `e il premio,
apre una delle altre due scatole e mostra che `e vuota; poi chiede al concorrente se vuole
mantenere la scelta fatta precedentemente o se preferisce cambiarla (prendendo cio`e laltra
delle due scatole rimaste ancora chiuse). La questione allora `e la seguente: qual`e la strategia
migliore per il concorrente? Mantenere la scelta iniziale o cambiarla?
Alla maggior parte delle persone lintuizione immediata suggerisce che le due strategie
siano equivalenti. Dopotutto, una volta che il presentatore ha aperto una scatola vuota il
concorrente sa questo: che una delle due scatole non aperte contiene il premio, mentre laltra
`e vuota. Il cambiare o no la scelta iniziale pare equivalente allo scegliere una scatola tra le
due non aperte.
E invece risulta che il concorrente ha maggiore probabibilt`a di vincita se cambia la scelta
iniziale. Pi` u precisamente vince con probabilit`a 2/3 se la cambia (e con probabilit`a 1/3 se non
la cambia). Per rendersene conto basta guardare il diagramma:

g g

g g g

in cui il seme indica il premio, e un circoletto indica una scatola vuota. I tre simboli in alto
indicano le tre possibili scelte iniziali, i sei in basso indicano i risultati nali; le righe oblique
indicano la scelta di non cambiare scatola ovvero di cambiarla, a seconda che siano tagliate o
no da una riga corta orizzontale.
`
E allora immediato vericare che, dei tre casi in cui la scelta
iniziale viene cambiata, due portano alla vincita (mentre dei tre casi in cui la scelta iniziale
non viene cambiata, solo uno porta alla vincita).
Ma allora, qual`e il difetto del ragionamento intuitivo iniziale? Per chiarirlo dobiamo pre-
cisare meglio la descrizione matematica del problema, cio`e il suo modello probabilistico. Co-
minciamo con losservare che se il gioco consistesse semplicemente nello scegliere una scatola
delle tre e aprirla, il modello probabilistico appropriato sarebbe uno schema di Bernoulli con
probabilit`a di successo p = 1/3 ; ci`o in quanto il concorrente ha informazione nulla riguardo
a dove si trova il premio. Daltra parte se il concorrente avesse la vista a raggi X come
Superman allora potrebbe andare a colpo sicuro, cio`e vincerebbe con probabilit`a p = 1 . Il
4.16
La questione `e stata portata allattenzione del pubblico in una rubrica di Marilyn vos Savant, giornalista
e scrittrice americana, sulla rivista Parade. La vos Savant, nota anche per avere il pi` u alto QI mai misurato,
diede la risposta corretta, ma migliaia di lettori, tra cui molti accademici, scrissero per sostenere che sbagliava.
60 4 VARIABILI ALEATORIE
caso in esame `e per cos` dire intermedio, in quanto `e complicato dal fatto che il concorrente
dispone in eetti di una qualche informazione, anche se solo parziale. Questa informazione
`e fornita dallinterferenza del presentatore con il processo. Il presentatore dispone dellinfor-
mazione completa, e ne fornisce una parte con laprire una scatola che lui sa essere vuota.
Pertanto la scelta nale non pu`o essere equiparata al lancio cieco di una moneta regolare.
Per precisare il modello probabilistico non dobbiamo far altro che rielaborare in modo
un po pi` u formale lo schema precedente. Consideriamo infatti lesperimento consistente nel
lancio di due monete, recanti entrambe sulle facce i numeri 0 e 1 ; ma per la prima valga
p(0) = 1/3 , mentre la seconda sia regolare. Consideriamo poi le variabili aleatorie:
X = risultato del lancio della prima moneta,
Y = risultato del lancio della seconda moneta,
Z = (X +Y ) mod 2
_
0 , se X +Y `e pari (vincita),
1 , se X +Y `e dispari,
il tutto illustrato dal seguente diagramma:

1/3 2/3
0

d
d
d
d
d
1

d
d
d
d
d
0 1 0 1
0 1 1 0
1/2 1/2 1/2 1/2
X
Y
Z
Il lancio della prima moneta (con le rispettive probabilit`a dei due risultati indicate a anco
della linea corrispondente) rappresenta la scelta iniziale; la scelta della scatola giusta cor-
risponde al valore X =0 . Il lancio della seconda moneta rappresenta la decisione se cambiare
la scelta iniziale (Y =1) oppure no. Abbiamo quindi uno spazio di probabilit`a i cui atomi
possono essere contrassegnati mediante le coppie di valori di (X, Y ) , ovvero
= 00, 01, 10, 11 ,
e su cui `e denita la variabile aleatoria Z data da
Z(00) = Z(11) = 0 , Z(01) = Z(10) = 1 ;
la vincita nale `e rappresentata da Z =0 .
Disponendo di un modello preciso possiamo ora risolvere, mediante calcoli diretti, qualsiasi
problema relativo allesperimento descritto. In particolare, riguardo alla questione di partenza,
troviamo che la probabilit`a di vincita se cambia la prima scelta risulta pari a
P(Z = 0[Y = 1) =
P(Z = 0 Y = 1)
PY = 1
=
=
P(11)
PY = 1
=
1
2

2
3
1
2
=
2
3
.
61
5 Media e momenti
5.1 Media di una variabile aleatoria
Sia X : R una variabile aleatoria, e sia p : R [0, ) la sua densit`a. Diciamo che X ha
media nita se
_
+

[x[ p(x) dx < .


Se tale condizione `e vericata allora chiamiamo media (ovvero valore di aspettazione) di X il
numero reale
E[X] :=
_
+

xp(x) dx ,
che risulta certamente nito.
5.1
Spesso, se non c`e pericolo di confusione, la media viene
indicata semplicemente con il simbolo , o
X
.
Osservazione. Si noter`a che le denizioni di media e momenti dipendono solo dalla densit`a di
probabilit`a p , piuttosto che dalla variabile aleatoria X . Daltra parte una densit`a pu`o essere
sempre vista come legata a unopportuna variabile aleatoria.
Osservazione. Quando si interpreta p come densit`a di massa, la media `e il centro di massa.
A una variabile aleatoria scalare corrisponde una distribuzione di massa su una retta, ma la
nozione di media pu`o essere facilmente estesa a un vettore aleatorio a valori in R
n
; in tal caso
la media `e un vettore che ha come componente i-esima
E[p]
i
:=
_
R
n
x
i
p(x
1
, . . . , x
n
) dx
1
. . . dx
n
=
_
R
x
i
p
X
i
(x
i
) dx
i
= E[X
i
]
(purche lintegrale converga assolutamente).
Osservazione. Nel caso discreto la densit`a `e una combinazione lineare (eventualmente in-
nita) di distribuzioni del tipo delta di Dirac. Gli integrali allora diventano sommatorie (even-
tualmente somme di serie).

Teorema 5.5. Sia X (X


i
) : R
m
un vettore aleatorio di densit`a congiunta p
X
p ; sia
: R
m
R una funzione sucientemente regolare. Allora la variabile aleatoria Z X :
R ha media nita se e solo se
_
R
m
[[ p < ,
e in tal caso la media di Z vale
5.2
E[Z] =
_
R
m
p .
Dimostrazione: Dimostriamo questo teorema nel caso in cui lo spazio dei campioni sia
discreto: gli integrali diventano allora somme di serie (la dimostrazione nel caso continuo,
che non riportiamo, utilizza questo risultato e lapprossimazione degli integrali in termini di
funzioni semplici). Per facilitare la comprensione del ragionamento pu`o essere utile guardare
la gura 13, in cui sono rappresentati schematicamente gli insiemi e le applicazioni considerati.
5.1
Lintegrale `e convergente in quanto assolutamente convergente, che `e condizione suciente ma non
necessaria. Se `e convergente ma non assolutamente convergente allora non si parla di media nita.
5.2
_
R
m
p
_

. . .
_

(x1 , . . . , xm) p(x1 , . . . , xm) dx1 . . . dxm e simili.


62 5 MEDIA E MOMENTI
Per ogni z Z() poniamo A
z
:=

(z) R
m
. Dunque

Z(z) =
xAz

X(x) PZ = z P
_
Z(z)
_
=

xAz
p(x) ,
da cui

zZ()
[z[ PZ =z =

zZ()
[z[
_

xAz
p(x)
_
=

zZ()

xAz
[z[ p(x) =

zZ()

xAz
[(x)[ p(x) =
=

xX()
[(x)[ p(x)
(dove lultimo passaggio equivale a un riordinamento della serie, ed `e possibile in quanto trat-
tasi di una serie a termini non negativi). Da questa segue che se la serie

xX()
(x) p(x) con-
verge assolutamente, allora Z ha speranza matematica nita. In tal caso ripetendo i passaggi
appena svolti ma senza il valore assoluto si ha

zZ()
z PZ =z =

zZ()
z
_

xAz
p(x)
_
=

zZ()

xAz
z p(x) =

zZ()

xAz
(x) p(x) =
=

xX()
(x) p(x) ,
dove lultimo passaggio `e possibile in quanto la serie converge assolutamente e quindi pu`o
essere riordinata.
Figura 13: Rappresentazione schematica della dimostrazione del teorema 5.5. Qui la funzione
e la variabile aleatoria Z assumono valori nellinsieme Z() z, z

, z

R; si hanno
quindi tre sottoinsiemi A
z
, A
z
, A
z
R
m
(qui m = 2), la cui unione costituisce X() .
X()
A
z
A
z

A
z

z
z

A partire dal teorema 5.5 si dimostrano facilmente alcune ulteriori propriet`a della media:
Teorema 5.6. Siano X e Y variabili aleatorie con media nita. Allora:
a, b R aX+bY ha media nita e E[aX+bY ] = a E(X) +b E(Y ) ;
5.2 Momenti di una variabile aleatoria 63
[X[ ha media nita e [E[X][ E[[X[] ;
se X e Y sono indipendenti, X Y ha media nita e E[X Y ] = E[X] E[Y ] .
Dimostrazione:

xX()
[a x[ p
X
(x) = [a[

xX()
[x[ p
X
(x) < ,
quindi aX ha media nita. Si ha poi
E[aX] =

xX()
a xp
X
(x) = a

xX()
xp
X
(x) = a E[X] .
Posto Z (X, Y ) : R
2
si ha

(x,y)Z()
[x +y[ p
Z
(x, y)

(x,y)Z()
([x[ +[y[) p
Z
(x, y) =

(x,y)
[x[ p
Z
(x, y) +

(x,y)
[y[ p
Z
(x, y) =
=

x
[x[ p
X
(x) +

y
[y[ p
Y
(y) < ,
quindi X +Y ha media nita. Si ha poi
E[X +Y ] =

(x,y)Z()
(x +y) p
Z
(x, y) =

(x,y)
xp
Z
(x, y) +

(x,y)
y p
Z
(x, y) =
=

x
xp
X
(x) +

y
y p
Y
(y) = E[X] +E[Y ] .
[E[X][ =


xX()
xp
X
(x)

xX()
[x[ p
X
(x) = E[[X[] .

(x,y)Z()
[xy[ p
Z
(x, y) =

(x,y)
[x[ [y[ p
X
(x) p
Y
(y) =
_

x
[x[ p
X
(x)
__

y
[y[ p
Y
(y)
_
< ,
quindi X + Y ha media nita. Ripetendo i medesimi passaggi senza i valori assoluti si
ottiene
E[X Y ] =
_

x
xp
X
(x)
__

y
y p
Y
(y)
_
= E[X] E[Y ] .

5.2 Momenti di una variabile aleatoria


Consideriamo ancora una variabile aleatoria, di densit`a p . Diremo che X ha momento nito
di ordine k N se la variabile aleatoria X
k
ha media nita; in tal caso
E[X
k
] =
_
R
x
k
p(x) dx
`e detto momento di ordine k . Analogamente, se (X E[X])
k
ha media nita allora diremo
che X ha momento centrato di ordine k nito, e E
_
(X E[X])
k

`e detto momento centrato di


ordine k .
64 5 MEDIA E MOMENTI
Teorema 5.7.
Se X ha momento nito di ordine k , allora ha anche momento nito di ordine r k .
Se X e Y hanno momento nito di ordine k , allora anche (X+Y ) ha momento nito di
ordine k . In particolare: se X ha momento nito di ordine k allora ha anche momento
centrato nito di ordine k .
Dimostrazione: Se r k , per ogni x R si ha [x[
r
1 +[x[
k
(infatti [x[ 1 [x[
r
1 ,
mentre [x[ > 1 [x[
r
< [x[
k
). Dunque ponendo p p
X
si ottiene
_
R
[x[
r
p(x) dx
_
R
(1 +[x[
k
) p(x) dx =
_
R
p(x) dx +
_
R
[x[
k
p(x) dx =
= 1 +E[[X
k
[] .
Se X ha momento nito di ordine k allora E[[X
k
[] `e nito, per cui risulta nito anche
E[[X
r
[]
_
X()
[x[
r
p(x) dx.
Riguardo alla seconda aermazione dellenunciato, osserviamo che tenendo conto della
convessit`a della funzione t [t[
k
si ottiene lidentit`a
5.3
[x +y[
k
2
k1
([x[
k
+[y[
k
) ,
da cui, indicando con p p
(X,Y )
la densit`a congiunta di X e Y , si ottiene
_
R
2
[x +y[
k
p(x, y) dxdy 2
k1
_
R
2
([x[
k
+[y[
k
) p(x, y) dxdy =
= 2
k1
_
_
R
2
[x[
k
p(x, y) dxdy +
_
R
2
[y[
k
p(x, y) dxdy
_
=
= 2
k1
_
_
R
[x[
k
p
X
(x) dx +
_
R
[y[
k
p
Y
(y) dy
_
=
= 2
k1
_
E[[X[
k
] +E[[Y [
k
]
_
.
Pertanto, se E[[X[
k
] e E[[Y [
k
] sono niti, anche E[[X +Y [
k
] `e nito. Consideriamo poi il caso
particolare Y E[X] ; allora p
Y
=

da cui E[[Y [
k
] = [[
k
(vedi esempio 5.2).
Il momento centrato di ordine 2 ,
Var[X] := E
_
(X E[X])
2

,
`e detto varianza.
Osservazione. Continuando lanalogia in cui p `e interpretata come densit`a di massa, E[X
2
]
corrisponde al momento dinerzia rispetto allorigine e Var[X] corrisponde al momento diner-
zia rispetto al centro di massa. La prima identit`a del teorema 5.9 (pagina 65) `e in sostanza il
teorema di Huygens.
5.3
Ricordiamo che una funzione f : R R si dice convessa se per ogni coppia di punti (x, y) del suo do-
minio e per ogni [0, 1] si ha f(x+(1 )y) f(x) +(1 )f(y) , cio`e il segmento che unisce i punti
(x, f(x)), (y, f(y)) R
2
non sta mai sotto al graco di f. Una f di classe C
2
`e convessa su un intervallo se la
sua derivata seconda `e (quasi ovunque) non negativa su di esso, e ci`o `e vero per la funzione t |t|
k
. Prendendo
allora = 1/2 nella disuguaglianza precedente si ottiene subito lidentit` a che ci serve.
5.2 Momenti di una variabile aleatoria 65
Teorema 5.8. (Disuguaglianza di Chebyshev.)
Se la variabile aleatoria X ha momento di ordine 2 nito (esiste E[X
2
]), per ogni c R
+
si
ha
P[X[ c
1
c
2
E[X
2
] ;
in particolare
P[X E[X][ c
1
c
2
Var[X] .
Dimostrazione: Verichiamo la disuguaglianza nel caso discreto (la dimostrazione nel con-
tinuo `e sostanzialmente identica). Se p `e la densit`a di X abbiamo
P[X[ c =

|x|c
p(x) =

|x|c
p(x)
x
2
x
2

|x|c
p(x)
x
2
c
2

xX()
p(x)
x
2
c
2
=
E[X
2
]
c
2
(la somma su [x[ > c signica, pi` u esplicitamente, somma su tutti gli x X() tali che [x[ > c).
Applicando questo risultato alla variabile aleatoria XE[X] si ottiene il secondo.
Osservazione. Il risultato precedente pu`o essere interpretato intuitivamente nel senso che
il momento di ordine due d`a una misura di quanto la variabile aleatoria X `e sparpagliata
rispetto a X = 0 . In particolare, la varianza d`a una misura di quanto X `e sparpagliata
rispetto a al suo valore di aspettazione.
Infne, come ultime denizioni di questo paragrafo diamo le due seguenti: se X e Y sono
variabili aleatorie con varianza nita, i numeri
Cov[X, Y ] := E
_
(X E[X]) (Y E[Y ])

,
Corr[X, Y ] :=
Cov[X, Y ]
_
Var[X] Var[Y ]
sono detti rispettivamente covarianza e coeciente di correlazione di X e Y .
Teorema 5.9. Si ha:
Var[X] = E[X
2
] (E[X])
2
;
Var[a X] = a
2
Var[X] , a R;
Var[a +X] = Var[X] , a R;
Var[X +Y ] = Var[X] +Var[Y ] + 2 Cov[X, Y ] ;
Cov[X, Y ] = E[XY ] E[X] E[Y ] .
Se X e Y sono indipendenti:
Cov[X, Y ] = 0 , Var[X +Y ] = Var[X] +Var[Y ] .
In generale, se X e Y non sono indipendenti, si ha E[[X Y []
2
E[X
2
] E[Y
2
] , dalla quale
si ottiene anche
Cov[X, Y ]
2
Var[X] Var[Y ] Corr[X, Y ]
2
1 .
Dimostrazione: Posto E[X] , E[Y ] :
66 5 MEDIA E MOMENTI
Var[X] =
_
(x )
2
p(x) dx =
_
(x
2
+
2
2 x) p(x) dx =
=
_
x
2
p(x) dx +
2
_
p(x) dx 2
_
xp(x) dx = E[X
2
] +
2
1 2 =
= E[X
2
]
2
;
poiche (teorema 5.6) E[a X] = a E[X] , si ottiene
Var[a X] =
_
(a x a )
2
p(x) dx = a
2
_
(x )
2
p(x) dx = a
2
Var[X] .
poiche (teorema 5.6) E[a +X] = a +E[X] , si ottiene
Var[a +X] =
_
(a +x (a +))
2
p(x) dx =
_
(x )
2
p(x) dx = Var[X] .
poiche (teorema 5.6) E[X +Y ] = E[X] +E[Y ] + , si ottiene
Var[X +Y ] =
=
_
(x +y ( +))
2
p(x, y) dxdy =
_ _
(x ) + (y )
_
2
p(x, y) dxdy =
=
_
(x )
2
p(x) dxdy +
_
(y )
2
p(y) dxdy + 2
_
(x ) (y ) p(x, y) dxdy =
=
_
(x )
2
p
X
(x) dx +
_
(y )
2
p
Y
(y) dy + 2
_
(x ) (y ) p(x, y) dxdy =
= Var[X] +Var[Y ] + 2 Cov[X, Y ] .
Cov[X, Y ] = E[(X) (Y )] = E[X Y Y X +] =
= E[X Y ] E[Y ] E[X] + = E[X Y ] .
Se X e Y sono indipendenti si ha E[X Y ] = (teorema 5.6), da cui Cov[X, Y ] = 0 .
Il valore di aspettazione di una variabile aleatoria non negativa `e sempre un numero 0 ;
pertanto per qualsiasi R si ha
0 E
_
( [X[ +[Y [)
2

=
2
E[X
2
] + 2 E[[X Y [] +E[Y
2
] .
Guardiamo lultima espressione come un trinomio, nella variabile , che non prende valori
negativi: allora il suo discriminante `e 0, cio`e E[[X Y [] E[X
2
] E[Y
2
] 0 . Applicando poi
questo risultato alle variabili aleatorie XE[X] e Y E[Y ] si ottiene
Cov[X, Y ]
2
E
_

(XE[X]) (Y E[Y ])

2
E
_
(XE[X])
2

E
_
(Y E[Y ])
2

=
= Var[X] Var[Y ] .
Osservazione. Valore di aspettazione e varianza di una variabile aleatoria vengono spesso
indicati rispettivamente con i simboli e
2
. Quando poi si ha a che fare con due variabili
aleatorie X e Y , si usa anche indicare con
X
e
Y
i rispettivi valori di aspettazione, con (
X
)
2
e (
Y
)
2
le rispettive varianze, con
X,Y
la covarianza e con

X,Y
=

X,Y

X

Y
il coeciente di correlazione. Per quanto visto sopra (ultimo punto del teorema 5.9) si ha
1
X,Y
1 .
La covarianza `e un indice di quanto due variabili aleatorie variano in accordo tra loro;
pu`o assumere valori positivi e negativi (un valore negativo signica che al crescere delluna
si accompagna di solito il diminuire dellaltra). Se le due variabili aleatorie sono indipendenti
allora la covarianza `e nulla, ma il viceversa non `e vero (la covarianza pu`o essere nulla senza che
le variabili aleatorie siano indipendenti). Torneremo sullargomento (8.4) per una ulteriore
discussione riguardo al coeciente di correlazione.
5.3 Alcuni esempi di media e momenti 67
5.3 Alcuni esempi di media e momenti
Uno degli esempi pi` u importanti `e quello della distribuzione Gaussiana (6.5).
Esempio 5.1. Sia X una variabile aleatoria uniformemente distribuita sullintervallo [a, b] R
e nulla al di fuori di esso, ovvero
p(x) p
X
(x) =
_
1
ba
, x [a, b] ,
0 , x , [a, b] .
Allora tutti i momenti sono niti, perche sono dati da integrali di funzioni continue su un
intervallo chiuso. Il calcolo `e semplice, e si ottiene
E[X] =
1
2
(a +b) ,
E[X
k
] =
b
k+1
a
k+1
(b a) (k + 1)
,
E[(X )
k
] = (1 + (1)
k
)
(b a)
k
2
k+1
(k + 1)
=
_
(ba)
k
2
k
(k+1)
, se k `e pari,
0 , se k `e dispari.
,
Var[X] E[(X )
2
] =
1
12
(b a)
2
.

Esempio 5.2. Sia X : R : (costante); allora p


X
=

(delta di Dirac, 2.4). Per-


tanto
E[[X[
k
] =
_
R
[x
k
[

(x) dx = [[
k
,
E[X
k
] =
_
R
x
k

(x) dx =
k
,
E[(X )
k
] =
_
R
(x )
k

(x) dx = 0 .
Si osservi che questo caso pu`o essere visto come limite del precedente, con a

, b
+
.

Esempio 5.3. Consideriamo una variabile aleatoria a valori in [1, ) con densit`a
p
X
(x) = ( 1) x

, > 1 .
`
E allora imemdiato vericare che in eetti
_

1
p
X
(x) dx = 1 .
Ricordiamo che se una funzione va asintoticamente come x

, il suo integrale su un intorno


di + converge per > 1 (disuguaglianza stretta). Pertanto la X ammette media solo per
> 2 , e in generale ammette momento di ordine k solo per > k + 1 . Per > 2 si ottiene
E[X] =
1
2
;
68 5 MEDIA E MOMENTI
per > 3 si ottiene
Var[X] =
1
( 2)
2
( 3)
.

Esempio 5.4. Consideriamo una variabile aleatoria X discreta la cui densit`a sia data dalla
legge di Poisson (3.5)
p(k) =
e

k
k!
.
Il momento di ordine r `e la somma della serie
E[X
r
] =

k=0
k
r
p(k) = e

k=0
k
r

k
k!
,
che risulta certamente nito in quanto la presenza del fattoriale al denominatore garantisce
la convergenza. In particolare:
E[X] = , E[X
2
] = (1 +) , Var[X] = .
Infatti
E[X] = e

k=0
k

k
k!
= e

k=1

k
(k 1)!
= e

k=0

k
k!
= (e

) e

= ,
E[X
2
] = e

k=0
k
2

k
k!
= e

k=1
k

k
(k 1)!
= e

k=0
(k + 1)

k+1
k!
=
= e

k=0
k

k
k!
+

k=0

k
k!
_
= e

(e

+ e

) = ( + 1) ,
Var[X] = E[X
2
] (E[X])
2
=
(nellultima riga abbiamo utilizzato il primo risultato del teorema 5.9). Si pu`o poi dimostrare
che tutti i momenti centrati, di qualsiasi ordine, hanno il medesimo valore .
Applichiamo questo risultato al caso del decadimento radioattivo (3.8). Abbiamo visto
che, dato un campione di N atomi, la probabilit`a che k di questi decadano in un tempo t `e data
dalla legge di Poisson p(k) =
1
k!
e

k
con (1 e
t/
) N , dove `e un tempo caratteristico
del tipo di atomo considerato. La media E[X] = `e allora il valore atteso del numero di atomi
che decadono nel tempo t ; in altri termini, se si osserva il campione per un tempo t ci si
aspetta che circa atomi su N decadano. In particolare si ha = N/2 per
e
t/
=
1
2
t = (log 2) .
Questo tempo `e detto tempo di dimezzamento.
Esempio 5.5. Ci riferiamo ora allesperimento lancio di due dadi regolari e alle variabili
aleatorie X e Y che danno rispettivamente la somma e la dierenza dei due valori ottenuti.
5.3 Alcuni esempi di media e momenti 69
Utilizzando i risultati dellesempio 4.14 possiamo calcolare facilmente:
E[X] = 7 , E[Y ] = 0 , E[X
2
] =
329
6
, E[Y
2
] =
35
6
,
Var[X] = Var[Y ] =
35
6
, Cov[X, Y ] = 0 .
Quindi abbiamo un esempio di due variabili aleatorie non indipendenti la cui covarianza `e
nulla.
Calcoli analoghi si possono fare per le variabili aleatorie, che chiamiamo ancora X e Y ,
che danno rispettivamente la somma e il prodotto dei due valori ottenuti:
E[X] = 7 , E[Y ] =
49
4
, E[X
2
] =
329
6
, E[Y
2
] =
8281
36
,
Var[X] =
35
6
, Var[Y ] =
1603
48
, Cov[X, Y ] =
245
12
,
X,Y
= 7
_
10
229

= 1.46278... .

Esempio 5.6. Consideriamo la probabilit`a uniforme p(x, y) = 1/ r


2
concentrata sul cerchio
di raggio r in R
2
(esempio 4.12), con le variabili aleatorie X : (x, y) x e Y : (x, y) y ;
abbiamo gi`a osservato che non sono indipendenti, e che
p
X
(x) = 2
_
r
2
x
2
/ r
2
, p
Y
(y) = 2
_
r
2
y
2
/ r
2
.
Si ha evidentemente
E[X] =
_
+ r
r
xp
X
(x) dx =
2
r
2
_
+ r
r
x
_
r
2
x
2
dx = 0 ,
in quanto la funzione integranda `e dispari. Analogamente E[Y ] = 0 . Utilizzando la primitiva
_
x
2
_
r
2
x
2
=
1
8
_
x(2 x
2
r
2
)
_
r
2
x
2
+ r
4
arctan
_
x

r
2
x
2
_
_
,
che si pu`o trovare con i normali(?) metodi di integrazione, si calcola
Var[X] = Var[Y ] =
1
4
r
2
.
Inoltre `e immediato vericare che Cov[X, Y ] = 0 .
70 6 COMPENDIO DELLE LEGGI PI
`
U IMPORTANTI
6 Compendio delle leggi pi` u importanti
In questa sezione rivediamo le principali distribuzioni introdotte in precedenza (a parte la
distribuzione uniforme e la delta di Dirac, vedi 5.3), e ne introduciamo alcune altre che
verranno utilizzate in seguito. Osserviamo che le distribuzioni discrete nelle quali compaiono i
fattoriali e i coecienti binomiali possono essere estese al caso continuo utilizzando la funzione
di Eulero (6.6).
6.1 Legge binomiale
La legge binomiale (3.4) `e
B[n, p](k) =
_
n
k
_
p
k
(1 p)
nk
, n, k N, k n, p (0, 1) .
Il calcolo della media e della varianza `e abbastanza semplice; se X B[n, p] si ha:
E[X] =
n

k=0
k B[n, p](k) =
n

k=0
k
_
n
k
_
p
k
(1 p)
nk
=
= np
n

k=1
_
n 1
k 1
_
p
k1
(1 p)
(n1)(k1)
= np
n1

h=0
_
n 1
h
_
p
h
(1 p)
(n1)h
= np ,
E[X
2
] =
n

k=0
k
2
B[n, p](k) =
n

k=0
k
2
_
n
k
_
p
k
(1 p)
nk
=
= np
n

k=1
k
_
n 1
k 1
_
p
k1
(1 p)
(n1)(k1)
=
= np
n1

h=0
(h + 1)
_
n 1
h
_
p
h
(1 p)
(n1)h
=
= np
_
n1

h=0
h
_
n 1
h
_
p
h
(1 p)
(n1)h
+
n1

h=0
_
n 1
h
_
p
h
(1 p)
(n1)h
_
=
= np
_
(n 1) p + 1
_
= np (np p + 1) ,
Var[X] = E[X
2
]
_
E[X]
_
2
= np (np p + 1) (np)
2
=
= np (1 p) .
Osservazione. La distribuzione multinomiale (3.9)
M[p
1
, . . . , p
N
](k
1
, . . . , k
N
) =
_
n
k
1
, . . . , k
N
_
(p
1
)
k
1
(p
N
)
k
N
, n k
1
+ +k
N
,
6.2 Legge di Poisson 71
pu`o essere vista come la legge di un vettore aleatorio N-dimensionale. Il suo valore di aspet-
tazione risulta essere
_
np
1
, . . . , np
N
_
R
N
.
`
E interessante calcolare le leggi marginali...
6.2 Legge di Poisson
Questa legge, data da
p[](k) =
e

k
k!
,
`e stata introdota nel 3.5. Nellesempio 5.4 si `e visto che se X p[] allora
E[X] = , E[X
2
] = (1 +) , Var[X] = .
6.3 Distribuzione geometrica
`
E cos` detta la distribuzione discreta
g[p](k) = p (1 p)
k
che `e stata introdotta nel 3.6. Nel 3.8 si `e visto che la sua naturale estensione al caso
continuo `e la legge esponenziale (6.7). Per il calcolo della media e della varianza di una
variabile aleatoria X g[p] utilizziamo le identit`a,
6.1
valide per ogni q R,
(1 q)
2
n

k=0
k q
k
= q (n+1) q
n+1
+nq
n+2
,
(1 q)
3
n

k=0
k
2
q
k
= q +q
2
(n + 1)
2
q
n+1
+ (2 n
2
+ 2 n 1) q
n+2
n
2
q
n+3
,
dalle quali per [q[ < 1 segue

k=0
k q
k
=
q
(1 q)
2
,

k=0
k
2
q
k
=
q +q
2
(1 q)
3
.
Si ha pertanto
E[X] =

k=0
k g[p](k) = p

k=0
k (1 p)
k
=
p (1 p)
p
2
=
1 p
p
,
E[X
2
] =

k=0
k
2
g[p](k) = p

k=0
k
2
(1 p)
k
= p
(1 p) + (1 p)
2
p
3
=
2 3 p +p
2
p
2
,
Var[X] = E[X
2
]
_
E[X]
_
2
=
2 3 p +p
2
p
2

(1 p)
2
p
2
=
1 p
p
2
.
6.1
Per vericarle basta espandere i prodotti, i quali risultano avere la propriet` a telescopica: i termini
intermedi si cancellano.
72 6 COMPENDIO DELLE LEGGI PI
`
U IMPORTANTI
6.4 Distribuzione ipergeometrica
Problema: in unurna contenente n oggetti ce ne sono r n la cui uscita, in unestrazione
casuale, riguardiamo cone un successo; in una successione di s estrazioni (senza rimpiazzo),
qual`e la probabilit`a p[s, r, n](k) di ottenere k successi?
Ovviamente tale probabilit`a `e diversa da zero solo se k min(r, s) , nel qual caso `e data
dalla distribuzione ipergeometrica
p[s, r, n](k) =
(
r
k
)
_
nr
sk
_
(
n
s
)
.
Si ha quindi
min(r,s)

k=0
p[s, r, n](k) = 1 .
Inoltre il valore di aspettazione e la varianza di questa distribuzione risultano essere
E
_
p[s, r, n]

=
r s
n
, Var
_
p[s, r, n]

=
r s (n r) (n s)
(n 1)n
2
.
Dimostrazione: Per ricavare lespressione di p[s, r, n](k) ragioniamo come segue. Linsieme A
degli oggetti nellurna `e lunione A

dei due sottoinsiemi, di cardinalit`a rispettivamente


[A

[ = r e [A

[ = nr , costituiti rispettivamente dai successi e dagli insuccessi; ogni


combinazione di s elementi dellurna, k dei quali siano successi (ed s k insuccessi),
`e lunione di due sottoinsiemi B

k
A

e B

sk
A

. Osserviamo poi che i sottoinsiemi B

k
sono in numero di (
r
k
) , mentre i sottoinsiemi B

sk
sono in numero di
_
nr
sk
_
. Pertanto il
numero delle combinazioni distinte di cardinalit`a s , costituite da elementi di A e contenenti
esattamente k successi, `e il prodotto (
r
k
)
_
nr
sk
_
. A questo punto per ricavare p[s, r, n](k)
basta osservare che le combinazioni di s elementi di A sono in numero di (
n
s
) (e quindi ciascuna
di esse, in unestrazione con densit`a uniforme, ha probabilit`a 1/ (
n
s
)).
Per calcolare la media di questa distribuzione osserviamo prima di tutto che
nk
s r
p[s, r, n](k) =
k
r
(
r
k
)
_
nr
sk
_
n
s
(
n
s
)
=
_
r1
k1
_ _
nr
sk
_
_
n1
s1
_ =
_
r1
k1
_
_
(n1)(r1)
(s1)(k1)
_
_
n1
s1
_ =
= p[s 1, r 1, n1](k 1) .
Pertanto
E
_
p[s, r, n]

=
min(r,s)

k=0
k p[s, r, n](k) =
r s
n
min(r,s)

k=1
p[s 1, r 1, n1](k 1) =
=
r s
n
min(r1,s1)

h=0
p[s 1, r 1, n1](h) =
=
r s
n
1 =
r s
n
,
dove nel passaggio dalla prima alla seconda riga si `e fatta la sostituzione h = k 1 (il calcolo
della varianza `e pi` u complicato).
6.5 Distribuzione normale, o gaussiana 73
Osservazione. C`e un ragionamento un po pi` u sottile con cui si riesce a calcolare il valore di
aspettazione in maniera pi` u rapida, e senza fare intervenire lespressione esplicita di p[s, r, n] .
Supponiamo di avere i risultati delle s estrazioni ma di non conoscere lordine in cui sono state
fatte; non esiste alcun modo con cui si possa risalire a tale ordine, e ci`o signica che le variabili
aleatorie X
i
(i = 1 . . . , s) che prendono il valore 1 in caso di successo alli-esima estrazione, e 0
in caso di insuccesso, devono avere tutte lo stesso valore di aspettazione. Daltra parte si ha ov-
viamente E[X
1
] = r/n, per cui E
_
p[s, r, n]

i
E[X
i
] = s r/n. Dunque dal punto di vista del
calcolo della media le X
i
si comportano come se fossero indipendenti, anche se evidentemen-
te non lo sono (il calcolo diretto di E[X
i
] = r/n per ciascun i `e invece un po complicato, lo si
pu`o fare per esempio disegnando un appropriato diagramma di usso come nel 4.4). Per la
varianza in eetti il ragionamento non funziona: se le X
i
fossero indipendenti si dovrebbe avere
Var
_
p[s, r, n]

i
Var[X
i
] , mentre Var[X
1
] = (0
r
n
)
2
(1
r
n
) + (1
r
n
)
2 r
n
= (1
r
n
)
r
n
.

Figura 14: La distribuzione ipergeometrica assume valori quasi identici a quelli della distribu-
zione normale con stessa media e e varianza
2
. Estendendo la distribuzione ipergeometrica
a valori di k reali positivi mediante la funzione di Eulero, i due graci sono praticamente
indistinguibili. Nel caso qui riportato si ha

p[s, r, n](k) N[, ](k)

< 0.0015 per k [0, 20] .


5 10 15 20
0.05
0.10
0.15
0.20
s =20
r =27
n=50
=10.8

2
=3.04163
6.5 Distribuzione normale, o gaussiana
La distribuzione normale, o Gaussiana, `e la densit`a p : R R
+
denita da
p(x) N[, ](x) :=
1

2
e

(x)
2
2
2
, R, R
+
.
Notiamo che la funzione p `e simmetrica rispetto allasse x = , punto in cui ha il massimo
assoluto, e si ha
p() =
1

2
, p( ) =
1

2 e
.
Dunque il parametro R
+
pu`o essere visto come la distanza dallasse di simmetria a cui il
valore di p si riduce del fattore 1/

e . Si noti come, al cresecere di , la campana si allarga


mentre il massimo si abbassa.
74 6 COMPENDIO DELLE LEGGI PI
`
U IMPORTANTI
Figura 15: Graco della distribuzione normale per alcuni valori dei parametri (i due assi non
sono disegnati nella medesima scala).
6 4 2 2 4 6
0.1
0.2
0.3
0.4
= 0 , = 1
= 0 , = 1.5
= 0 , = 2
= 4 , = 1.5
Il calcolo della media e dei momenti d`a:
E[X] = ,
E[X
2
] =
2
+
2
, Var[X] E
_
(X E[X])
2

=
2
,
E[X
3
] =
3
+ 3
2
, E
_
(X E[X])
3

= 0 ,
E[X
4
] =
4
+ 6
2

2
+ 3
4
, E
_
(X E[X])
4

= 3
4
eccetera (tutti i momenti centrati di ordine dispari sono nulli, mentre quelli pari sono propor-
zionali a
k
).
La funzione di ripartizione della densit`a N[, ] , indicata di solito con il simbolo
,
, pu`o
essere espressa mediante la cosiddetta funzione degli errori (error function) erf : R (1, 1) ,
denita da
erf(x) :=
2

_
x
0
e

2
d .
Per quanto erf(x) non possa essere espressa in termini niti tramite le funzioni elementari
pi` u comuni, `e una funzione perfettamente maneggiabile: `e analitica dappertutto, cio`e pu`o
espressa, scelto un qualsiasi x
0
R, mediante una serie di potenze centrata in x
0
, con raggio
di convergenza innito. Per x
0
= 0 si trova
erf(x) =
2

n=0
(1)
n
x
2 n+1
n! (2 n + 1)
=
2

_
x
1
3
x
3
+
1
10
x
5

1
42
x
7
+
1
216
x
9
. . .
_
.
Con un opportuno cambiamento di variabile si trova allora

,
(x)
_
x

f() d =
1
2
_
1 + erf
_
x

2
__
.
6.5 Distribuzione normale, o gaussiana 75
Figura 16: Graco della funzione erf(x) .
3 2 1 1 2 3
1.0
0.5
0.5
1.0
Figura 17: Graco della funzione di ripartizione della distribuzione normale per = 0 e
= 1, 1.5, 2 (a sinistra) e per = 4 , = 1.5 (a destra). Al decrescere di (cio`e via via che la
densit`a Gaussiana diventa pi` u stretta e con massimo pi` u alto) lo scalino di F diventa pi` u
pronunciato.
6 4 2 2 4 6
0.2
0.4
0.6
0.8
1.0
La p(x) N[, ](x) `e la densit`a della variabile aleatoria X(t)

,
: R, dove la
probabilit`a di [0, 1] `e data dalla densit`a uniforme (4.5). Si ha poi

,
(t) = +

erf(2 t 1) ,
dove la funzione inversa

erf : [1, 1] R `e ancora analitica.


6.2
6.2
Conoscendo la serie di Taylor di erf si pu` o calcolare quella di

erf ; lespressione del coeciente generico


risulta per` o un po intricata e non vale la pena di riportarla. I primi termini dello sviluppo sono

erf(t) =

2
_
t +

12
t
3
+
7
2
480
t
5
+
127
3
40320
t
7
+
4369
4
5806080
t
9
+. . .
_
.
76 6 COMPENDIO DELLE LEGGI PI
`
U IMPORTANTI
Per quanto riguarda il calcolo della media e dei momenti, osserviamo che si hanno le primitive
_
e
x
2
xdx =
1
2
e
x
2
+ costante ,
_
e
x
2
x
2
dx =
1
2
xe
x
2
+

4
erf(x) + costante ,
_
e
x
2
x
3
dx =
1
2
e
x
2
(1 +x
2
) + costante ,
_
e
x
2
x
4
dx = e
x
2
_
3
4
x +
1
2
x
3
_
+
3

8
erf(x) + costante ,
la prima delle quali si trova subito con il cambio di variabile u x
2
, le altre mediante
successive integrazioni per parti.
6.6 Leggi Gamma
La funzione Gamma di Eulero (vedi anche A.1) `e denita da
() :=
_

0
x
1
e
x
dx .
Mediante unintegrazione per parti si ricava subito
6.3
( + 1) = () .
Pertanto, poiche
(1) =
_

0
e
x
dx = 1 0! ,
per n intero si ha
(n) = (n 1)! .
La funzione risulta essere analitica in R
+
(mentre ha delle singolarit`a C e, in particolare,
in 0 e in tutti gli interi negativi), e costituisce la naturale generalizzazione dellapplicazione
n n! al caso in cui n sia un intero reale positivo (gura 18). Un altro valore notevole, che
si calcola senza dicolt`a
6.4
con un cambio di variabile, `e

_
1
2
_
=

.
6.3
Nellintegrale che denisce () facciamo i cambi di variabile u x

, da cui du = x
1
dx, e v e
x
da cui dv = e
x
dx. Otteniamo
_
x
1
e
x
dx =
1

_
v du =
1

_
uv
_
udv
_
=
1

_
x

e
x

_
x

(e
x
) dx
_
,
da cui
() =
_

0
x
1
e
x
dx =
1

_
x

e
x
_

0
+
1

_

0
x

e
x
dx = 0 +
1

( + 1) .
6.4
Osserviamo che da
1

2
_

0
e
u
2
/2
2
du =
1
2
segue, ponendo = 1/

2 ,
_

0
e
u
2
du =

/2 . Nellin-
tegrale che denisce (1/2) facciamo allora il cambiamento di variabile u = x
1/2
du =
1
2
x
1/2
dx,
ottenendo
(1/2) =
_

0
x
1/2
e
x
dx = 2
_

0
e
u
2
du =

.
6.6 Leggi Gamma 77
Questo permette di trovare il valore di per ogni argomento semi-intero; si ottiene

_
n +
1
2

=
(2 n 1)!!
2
n

.
Figura 18: Graco della funzione Gamma di Eulero per valori reali positivi dellargomento
(cresce molto rapidamente...).
0 1 2 3 4 5
2
4
6
8
10
Per ogni coppia di numeri reali positivi , R
+
si trova allora che la funzione
[, ](x) :=

()
x
1
e
x/
`e una densit`a concentrata su R
+
. Infatti
_

0
[, ](x) dx =
1
()
_

0

x
1
e
x/
dx =
1
()
_

0
(x/)
1
e
x/
d(x/) =
=
1
()
() = 1 .
Se X [, ] si dice che la variabile aleatoria X segue una legge Gamma di parametri
e , che sono detti rispettivamente parametro di forma e parametro di scala. La legge
Gamma viene anche rappresentata in termini di e = 1/ come
[, 1/](x) :=

()
x
1
e
x
.
Per tracciare qualitativamente un graco di [, ](x) osserviamo prima di tutto che si
hanno i limiti
lim
x0+
[, ](x) =
_

_
+, (0, 1) ,
1/ , = 1 ,
0 , > 1 ,
lim
x
[, ](x) = 0 .
Inoltre la derivata
d
dx
[, ](x) =

()
x
2
e
x/
_
( 1)
x

_
si annulla in x = (1) che `e in R
+
per > 1 ; pertanto per > 1 si ha un massimo, o
(trattandosi di una legge di probabilit`a) valore modale. I graci di [, ](x) per diversi valori
di e sono riportati in gura 19
78 6 COMPENDIO DELLE LEGGI PI
`
U IMPORTANTI
Figura 19: Graci della distribuzione [, ] per = 2 e = 1, 1.5, 2, 3, 5 (a sinistra), e per
= 2.5 e = 1, 1.5, 2.5, 3 (a destra).
5 10 15 20
0.1
0.2
0.3
0.4
0.5
= 2
= 1
= 5
5 10 15 20
0.05
0.10
0.15
0.20
0.25
0.30
= 2.5 = 1
= 3
Se X [, ] si ha
E[X] =
1
()
_

0
x

x
1
e
x/
dx =

()
_

0

1
x

e
x/
dx =
=
( + 1)
()
= .
E[X
2
] =
1
()
_

0
x
2

x
1
e
x/
dx =

2
()
_

0

2
x
+1
e
x/
dx =
=
( + 2)
()

2
= ( + 1)
2
.
Var[X] = E[X
2
] (E[X])
2
=
2
.
Teorema 6.10. Siano X [, ] e Y [

, ] variabili aleatorie indipendenti. Allora


X +Y [+

, ] .
Dimostrazione: Poiche X e Y sono indipendenti, la densit`a congiunta `e il prodotto delle
singole densit`a, ovvero
p(x, y) =[, ](x) [

, ](y) =

()
x
1
e
x/

)
y

1
e
y/
=
=

() (

)
x
1
e
x/
y

1
e
y/
.
Ricordando ora il teorema 4.4 abbiamo
p
X+Y
(z) =
_
z
0
p(x, z x) dx =

() (

)
_
z
0
x
1
e
x/
(z x)

1
e
(zx)/
dx =
=

e
z/
() (

)
_
z
0
x
1
(z x)

1
dx ,
dove si `e tenuto presente che, essendo le densit`a di X e Y nulle al di fuori di R
+
, lespressione
p(x, zx) = p
X
(x) p
Y
(zx) `e diversa da zero solo nellintervallo (0, z) . Con il cambiamento
di variabile x = z t dx = z dt si ottiene allora, dopo qualche semplice passaggio algebrico,
p
X+Y
(z) =

e
z/
z
+

1
() (

)
_
1
0
t
1
(1 t)

1
dt .
6.7 Legge esponenziale 79
Poiche lintegrale della densit`a p
X+Y
(z) su R
+
deve fare 1 si ha inne
1 =
_

0
p
X+Y
(z) dz =
1
() (

)
_
_

0

e
z/
z
+

1
dz
__
_
1
0
t
1
(1 t)

1
dt
_
=
=
1
() (

)
( +

)
_
_
1
0
t
1
(1 t)

1
dt
_
.
Troviamo quindi lidentit`a
_
1
0
t
1
(1 t)

1
dt =
() (

)
( +

)
,
che sostituita nella precedente espressione d`a appunto p
X+Y
= [+

, ] .
Osservazione. La funzione di due variabili
B(,

) :=
_
1
0
t
1
(1 t)

1
dt =
() (

)
( +

)
`e detta Beta di Eulero.
6.7 Legge esponenziale
Una legge gamma con = 1 ,
[1, ](x) =
1
e
x/
,
`e detta legge esponenziale di parametro . Se X [1, ] si ha
E[X] = , Var[X] =
2
.
Questa legge `e stata usata in alcuni esempi nel testo (vedi 3.8, ed esempio 7.13).
6.8 Legge chi quadro
Si dice legge chi quadrato (o chi quadro) con gradi di libert`a la densit`a

2
[](x) [/2, 2](x) =
2
/2
x
1+/2
e
x/2
[/2]
=
=
_
2

x
2
e
x
_
1/2
[/2]
.
Se X
2
[] si ha
E[X] = , Var[X] = 2 .
Questa legge `e stata incontrata per la prima volta nellesempio 4.18, dove si `e visto che se
X N[0, 1] allora X
2
ha densit`a
p
X
2
(x) =
1

2
x
1/2
e
x/2

2
[1](x) .
Pertanto X
2

2
[1] .
80 6 COMPENDIO DELLE LEGGI PI
`
U IMPORTANTI
Osservazione. Sia (X
n
) una successione di variabili aleatorie indipendenti, tutte di legge
N[0, 1] . Allora
n

i=1
(X
i
)
2

2
[n] .
Infatti, poiche (X
i
)
2

2
[1] [1/2, 2] , dal teorema 6.10 abbiamo
n

i=1
(X
i
)
2

_
n
1
2
, 2


2
[n] .

Questa legge `e usata in un importante test statistico (8.6).


6.9 Distribuzione di Student
La distribuzione di Student
6.5
con gradi di libert`a `e la densit`a p : R R
+
denita da
p(x) t[](x) :=

/2
B(

2
,
1
2
)
( +x
2
)
(+1)/2
, R
+
,
dove B `e la Beta di Eulero (6.6)
B(, ) :=
() ()
( +)
.
`
E evidente che t[](x) `e simmetrica con un andamento a campana; in eetti si pu`o dimostrare
che t[](x) N[0, 1](x) x per ; anzi la convergenza `e abbastanza rapida, come si vede
dalla gura 20.
Figura 20: Graco della distribuzione di Student per i valori = 0.2, 1, 4 . Con un tratto pi` u
spesso `e rappresentata, per confronto, la distribuzione normale N[0, 1] .
4 2 2 4
0.1
0.2
0.3
0.4
Nel caso particolare = 1 la t[] assume una forma particolarmente semplice e trattabile,
t[](x) =
1
(1 +x
2
)
(in eetti una densit`a con questa espressione labbiamo gi`a esaminata nellesempio 4.9 di
pagina 46, dove il diverso coeciente di normalizzazione era dovuto al fatto che la densit`a
6.5
Si tratta dello pseudonimo sotto cui pubblicava il matematico irlandese S. Gosset agli inizi del 900
6.9 Distribuzione di Student 81
era concentrata sullintervallo [1, 1] ). In generale per`o, per valori di generici, lo studio
analitico preciso della t[] (calcolo dei momenti, funzione di ripartizione eccetera) `e alquanto
laborioso, e rimane al di fuori degli scopi di questo corso. Alcuni risultati qualitativi per`o
possono essere trovati facilmente. Landamento qualitativo del graco `e ovvio. Per quanto
riguarda i momenti, osserviamo che per x grande t[](x) va come x
1
; pertanto x
k
t[](x)
va come 1/x
+1k
e dunque ha momento di ordine k nito solo per +1 k > 1 ovvero per
> k .
In particolare, t[](x) ha media nita solo
6.6
per > 1 , e risulta evidentemente
E
_
t[]

= 0 , > 1 .
Il calcolo della varianza `e invece complicato, e ci limitiamo a scrivere il risultato
Var
_
t[]

=

2
, > 2 .
Una dierenza qualitativa importante tra la distribuzione di Student e quella normale sta
nel maggior peso delle code: per x la funzione tende a zero come una potenza della x
invece che esponenzialmente.
La distribuzione di Student `e molto utilizzata in statistica; vedremo un esempio nel 8.7.
6.6
Ci` o pu` o sembrare strano, visto che per la simmetria si ha ovviamente
_
+

xt[](x) dx = 0 per ogni R


+
,
ma risulta chiaro ricordando la denizione di media di una variabile aleatoria (5.1).
82 7 LA LEGGE DEI GRANDI NUMERI
7 La legge dei grandi numeri
7.1 La legge empirica
`
E una nozione non sorprendente che se si lancia una moneta regolare un gran numero n di
volte, si sommano tutti i risultati ottenuti (0 e 1) e si divide per n, si ottiene un numero molto
vicino a 0.5 . Aumentando n, il risultato delloperazione che si `e detto tende ad avvicinarsi al
valore 0.5 . Analogamente, se si lancia un dado un gran numero n di volte, si sommano tutti
i risultati ottenuti e si divide per n, si ottiene un numero molto vicino a 3.5 .
Non `e dicile vericare, con qualche simulazione al computer, che qualcosa di analogo
si verica per ogni esperimento al quale sia associata una variabile aleatoria X : se si esegue
lesperimento un gran numero n di volte e si calcola la media aritmetica x
n
dei valori di X
ottenuti (ovvero si sommano i risultati e si divide per n), loperazione d`a quasi sempre un
numero molto vicino al valore di aspettazione E[X] calcolato nellambito del modello
matematico probabilistico dellesperimento (se il modello `e corretto). In eetti riportando in
graco il valore di x
n
per valori crescenti di n si ottiene qualcosa del genere:
20 40 60 80 100
0.0010
0.0005
0.0005
0.0010
0.0015
0.0020
dove i numeri riportati in ascissa rappresentano multipli di 10 000 prove (abbiamo eseguito
lesperimento in 100 serie, con n crescente da 10 000 a 1 000 000 in passi di 10 000).
`
E vero che la convergenza verso lo zero non pare molto rapida, ma c`e. Per poter enunciare
dei risultati precisi dobbiamo prima di tutto precisare la nozione di convergenza per una
successione di variabili aleatorie.
Osservazione. Nel caso della moneta regolare, la legge empirica dei grandi numeri pu`o essere
spiegata in questo modo: per n abbastanza grande, la grande maggioranza delle successioni
N
n
0, 1 contiene circa lo stesso numero di 0 e 1 . In eetti, sappiamo che il numero
di tali successioni che contengono esattamente k volte lo 0 `e (
n
k
) , che prende valori molto
elevati soprattutto per k vicino a n/2 e molto pi` u piccoli appena se ne allontana.
`
E anche
interessante notare che se si riporta in un graco (gura 21) landamento della distribuzione
binomiale B[n,
1
2
](k) = 2
n
(
n
k
) si ottengono dei punti che si trovano quasi esattamente sul
graco della distribuzione normale avente stessa media = n/2 e varianza
2
= n/4 .
7.2 Convergenza
Sia (, E, P) uno spazio di probabilit`a; si possono considerare diversi tipi di convergenza per
una successione (X
n
) di variabili aleatorie R, cio`e diversi modi in cui la successione si
possa dire avere come limite una variabile aleatoria X : R. Le solite nozioni di convergen-
7.2 Convergenza 83
Figura 21: Corrispondenza tra legge binomiale per una moneta regolare e distribuzione
normale con stessa media e varianza
1 2 3 4 5 6
0.05
0.10
0.15
0.20
0.25
0.30
0.35
n = 5
10 20 30 40 50
0.02
0.04
0.06
0.08
0.10
0.12
0.14
n=30
n=50
za puntuale e di convergenza uniforme, denite in generale
7.1
per successioni di funzioni su un
insieme qualsiasi, non sono le uniche possibili. Vi sono infatti ulteriori nozioni di convergenza
che risultano particolarmente importanti nello studio delle successioni di variabili aleatorie.
Diremo che:
X
n
converge quasi certamente a X se
P lim
n
X
n
= X = 1 ;
X
n
converge a X in probabilit`a (o in misura) se per ogni R
+
si ha
lim
n
P[X
n
X[ < = 1 ,
ovvero, in maniera equivalente,
lim
n
P[X
n
X[ = 0 ;
X
n
converge a X in legge se, dette F
n
ed F le funzioni di ripartizione di X
n
ed X , si
ha la convergenza puntuale
lim
n
F
n
(x) = F(x)
per ogni x R in cui F `e continua;
7.1
Come `e vero in generale per le successioni di funzioni su un insieme qualsiasi, si possono denire le nozioni
di convergenza puntuale e di convergenza uniforme. Se per ciascun la successione ordinaria (Xn()) `e
convergente, resta denita una funzione R : X() limn Xn() . Diciamo allora diciamo che (Xn)
converge a X puntualmente (o punto per punto). In altri termini, diciamo che la successione (Xn) converge
alla funzione (eventualmente variabile aleatoria) X se
(, ) R
+
n, N :
_
n > n, |Xn() X()| <
_
.
Diciamo poi che la successione (Xn) converge uniformemente a X se
R
+
n N :
_
n > n |Xn() X()| <
_
.
Se R, possiamo visualizzare la convergenza uniforme nel modo seguente: per n > n il graco di Xn `e
tutto contenuto nella porzione di R
2
delimitata dai graci di X+ e X .
Inoltre negli spazi L
p
delle funzioni tali che
_

|X|
p
< esiste la nozione di convergenza in norma
_

|Xn X|
p
0 .
84 7 LA LEGGE DEI GRANDI NUMERI
X
n
converge a X in media k-esima se E[[X
n
[] < per ogni n N e se
lim
n
E[[X
n
X[
k
] = 0 ;
in particolare, se la precedente condizione vale per k = 2 , diciamo che X
n
converge a
X in media quadratica.
Sar`a opportuno rendere queste denizioni un po pi` u esplicite. Riguardo alla prima, osser-
viamo che
P lim
n
X
n
= X P
_
: lim
n
X
n
() = X()
_
.
Dunque la convergenza quasi certa signica che `e nulla la probabilit`a dellevento costituito da
quegli tali che lim
n
X
n
() ,= X() ; in altri termini, X
n
tende puntualmente a X quasi
ovunque (eccettuato un insieme di misura nulla: la convergenza puntuale tout court `e detta
convergenza certa).
Si ha poi
P[X
n
X[ < P
_
: [X
n
() X()[ <
_
.
Quindi la convergenza in probabilit`a signica che > 0 posso, pur di prendere n abbastanza
grande, rendere arbitrariamente vicina ad 1 la probabilit`a dellevento costituito dagli
tali che [X
n
() X()[ < . Si pu`o dimostrare che la convergenza quasi certa implica la
convergenza in probabilit`a, mentre il viceversa non `e vero (esistono esempi di convergenza in
probabilit`a che non `e quasi certa).
La convergenza in legge implica che per qualunque x R, al crescere di n, la probabilit`a
che X
n
assuma valori in (, x] tende alla probabilit`a che X assuma valori nel medesimo
intervallo.
7.2
Inoltre si pu`o dimostrare che la convergenza in probabilit`a implica la convergenza
in legge.
Inne, la convergenza in media k-esima equivale alla convergenza in norma /
k
(vedi ultimo
capoverso della nota 7.1 a pi`e di pagina 83).
7.3 Legge debole e legge forte dei grandi numeri
La legge dei grandi numeri, cio`e il risultato matematico preciso che spiega le osservazioni
empiriche riportate nella parte introduttiva del 7, pu`o essere enunciata in vari modi diversi e
non del tutto equivalenti. In ogni caso si considera una successione (X
n
) di variabili aleatorie
e, a partire da questa, la successione media calcolata
7.3
(

X
n
) denita da

X
n
:=
1
n
n

i=1
X
i

1
n
(X
1
+ +X
n
) .
Teorema 7.11. (legge debole dei grandi numeri)
Sia (X
n
) una successione di variabili aleatorie indipendenti, aventi la stessa media e la
stessa varianza. Allora (

X
n
) 0 in probabilit`a.
Dimostrazione: Dal teorema 5.6 abbiamo
E[

X
n
] =
1
n
(E[X
1
] + +E[X
n
]) = .
7.2
Ne segue che per qualsiasi intervallo I la probabilit` a che Xn assuma valori in I tende alla probabilit` a che
X assuma valori nel medesimo intervallo.
7.3
Detta anche media campionaria.
7.4 Funzione di ripartizione empirica e graco dei quantili 85
Inoltre dal teorema 5.9, poiche le X
n
sono indipendenti, ponendo
2
Var[X
i
] abbiamo
Var[

X
n
] =
1
n
2
(Var[X
1
] + +Var[X
n
]) =
1
n
2
(n
2
) =
1
n

2
.
Utilizzando allora la disuguaglianza di Chebyshev otteniamo
P[

X
n
[
1

2
Var[

X
n
] =

2
n
2
,
e lenunciato segue dal fatto che lultimo termine va a zero per n .
Osservazione.
`
E immediato vericare che il teorema precedente vale anche se le X
i
non
hanno tutte la medesima varianza, ma le diverse varianze sono limitate, cio`e se esiste tale
che Var[X
i
]
2
i .
Vediamo in che modo lenunciato precedente spiega il comportamento osservato delle me-
die di esperimenti. Consideriamo per esempio il solito schema di Bernoulli, in cui lesperimento
consiste in n lanci di una moneta; la variabile aleatoria X
i
sia il risultato delli-esimo lancio:
allora il teorema aerma che, scelto un qualsiasi numero positivo , con un numero n sucien-
temente grande di lanci posso redere arbitrariamente arbitrariamente piccola la probabilit`a
che

X
n
si discosti da pi` u di .
Si osservi poi che per dimostrare la legge debole non abbiamo utilizzato lipotesi (vera nel
caso particolare dello schema di Bernoulli) che le X
i
abbiano la medesima densit`a: abbiamo
solo richiesto che le X
i
abbiano stessa media e stessa varianza (nite). Se invece si aggiunge
lipotesi della medesima densit`a (addirittura senza lipotesi di varianza nita), si arriva a
dimostrare:
Teorema 7.12. (legge forte dei grandi numeri)
Sia (X
n
) una successione di variabili aleatorie indipendenti, aventi la stessa densit`a e media
nita (necessariamente la stessa per tutte). Allora (

X
n
) 0 quasi certamente.
(Di questo teorema ci limitiamo a dare lenunciato senza dimostrazione.)
Esiste poi un risultato ancora pi` u forte, che vedremo nel 7.6.
Osservazione. Le legge dei grandi numeri `e un risultato di analisi matematica, nel cui enun-
ciato non compare esplicitamente lidea sottogiacente: se un processo aleatorio `e descritto da
uno spazio di probabilit`a (
1
, E, P) , allora
n
1

1

1
`e lo spazio dei campioni
che descrive la ripetizione dellesperimento n volte. Se X X
1
`e una variabile aleatoria (scala-
re o vettoriale)
1
, e poniamo X
i
(
1
, . . . ,
n
) := X
1
(
i
) , allora le X
i
sono variabili aleatorie
indipendenti e aventi la medesima densit`a (si pu`o comunque pensare ad applicazioni della
legge dei grandi numeri anche in un contesto un po diverso).
7.4 Funzione di ripartizione empirica e graco dei quantili
In questo paragrafo consideriamo una successione (X
i
) di variabili aleatorie indipendenti,
aventi tutte la stessa legge.
Sia x = (x
1
, . . . , x
n
) R
n
, e consideriamo la funzione di variabile reale
F
x
(t) =
1
n
n

i=1
H(t x
i
) ,
86 7 LA LEGGE DEI GRANDI NUMERI
dove H H
0
`e la funzione gradino unitario continua a destra (2.4). Scelta la n-upla di
numeri reali x si ottiene quindi una funzione a gradini continua a destra, dunque una funzione
di ripartizione (come per esempio in gura 22). Si osservi che se indichiamo con
x = ( x
1
x
n
) R
n
la medesima n-upla x di numeri reali, ma ordinata in senso crescente, allora possiamo scrivere
F
x
(t) =
_

_
0 , t < x
1
,
k/n , x
k
t x
k+1
, 1 k n1 ,
1 , x
n
t .
Figura 22: Graco di F
x
(t) per x = (e, 1, 3/2,

5, 5/3) , x = (3/2, 1, 5/3,

5, e) .
2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
Per ogni t R consideriamo la successione
_
F
n
(t)
_
di variabili aleatorie denita da
F
n
(t) =
1
n
n

i=1
H(t X
i
) ;
possiamo anche vedere F
n
come un oggetto aleatorio che associa una funzione di ripartizione
ad ogni (
1
, . . . ,
n
) , denito da
F
n
(t)() := F
x
(t) , x =
_
X
i
()
_
=
_
X
1
(
1
), . . . , X
n
(
n
)
_
.
In altri termini, per ciascun si considera la n-upla x dei valori assunti dalle variabili aleatorie
X
i
, i = 1, . . . , n, e poi la funzione di ripartizione determinata da questo x mediante la regola
che abbiamo dato sopra.
Teorema 7.13. Sia F la funzione di ripartizione delle variabili aleatorie indipendenti X
i
(aventi tutte la medesima legge); per ogni t R la variabile aleatoria F
n
(t) converge quasi
certamente a F(t) .
Dimostrazione: Se f `e una funzione misurabile le composizioni f(X
i
) f X
i
sono variabili
aleatorie indipendenti (teorema 4.3 a pagina 51). In particolare sono indipendenti, per ciascun
t R, le variabili aleatorie H(t X
i
) . Inoltre se p(x) `e la densit`a delle X
i
per il teorema 5.5
(pagina 61) si ha
E
_
H(t X
i
)

=
_
+

H(t x) p(x) dx =
_
t

p(x) dx = F(t) ,
in quanto la funzione H(t x) vale 1 per t x 0 (ovvero, ssato t , per x t) e vale 0
per t x < 0 . Per la legge forte dei grandi numeri la successione di variabili aleatorie F
n
(t)
converge allora quasi certamente a E
_
H(t X
i
)

= F(t) per ciascun t R.


7.4 Funzione di ripartizione empirica e graco dei quantili 87
Pertanto, per n abbastanza grande, la funzione di ripartizione empirica F
n
() costituir`a
una buona approssimazione per F. In gura 23, per esempio, vediamo un graco di F
n
ottenuto
da una simulazione della legge normale, insieme con la funzione di ripartizione della legge
medesima.
Figura 23: Funzioni di ripartizione empiriche ottenute mediante simulazione della legge
normale con n = 10, 20, 50, 250 .
3 2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
3 2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
3 2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
4 2 2 4
0.2
0.4
0.6
0.8
1.0
Queste osservazioni hanno un risvolto pratico importante. Supponiamo di avere una n-upla
x = (x
1
, . . . , x
n
) di risultati di un certo esperimento aleatorio di cui ignoriamo la legge; allora
possiamo confrontare la funzione di ripartizione empirica con quella di una legge teorica che
ipotizziamo essere quella giusta. Se la nostra ipotesi `e corretta, per 1 i n si dovr`a avere
F
n
( x
i
)

= F( x
i
) , cio`e
i
n

= F( x
i
) ;
se F `e continua (come per esempio nel caso della legge normale e di molte altre leggi impor-
tanti) possiamo applicare linversa

F ai due membri della relazione precedente, e otteniamo

F
_
i
n
_

= x
i
.
Dunque riportando nel piano cartesiano i punti di coordinate
_
x
i
,

F(i/n)
_
, questi si dovranno
disporre in prima approssimazione lungo la bisettrice del primo e terzo quadrante; abbiamo
cos` un modo per controllare ad occhio la plausibilit`a dellipotesi che la distribuzione del
processo aleatorio considerato sia di un dato tipo. Poiche

F(i/n) e x
i
sono denominati quan-
tili (vedi 8.3), questi graci (di cui vediamo due esempi in gura 24) sono detti dei quantili
contro quantili.
Nello studio di un processo aleatorio capita frequentemente che la distribuzione di pro-
babilit`a della grandezza misurata sia di tipo gaussiano; daltra parte in generale non sar`a
ragionevole aspettarci che tale distribuzione sia proprio N[0, 1] , anche perche i parametri
88 7 LA LEGGE DEI GRANDI NUMERI
Figura 24: Graci dei quantili, ottenuti per confronto con la legge normale, relativi a una
simulazione (4.5) della legge normale stessa (a sinistra) e della densit`a p(x) = 2/[ (1 +x
2
)]
concentrata sullintervallo [1, 1] .
1.5 1.0 0.5 0.5 1.0 1.5
2
1
1
2
1.0 0.5 0.5
2
1
1
2
e dipenderanno dalle unit`a di misura utilizzate.
7.4
Una situazione pi` u comune sar`a quella
in cui si possa ipotizzare che la legge sia N[, ] , e in tal caso il graco dei quantili permette
di vericare lipotesi e anche di stimare i valori di e . Infatti linversa della funzione di
ripartizione

,
(t) = +

erf(2 t 1)
soddisfa ovviamente lidentit`a

,
= +

,
0,1
.
Pertanto nel graco dei quantili si avr`a

,
_
i
n
_

= x
i
+

_
i
n
_

= x
i
,
e quindi i punti di coordinate
_
x
i
,

(i/n)
_
si disporranno nel piano cartesiano lungo la retta
di equazione y = (x )/ (gura 25).
7.5 Funzioni caratteristiche
Ricordiamo che il campo C dei numeri complessi pu`o essere visto come R
2
con unulteriore
struttura di prodotto.
7.5
Una variabile aleatoria complessa sar`a pertanto denita come un
7.4
A questo proposito osserviamo che e hanno le stesse dimensioni siche [X] della variabile aleatoria
studiata, di modo che lesponente (x )
2
/(2
2
) `e un numero puro, p(x) = exp[(x )
2
/2
2
]/(

2 )
ha le dimensioni [X]
1
(densit` a di probabilit` a per unit` a di lunghezza, tempo ecc.) e P(A) =
_
A
p(x) dx `e un
numero puro.
7.5
In pratica si pu` o denire il prodotto di numeri complessi scrivendo ogni elemento (a, b) R
2
come a +i b e
richiedendo che valgano le regole dellalgebra ordinaria con laggiunta di i
2
= 1 (si veda lAppendice B.1 per
un eventuale ripasso).
7.5 Funzioni caratteristiche 89
Figura 25: Graco dei quantili, ottenuti per confronto con la legge normale N[0, 1] , relativi
a una simulazione della legge normale N[, ] con = 2 e = 3 . I punti si dispongono nel
piano cartesiano lungo la retta di equazione y = (x 2)/3 .
4 2 2 4 6
2
1
1
2
vettore aleatorio R
2
, quando si tenga conto della suddetta identicazione R
2
= C, e
potr`a essere scritta nella forma
Z = X + i Y ,
con X, Y : R variabili aleatorie reali. Oppure, in forma trigonometrica,
Z = R(cos + i sin ) R exp(i ) ,
R := [Z[
_
X
2
+Y
2
, := arg(Z) .
Dato un vettore aleatorio X = (X
i
), in generale di dimensione m qualsiasi, `e naturale
(seconda osservazione del 5.1) denire la sua media come il vettore le cui componenti sono le
medie E[X
i
] delle componenti di X. In particolare, nel caso di una variabile aleatoria complessa
Z = X +i Y , si pone
E[Z] = E[X] + i E[Y ] .
Anche nel campo dei numeri complessi vale la disuguaglianza triangolare [z +z

[ [z[ +[z

[ ,
per cui `e facile dimostrare (esattamente come per il secondo punto del teorema 5.6) che
[E[Z][ E[[Z[] .
Sia ora X = (X
i
) :R
m
un vettore aleatorio; diciamo sua funzione caratteristica la

X
: R
m
C : E[e
i X
] = E[cos( X)] + i E[sin( X)] ,
dove X
1
X
1
+ +
m
X
m
`e il prodotto scalare del vettore R
m
con il vettore aleato-
rio X . La denizione di funzione caratteristica `e ben data qualunque sia X , perche la media
E[e
i X
] `e sempre nita in quanto [E[e
i X
][ = 1 . Osserviamo inoltre che `e sempre

X
(0) = 1 .
Il teorema 5.5 ci d`a poi in generale

X
() =
_
R
m
e
i x
p
X
(x) dx
1
...dx
m
, x (x
1
, . . . , x
m
) ,
90 7 LA LEGGE DEI GRANDI NUMERI
ovvero
X
`e la cosiddetta trasformata di Fourier
7.6
della densit`a p
X
(x) .
I seguenti risultati si vericano facilmente:
Teorema 7.14.
Se X, Y : R
m
sono indipendenti allora
X+Y
() =
X
()
Y
() .

X
() =
X
() , la funzione complessa coniugata.
Se A : R
m
R
n
`e unapplicazione lineare,
AX
() =
X
(A

) dove A

: R
n
R
m
`e
lapplicazione lineare trasposta.
7.7
Se b R
m
`e un vettore ssato,
X+b
() = e
i b

X
()
In particolare, se X `e una variabile aleatoria reale e a, b R si ha

aX+b
() = e
i b

X
(a ) ,
dove ora il prodotto scalare `e il normale prodotto in R.
`
E naturale a questo punto chiedersi se e quando una funzione caratteristica sia derivabile.
Poiche la funzione e
i x
`e analitica,
7.8
ci`o equivale a chiedersi si possono scambiare le
operazioni di derivazione rispetto a e di fare la media (che `e unintegrazione). Precisando
questidea si dimostra il
Teorema 7.15. Per qualsiasi variabile aleatoria X scalare, la funzione caratteristica
X
ri-
sulta essere continua. Se X ha momento di ordine k N allora
X
`e derivabile k volte, e si
ha
d
k
d
k

X
() = E[(i X)
k
e
i X
] .
In particolare
d
k
d
k

X
(0) = i
k
E[X
k
] .
Viceversa, se
X
`e derivabile k volte con k pari, allora X ha momento di ordine k .
Risultati analoghi, ma un po pi` u intricati da esprimere, valgono per le funzioni caratteri-
stiche di vettori aleatori e le derivate parziali rispetto alle componenti
i
di .
La densit`a p
X
denisce univocamente la funzione caratteristica
X
; viceversa, nota la
funzione caratteristica si pu`o risalire alla densit`a. Si dimostra infatti la formula di inversione
p
X
(x) =
1
(2 )
m/2
_
R
m
e
i x

X
() d
1
...d
m
.
Esempio 7.1. Densit`a esponenziale: p(x) = e
x
,
() =
_
+
0
e
i x
e
x
dx =
_
+
0
e
(i ) x
dx =
=

i
lim
x
(e
(i ) x
1) =

i
,
in quanto [e
(i ) x
[ = e
x
.
7.6
Di solito la trasformata di Fourier `e denita con un fattore (2 )
m/2
.
7.7
Denita da x A

= (Ax) x R
m
.
7.8
Innitamente derivabile e sviluppabile in serie di Taylor.
7.5 Funzioni caratteristiche 91
Esempio 7.2. Densit`a normale: p(x) = N(0, 1)(x)
1

2
e
x
2
/2
,
() =
1

2
_
+

e
i x
e
x
2
/2
dx

() =
1

2
_
+

i xe
i x
e
x
2
/2
dx .
Abbiamo calcolato la derivata

()
d
d
() in quanto per determinare () dobbiamo ricor-
rere a un trucco, non potendo trovare una primitiva per il primo integrale; nel secondo invece
possiamo fare unintegrazione per parti, che dopo qualche passaggio
7.9
d`a

() = () ;
integrando questa equazione dierenziale con la condizione iniziale (0) = 1 si ottiene
7.10
() = e

2
/2
,
cio`e la funzione caratteristica della densit`a normale N[0, 1](x) `e la densit`a normale N[0, 1]()
moltiplicata
7.11
per

2 .
Possiamo ora utilizzare questo risultato per trovare la funzione caratteristica di una di-
stribuzione Gaussiana con media e varianza (,
2
) ,= (0, 1) , osservando che se la densit`a di
X `e N[0, 1] allora (esempio 4.17 a pagina 57) la densit`a di X + `e N[,
2
] e applicando il
teorema 7.14. Si ottiene

X+
= e
i
e

2
/2
.

Esempio 7.3. Siano X, Y variabili aleatorie indipendenti con densit`a Gaussiane N[,
2
] e
N[ ,
2
] , rispettivamente. Allora la funzione caratteristica della somma X +Y `e

X+Y
() =
X
()
Y
() = e
i (+)
e

(
2
+
2
)
2
2
.
Pertanto, poiche la funzione caratteristica determina la densit`a, concludiamo che X +Y ha
densit`a Gaussiana N[ +,
2
+
2
] .
Esempio 7.4. Distribuzione binomiale (3.4): B[n, p](k) = (
n
k
) p
k
(1 p)
nk
, p [0, 1] ,
() =
n

k=0
(
n
k
) p
k
(1 p)
nk
e
i k
=
n

k=0
(
n
k
) (p e
i
)
k
(1 p)
nk
=
= (1 p +p e
i
)
n
.

7.9
Scriviamo la formula di integrazione per parti come
_
udv = uv
_
v du, e poniamo u e
i x

du = i e
i x
dx, dv xe
x
2
/2
dx v =
_
dv = e
x
2
/2
(come si vede subito con il cambio di variabile
t = x
2
/2). Pertanto

() =
i

2
_
+

xe
i x
e
x
2
/2
dx =
_
e
i x
(e
x
2
/2
)
_+

2
_
+

(e
x
2
/2
) i e
i x
dx =
= 0

2
_
+

e
i x
e
x
2
/2
dx = () .
7.10
d
d
=
d

= d log =
1
2

2
+c = a e

2
/2
, con a e
c
.
Imponendo (0) = 1 si ottiene a = 1 .
7.11
Se la funzione caratteristica `e denita nella maniera standard per le trasformate di Fourier, con il fattore
1/

2 , allora la distribuzione Gaussiana `e la funzione caratteristica di se stessa.


92 7 LA LEGGE DEI GRANDI NUMERI
Esempio 7.5. Distribuzione geometrica (3.6): f(k) = p (1 p)
k
, p [0, 1] ,
() =

k=0
p (1 p)
k
e
i k
= p

k=0
[(1 p) e
i
]
k
=
1
1 (1 p) e
i
.

Esempio 7.6. Distribuzione di Poisson (3.5): f(k) =


1
k!
e

k
,
() = e

k=0
1
k!

k
e
i k
= e

k=0
1
k!
(e
i
)
k
=
= e

e
e
i
= e
(e
i
1)
.

7.6 Convergenza in legge e Teorema Limite Centrale


Ricordiamo (7.2) che una successione (X
n
) di variabili aleatorie `e detta convergere in legge a
una variabile aleatoriaX se la successione (F
n
) delle rispettive funzioni di ripartizione converge
puntualmente alla funzioni di ripartizione F F
X
in tutti i punti di continuit`a di questultima.
Teorema 7.16. (P. Levy)
Siano (X
n
) una successione di variabili aleatorie e X una variabile aleatoria; siano poi
n
la
funzione caratteristica di X
n
e la funzione caratteristica di X . Allora X
n
X in legge se
e solo se
n
puntualmente, ovvero
n
() () per ogni R.
Esempio 7.7. Supponiamo che (come avviene in molti esempi discreti) tutte le variabili alea-
torie in esame prendano valori interi positivi, X, X
n
: N. In tal caso la convergenza in
legge `e equivalente alla condizione che per ogni k N si abbia
lim
n
PX
n
=k = PX =k .
Supponiamo infatti che X
n
X in legge; scelto (0, 1) si ha che F `e continua in k + e in
k per k N (tuttal pi` u F pu`o essere discontinua in k), per cui
PX
n
=k = F
n
(k +) F
n
(k )
n
F(k +) F(k ) = PX =k .
Viceversa supponiamo che PX
n
=k PX =k per ogni k N; indicando con x| la parte
intera
7.12
di x R si ha
F
n
(x) = PX
n
x =
x

k=0
PX
n
=k
n

k=0
PX =k = PXx = F(x) .
In particolare, X
n
B[n, /n] converge in legge a X p[](n) di Poisson. Si noti che un
ragionamento analogo (con qualche piccola complicazione formale) vale se tutte le variabili
aleatorie prendono valori in un insieme discreto con unopportuna ipotesi di separazione tra
gli elementi (per esempio > 0 tale che la distanza tra due elementi qualsiasi `e > ).
7.12
Il pi` u grande intero x.
7.6 Convergenza in legge e Teorema Limite Centrale 93
Esempio 7.8. Riprendiamo il caso del dado regolare, = 1, 2, 3, 4, 5, 6 con distribuzione
di probabilit`a uniforme, e variabile aleatoria X : R denita semplicemente da X(i) = i
(esempio 4.3). Ricordiamo che la densit`a e la funzione di ripartizione determinate da X possono
essere scritte nella forma
p(x) =
1
6
6

i=1
(x i) , F(x) =
1
6
6

i=1
H(x i) ,
con
0
e H H
0
. Consideriamo poi la successione (X
n
) di variabili aleatorie data da
X
n
(i) = i +
1
n
.
In maniera del tutto analoga, le successioni p
n
e F
n
delle corrispondenti densit`a e funzioni di
ripartizione sono
p
n
(x) =
1
6
6

i=1
(x i 1/n) , F
n
(x) =
1
6
6

i=1
H(x i 1/n) .
Vediamo allora che X
n
X in legge; infatti i punti di discontinuit`a della F sono gli x N
6
, e
per x diverso da uno di questi valori si ha evidentemente F
n
(x) x. Si osservi poi che nei punti
di discontinuit`a si ha invece F
n
(x) ,F(x) ; infatti i N
6
F
n
(i) = (i 1)/6 = lim
n
F
n
(i) ,
mentre F(i) = i/6 .
Esempio 7.9. Sia X

: abbiamo cio`e una variabile aleatoria che prende il valore con


probabilit`a 1 . Abbiamo visto (2.4) che la distribuzione

pu`o essere rappresentata come


limite della successione di distribuzioni normali N[, 1/n] , quindi `e naturale chiedersi se
X
n
N[, 1/n] tenda a X in legge. A tale scopo consideriamo le funzioni caratteristiche

X
e
n

Xn
; si ha
() =
_
+

(x) e
i x
dx = e
i
,

n
() = e
i
e

2
/2n
,
dove si `e utilizzato lesempio 7.2. Poiche
n
() () per ogni , per il teorema di Levy
risulta vericata la convergenza in legge.
Esempio 7.10. Consideriamo ora una successione X
n
N[, n] . Poiche
p
n
(x) =
1

2 n
e
n(x)
2
/2
si ha p
n
(x) 0 x, che non `e una densit`a. Dunque qui si pu`o prevedere qualche problema,
e infatti la successione delle funzioni caratteristiche
n
`e

n
() = e
i
e
n
2
/2
n

_
0 , = 0 ,
e
i
, ,= 0 .
Poiche questo limite `e una funzione () che `e diversa da zero solo in un punto, dal punto di
vista degli integrali equivale alla funzione identicamente nulla; e in eetti non `e la funzione
94 7 LA LEGGE DEI GRANDI NUMERI
caratteristica di alcuna distribuzione di probabilit`a
7.13
(ricordiamo anche, dal teorema 7.15,
che una funzione caratteristica `e continua, mentre la funzione limite ora trovata non lo `e).

Teorema 7.17. (Limite Centrale) Sia (X


n
) una successione di variabili aleatorie indipendenti
aventi tutte la medesima distribuzione, con media E[X
n
] e varianza
2
Var[X
n
] . Allora
la successione
7.14
n S
n
:=
X
1
+ +X
n
n

(

X
n
) ,
converge in legge a una variabile aleatoria S N[0, 1] .
Dimostrazione: Poniamo Y
k
(X
k
)/ , per cui le variabili aleatorie Y
k
hanno tutte la
stessa legge, con E[Y
k
] = 0 e Var[Y
k
] = 1 , e si ha
S
n
=
1

n
n

k=1
Y
k
.
Dette
Y
k
la funzione caratteristica e p p
Y
k
la legge delle Y
k
abbiamo

Y
k
/

n
() =
_
+

e
i
x

n

p(x) dx = (/

n) ,
da cui, utilizzando
7.15
il primo punto dellenunciato del teorema 7.14,

Sn
() = [(/

n)]
n
.
Per n si ha (/

n) (0) = 1 , pertanto il lim


n

Sn
() `e un caso indeterminato della
forma 1

. Lo calcoliamo utilizzando gli sviluppi in serie, dal momento che /

n `e innitesimo.
Per sviluppare () nellintorno di = 0 osserviamo (utilizzando anche il teorema 7.15) che
(0) = 1 ,

(0) = i E[Y
k
] = 0 ,

(0) = i
2
E[(Y
k
)
2
] = Var[Y
k
] = 1 .
Pertanto () = 1
1
2

2
+o([[
2
) , ovvero, per ssato e n ,

n
_
= 1

2
2 n
+o
_
1
n
_
.
Sostituendo questa espressione nel limite cercato abbiamo
lim
n

Sn
() = lim
n
_
1

2
2 n
_
n
= e

2
/2
.
Poiche (esempio 7.2) questa `e proprio la funzione caratteristica della legge normale N[0, 1] ,
lenunciato `e dimostrato.
Osservazione. Ricordando il secondo punto dellenunciato del teorema 5.9, vediamo allora
che la successione

n(

X
n
) converge in legge a S

N[0,
2
]
7.13
Nella teoria delle trasformate di Fourier si dimostra che loperazione che a una distribuzione fa corrispondere
la sua trasformata `e invertibile, cio`e nota la trasformata di una distribuzione si pu` o risalire alla distribuzione
stessa mediante unoperazione simile che `e detta antitrasformata.
7.14
Sn `e detta anche somma standardizzata delle Xi .
7.15
Le X
k
sono indipendenti, e dal teorema 4.3 (pagina 51) segue che anche le Y
k
lo sono. Daltra parte,
una facile estensione dellesempio 4.16 mostra che se X e Y hanno densit` a congiunta p , allora

X aX +b e

Y cY +d con a, c = 0 hanno densit` a congiunta p(x, y) =


1
|ac|
p(
xb
a
,
yd
c
) ; dunque

X e

Y sono indipendenti
se e solo se anche X e Y lo sono.
7.7 Approssimazione normale 95
7.7 Approssimazione normale
Il teorema del Limite Centrale ha una particolare importanza; dice che, per n grande, la
legge di S
n
(che in generale sar`a complicata) pu`o essere approssimata con una legge normale,
qualunque sia la legge delle X
n
(purche con varianza nita). Anzi si pu`o dimostrare una
versione del teorema anche con ipotesi pi` u deboli, senza richiedere che le X
n
abbiano tutte
la stessa legge. Ci`o spiega come mai la distribuzione Gaussiana `e cos` comune in natura, si
potrebbe dire onnipresente. Pensiamo alle misure di una grandezza sica, che sono in generale
aette da piccoli errori casuali. Per esempio le misure delle emissioni monocromatiche di un
dato atomo mostrano un andamento gaussiano nellintorno della frequenza teorica (gura 26).
Figura 26: Spettro di emissione dellidrogeno nel visibile. La luce emessa dallatomo passa
attraverso una fenditura e poi attraverso un prisma, che la scompone nelle varie frequenze.
Per una luce bianca si ottiene uno spettro continuo che mostra tutti i colori delliride, nel
caso di un atomo di una data specie si ottengono invece delle righe, che sono immagini della
fenditura alle frequenze di emissione dellatomo; frequenze che possono assumere solo certi
valori discreti, corrispondenti a transizioni tra i livelli di energia degli elettroni dellatomo.
Ciascuna riga `e la somma di un gran numero di eventi singoli: lemissione di un fotone da parte
dellatomo. Per lindeterminazione inerente le misure quantistiche, la frequenza di ciascun
fotone non risulta avere esattamente il valore corrispondente allenergia di transizione (in
base alla formula di Planck E = h); la si pu`o invece considerare come il valore assunto da
una variabile aleatoria con media uguale a tale frequenza. Pertanto il prolo di ciascuna riga
(cio`e il graco dellintensit`a di emissione in funzione della frequenza) risulta avere in pratica
un andamento gaussiano.
Il teorema del Limite Centrale pu`o essere utilizzato per valutazioni approssimate, che si
basano sul modo seguente di esprimere il medesimo enunciato: per ogni x R si ha
lim
n
P
_
X
1
+ +X
n
n

n
x
_
= (x) ,
dove
(x) :=
_
x

N[0, 1]() d =
1
2
_
1 + erf
_
x

2
__
`e la funzione di ripartizione della legge normale (6.5). Dunque per n abbastanza grande si
avr`a
P
_
X
1
+ +X
n
n

n
x
_

= (x) .
96 7 LA LEGGE DEI GRANDI NUMERI
Supponiamo allora di voler stimare la probabilit`a PX
1
+ +X
n
x per un certo
x R; scriveremo
PX
1
+ +X
n
x = P
_
X
1
+ +X
n
n

n

x n

n
_

=
_
x n

n
_
.
Nei tempi bui quando non cerano i computer si avevano a disposizione delle tabelle dei valori
di (x) , in modo da poter dare una risposta approssimata a un dato problema. Tutto sommato
potrebbe esserci utile anche oggi (gura 27), visto che la funzione (x) non `e presente nelle
normali calcolatrici tascabili.
Figura 27: Valori di (x)
1
2
[1 + erf(
x

2
)] , approssimati alle due cifre decimali, per
2.57 x < 2.58 a passi di 0.01 . Sono riportati solo i valori di x in cui il valore appros-
simato di (x) cambia; cos`, per esempio, (x) vale circa 0.07 tra 1.51 e 1.42 ; inoltre (x)
vale circa 0 (sempre con lapprossimazione di due cifre decimali) per x 2.58 , e circa 1 per
x 2.58 . Come vedremo nel 8.3, questa `e la tabella dei cosiddetti percentili (o 100-quantili )
della densit`a normale.
x 2.57 2.17 1.95 1.81 1.69 1.59 1.51 1.43 1.37 1.31
(x) 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10
x 1.25 1.20 1.15 1.10 1.05 1.01 0.97 0.93 0.89 0.85
(x) 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20
x 0.82 0.78 0.75 0.72 0.69 0.65 0.62 0.59 0.56 0.53
(x) 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30
x 0.51 0.48 0.45 0.42 0.39 0.37 0.34 0.31 0.29 0.26
(x) 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40
x 0.24 0.21 0.18 0.16 0.13 0.11 0.08 0.06 0.03 0.01
(x) 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50
x 0.02 0.04 0.07 0.09 0.12 0.14 0.17 0.19 0.22 0.25
(x) 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60
x 0.27 0.30 0.32 0.35 0.38 0.40 0.43 0.46 0.49 0.52
(x) 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70
x 0.54 0.57 0.60 0.63 0.66 0.70 0.73 0.76 0.79 0.83
(x) 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80
x 0.86 0.90 0.94 0.98 1.02 1.06 1.11 1.16 1.21 1.26
(x) 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90
x 1.32 1.38 1.44 1.52 1.60 1.70 1.82 1.96 2.18 2.58
(x) 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00
Esempio 7.11. Nellesperimento lancio di una moneta sia Pcroce = p , Ptesta = 1 p .
In uno schema di Bernoulli di n lanci sia poi X
i
la variabile aleatoria che assegna il valore 1
7.7 Approssimazione normale 97
Figura 28: Graco di (x) =
1
2
[1 + erf(
x

2
)] , la funzione di ripartizione della densit`a
N[0, 1](x) .
3 2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
a croce nelli-esimo lancio e 0 a testa nelli-esimo lancio. Si ha
E[X
i
] = 0 (1 p) + 1 p = p ,

2
Var[X
i
] = (0 p)
2
(1 p) + (1 p)
2
p = p (1 p) .
Allora la probabilit`a dellevento
E esce non pi` u di k volte croce in n lanci
`e data da
P(E) = PX
1
+ +X
n
k

=
_
k n

n
_
=
_
k np
_
p (1 p) n
_
.
Ad esempio, la probabilit`a di ottenere non pi` u di di 65 volte croce in 100 lanci, se la probabilit`a
di ottenere croce in ciascun lancio `e 0.6 , risulta essere
PX
1
+ +X
100
65

=
_
65 100 0.6

0.6 0.4 100


_

= (1.02) .
Per valutare (1.02) andiamo alla tabella e vediamo che la nostra valutazione della proba-
bilit`a richiesta `e circa 0.85 . Giocando un po con i numeri si vede che, come ci si aspetta,
Ph X
1
+ . . . +X
100
k `e sensibilmente diversa da 0 per h e k vicini a np .
In eetti riportando in funzione di k
p
k
PX
1
+ . . . +X
100
= k =
= PX
1
+ . . . +X
100
k
PX
1
+ . . . +X
100
k 1

=
_
k np
_
p (1 p) n
_

_
k 1 np
_
p (1 p) n
_
50 60 70 80
0.02
0.04
0.06
0.08
si ottiene il graco qui accanto.
98 7 LA LEGGE DEI GRANDI NUMERI
Osservazione. Il valore di n necessario perche lapprossimazione normale sia buona varia
con il tipo di esperimento considerato; di solito si suppone, in base a dati empirici, che il
valore minimo di n debba essere compreso tra 30 e 50. Un aspetto interessante della faccenda
`e che se la distribuzione delle X
i
`e simmetrica rispetto alla media, allora basta un valore
di n pi` u basso. Nella gura qua sotto sono riportati i risultati delle simulazioni di S
n
per
n = 20 , rispettivamente per variabili aleatorie X
i
uniformemente distribuite nellintervallo
[0, 1] e per variabili aleatorie con legge esponenziale p(x) = e
x
in [0, ) . Il range dei valori
assunti dalle variabili aleatorie `e stato suddiviso in intervalli di ampiezza 0.1 , e per ciascuno di
essi si `e riportata nel graco la percentuale di eventi in cui S
20
ha assunto un valore compreso
nellintervallo.
3 2 1 1 2 3
0.1
0.2
0.3
0.4
3 2 1 1 2 3
0.1
0.2
0.3
0.4

Osservazione. Le considerazioni dellesempio 7.11 si applicano al seguente problema: vo-


gliamo decidere se una moneta `e regolare facendo un certo numero di lanci. Se la moneta `e
eettivamente regolare ci si aspetta, come si `e gi`a osservato in precedenza, che circa la met`a
delle volte venga testa; anche se si trova una frazione molto dierente non possiamo essere
sicuri che la moneta sia irregolare, ma possiamo dare una risposta probabilistica: per esempio,
per una moneta regolare la probabilit`a di ottenere testa non pi` u di 55 volte su 100 lanci `e
PX
1
+ +X
100
55

=
_
55 100 0.5
0.5

100
_
= (1.0)

= 0.84 .
Quindi la probabilit`a di ottenere testa pi` u di 55 volte `e circa 1 0.84 = 0.16 .
Esempio 7.12. Per un velivolo di 220 posti una compagnia aerea accetta 250 prenotazioni,
sapendo che in media il 13% di coloro che hanno prenotato non si presenta. Supponendo
che la decisione di ciascun passeggero se presentarsi o no sia descrivibile come esito di un
esperimento del tipo schema di Bernoulli, qual`e la probabilit`a che tutti i passeggeri trovino
eettivamente posto? La risposta `e
PX
1
+ +X
250
220

=
_
220 250 0.87

0.13 0.87 250


_

= (0.47)

= 0.68 .
Con questi numeri la compagnia rischia di fare imbufalire diversi passeggeri; supponiamo allora
che certi criteri di qualit`a richiedano che tutti i passeggeri trovino posto con probabilit`a
del 95%; quante prenotazioni si possono accettare? Guardando ancora la tabella abbiamo che
(x)

= 0.95 per x = 1.60 ; pertanto, detto n il numero massimo di prenotazioni accettabili, si
ottiene
220 n 0.87

0.13 0.87 n
= 1.60 n

= 243.228 ,
7.7 Approssimazione normale 99
dunque non pi` u di 243 prenotazioni. Diminuendo ancora di poco il numero di prenotazioni si
ottiene un ottimo risultato: con n = 240 , per esempio, la probabilit`a che tutti trovino posto
`e quasi del 99%.
Esempio 7.13. Nellesperimento detto del gatto di Schrodinger un gatto viene chiuso in
un contenitore a tenuta stagna, nel quale lapertura di una capsula di cianuro viene attivata
dallemissione di un certo atomo che decade: il gatto rimane in vita nche latomo non decade
(si tratta di un esperimento ideale, non risulta che nessuno lo abbia mai eseguito in pra-
tica). Pertanto la variabile aleatoria tempo di vita del gatto segue una legge esponenziale
p(t) = e
t/
/ , con media e varianza
7.16
=
_

0
t

e
t/
dt = ,
2
=
_

0
(t )
2

e
t/
dt =
2
.
Facciamo ora una variante dellesperimento, in cui il decadimento di un atomo non attiva
lapertura della capsula ma un dispositivo analogo, che a sua volta ne attiva un terzo e cos`
via; il gatto viene ucciso solo quando lultimo di n dispositivi viene azionato.
La probabilit`a che il gatto sia morto entro un tempo h `e dunque
PX
1
+ +X
n
h

=
_
(h n)


n
_
=
_
(h n)

n
_
.
Per esempio se = 1 minuto e n = 30 , la probabilit`a che il gatto sia morto entro 35 minuti `e
circa (5/

30)

= (0.91) , ovvero intorno all82%.
In conclusione: di regola si potr` a utilizzare lapprossimazione normale quando si conside-
rano eetti cumulativi di un numero abbastanza grande di processi aleatori indipendenti; `e
necessario conoscere la media e la varianza del singolo processo, ma non la sua legge precisa.
Cercare di immaginarsi esempi diversi pu`o essere un utile esercizio.
7.16
Le primitive
_
t p(t) dt = (t +) e
t/
e
_
(t )
2
p(t) dt = (t
2
+
2
) e
t/
si trovano facilmente
mediante unintegrazione per parti.
100 8 ELEMENTI DI STATISTICA
8 Elementi di statistica
8.1 Statistica descrittiva e statistica inferenziale
In termini molto semplicati, la statistica `e la disciplina che si occupa della raccolta e dellana-
lisi di dati sperimentali, al ne di formulare descrizioni utili dei fenomeni studiati e, possibil-
mente, di costruirne dei modelli matematici probabilistici. Si tratta di un campo vastissimo,
con problematiche che vanno dalle modalit`a di raccolta dei dati, al modo di organizzarli e
presentarli (statistica descrittiva), ai metodi di analisi (statistica inferenziale) che utiliz-
zano procedure molto diversicate e sosticate.
`
E quindi evidente che noi potremo solo dare
un assaggio di metodi statistici, nella speranza che le idee assimilate siano di aiuto per un
futuro studio, pi` u approfondito, dei metodi utilizzati nel campo di competenza di ciascuno.
Le situazioni in cui si applicano questo metodi sono le pi` u svariate. Ci sono le analisi
dei risultati sperimentali riguardo a un fenomeno sico, sia che questo abbia una natura es-
senzialmente aleatoria sia che lincertezza riguardi principalmente il processo di misura (si
raccoglier`a di regola il numero maggiore possibile di dati cercando di ripetere lesperimento in
condizioni il pi` u possibile identiche). Ci sono la raccolta e lanalisi dei dati riguardo a popo-
lazioni, ambiente, farmaci; e ci`o al ne di prendere decisioni riguardo a questioni economiche,
mediche, biologiche, di progetto e pianicazione territoriale, eccetera.
Un aspetto importante `e quanti dati si devono raccogliere per costruire un modello ada-
bile.
`
E chiaro che se si deve decidere su questioni di programmazione economica non si pu`o,
di regola, disporre dei dati riguardo a tutti gli individui di una popolazione, ma si dovr`a agire
in base a un campione limitato. Questo `e anche un aspetto molto delicato dellindagine stati-
stica, perche `e facilissimo, se non si procede in maniera scrupolosa e in base a criteri provati,
costruire un modello a partire da un campione bacato, nel quale per esempio vi siano corre-
lazioni nascoste che falsano in partenza i risultati; cos`, per fare un caso banale, se si conduce
unindagine sulle preferenze dei consumatori in un quartiere ricco o in un quartiere povero,
oppure in particolari fasce orarie, dicilmente i risultati saranno estendibili a tutta la popo-
lazione. Infatti in questo tipo di indagini (come in quelle sulle tendenze politiche) la raccolta
dati deve essere fatta scegliendo i campioni in numerose celle omogenee che rappresentino
le diverse fasce di popolazione secondo una caratterizzazione basata su molti parametri; al
profano viene il sospetto che questo particolare campo della statistica stia a cavallo tra la
scienza e larte, e comunque dipenda in larga misura da un progressivo ranamento delle
tecniche basato anche su tentativi e raronti sperimentali di vario tipo.
Ma i trabocchetti della statistica riguardano anche lanalisi dei dati e le conseguenze che
se ne traggono. Gli annali sono pieni di clamorose cantonate, prese per supercialit`a o anche
in malafede. In eetti `e spesso facilissimo piegare linterpretazione dei dati per sostenere
una tesi precostituita, in modo da ingannare chi non `e addetto ai lavori.
Nonostante tutte le dicolt`a a cui abbiamo accennato, o forse almeno in parte proprio
in virt` u di queste, la statistica `e un campo dindagine aascinante e importantissimo, con
implicazioni losoche e metodologiche complesse; potremmo perno aermare che `e legato
strettamente alla natura stessa della nostra percezione e rappresentazione della realt`a.
8.2 Stimatori fondamentali
Come abbiamo gi`a osservato, il compito essenziale della statistica potrebbe essere descritto
in maniera concisa come la costruzione di un modello matematico probabilistico di un dato
processo aleatorio utilizzando dei dati empirici. Di solito questo modello non sar`a comple-
tamente sconosciuto: potremmo avere delle idee a piori sul tipo di distribuzione, e magari,
8.2 Stimatori fondamentali 101
nel caso migliore, pu`o darsi che ci sia da determinare solo un parametro o due. Ad esempio
pu`o darsi che si sappia di gi`a, o si possa ipotizzare, che il fenomeno `e descrivibile mediante
una distribuzione di probabilit`a di tipo Gaussiano (magari per analogia con fenomeni simili,
o altre considerazioni di vario tipo); in tal caso si deve solo determinare (o meglio, stimare)
la media e la varianza
2
. Ma il problema, in generale, pu`o essere pi` u complesso.
In molti casi (ma non sempre) la questione pu`o essere impostata, in maniera un po gene-
rica, come segue. Se il processo aleatorio `e descritto da uno spazio di probabilit`a (
1
, E, P) ,
allora

n

n
1

1

1
`e lo spazio dei campioni che descrive la ripetizione dellesperimento n volte. Sia poi
X X
1
:
1
R
d
una variabile aleatoria (scalare o vettoriale), e indichiamo con X
i
, 1 i n, la variabile
aleatoria denita da
X
i
(
1
, . . . ,
n
) := X
1
(
i
) .
Allora le X
i
sono variabili aleatorie indipendenti e aventi la medesima densit`a (dunque, in
particolare, si applicano ad esse la legge dei Grandi Numeri e il teorema Limite Centrale). I
dati empirici di cui si diceva consisteranno in una n-upla
(x
1
, . . . , x
n
) =
_
X
i
()
_

_
X
1
(
i
)
_
di valori assunti dalle X
i
per un certo (
1
, . . . ,
n
)
n
.
I vari metodi per valutare la plausibilit`a di un modello probabilistico consistente con i
dati empirici si basano prima di tutto su certe nuove variabili aleatorie, dette stimatori ; uno
stimatore T in generale ha la forma
T = (X
1
, . . . , X
n
) :
n
R
m
,
essendo : R
n
R
m
unapplicazione sucientemente regolare.
Elenchiamo di eseguito alcuni degli stimatori pi` u comuni.
8.1
La media aritmetica (o media calcolata, o media campionaria)

X :=
1
n
n

i=1
X
i

1
n
(X
1
+ +X
n
) .
La media geometrica

X
geom
:=
_
n

i=1
X
i
_
1/n

n
_
X
1
X
2
X
n
.
La media armonica

X
arm
:=
n

n
i=1
1
X
i

n
1
X
1
+ +
1
Xn
.
8.1
Attenzione a non confondere uno stimatore con leventuale quantit` a, avente lo stesso nome, denita per
una data variabile aleatoria. Cos`, ad esempio, gli stimatori media e varianza non vanno confusi con la
media E[Xi] e la varianza Var[Xi] , anche se sono ad esse collegati.
102 8 ELEMENTI DI STATISTICA
Il campo di variazione (o estensione, o range)
R[X] := maxX
i
minX
i
.
La deviazione media
MD[X] :=
1
n
n

i=1
[X
i


X[ .
La deviazione standard (o scarto quadratico medio) e la varianza
S[X] :=

_
1
n
n

i=1
(X
i


X)
2
, S
2
[X] =
1
n
n

i=1
(X
i


X)
2
.
La deviazione standard e la varianza campionarie (o corrette)

S[X] :=

_
1
n 1
n

i=1
(X
i


X)
2
,

S
2
[X] =
1
n 1
n

i=1
(X
i


X)
2
.
Il momento terzo o indice di asimmetria
A[X] :=

n
i=1
(X
i


X)
3
_
n
i=1
(X
i


X)
2
_
3/2
.
Il momento quarto o indice di curtosi
K[X] :=

n
i=1
(X
i


X)
4
_
n
i=1
(X
i


X)
2
_
2
.
Gli ultimi due stimatori sono meno usati degli altri; il loro ruolo `e un ranamento nella
descrizione dei dati ottenuti. Cos`, A[X] assume valore 0 per una n-upla di dati
_
X
i
()
_
che sia
distribuita simmetricamente intorno alla media; se assume valore negativo indica che si sono
ottenuti pi` u valori inferiori alla media (e viceversa). Lindice di curtosi `e una misura del peso
delle code rispetto alla parte centrale; si confronta con quanto accade per la distribuzione
normale, a cui viene attribuito un valore di curtosi pari a 3 (distribuzione a picco, cio`e con
code leggere, per K[X] < 3 , e piatte per K[X] > 3).
Gli stimatori sopra elencati dal campo di variazione in poi sono anche detti misure di
dispersione.
Discuteremo in seguito, anche con alcuni esempi, lutilizzo di questi stimatori. Per ora ci
limitiamo a un paio di osservazioni, la prima delle quali `e che la media aritmetica

X `e la
maniera pi` u ovvia per stimare la media E[X] della variabile aleatoria X ; in eetti la legge
dei Grandi Numeri ci dice che se scegliamo un campione (x
1
, . . . , x
n
) =
_
X
1
(), . . . , X
n
()
_
con n abbastanza grande, ci si pu`o aspettare che

X() sia circa uguale a E[X] . A naso, un
discorso analogo dovrebbe valere per la varianza. Vediamo. Supponiamo prima di tutto che
la media = E[X] sia nota. Allora
E
_
1
n
n

i=1
(X
i
)
2

=
1
n
n

i=1
E
_
(X
i
)
2

=
1
n
nVar[X
i
] = Var[X
i
] .
8.2 Stimatori fondamentali 103
In tal caso sar`a quindi naturale usare proprio
1
n

(X
i
)
2
come stimatore della varianza.
Se invece non `e noto (cio`e dobbiamo stimare sia che
2
) allora dobbiamo utilizzare lo
stimatore S
2
[X] . Vogliamo calcolarne la media. Prima di tutto osserviamo che
n

i=1
(X
i


X)
2
=
n

i=1
(X
i
)
2
+n

X
2
2

X
n

i=1
X
i
=
n

i=1
(X
i
)
2
n

X
2
(avendo utilizzato

i
X
i
= n

X). Inoltre (teorema 5.9) si ha Var[X] = E[X
2
] E[X]
2
, da cui
E[

X
2
] = Var[

X] +E[

X]
2
=
1
n
2
nVar[X
i
] +E[X
i
]
2
=
1
n
Var[X
i
] +E[X
i
]
2
,
e si ottiene
E
_
n

i=1
(X
i


X)
2

= E
_
n

i=1
(X
i
)
2

E
_
n

X
2

=
n

i=1
E
_
(X
i
)
2

nE[

X
2
] =
=
n

i=1
_
Var[X
i
] +E[X
i
]
2
_

_
Var[X
i
] +nE[X
i
]
2
_
=
= nVar[X
i
] Var[X
i
] = (n 1) Var[X
i
] .
Dunque vediamo che
E[S
2
[X]] =
n 1
n
Var[X
i
] , E[

S
2
[X]] = Var[X
i
] .
Insomma

S
2
[X] `e un cosiddetto stimatore non distorto di
2
Var[X
i
] , mentre S
2
[X] non
ha questa propriet`a. Continuando a usare questa terminologia, potremmo dire che

X `e uno
stimatore non distorto di E[X
i
] , in quanto
E[

X] =
1
n
n

i=1
E[X
i
] = .
Osserviamo poi che si ha, identicamente,
n

i=1
(X
i


X) =
n

i=1
X
i
n

X = n

X n

X = 0 ,
ovvero la somma algebrica degli scarti dalla media `e zero.
Unulteriore osservazione: se la variabile aleatoria X `e a valori positivi si ha

X
arm


X
geom


X ,
e luguaglianza vale se le X
i
prendono tutte lo stesso valore.
8.2
Esercizio. In alcuni casi si considera la media ponderata, in cui ai possibili valori di X
vengono attribuiti dei pesi a priori; darne una denizione precisa e fare qualche esempio.
8.2
Infatti essendo concava la funzione logaritmo si ha
log X
1
n
(log X1 + + log Xn) log
_
1
n
(X1 + + log Xn)
_
log X ,
per cui

Xgeom = e
1
n
(log X
1
++log Xn)
e
log
_
1
n
(X
1
++log Xn)
_
e
log X
= X .
Inoltre
1

Xarm
= 1/X 1/X
geom
=
n
_
1
X1

1
Xn
=
1

Xgeom
.
104 8 ELEMENTI DI STATISTICA
8.3 Quantili
Abbiamo gi`a incontrato brevemente i quantili nel 7.4. Ricordiamo che per ogni n-upla di
dati x (x
i
) R
n
si considera la funzione di ripartizione empirica
F
x
(t) =
1
n
n

i=1
H(t x
i
) .
Se poi X (X
i
) `e un vettore aleatorio n-dimensionale, si considera loggetto aleatorio F
X
F
X
(t) F
n
(t) :=
1
n
n

i=1
H(t X
i
) ,
che associa una funzione di ripartizione empirica ad ogni esperimento. Si `e anche gi`a visto
come F
n
costituisca, in sostanza, uno stimatore della funzione di ripartizione delle X
i
, in
quanto converge quasi certamente ad essa.
8.3
Abbiamo poi visto che i quantili, relativamente a una n-upla di dati, sono i punti di
discontinuit`a della funzione di ripartizione empirica determinata da questa; pi` u precisamente
si dice i-esimo quantile (o i-esimo n-quantile) della n-upla x lelemento
8.4
q
i
(x) := x
i
, 1 i < n ,
dove x := ( x
1
, . . . , x
n
) indica la medesima n-upla riordinata. Dunque q
i
(x) divide x nei due
sottoinsiemi
( x
h
)
hi
, ( x
h
)
h>i
,
di cardinalit`a rispettivamente i ed ni .
Se k N `e un sottomultiplo di n, la n-upla ordinata x dei dati pu`o essere suddivisa in k
sottoinsiemi di cardinalit`a h = n/k nel modo seguente:
x = ( x
1
, . . . , x
h
) ( x
h+1
, . . . , x
2 h
) ( x
nh+1
, . . . , x
n
) .
Lelemento pi` u grande del j-esimo di questi sottoinsiemi, ovvero
q
j,k
:= x
j h
x
j n/k
`e detto il j-esimo k-quantile: `e lelemento di x che suddivide i dati tra i j sottogruppi di
n/k elementi che hanno valori non superiori a q
j,k
, e gli altri k j gruppi di dati, con valori
maggiori di q
j,k
. In altri termini, i k-quantili suddividono gli n dati in k sottogruppi contenenti
il medesimo numero di elementi.
Questo modo di suddividere i dati, anche se a prima vista pu`o sembrare arbitrario, `e im-
portante in statistica, soprattutto negli studi sulle popolazioni. Ora `e chiaro che la condizione
che k debba essere un sottomultiplo di n, per poter parlare di k-quantili, `e una seccatura ab-
bastanza inutile: immaginiamoci di raccogliere un numero n molto grande di dati, e di volerli
suddividere in k =20 classi (pensiamo alle classi det`a tra i consumatori, o alla fascia di peso
tra coloro che prendono un certo farmaco); sarebbe assurdo non poterlo fare perche i dati
raccolti sono (mettiamo) n=6133 ; potremmo scartare 13 dati scelti a caso, ma in realt`a non
8.3
Pi` u precisamente, secondo la denizione di stimatore che abbiamo dato in precedenza (8.2), Fn(t) `e uno
stimatore per ciascun t R.
8.4
Si noti che ci sono solo n1 quantili, perche i casi i =0 e i =1 non vengono considerati (per lo meno di
solito).
8.3 Quantili 105
`e necessario perche quello che ci interessa `e suddividere i dati approssimativamente in k classi
nel modo migliore possibile. Si sceglie allora un qualche criterio per ssare q
j,k
se j n/k non
`e intero. Per esempio si potrebbe porre q
j,k
:= x
h
dove h j n/k| `e la parte intera di j n/k
(cio`e il pi` u grande intero < j n/k) , oppure prendere la media tra x
h
e x
h+1
, ovvero
q
j,k
:=
_
_
_
x
j n/k
, j n/k N ,
1
2
( x
h
+ x
h+1
) , h j n/k| , j n/k , N .
Nella letteratura e nelluso esistono varie altre denizioni leggermente diverse (a cui non siamo
interessati in questa sede).
`
E chiaro allora che la funzione di ripartizione empirica determinata
dai (q
j,k
) , j = 1, . . . , k 1 sar`a una versione pi` u grossolana di quella determinata da tutta
la lista originale x dei dati (gura 29).
Figura 29: Funzione di ripartizione empirica determinata da un insieme di dati generati con
densit`a uniforme nellintervallo [0, 1] , e funzione di ripartizione determinata dai quintili del
medesimo insieme (a destra)
0.2 0.4 0.6 0.8 1.0
0.2
0.4
0.6
0.8
1.0
0.2 0.2 0.4 0.6 0.8 1.0
0.2
0.4
0.6
0.8
1.0
I k-quantili, per certi valori di k usati pi` u spesso, hanno nomi appositi:
il 2-quantile (ce n`e uno solo) `e detto mediana;
i 3-quantili sono detti terzili ;
i 4-quantili sono detti quartili ;
i 5-quantili sono detti quintili ;
i 9-quantili sono detti nonili ;
i 10-quantili sono detti decili ;
i 12-quantili sono detti duo-decili ;
i 20-quantili sono detti vigintili ;
i 100-quantili sono detti percentili ;
i 1000-quantili sono detti permillesimi.
Per la mediana, in particolare, prendendo la seconda denizione di q
j,k
con k = 2 avremmo
mediana(x) =
_
_
_
x
n/2
, se n `e pari ,
1
2
( x
(n1)/2
+ x
(n+1)/2
) , se n `e dispari .
Tuttavia se deniamo la mediana come il valore che divide linsieme dei dati, ordinati dal
pi` u piccolo al pi` u grande, esattamente in due parti [1], allora `e pi` u naturale porre
mediana(x) =
_
_
_
x
(n+1)/2
, se n `e dispari ,
1
2
( x
n/2
+ x
1+n/2
) , se n `e pari .
Per n grande non `e molto importante quale delle due denizioni si considera.
106 8 ELEMENTI DI STATISTICA
Esempio 8.1. Un metodo di valutazione degli esami utilizzato in alcuni paesi consiste di due
fasi. Nella prima fase si assegna a ciascun esame un punteggio (per esempio da 1 a 100) secondo
certi criteri predeniti; nella seconda fase si suddividono i risultati ottenuti in classi di uguale
cardinalit`a, e la valutazione nale consiste nella classe di appartenenza. Ad esempio le classi
potrebbero essere sei, contrassegnate con le lettere da A ad F. In questo modo, uno studente
che ha ottenuto nella prima fase un punteggio non particolarmente alto, pu`o riportare alla ne
un A, che `e quello che conta ai ni del pezzo di carta. Il sistema ha vantaggi e svantaggi. Un
vantaggio `e che incoraggia gli studenti con qualche dicolt`a: nessuno riceve una valutazione
inferiore ad F, ed `e comunque in compagnia di diversi altri; uno studente bravino riceve un
A anche se non ha fatto benissimo. Daltra parte, uno molto bravo che ha fatto tutto bene o
quasi si ritrova sempre nel gruppo. In eetti la suddivisione in quantili tende a diminuire
limportanza delle code della distribuzione. Un ulteriore eetto negativo `e che pu`o favorire
una tendenza al ribasso nella qualit`a dellapprendimento.
A questo punto, avendo denito q
j,k
(x) per una generica n-upla x di dati, `e naturale
considerare lo stimatore
q
j,k
(X
1
, . . . , X
n
) : q
j,k
_
X
1
() , . . . , X
n
()
_
,
che come si `e gi`a visto (7.4) determina un oggetto aleatorio F
k
con valori nellinsieme del-
le funzioni di ripartizione; per ciascun t R, per n, k si ha che F
k
(t) converge quasi
certamente a F(t) , essendo F la funzione di partizione comune delle X
i
.
Daltra parte, una densit`a di probabilit`a continua p che si annulli al pi` u in punti isolati
determina una funzione di partizione F invertibile; per una tale densit`a si denisce j-esimo
k-quantile il numero
q
j,k
q
j,k
[p] :=

F(j/k) , 1 j < k N 1 .
Pertanto se p `e la densit`a della variabile aleatoria X si ha
PX q
j,k
= F(q
j,k
) =
j
k
,
cio`e i q
j,k
(che, si osservi, sono in numero di k 1) suddividono la retta reale in k intervalli di
uguale probabilit`a (gura 30):
_
q
1,k

p(x) dx =
_
q
j+1,k
q
j,k
p(x) dx =
_

q
k1,k
p(x) dx =
1
k
.
Pi` u in generale, per (0, 1) non necessariamente razionale si denisce il quantile di ordine
di una densit`a p continua come il numero q

R dato da
PX q

= .
C`e inne un ulteriore indicatore di tendenza centrale usato in statistica: la moda, che pu`o
essere denito come il valore che si ripete pi` u spesso. Pi` u precisamente, di una successione di
n dati si fa una partizione in sottoinsiemi suddividendo il campo di variazione in parti uguali
(non con i quantili!), e si prende il punto di mezzo dellintervallo in cui cade il maggior numero
di dati. Questoperazione, composta con la n-upla (X
1
, . . . , X
n
) di variabili aleatorie, fornisce
uno stimatore del punto di massimo della densit`a, ammesso che ce ne sia uno (potrebbero
anche venir fuori pi` u punti modali ). In quanto alla densit`a continua p(x) , la sua moda `e proprio
il valore di x per cui p(x) ha il massimo (gura 30). Si osservi che nel caso di distribuzioni
simmetriche la media, la mediana e la moda coincidono.
8.3 Quantili 107
Figura 30: A sinistra: moda, mediana e media di una densit`a continua. A destra suddivisione
in k parti, aventi area 1/k , del trapezoide delimitato dal graco di p(x) e dallasse delle ascisse;
i valori che delimitano le parti sono i k-quantili (qui k =5).
2 4 6 8 10
0.05
0.10
0.15
2 4 6 8 10
0.05
0.10
0.15
Esempio 8.2. Un gruppo di 220 persone deve viaggiare su un aereo (occupando tutti i posti),
e si vuole valutare quanto bagaglio potr`a portare ciascuno, sapendo che il carico massimo
dellaereo `e di 20 tonnellate.
`
E necessario allora valutare la somma dei pesi corporei dei pas-
seggeri, e lo si far`a moltiplicando per 220 un peso medio ricavato dalle statistiche. Supponendo
che tale peso medio sia di 68 kg ci si aspetta di avere 68 220 = 14.960 kg di passeggeri, e
dunque rimangono 5.040 kg per i bagagli (poco meno di 23 kg a testa).
Esempio 8.3. In vista della stagione invernale, un negozio situato vicino a una scuola deve
rifornirsi di giubbotti; siccome gli studenti tendono a comprare tutti il medesimo modello, il
negoziante dovr`a sapere di quale modello si tratta: la moda, appunto.
Esempio 8.4. Cento studenti concorrono per 50 borse di studio partecipando a un esame
scritto. Il dato importante, per ciascuno di essi, `e se la sua valutazione risulter`a superiore o
no alla mediana.
Osservazione. (Sar`a utilizzata nel 8.7.) Nel caso di una densit`a p simmetrica
8.5
:
se X p allora X p ;
F(x) = 1 F(x) ;
q

= q
1
(dove q

denota il quantile di ordine );


se X p allora P[X[ q
1/2
= 1 ;
infatti:
dette F
X
e F
X
le funzioni di ripartizione di X e di X , si ha
F
X
(t) = PX t = PX t =
_

t
p(x) dx =
_

t
p(x) dx =
_
t

p(x) dx =
=
_
t

p(x) dx = F
X
(t) ;
ponendo ora F F
X
F
X
si ha
F(x) = PX x = PX x = PX x = 1 PX x = 1 F(x) ;
PX q

= PX q

= PX q

= 1 PX q

= 1 ;
P[X[ q
1/2
= Pq
1/2
X q
1/2
= PX q
1/2
PX q
1/2
=
= [1

2
] [1 (1

2
)] = 1 .
8.5
O pari, cio`e tale che p(x) = p(x) x, come per esempio la legge normale o la legge di Student.
108 8 ELEMENTI DI STATISTICA
8.4 Correlazione
Abbiamo gi`a incontrato (5) il coeciente di correlazione tra due variabili aleatorie X e Y ,
Corr[X, Y ] :=
Cov[X, Y ]
_
Var[X] Var[Y ]
, ovvero
X,Y
=

X,Y

X

Y
,
e si `e visto che 1
X,Y
1 . Come stimatore di Corr[X, Y ] utilizziamo
R[X, Y ] :=

n
i=1
(X
i


X) (Y
i


Y )
nS[X] S[Y ]
=

n
i=1
(X
i


X) (Y
i


Y )
(n 1)

S[X]

S[Y ]
.
Si `e anche osservato che Corr[X, Y ] `e zero quando X e Y sono indipendenti, ma che daltra
parte il suo annullarsi non implica lindipendenza delle due variabili aleatorie, come mostrano
gli esempi 5.5 e 5.6. In eetti, un po pi` u in generale, `e facile vedere che Corr[X, Y ] si annulla
quando una delle due variabili aleatorie `e distribuita simmetricamente rispetto allo zero e
laltra `e una funzione pari della prima.
Per studiare un po pi` u in dettaglio il signicato del coeciente di correlazione conside-
riamo prima di tutto il caso in cui si abbia Y = X + , con , R, ,= 0 ; si dice allora
che X e Y sono correlate linearmente. Ponendo per brevit`a E[X] si ottiene
Cov[X, Y ] = E
_
(X ) (X + E[X +])

= E
_
(X ) (X + )

=
= E
_
(X )
2

= E
_
(X )
2

= Var[X] .
Inoltre (teorema 5.9) Var[Y ] = Var[X +] =
2
Var[X] , da cui
Corr[X, Y ] =
Cov[X, Y ]
_
Var[X] Var[Y ]
=
a Var[X]
_

2
Var[X] Var[X]
=
=

[[
= sign() .
Dunque il coeciente di correlazione, se X e Y sono legate da una mutua dipendenza lineare,
vale 1 o 1 a seconda che le due variabili aleatorie crescano insieme oppure che luna decresca
quando laltra cresce.
Modichiamo ora la relazione tra X e Y aggiungendo un termine stocastico, cio`e una
nuova variabile aleatoria W indipendente da X, avente valore di aspettazione nullo e varianza
che pensiamo piccola. Scriviamo dunque
8.6
Y = X + +W , , R, ,= 0 .
Tenendo conto delle ipotesi su W si ha
E[W] = 0 , Var[Y ] = Var[X +] +Var[W] =
2
Var[X] +Var[W] ,
da cui
Cov[X, Y ] = E
_
(X ) (X + +W E[X +])

= E
_
(X ) (X +W ])

=
= E
_
(X )
2
+ (X ) W

= E[(X )
2
] +E[X ] E[W] =
= E[(X )
2
] = Var[X] .
8.6
`
E chiaro che se il termine W fosse del tutto arbitrario allora questa nuova relazione sarebbe priva di
signicato.
8.5 Regressione lineare 109
Pertanto
Corr[X, Y ] =
Cov[X, Y ]
_
Var[X] Var[Y ]
=
Var[X]
_
Var[X] (
2
Var[X] +Var[W]
,
che in valore assoluto `e strettamente minore di 1 (a meno che la varianza di W non sia nulla, che
vorrebbe dire W = costante). Perci`o si dice che Corr[X, Y ] `e un indice del grado di dipendenza
lineare tra le due variabili aleatorie. Esistono poi molte altre misure di correlazione usate in
statistica, atte a rilevare vari tipi di relazioni tra le variabili aleatorie, ma ci`o non rientra tra
gli scopi di questo corso.
Concludiamo questo paragrafo con alcuni esempi, nei quali si riportano nel piano carte-
siano i valori ottenuti di X e Y mediante una simulazione in cui il disturbo W ha densit`a
gaussiana.
Figura 31: A sinistra: simulazione di relazione Y = 2 X +W dove il disturbo W ha densit`a
gaussiana, media nulla e varianza 1/64 , e n = 100. Il coeciente di correlazione teorico
Corr[X, Y ] , calcolato con la formula data in precedenza, `e confrontato con il coeciente di
correlazione empirico R[X, Y ] . A destra simulazione analoga, con Y =
3
2
X +W .
Corr[X, Y ]

= 0.977356
R[X, Y ]

= 0.975547
Corr[X, Y ]

= 0.960769
R[X, Y ]

= 0.961121
8.5 Regressione lineare
Supponiamo di avere ottenuto, in un esperimento, due n-uple di dati x = (x
1
, . . . , x
n
) e
y = (y
1
, . . . , y
n
) ; ipotizziamo che si tratti di valori di variabili aleatorie X e Y legate tra
loro da una relazione del tipo Y = X + +W , con , R, ,= 0 , dove W `e un disturbo
stocastico a media nulla; vogliamo stimare i parametri e .
La situazione di partenza potrebbe essere del tipo illustrato in gura 31, ma potremmo
avere ancora meno dati. In ogni caso la retta che meglio si adatta ai dati non `e univocamente
denita dai dati stessi, e la stima di e che otterremo dipende dal criterio che scegliamo
per determinarli.
Un criterio che risulta funzionare bene in pratica, e che `e relativamente facile da applicare,
`e il cosiddetto metodo dei minimi quadrati ; come dice il nome, si basa sul trovare e in
modo da minimizzare la somma dei quadrati degli scarti tra gli y
i
e i corrispondenti valori
x
i
+ che la variabile aleatoria Y assumerebbe se fosse esattamente uguale ad X + ; in
110 8 ELEMENTI DI STATISTICA
Figura 32: Simulazione con perturbazione di relazioni non lineari (non `e dicile indovinarle
qualitativamente) tra le variabili aleatorie X e Y . Sono riportati i coecienti di correlazione
empirici, quelli teorici non possono essere ricavati dalla formula valida nel caso lineare e vanno
calcolati come integrali.
R[X, Y ]

= 0.63346
R[X, Y ]

= 0.020273
altri termini, si vogliono determinare e in modo che lespressione
U(, )
n

i=1
(y
i
x
i
)
2
assuma il valore pi` u piccolo possibile. In sostanza si tratta allora di un problema di minimo
di una funzione U(, ) di due variabili, che dipende dalle due n-uple di dati ma `e ssata una
volta che questi sono assegnati. I minimi vanno cercati tra le soluzioni del sistema di equazioni

U =

U = 0 , ovvero
_

_
2
n

i=1
x
i
(y
i
x
i
) = 0 ,
2
n

i=1
(y
i
x
i
) = 0 ,
che riscriviamo nella forma
_

_
_
n

i=1
(x
i
)
2
_
+
_
n

i=1
x
i
_
=
n

i=1
x
i
y
i
,
_
n

i=1
x
i
_
+n =
n

i=1
y
i
.

_
_
n

i=1
(x
i
)
2
_
+n x =
n

i=1
x
i
y
i
,
x + = y ,
essendo

i
x
i
n x,

i
y
i
n y . Abbiamo quindi un sistema di due equazioni lineari del
tipo
_
A +B = C ,
D +E = F ,
nelle due incognite e , la cui soluzione `e
=
C E BF
AE BD
, =
AF C D
AE BD
,
8.5 Regressione lineare 111
ovvero
8.7
=

i
x
i
y
i
n x y

i
(x
i
)
2
n x
2
, =
y

i
(x
i
)
2
x

i
x
i
y
i

i
(x
i
)
2
n x
2
.
In pratica converr`a trovare dalla prima formula e poi = y x.
Nella gura 33 vediamo due esempi di applicazione del metodo dei minimi quadrati. Se i
dati sono molti il calcolo pu`o essere svolto solo predisponendo un programmino al computer
(com`e ovvio, tutto ci`o `e gi`a presente nei software dedicati); con soli dieci dati, come nel
secondo esempio, lo si pu`o fare anche con laiuto di una semplice calcolatrice. Riportiamoli,
approssimati alla quarta cifra decimale, per leventuale studente volonteroso:
x = (0.0129, 0.3122, 0.8068, 0.372, 0.7226, 0.1651, 0.6417, 0.2023, 0.9256, 0.4018) ,
y = (0.7966, 1.7359, 2.4894, 1.5853, 2.3659, 1.6931, 2.3538, 1.3566, 2.7845, 1.8793) .
Figura 33: A sinistra, simulazione analoga a quella della gura 31: Y = 2 X + 1 +W dove
la variabile aleatoria W ha legge N[0, 1/8] ; dagli n = 100 dati si ricavano i valori di e
con notevole precisione. A destra abbiamo solo 10 dati, ottenuti con relazione analoga tra
X e Y ma W N[0, 1/4] , dunque il disturbo ha varianza maggiore. Come ci si aspetta, la
determinazione di e `e meno precisa, ma comunque non `e troppo lontana dal vero. In
entrambi i casi, la retta disegnata `e quella ricavata dai dati.


= 1.99186


= 0.996991


= 1.90121


= 1.03653
8.7
Si pu`o dimostrare [2] che le variabili aleatorie

i
Xi Yi n

X

Y

i
(Xi)
2
n

X
2
,

i
(Xi)
2

i
Xi Yi

i
(Xi)
2
n

X
2
sono stimatori non distorti per e .
112 8 ELEMENTI DI STATISTICA
Esercizio: Trovare, con il metodo dei minimi
quadrati, i coecienti e relativi ai dati:
x = (0.77, 0.32, 0.68, 0.02, 0.94, 0.68) ,
y = (2.31, 1.65, 2.55, 1.19, 2.68, 2.31) .
Risposta:

= 1.66 ,

= 1.17 .
A anco sono riportati i dati e disegnate entrambe
le rette, quella di parametri e trovati e quella
di parametri = 2 e = 1 che sono stati in eetti
utilizzati per la simulazione che ha generato i dati.
0.2 0.4 0.6 0.8
2.0
2.5
Osservazione. Poiche Var[Y ] =
2
Var[X] +Var[W] , avendo stimato con il metodo dei
minimi quadrati e stimando Var[X] e Var[Y ] mediante

S
2
[X] e

S
2
[Y ] si ottiene una stima di
Var[W] .
8.6 Test di Pearson
Consideriamo un esperimento consistente nel lancio di un dado con N facce, N N, quindi
1, . . . , N . Consideriamo poi per ciascun k la variabile aleatoria

k
: R : h
k
(h) :=
hk

_
1 , h = k ,
0 , h ,= k .
In una successione di n N ripetizioni dellesperimento indichiamo con
k,i
(
k
)
i
la
variabile aleatoria
k
applicata alli-esima ripetizione, e con

k

1
n
n

i=1

k,i
la media campionaria di
k
(dunque n
k
n
k
=

i

k,i
`e il numero di volte che, nelle n
ripetizioni dellesperimento, `e uscito il risultato k).
Lesperimento sar`a soggetto a una certa distribuzione di probabilit`a
8.8
P(k) = p
k
(0, 1) , k = 1, . . . , N ,
N

k=1
p
k
= 1 ,
Introduciamo, per ciascun n N, lo stimatore
T
n
:= n
N

k=1
(
k
p
k
)
2
p
k
.
Si dimostra allora (teorema di Pearson) che si ha la convergenza in legge
T
n
T
2
[N1] .
8.8
Come sar` a chiarito meglio in seguito, quando eseguiamo il test di Pearson noi non conosciamo tale
distribuzione, ma sottoponiamo al test unipotesi riguardo ad essa.
8.6 Test di Pearson 113
Osservazione. Da un punto di vista qualitativo lenunciato del teorema di Pearson non
sorprende, quando si osservi che
2
[1] `e la legge del quadrato di una variabile aleatoria con
legge normale (6.8), e che
k
, in quanto variabile aleatoria di tipo cumulativo, ha legge
approssimativamente normale per n abbastanza grande (teorema del Limite Centrale, 7.6).
Ovviamente le
k
non sono indipendenti, quindi non si pu`o usare la propriet`a, per la legge

2
, dedotta dal teorema 6.10 (pagina 78).
Per ogni q R
+
abbiamo quindi PT
n
q

= PT q . Pertanto, detto q

con
=
_
q
0

2
[N1](t) dt
il quantile (8.3) della legge
2
[N1] corrispondente ad (0, 1) , abbiamo
PT
n
q

= .
I risultati sopra esposti possono essere utilizzati nel modo seguente. Supponiamo di avere
ottenuto una n-upla di dati da ripetizioni indipendenti di un dato esperimento lancio di
un dado con N facce; non sappiamo qual`e la distribuzione di probabilit`a appropriata per
descrivere lesperimento, ma disponiamo di unipotesi (basata su considerazioni di vario tipo)
consistente in una N-upla di valori (p
k
) . Scegliamo ora un valore di piuttosto vicino ad 1, per
esempio = 0.95 , e valutiamo sulla n-upla di dati lo stimatore T
n
costruito in base allipotesi;
se lipotesi `e corretta si ha PT
n
q

= , quindi `e molto probabile che risulti T


n
q

. Se
invece si ottiene T
n
> q

abbiamo forti motivi di sospettare che la nostra ipotesi sia sbagliata,


cio`e che la N-upla (p
k
) non costituisca un modello probabilistico adeguato per lesperimento
studiato (per quanto sia sempre possibile, ancorche improbabile, ottenere T
n
> q

anche se
lipotesi `e corretta).
In sostanza quindi il test di Pearson, che stiamo descrivendo, consiste in un criterio per
decidere se i dati permettano di respingere o no una certa ipotesi. Osserviamo che il test
dipende dalla scelta di , che `e essenzialmente arbitraria, anche se esistono dei valori che
convenzionalmente si considerano standard. Letica di chi studia le statistiche richiede che
lipotesi (p
k
) e il valore di (che determina il livello di signicativit`a del test) vengano
precisati prima di raccogliere i dati. Non possiamo fare a meno di osservare, a questo proposito,
che se si calcola T
n
utilizzando le frequenze empiriche f
k

k
al posto dei p
k
si ottiene
automaticamente T
n
= 0 , qualunque sia la n-upla dei risultati (questo `e un esempio di come
i metodi statistici possano essere usati erroneamente).
Ovviamente il test `e tanto pi` u adabile quanto maggiore `e n; di solito si assume, in base
a valutazioni empiriche, che debba essere n > 5/p
k
.
Esempio 8.5. Per mostrare lutilizzo del test di Pearson illustriamo le modalit`a di una semplice
simulazione fatta con il computer. Abbiamo simulato il lancio di un dado con N = 6 facce
utilizzando tre diverse distribuzioni di probabilit`a,
8.9
quella uniforme e altre due:
p = (
1
6
,
1
6
,
1
6
,
1
6
,
1
6
,
1
6
) ,
p

= (0.15, 0.07, 0.18, 0.16, 0.24, 0.20) ,


p

= (0.12, 0.07, 0.10, 0.09, 0.24, 0.38) .


8.9
La funzione di partizione qui non `e invertibile, ma in pratica si pu` o procedere semplicemente nel modo
seguente: si suddivide lintervallo [0, 1] in sei sottointervalli di misura proporzionale alle probabilit`a desiderate,
poi si sceglie a caso un numero reale r [0, 1] e si etichetta il risultato con il numero dordine di quello dei sei
intervalli a cui r appartiene.
114 8 ELEMENTI DI STATISTICA
Per applicare il test non `e necessario elencare il risultato dei singoli lanci uno per uno, basta
conoscere per ciascun k = 1, . . . , N il numero di volte n
k
= n
k
che `e uscito il risultato k .
Nelle tabelle di gura 34 sono riportati i dati ottenuti dalle simulazioni in forma di N-uple
(n
k
) , e i corrispondenti valori di T
n
per ciascuna delle tre ipotesi p , p

e p

. Il confronto
con i valori dei quantili per
2
[6 1] =
2
[5] , riportati nella tabella della gura 35, permette
di respingere unipotesi oppure no in base ai dati sperimentali.
Il test di Pearson pu`o poi essere utilizzato per respingere o no unipotesi consistente in una
distribuzione di probabilit`a continua. A tale scopo si dovr`a suddividere il campo di variazione
della variabile aleatoria studiata in un certo numero nito di intervalli, in modo da riportarsi
al caso discreto; tale suddivisione pu`o essere fatta con vari criteri: in parti uguali, per quantili,
o altro.
Figura 34: Risultati delle simulazioni del lancio di un dado con N = 6 facce e distribuzioni di
probabilit`a p (in alto), p

(nel mezzo) e p

(in basso), e numero di lanci n = 10, 20, 50, 100, 200 .


A ciascun risultato viene poi applicato il test di Pearson relativamente a ciascuna delle tre
ipotesi p , p

e p

(tutti i numeri sono approssimati alla seconda cifra decimale). Si osserva


che in tutti i casi il test d`a il valore pi` u basso per lipotesi giusta, ma che permette di
scartare le altre ipotesi solo da n = 50 in su.
n (n
k
) T
n
[p] T
n
[p

] T
n
[p

]
10 (3,1,0,2,2,2) 3.20 3.60 6.09
20 (2,1,1,3,1,2) 2.00 2.69 7.23
50 (3,13,11,5,8,10) 8.56 31.39 40.14
100 (19,19,16,18,14,14) 1.64 28.08 56.58
200 (39,36,34,33,28,30) 2.38 48.25 102.42
n (n
k
) T
n
[p] T
n
[p

] T
n
[p

]
10 (2,1,1,1,3,2) 2.00 1.03 1.68
20 (2,0,3,2,3,0) 5.60 3.92 10.53
50 (4,3,8,11,15,9) 11.92 3.79 17.94
100 (15,3,20,20,23,19) 15.44 3.60 36.02
200 (22,19,30,26,48,55) 32.50 11.67 16.31
n (n
k
) T
n
[p] T
n
[p

] T
n
[p

]
10 (1,1,3,1,2,2) 2.00 1.39 5.09
20 (1,2,0,0,6,1) 15.20 11.88 11.81
50 (6,3,3,1,7,30) 70.48 52.58 12.05
100 (7,9,12,7,31,34) 46.40 23.74 5.96
200 (19,13,32,20,46,70) 69.10 31.63 9.09

8.7 Intervalli di condenza 115


Figura 35: Quantili q

della legge
2
[N] per N = 1, . . . , 30 e per = 0.95, 0.975, 0.99 ,
approssimati alla seconda cifra decimale.
N 0.95 0.975 0.99
1 3.84 5.02 6.63
2 5.99 7.38 9.21
3 7.81 9.35 11.34
4 9.49 11.14 13.28
5 11.07 12.83 15.09
6 12.59 14.45 16.81
7 14.07 16.01 18.48
8 15.51 17.53 20.09
9 16.92 19.02 21.67
10 18.31 20.48 23.21
N 0.95 0.975 0.99
11 19.68 21.92 24.72
12 21.03 23.34 26.22
13 22.36 24.74 27.69
14 23.68 26.12 29.14
15 25.00 27.49 30.58
16 26.30 28.85 32.00
17 27.59 30.19 33.41
18 28.87 31.53 34.81
19 30.14 32.85 36.19
20 31.41 34.17 37.57
N 0.95 0.975 0.99
21 32.67 35.48 38.93
22 33.92 36.78 40.29
23 35.17 38.08 41.64
24 36.42 39.36 42.98
25 37.65 40.65 44.31
26 38.89 41.92 45.64
27 40.11 43.19 46.96
28 41.34 44.46 48.28
29 42.56 45.72 49.59
30 43.77 46.98 50.89
8.7 Intervalli di condenza
Se vogliamo stimare il valore di aspettazione di una variabile aleatoria X a partire da una
n-upla di dati ricavati da ripetizioni indipendenti dellesperimento, la prima cosa da fare `e
ovviamente calcolare la media dei dati stessi, cio`e applicare lo stimatore

X . Ci`o tuttavia non
ci d`a ancora unidea di quanto precisa sia la stima.
`
E evidente che una stima a partire da pochi
dati `e meno adabile di una basata su molti dati, cos` come `e evidente che, a parit`a di n, la
stima `e tanto pi` u precisa quanto pi` u la varianza del campione `e piccola. Ma in molti casi `e
importante sapere con maggiore esattezza quant`e adabile la stima; anzi, sarebbe opportuno
avere una denizione del grado di adabilit`a della stima stessa.
Per comprendere meglio lidea di fondo vediamo intanto una situazione semplice in cui
la questione ha una risposta naturale ed immediata: supponiamo ovviamente di non cono-
scere il valore di aspettazione E[X
i
] , che stiamo stimando, ma di conoscere la varianza

_
Var[X
i
] comune a tutte le X
i
. In tal caso possiamo fare appello al teorema del Limite
Centrale (7.6, 7.7), secondo cui la successione delle somme standardizzate
S
n

(

X )
converge in legge a un variabile aleatoria S N[0, 1] . Pertanto se q

indica il quantile di
ordine di N[0, 1] , ricordando losservazione al termine del 8.3, scelto un qualsiasi (0, 1)
abbiamo
1 = P
_

S
n

q
1/2
_
= P
_
q
1/2

(

X ) q
1/2
_
=
= P
_

X

n
q
1/2


X +

n
q
1/2
_
.
Possiamo ora interpretare quanto sopra nel modo seguente: scelto un (piccolo), la probabilit`a
dellevento

_

X

n
q
1/2
,

X +

n
q
1/2

`e uguale a 1 ; in altri termini, la probabilit`a che il valore di aspettazione sconosciuto


E[X] sia contenuto nel suddetto intervallo, che `e stimato a partire dai dati, `e pari a
116 8 ELEMENTI DI STATISTICA
1 (quindi `e grande se `e piccolo). Tale intervallo, ripetiamolo costruito mediante i dati
ottenuti, `e detto un intervallo di condenza (o di ducia) di livello 1 per E[X] . Questa
terminologia, che esprime nel caso particolare in esame un concetto generale importante della
statistica, signica insomma che chi elabora i dati e vuole stimare calcola per prima cosa

X, e poi a partire da

X determina in quale intervallo si trova con probabilit`a 1 (il livello
di condenza che `e stato stabilito prima dellesecuzione del test).
Proviamo allora a dare un denizione pi` u generale della nozione di intervallo di condenza.
La situazione sar`a quella in cui si cerca di determinare la legge p della variabile aleatoria
X ; tale legge di regola non sar`a completamente sconosciuta, potremo supporre che sia di
un certo tipo e che per determinarla si debba trovare il valore di un certo parametro (in
generale potr`a essere multi-dimensionale, cio`e consistere in pi` u parametri scalari, ma per
ora limitiamoci al caso R). Un intervallo di condenza di livello 1 per consiste allora
in due stimatori, T
1
e T
2
, tali che
8.10
P [T
1
, T
2
] = 1 .
Nellesempio da cui siamo partiti abbiamo quindi
T
1
=

X

n
q
1/2
, T
2
=

X +

n
q
1/2
.
Questo particolare intervallo di condenza ha per`o un inconveniente che lo rende raramente
applicabile in pratica, e cio`e il fatto che presuppone la conoscenza di
2
= Var[X] . Vien fatto
allora subito di pensare che si possa, nellespressione di T
1
e T
2
, sostituire a
2
lo stimatore

S
2
[X]
1
n 1
n

i=1
(X
i


X)
2
.
In eetti questidea `e sostanzialmente giusta, ma si trova che allora c`e qualche altro aggiu-
stamento da fare. Per vederlo enunciamo (senza dimostrazioni) i seguenti risultati.
Teorema 8.18.
Se Y N[0, 1] e Z
2
[n] sono variabili aleatorie indipendenti allora

n
Y

Z
t[n]
(legge di Student, 6.9).
Si ha
8.11
Y

(

X ) N[0, 1] , Z
n1

S
2
[X]
2
[n1] ,
e inoltre queste due variabili aleatorie risultano essere indipendenti.
8.12
Pertanto
T :=

n1
Y

Z
=

X
_

S
2
[X]
t[n1] .
8.10
Pi` u in generale ancora si potr` a richiedere P{() [T1 , T2]} = 1 dove `e una opportuna funzione.
8.11
Per evitare confusioni qui chiamiamo Y la variabile aleatoria che in precedenza abbiamo chiamato Sn .
8.12
Ci` o non `e aatto ovvio, perche

X interviene nel calcolo di

S
2
[X] .
8.7 Intervalli di condenza 117
Con un ragionamento analogo a quello fatto nel caso in cui `e nota, scelto un qualsiasi
(0, 1) e indicando ora con q

il quantile di ordine della legge di Student t[n1] , abbiamo


1 = P
_

q
1/2
_
= P
_
q
1/2

S
q
1/2
_
=
= P
_

X

n
q
1/2


X +

n
q
1/2
_
,
dove per abbreviare abbiamo scritto

S
_

S
2
[X] . Otteniamo quindi lintervallo di condenza
di livello 1 dato dagli stimatori
T
1
=

X

n
q
1/2
, T
2
=

X +

n
q
1/2
.
In sostanza, concludiamo che se la varianza
2
di X non `e nota si ottiene un intervallo di
condenza modicando la regola trovata in precedenza nel modo seguente: sostituendo con

S e i quantili della distribuzione normale N[0, 1] con quelli della distribuzione di Student
t[n1] . Per calcoli approssimati alla seconda cifra decimale `e suciente una tabella come
quella riportata in gura 36.
Osservazione. Non esiste un unico intervallo di ducia di un dato livello 1 ssato. Ad
esempio non `e dicile vedere, con calcoli analoghi ai precedenti, che
_

X

n
q
1/4
,

X +

n
q
13/4
_
e
_
,

X +

n
q
1
_
soddisfano al medesimo requisito. Lintervallo [T
1
, T
2
] sopra trovato `e per`o lunico centrato
intorno a

X .
Esempio 8.6. In una localit`a `e stato registrato per 90 anni di seguito il dato sulla piovosit`a
nel mese di novembre, espressa in millimetri; si `e ottenuta la successione
87 106 71 93 93 83 71 89 82 81 83 78 78 91 86 84 98 82
85 73 77 86 83 83 76 92 95 97 83 103 82 95 84 83 85 65
81 92 77 94 89 76 93 95 79 88 70 89 96 91 82 69 89 89
95 67 82 87 81 74 86 100 84 89 97 90 71 98 100 97 89 94
84 84 84 93 91 86 83 88 82 79 81 92 87 79 88 96 81 74
Vogliamo trovare un intervallo di condenza per E[X], centrato in

X, di livello 0.9 (supponendo
che i dati dei diversi anni siano indipendenti). Procediamo quindi a calcolare le quantit`a
necessarie; si ottiene

X

= 85.72 ,

S = 8.40 , q
0.95

= 1.66

n
q
0.95

= 1.47 ,
dove il valore di q
0.95
, il quantile di ordine 0.95 di t[89] , `e stato ricavato dalla tabella di
gura 36. Pertanto lintervallo cercato `e
[T
1
, T
2
]

= [85.72 1.47 , 85.72 + 1.47]

= [84.25 , 87.19] .
Se invece vogliamo un intervallo di condenza di livello 0.99 allora troviamo sulla tabella
q
0.995

= 2.63 , da cui

n
q
0.95

= 2.33 [T
1
, T
2
]

= [85.72 2.33 , 85.72 + 2.33]

= [83.39 , 88.05] .

118 8 ELEMENTI DI STATISTICA


Osservazione. Lanalisi statistica dei dati idrologici (di cui sopra abbiamo dato un esempio
elementare) `e importante per ingegneri, economisti ed amministratori del territorio, al ne di
ottenere una conoscenza pi` u precisa possibile del rischio idraulico in funzione dei progetti
per infrastrutture (dighe, sistemi di smaltimento delle acque eccetera). Si noti anche come
leventualit`a di cambiamenti climatici consistenti pu`o rendere poco adabili i dati raccolti
negli anni.
Figura 36: Quantili q

della legge di Student t[n] per diversi valori di n e per =


0.95, 0.975, 0.99, 0.995 , approssimati alla seconda cifra decimale. Si ha t[] N[0, 1] .
n 0.95 0.975 0.99 0.995
1 6.31 12.71 3.08 63.66
2 2.92 4.30 1.89 9.92
3 2.35 3.18 1.64 5.84
4 2.13 2.78 1.53 4.60
5 2.02 2.57 1.48 4.03
6 1.94 2.45 1.44 3.71
7 1.89 2.36 1.41 3.50
8 1.86 2.31 1.40 3.36
9 1.83 2.26 1.38 3.25
10 1.81 2.23 1.37 3.17
11 1.80 2.20 1.36 3.11
12 1.78 2.18 1.36 3.05
13 1.77 2.16 1.35 3.01
14 1.76 2.14 1.35 2.98
15 1.75 2.13 1.34 2.95
16 1.75 2.12 1.34 2.92
17 1.74 2.11 1.33 2.90
18 1.73 2.10 1.33 2.88
19 1.73 2.09 1.33 2.86
20 1.72 2.09 1.33 2.85
n 0.95 0.975 0.99 0.995
21 1.72 2.08 1.32 2.83
22 1.72 2.07 1.32 2.82
23 1.71 2.07 1.32 2.81
24 1.71 2.06 1.32 2.80
25 1.71 2.06 1.32 2.79
26 1.71 2.06 1.31 2.78
27 1.70 2.05 1.31 2.77
28 1.70 2.05 1.31 2.76
29 1.70 2.05 1.31 2.76
30 1.70 2.04 1.31 2.75
40 1.68 2.02 2.42 2.70
50 1.68 2.01 2.40 2.68
60 1.67 2.00 2.39 2.66
70 1.67 1.99 2.38 2.65
80 1.66 1.99 2.37 2.64
90 1.66 1.99 2.37 2.63
100 1.66 1.98 2.36 2.63
110 1.66 1.98 2.36 2.62
120 1.66 1.98 2.36 2.62
1.64 1.96 2.33 2.58
119
A Nozioni basilari di calcolo combinatorio
A.1 Coecienti binomiali
Ricordiamo la denizione di coeciente binomiale:
_
n
k
_
:=
n!
k! (nk)!
, n N 0 , k = 0, 1, . . . , n .
Il nome `e dovuto al fatto che questi coecienti entrano nellespressione di una potenza di
un binomio
(a +b)
n
=
n

k=0
(
n
k
) a
nk
b
k
.
Per valori non troppo grandi di n intero, (
n
k
) pu`o essere trovato facilmente come elemento
(k+1)-esimo nella riga (n+1)-esima del triangolo di Pascal
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
. . . . . . . . . eccetera . . . . . . . . .
in cui ciascun elemento `e la somma dei due che stanno sopra di esso.
Alcune propriet`a dei coecienti binomiali:
_
n
k
_
=
n(n1) (n2) (nk +1)
k!
. (i)
_
n
k
_
=
_
n
nk
_
. (ii)
_
n
0
_
=
_
n
n
_
= 1 . (iii)
_
n
k
_
=
n
k
_
n1
k 1
_
. (iv)
_
n
k
_
=
_
n1
k 1
_
+
_
n1
k
_
. (v)
Lultima identit`a `e detta formula di Pascal (da essa dipende la costruzione del triangolo di
Pascal).
Osservazione. Il fattoriale n! := n(n1) (n2) 2 `e denito un numero intero n N.
Tuttavia la funzione Gamma di Eulero, denita da
(x) :=
_

0
t
x1
e
t
dt ,
120 A NOZIONI BASILARI DI CALCOLO COMBINATORIO
Figura 37: Graco della funzione Gamma di Eulero per valori reali positivi dellargomento
0 1 2 3 4 5
2
4
6
8
10
`e tale che per n intero si ha (n) = (n 1)! .
Allora si pu`o estendere la denizione di coeciente binomiale (
n
k
) al caso n e k reali, mediante
_
n
k
_
:=
(n + 1)
(k + 1) (n k + 1)
.

A.2 Coecienti multinomiali


In maniera analoga ai coecienti binomiali si deniscono i coecienti multinomiali. Per n, r
0 N, poniamo
_
n
k
1
, k
2
, . . . , k
r
_
:=
n!
k
1
! k
2
! k
r
!
, dove
r

i=1
k
i
= n .
Nel caso r = 2 ritroviamo i coecienti binomiali in quanto
_
n
k
1
, k
2
_
=
_
n
k
1
, nk
1
_
=
_
n
k
1
_
=
_
n
k
2
_
.
I coecienti multinomiali nascono quando si espande una potenza di un polinomio; si ha
cio`e
(a
1
+a
2
+ +a
r
)
n
=

k
1
,k
2
,... ,kr
_
n
k
1
, k
2
, . . . , k
r
_
a
k
1
1
a
k
2
2
a
kr
r
.
I coecienti multinomiali hanno varie propriet`a simili a quelle dei coecienti binomiali
(ma ovviamente pi` u complicate); in particolare, vale la relazione di ricorrenza
_
n
k
1
, k
2
, . . . , k
r
_
=
_
n 1
k
1
1 , k
2
, . . . , k
r
_
+
_
n 1
k
1
, k
2
1 , . . . , k
r
_
+ +
_
n 1
k
1
, k
2
, . . . , k
r
1
_
.
Inoltre hanno la propriet`a della simmetria, cio`e scambiando di posto alcuni dei k
i
il valore del
coeciente non cambia (ci`o `e ovvio dalla denizione).
A.3 Disposizioni con ripetizione 121
A.3 Disposizioni con ripetizione
Indichiamo con N
k
:= (1, 2, . . . , k) N linsieme ordinato dei primi k numeri naturali, e con
A un insieme di cardinalit`a nita [A[ = n N. Si noti che A `e distinto da N
n
in quanto in A
non `e stato ssato a priori alcun ordine.
Denizione A.1 Una lista di k elementi di A, con k N, `e unapplicazione f : N
k
A.
Una lista pu`o essere rappresentata mediante la sua immagine
_
a
1
, a
2
, . . . , a
k
_
=
_
f(1), f(2), . . . , f(k)
_
,
che `e una k-upla ordinata di elementi di A. Si osservi che tali elementi non sono necessaria-
mente tutti distinti.
Indichiamo ora con D
n
k
(A) , eventualmente abbreviato semplicemente con D
n
k
, linsieme
di tutte le liste di k elementi di A. Si dice anche che D
n
k
(A) `e linsieme delle disposizioni
con ripetizione
A.1
di elementi di A, dove la parola ripetizione indica appunto che un dato
elemento di A pu`o apparire pi` u volte nella lista. La cardinalit`a di questinsieme `e
[D
n
k
[ = n
k
.
In eetti, basta contare quante scelte si devono fare per ssare una lista: lelemento a
1
= f(1)
pu`o essere scelto in n maniere diverse, tante quanti sono gli elementi di A; anche lelemento
a
2
= f(2) pu`o essere scelto in n maniere diverse, dato che la precedente scelta di a
1
non pone
alcuna condizione sulla scelta di a
2
(niente mi impedisce di scegliere di nuovo il medesimo
elemento); lo stesso vale per tutti gli elementi della lista. Dunque una lista di k elementi di A
pu`o essere scelta in n n n
. .
k volte
= n
k
maniere diverse.
Possiamo pensare linsieme D
n
k
(A) come un modo per rappresentare la seguente situazione
pratica: una scatola contiene n oggetti (etichettati mediante gli elementi di A); se ne estrae
uno, lo si rimette nella scatola, se ne estrae unaltro (che eventualmente potrebbe anche essere
lo stesso di prima), e cos` via per k volte. Ovviamente i possibili risultati di queste k estrazioni
possono essere identicati con gli elementi di D
n
k
(A) , e quindi sono in numero di n
k
. Si parla
anche di estrazioni con rimpiazzo.
Una situazione a prima vista diversa, ma che pu`o essere rappresentata sempre mediante
linsieme D
n
k
(A) , `e la seguente: supponiamo di avere k palline (o altri oggetti di qualsiasi
genere) distinte, che etichettiamo con i numeri interi da 1 a k , e di doverle inserire in n
scatole dierenti, etichettate mediante gli elementi di A, permettendo che in ciascuna scatola
possa eventualmente andare a nire pi` u di un oggetto (o nessuno). I modi possibili di portare
a termine tale compito sono in corrispondenza biunivoca con gli elementi di D
n
k
(A) , e quindi
sono in numero di n
k
, in quanto ciascuno di essi pu`o essere caratterizzato associando a ciascuna
pallina (quindi a ciascun elemento di N
k
) lelemento di A corrispondente alla scatola in cui la
pallina viene messa.
Lesempio pi` u comune di disposizioni con ripetizione `e dato dalle colonne del totocalcio.
Assegnare una colonna signica assegnare unapplicazione N
13
1, X, 2 , che associa uno
dei tre possibili risultati di una partita a ciascun intero compreso tra 1 e 13. Dunque k = 13,
n = 3 e le possibili colonne del totocalcio sono 3
13
= 1 594 323 .
A.1
Dunque i termini lista (nel senso sopra introdotto)) e disposizione con ripetizione sono sinonimi.
122 A NOZIONI BASILARI DI CALCOLO COMBINATORIO
A.4 Disposizioni senza ripetizione
Consideriamo ora le liste f : N
k
A che siano iniettive. Ci`o signica che ad elementi distinti
di N
k
vengono associati elementi distinti di A, ovvero che nella k-upla
_
a
1
, a
2
, . . . , a
k
_
=
_
f(1), f(2), . . . , f(k)
_
non vi sono due elementi uguali. Si parla allora di disposizioni senza
ripetizione. In termini di estrazioni, una tale lista descrive unestrazione senza rimpiazzo: si
estraggono a turno k oggetti da una scatola che ne contiene n, ma senza rimetterli nella
scatola; dunque ad ogni estrazione viene fuori un oggetto diverso.
`
E cos` che funzionano (di
solito) il gioco del lotto, la tombola, e, nei giochi di carte, la distribuzione di queste dal mazzo.
In termini della distribuzione di k palline in n scatole, liniettivit`a signica che in ciascuna
scatola si mette una sola pallina.
`
E evidente che questa situazione richiede che sia k n (a dierenza del caso delle dispo-
sizioni con ripetizione, che non impone condizioni tra k ed n). Linsieme di tutte le dispo-
sizioni senza ripetizione N
k
A si indica con il simbolo D
n
k
(A) , eventualmente abbreviato
semplicemente con D
n
k
, ed ha cardinalit`a
[D
n
k
[ = n(n1) (nk +1) =
n!
(nk)!
.
In eetti, nellassegnare una disposizione senza ripetizione abbiamo n scelte per il primo
oggetto, n1 scelte per il secondo, n2 scelte per il terzo, e cos` via. Analogamente nel
sistemare k palline in n scatole, senza che ci possa essere pi` u di una pallina in una scatola, si
possono scegliere n sistemazioni per la prima pallina, n1 per la seconda e cos` via.
A.5 Permutazioni
Consideriamo ora il caso particolare delle disposizioni senza ripetizione quando sia n = k .
Limmagine di una lista `e allora una n-upla ordinata
_
a
1
, a
2
, . . . , a
n
_
di elementi distinti di
A; poiche A `e costituito esattamente da n elementi, la lista `e un particolare ordinamento
di A. Gli ordinamenti di A sono detti anche permutazioni, e costituiscono linsieme P
n

P
n
(A) := D
n
n
(A) di cardinalit`a
[P
n
[ = n! .
A.6 Combinazioni
Immaginiamo ora di eseguire unestrazione senza rimpiazzo di k oggetti dellinsieme A, come
nel A.4, ma di essere interessati solo a quali oggetti sono usciti indipendentemente dallordine
in cui sono usciti. In altri termini riguardiamo come equivalenti due k-uple di elementi di
A che contengono gli stessi elementi, anche se ordinati dierentemente. Identicare k-uple
equivalenti, cio`e considerarle come lo stesso oggetto, signica
A.2
considerare linsieme C
n
k
i
cui elementi sono i sottoinsiemi (non ordinati) di A aventi cardinalit`a k. Quanti sono questi
sottoinsiemi, cio`e qual`e la cardinalit`a di C
n
k
? Per rispondere osserviamo che D
n
k
pu`o essere
visto come linsieme dei sottoinsiemi ordinati di A, aventi cardinalit`a k ; in altri termini,
due elementi di D
n
k
corrispondenti a sottoinsiemi di A che contengono gli stessi elementi, ma
ordinati dierentemente, sono visti come distinti. Daltra parte ciascuna di queste classi di
A.2
In termini un po pi` u precisi, diciamo che C
n
k
:= D
n
k
/ `e il quoziente di D
n
k
per la relazione di equivalenza:
f g se e solo se le immagini f(N
k
), g(N
k
) A contengono i medesimi elementi, ovvero f(N
k
) = g(N
k
) come
insiemi non ordinati.
A.7 Partizioni 123
sottoinsiemi (equivalenti in C
n
k
ma non in D
n
k
) `e composta da k! elementi (A.5), pertanto
concludiamo che
[C
n
k
[ =
1
k!
[D
n
k
[ =
n(n1) (nk +1)
k!
=
n!
k! (nk)!

_
n
k
_
.
Questo risultato ci consente di contare quanti sono tutti i sottoinsiemi di A, tra i quali si
annovera anche A stesso (k = n) e linsieme vuoto (k = 0). Questo numero `e dato da
n

k=0
_
n
k
_
=
n

k=0
_
n
k
_
1
nk
1
k
= (1+1)
n
= 2
n
.
Perci`o linsieme P(A) di tutti i sottoinsiemi di A `e anche indicato con il simbolo 2
A
, notazione
che permette di scrivere
[2
A
[ = 2
|A|
.
A.7 Partizioni
In maniera pi` u generale, ma analoga a quanto visto nel A.6, il coeciente multinomiale
(
n
k
1
,k
2
,... ,kr
) =
n!
k
1
! k
2
! kr!
, con k
1
+ +k
r
= n, `e legato al numero di partizioni diverse del-
linsieme A (con [A[ = n) in r sottoinsiemi di cardinalit`a k
i
. Pi` u precisamente, (
n
k
1
,k
2
,... ,kr
)
`e il numero di r-uple distinte ordinate
_
A
1
, A
2
, . . . , A
r
_
di sottoinsiemi disgiunti di A, di
cardinalit`a rispettivamente k
1
, k
2
, . . . , k
r
, la cui unione sia tutto A.
Non `e dicile vericare tale aermazione; per semplicit`a limitiamoci al caso r = 3 , dal
quale si intuisce subito come il ragionamento funziona in generale. Supponiamo dunque di
voler scegliere un sottoinsieme A
1
A che abbia cardinalit`a k
1
: per la prima scelta abbiamo
n possibilit`a, per la seconda n1 , e cos` via; per la k
1
-esima abbiamo nk
1
+1 possibilit`a,
pertanto la scelta del sottoinsieme A
1
pu`o essere fatta in n(n1) (nk
1
+1) modi diversi.
A questo punto passiamo alla scelta di un sottoinsieme A
2
A che abbia cardinalit`a k
2
: si
parte, per il primo elemento, da nk
1
scelte, e in denitiva la scelta dei k
2
elementi di A
2
pu`o essere fatta in (nk
1
) (nk
1
1) (nk
1
k
2
+1) modi. A questo punto il sottoinsieme
A
3
= A (A
1
A
2
) , di cardinalit`a k
3
nk
1
k
2
, risulta determinato, e il totale delle scelte
che abbiamo fatto `e
n(n1) (nk
1
k
2
+1) = n(n1) (k
3
+1) =
n!
k
3
!
.
Poiche per`o siamo interessati alla partizione di A in sottoinsiemi (di cardinalit`a data) indi-
pendentemente dallordinamento, mentre le scelte fatte determinano anche un ordinamento di
A
1
e A
2
(non di A
3
), per avere il numero di scelte necessarie dobbiamo dividere per il numero
di permutazioni di A
1
e di A
2
, cio`e per k
1
! k
2
! . In denitiva il numero cercato `e appunto
n!
k
1
! k
2
! k
3
!

_
n
k
1
, k
2
, k
3
_
.
124 B NUMERI COMPLESSI
B Numeri complessi
Questappendice `e un compendio di nozioni, gi`a note da altri corsi, che gli studenti del cor-
so di Probabilit`a e Statistica (Ingegneria Civile, a.a. 2009/2010) dovrebbero avere presenti.
Le sezioni contrassegnate da un asterisco (*) sono inserite per completezza, ma non sono
indispensabili per il corso suddetto.
B.1 Numeri complessi
Il campo C dei numeri complessi pu`o essere denito come lo spazio vettoriale R
2
dotato, oltre
che delle solite operazioni, del prodotto C C C dato da:
(a, b) (a

, b

) := (aa

bb

, ab

+ba

) .
Un numero complesso c = (a, b) pu`o essere scritto in forma polare o trigonometrica
(utilizzando cio`e le coordinate polari sul piano R
2
) come
c = (cos , sin ) , R
+
, R ,
dove = (a
2
+ b
2
)
1/2
, e `e determinato a meno di multipli di 2 (`e indeterminato solo per
c = (0, 0)). I numeri reali [c[ = e arg(c) = si dicono rispettivamente modulo e argomento di
c ; si noti che [c[ coincide con la norma Euclidea di c in R
2
, da cui abbiamo la disuguaglianza
triangolare:
[c +c

[ [c[ +[c

[ , c, c

C .
In forma polare il prodotto di due numeri complessi diventa:
cc

_
cos( +

), sin( +

)
_
,
ovvero il modulo del prodotto `e il prodotto dei moduli, largomento del prodotto `e la somma
degli argomenti.
Il sottospazio di C costituito da tutti i numeri complessi della forma (a, 0) pu`o essere
identicato con R. Scriviamo cio`e R C, e identichiamo il numero complesso (a, 0) con il
numero reale a .
`
E immediato vericare che la restrizione ad R del prodotto di C `e il solito
prodotto di R.
Consideriamo poi il sottospazio di C costituito da tutti i numeri complessi della forma
(0, b) , detti numeri immaginari. Si vede subito che il prodotto di due numeri immaginari
`e un numero reale, e che il quadrato di un numero immaginario `e negativo. In particolare,
consideriamo lunit`a immaginaria i := (0, 1) ; si ha i
2
= 1 . In generale, un numero complesso
pu`o essere scritto in uno e in un sol modo come la somma di un numero reale e un numero
immaginario, ovvero:
c := (a, b) = a + i b = (cos + i sin ) , a, b, R, R
+
.
I numeri reali a e b si dicono parte reale e parte immaginaria del numero complesso c ; si scrive
anche:
1c = a = cos , c = b = sin .
Non `e dicile vericare che le operazioni di somma e prodotto di numeri complessi godono
di tutte le propriet`a che permettono, nel manipolare unespressione complessa, di utilizzare le
B.2 Funzioni elementari 125
solite regole dellalgebra ordinaria (con in pi` u la regola i
2
= 1). In particolare, ogni numero
complesso diverso da 0 ha un unico inverso:
c = (cos + i sin ) c
1
=
1
(cos i sin ) .
Il numero complesso coniugato di c = a + i b = (cos + i sin ) `e denito come:
c = a i b = (cos i sin ) .
Dunque c `e il numero complesso con lo stesso modulo di c e argomento opposto. Si osservi
che il modulo quadrato di c (e di c) `e dato da:

2
= c c = a
2
+b
2
.
Inoltre si ha:

c = c ; 1c =
1
2
(c + c) ; c =
1
2 i
(c c) ;
cd = c

d ; c +d = c +

d ; 1/c = 1/ c .
Osservazione. Moltiplicando un numero complesso (visto come elemento di R
2
) per i lo si
ruota in senso antiorario di /2 ; in altri termini, la moltiplicazione per i pu`o essere vista come
lapplicazione lineare R
2
R
2
la cui matrice nella base canonica `e
_
i
_
=
_
0 1
1 0
_
, e in generale
la moltiplicazione per il numero immaginario i b pu`o essere vista come lapplicazione lineare
R
2
R
2
la cui matrice nella base canonica `e b
_
i
_
=
_
0 b
b 0
_
. Daltra parte, la moltiplicazione
di un numero complesso per il numero reale a pu`o essere vista come lomotetia a11 , cio`e
lapplicazione lineare R
2
R
2
la cui matrice (in qualsiasi base) `e
_
a11
_
=
_
a 0
0 a
_
. Dunque C
pu`o essere visto come il sottospazio di dimensione 2, dello spazio di tutte le matrici 2 2 ,
costituito dalle matrici della forma
a + i b
_
a11 +b i
_
=
_
a b
b a
_
,
con loperazione di prodotto data dal solito prodotto di matrici (`e un facile esercizio ve-
ricare che si ottiene proprio la regola introdotta allinizio di questo paragrafo). In forma
trigonometrica:
(cos + i sin )
_
cos sin
sin cos
_
.
Si noti poi che al numero complesso coniugato corrisponde la matrice trasposta e allinverso
la matrice inversa; inoltre, il modulo quadrato di un numero complesso `e il determinante della
matrice corrispondente. I numeri complessi di modulo 1, cio`e quelli della forma cos +i sin ,
corrispondono a rotazioni di un angolo in senso antiorario.
B.2 Funzioni elementari
Nello studiare funzioni C C si indica tradizionalmente la variabile indipendente con la
lettera z , e la variabile dipendente (se necessario) con la lettera w. Inoltre si indicano la parte
reale e immaginaria della funzione rispettivamente con u e v . Dunque scriviamo:
w = f(z) = u(x, y) + i v(x, y) , z = (x, y) x + i y = (cos + i sin ) .
In generale considereremo funzioni denite su un sottoinsieme aperto U C.
126 B NUMERI COMPLESSI
Potenze
La funzione f(z) = z
m
, m N, pu`o essere calcolata immediatamente in termini di modulo e
argomento:
z
m
=
m
(cos m + i sin m) .
Questa formula vale poi anche per esponente negativo o nullo, ponendo:
z
0
:= 1 ; z
m
:= (z
m
)
1
= (z
1
)
m
.
Radici (*)
Calcoliamo poi la radice m-esima di un numero complesso. Sia = (cos + i sin ) tale che

m
= z := (cos + i sin ) , ovvero:
_

m
= ,
cos m = cos ,
sin m = sin .
I valori (tutti e soli) di e che soddisfano queste relazioni sono:
_
_
_
=
1/m
;
= ( + 2 k )/m ;
con k Z. Si hanno dunque m radici m-esime distinte di z ,= 0 . Se consideriamo argomenti
compresi nellintervallo [0, 2) , queste possono essere scritte:
=
1/m
_
cos
_
+ 2 k
m
_
+ i sin
_
+ 2 k
m
_
, k = 0, 1, . . . , m1
Se prendiamo un intervallo dierente per gli argomenti, questa formula vale sempre ma con
valori diversi di k , da determinarsi da caso a caso. La particolare radice
m

z :=
1/m
_
cos(/m) + i sin(/m)
_
, (, ] ,
`e detta valore principale di z
1/m
, ed `e discontinua nei punti dellasse reale negativo.
Ponendo z
n/m
:= (z
1/m
)
n
abbiamo denito la potenza di un numero complesso con espo-
nente razionale qualsiasi.
`
E importante sottolineare che si tratta di una funzione multivoca o
polidroma, cio`e a pi` u valori. Le solite propriet`a delle potenze continuano a valere, ma sempre
nei limiti di questa non completa determinatezza, per cui devono essere utilizzate con cautela.
Per esempio la formula (zz

)
q
= z
q
z
q
, q Q, `e vera solo se i valori dei due membri sono
scelti opportunamente tra quelli papabili.
Esponenziale
Estendiamo ora ai numeri complessi la funzione esponenziale (vedremo meglio in seguito come
questa estensione dellesponenziale reale sia proprio quella naturale). Per ogni R poniamo:
e
i
:= cos + i sin .
Dunque un numero complesso di modulo e argomento pu`o essere scritto in forma espo-
nenziale come
z = e
i
.
B.2 Funzioni elementari 127
Dato un numero complesso qualunque z = x + i y poniamo allora
exp(z) := e
z
= e
x+i y
:= e
x
e
i y
(richiediamo cio`e che continui a valere una delle propriet`a formali dellesponenziale reale).
`
E
facile vedere allora che si ha in generale:
e
z+z

= e
z
e
z

, z, z

C .
Osserviamo poi che si ha:
z = e
i
,
z z

e
i (+

)
,
z
m
=
m
e
i m
, m Z
(lultima formula `e in accordo con unaltra propriet`a dellesponenziale reale).
Funzioni trigonometriche e iperboliche
Vediamo ora come estendere le funzioni circolari e iperboliche (tutte queste estensioni sono
naturali, in un senso che verr`a precisato in seguito). Osserviamo che dalla denizione di e
i
si
ricavano cos e sin in termini di esponenziali; richiedendo che tali espressioni valgano per
argomento complesso qualunque, otteniamo le formule di Eulero:
cos z =
e
i z
+e
i z
2
; sin z =
e
i z
e
i z
2 i
.
Inoltre poniamo:
cosh z =
e
z
+e
z
2
; sinh z =
e
z
e
z
2
.
Si ricavano allora facilmente le formule:
cos iz = cosh z ; sin iz = i sinh z .
Non `e dicile vericare, inoltre, che le solite identit`a trigonometriche continuano a valere per
le estensioni complesse; ma si osservi (lo vedremo meglio tra poco) che nel campo complesso
hanno soluzione equazioni come (ad esempio) cos z = r con r reale maggiore di 1 .
Logaritmo
Deniamo il logaritmo come la funzione inversa dellesponenziale, log(e
z
) = z z . Dal mo-
mento che z = e
i
= e
log +i
, dove := [z[ e := arg z , abbiamo:
log z = log + i = log [z[ + i arg z .
Si osservi che arg z `e determinato a meno di multipli di 2 , dunque il logaritmo `e una funzione
polidroma: assume un unico valore solo se si sceglie un dato intervallo, di ampiezza 2 , per
gli argomenti. In particolare scegliendo arg z (, ] abbiamo, come nel caso della radice,
il valore principale del logaritmo, che `e discontinuo nei punti dellasse reale negativo.
Le solite propriet`a formali del logaritmo continuano a valere, ma nellutilizzarle occorre
attenzione. Uno che facesse dei calcoli senza pensare potrebbe scrivere, per esempio,
0 = log 1 = log(1)
2
= 2 log(1) ,
128 B NUMERI COMPLESSI
e dedurne log(1) = 0 . Dov`e lerrore? Per applicare la formula arg(zz

) = arg z + arg z

bisogna che tutti gli argomenti appartengano al medesimo intervallo di ampiezza 2 ; nel
nostro caso possiamo prendere per esempio (/2, 5/2) , e quindi log 1 = 2i .
Fissato un intervallo per gli argomenti (di regola il valore principale) si pone
z

:= e
log z
, C 0 ,
che per Q coincide con la denizione data precedentemente.
Funzioni circolari e iperboliche inverse (*)
Dal momento che le funzioni circolari e iperboliche sono espresse in termini della funzione
esponenziale, non `e sorprendente che le loro inverse siano esprimibili in termini del logarit-
mo (in eetti, exp e log sono essenzialmente le uniche funzioni elementari trascendenti). La
costruzione richiede per`o qualche cautela, proprio per le questioni legate alla multivocit`a.
Consideriamo per cominciare la funzione sin ; si vede facilmente (esercizio) che perche sia
iniettiva deve essere ristretta a unopportuna striscia del piano complesso. La scelta standard
`e
U := z C : 1(z) (/2, /2) .
Si vede allora (esercizio) che
V := sin(U) = C x R : [x[ 1 .
La funzione arcsin : V U `e denita da sin(arcsin(z)) =z , ovvero
e
i w
e
i w
= 2 i z , w := arcsin(z) .
Dal momento che lesponenziale `e sempre diverso da zero (esercizio), questa `e unequazione
di secondo grado in e
i w
, la cui soluzione `e e
i w
= i z +(1 z
2
)
1/2
, cio`e
arcsin(z) = i log
_
i z + (1 z
2
)
1/2
_
.
Questespressione `e ambigua in quanto composizione di funzioni polidrome, ma si vede (eser-
cizio) che `e esattamente quella cercata quando si considerano i valori principali sia della della
radice che del logaritmo.
La funzione cos `e iniettiva (esercizio) se ristretta alla striscia
U

:= z C : 1(z) (0, ) ,
e risulta (esercizio) cos(U

) = V = sin(U) . Per esprimere la funzione arccos possiamo risolvere


rispetto a e
i w
lequazione e
i w
+e
i w
= 2z , o anche, osservando che da cos(/2 w) = sin w
segue arcsin z+arccos z = /2 , ricavare direttamente (esercizio):
arccos z =

2
arcsin z = i log
_
z + i (1 z
2
)
1/2
_
.
La funzione tan(z) := sin(z)/ cos(z) `e iniettiva (esercizio) sullo stesso insieme U del seno,
e si ha
V

:= tan(U) = C i y iR : [y[ 1 .
Inne la funzione inversa arctan : V

U `e data da
arctan(z) =
i
2
log
i +z
i z
,
dove si prende il valore principale del logaritmo (esercizio).
In maniera analoga si possono studiare le inverse delle funzioni iperboliche (si veda per
esempio il volume di Abramowitz-Segun, elencato nei riferimenti bibliograci al termine di
questa sezione).
B.3 Derivata e integrale di una curva a valori complessi 129
B.3 Derivata e integrale di una curva a valori complessi
Consideriamo una curva a valori in C, cio`e unapplicazione derivabile
z : I C R
2
: t z(t) = x(t) + i y(t)
_
x(t), y(t)
_
,
dove I R `e un aperto. La sua derivata
B.1
(o vettore tangente) `e lapplicazione
z : I C R
2
: t z(t) = x(t) + i y(t)
_
x(t), y(t)
_
,
dove si `e indicato la derivata di una funzione rispetto a t con un punto sopra al simbolo della
medesima ( z
d
dt
z eccetera). In particolare
B.2
d
dt
e
i t

d
dt
(cos t + i sin t) = sin t + i cos t = i e
i t
.
A partire da questa `e facile far vedere che, in pratica, la derivata di una curva a valori in
C pu`o essere calcolata con le solite regole di derivazione. In particolare valgono la regola di
Leibnitz (derivata di un prodotto) e la regola della catena (derivata di una composizione).
Similmente si denisce lintegrale indenito
_
z(t) dt :=
_
x(t) dt + i
_
y(t) dt ,
e, se (a, b) I , lintegrale denito
_
b
a
z(t) dt :=
_
b
a
x(t) dt + i
_
b
a
y(t) dt .
Dal teorema fondamentale del calcolo integrale si ricava che la curva
Z : I C : t Z(t) :=
_
t
a
z(s) ds
`e una primitiva di z , cio`e

Z = z . Si verica facilmente che valgono la formula di integrazione
per parti e la formula del cambiamento di variabile; le primitive e gli integrali deniti si
calcolano in sostanza con le medesime regole del caso di funzioni R R.
B.4 Serie (*)
Ricapitoliamo alcuni fatti riguardanti successioni e serie a valori complessi. Le dimostrazioni
sono analoghe a quelle del caso reale; controllarne la validit`a nel caso complesso `e un utile
esercizio.
Osserviamo prima di tutto che la topologia (insiemi aperti, insiemi chiusi, intorni ecc.) di
C `e quella standard di R
2
(volendo utilizzare una norma si pu`o prendere quella denita dal
modulo). In termini di tale topologia sono deniti i limiti di successioni N C, e i limiti e la
continuit`a di funzioni C C. In particolare, una successione c
n
:= a
n
+ ib
n
converge se e
solo se convergono a
n
e b
n
, e si ha limc
n
= lima
n
+i limb
n
; se c
n
e d
n
sono entrambe
B.1
La derivata
d
dz
f(z) di una funzione di variabile complessa f : C C `e un argomento ben pi` u intricato (si
vedano i riferimenti bibliograci al termine di questa sezione).
B.2
La curva t e
i t
`e un moto circolare uniforme di raggio unitario, e questa formula mi dice che il vettore
tangente a questo moto lo si ottiene (com`e ovvio) ruotando di /2 il vettore di posizione rispetto al centro.
130 B NUMERI COMPLESSI
convergenti si ha lim(c
n
d
n
) = (limc
n
)(limd
n
) , e se limc
n
,= 0 allora lim(1/c
n
) = 1/(limc
n
) .
Risultati analoghi valgono per i limiti di funzioni.
Nessuna novit`a sostanziale anche per quanto riguarda i concetti di serie, somme parziali
e somma di una serie. La serie

n=0
c
n
`e detta assolutamente convergente se la serie (reale a termini non negativi)

n=0
[c
n
[
`e convergente. Una serie assolutamente convergente `e convergente, e ogni serie ottenuta
riordinandone i termini converge alla medesima somma.
Richiamiamo il concetto di convergenza uniforme. Sia S un insieme qualsiasi e (f
n
: S C)
una successione di funzioni. Tale successione `e detta uniformemente convergente su S se esiste
una funzione f : S C con la propriet`a:
> 0 n

N : [f
n
(s) f(s)[ < n > n

, s S .
Se (f
n
) converge uniformemente e i singoli termini sono funzioni continue, anche illimite f `e
una funzione continua.
La serie

f
n
`e detta uniformemente convergente se tale `e la successione delle sue somme
parziali, e assolutamente convergente se `e convergente la serie

[f
n
[ . Il criterio del confronto
aerma che se esiste una successione r
n
a termini reali non negativi, tale che la serie

r
n
sia
convergente, e che z S si abbia [f
n
(z)[ r
n
, allora la serie

f
n
converge uniformemente
e assolutamente.
Consideriamo in particolare le serie di potenze, ovvero serie di funzioni del tipo

n=0
c
n
(z z
0
)
n
,
dove z
0
C `e ssato e c
n
`e la successione (a valori complessi) dei coecienti della serie.
Come nel caso reale, dal criterio del confronto segue il seguente
Teorema 2.19. Se una serie di potenze non converge assolutamente z C, allora esiste
un unico r R
+
tale che la serie converge assolutamente per [z z
0
[ < r e non converge per
[z z
0
[ > r .
Inoltre, la serie converge uniformemente su ogni cerchio [z z
0
[ s , s < r .
Il numero r del precedente teorema `e detto raggio di convergenza della serie.
B.3
Dunque la
serie converge assolutamente allinterno di un cerchio di raggio r con centro in z
0
, e converge
uniformemente su ogni cerchio [z z
0
[ r

< r . Ovviamente una serie di potenze converge


assolutamente almeno per z = z
0
. Per convenzione, si dice convergente una serie che ha raggio
di convergenza non nullo.
Il raggio di convergenza pu`o essere calcolato mediante il seguente
Teorema 2.20. Se r `e il raggio di convergenza della serie di potenze

c
n
z
n
, si ha
1
r
= limsup [c
n
[
1/n
,
B.3
Si osservi che il teorema non dice niente riguardo alla convergenza nei punti della circonferenza |zz0| = r .
In eetti si possono avere vari casi, ma noi non ci occuperemo di tali questioni.
B.4 Serie (*) 131
relazione da interpretarsi in senso esteso, ovvero r = 0 se limsup [c
n
[
1/n
= , r = se
limsup [c
n
[
1/n
= 0 .
Non `e dicile vericare che le funzioni elementari hanno i medesimi sviluppi in serie di
Taylor delle corrispondenti funzioni reali. Ne riportiamo alcuni dei pi` u comuni, nellintorno di
z
0
= 0.
1
1 +z
=

n=0
(1)
n
z
n
= 1 z +z
2
z
3
+z
4
+ , [z[ < 1.
(1 +z)

n=0
( n + 1)( n + 2)
n!
z
n
=
= 1 +z +
( 1)
2
z
2
+
( 1)( 2)
3!
z
3
+
+
( 1)( 2)( 3)
4!
z
4
+ , [z[ < 1 .
e
z
=

n=0
z
n
n!
= 1 +z +
z
2
2!
+
z
3
3!
+
z
4
4!
+ , z C .
sin z =

n=0
(1)
n
z
2n+1
(2n + 1)!
= z
z
3
3!
+
z
5
5!

z
7
7!
+ , z C .
cos z =

n=0
(1)
n
z
2n
(2n)!
= 1
z
2
2!
+
z
4
4!

z
6
6!
+ , z C .
tan z = z +
z
3
3
+
2z
5
15
+
17z
7
315
+
62z
9
2835
+O(z
11
), [z[ <

2
.
sinh z =

n=0
z
2n+1
(2n + 1)!
= z +
z
3
3!
+
z
5
5!
+
z
7
7!
+ , z C .
cosh z =

n=0
z
2n
(2n)!
= 1 +
z
2
2!
+
z
4
4!
+
z
6
6!
+ , z C .
tanh z = z
z
3
3
+
2z
5
15

17z
7
315
+
62z
9
2835
+O(z
11
), [z[ <

2
.
log(1 +z) =

n=1
(1)
n
z
n
n
= z
z
2
2
+
z
3
3

z
4
4
+ , [z[ < 1 .
arcsin z = z +
1
2
z
3
3
+
1 3
2 4
z
5
5
+
1 3 5
2 4 6
z
7
7
+ , [z[ < 1 .
arctan z =

n=0
(1)
n
z
2n+1
(2n + 1)
= z
z
3
3
+
z
5
5

z
7
7
+ , [z[ < 1 .
132 B NUMERI COMPLESSI
In particolare, osserviamo che
e
i
=

n=0
(i )
n
n!
= 1 + i

2
2!
i

3
3!
+

4
4!
+ i

5
5!
+ =
= (1

2
2!
+

4
4!
+ ) + i (

3
3!
+

5
5!
+ ) = cos + i sin ,
in accordo con la denizione di esponenziale complesso.
Riferimenti bibliograci sui numeri complessi
M. Abramowitz - I. A. Segun, Handbook of mathematical functions, Dover.
Un riferimento utile per tutte le principali funzioni di variabile reale e complessa; contiene anche
le tavole numeriche (queste ultime ormai poco utili: servivano negli anni sessanta quando non si
poteva avere un computer sulla scrivania).
D. Canarutto, Appunti di Analisi III, Pitagora Editrice, Bologna (1998). Spiegazioni pi` u
dettagliate e numerosi esercizi svolti sui numeri complessi (e altro).
J. Bak - D. J. Newman, Complex Analysis, Springer-Verlag.
S. Lang, Complex Analysis, Springer-Verlag.
V. Smirnov, Cours de mathematiques superieures,

Edition Mir, Moscou.
T. Needham, Visual Complex Analysis, Oxford.
133
C Misura e integrazione
C.1 Misura
Il concetto di misura secondo Riemann, su cui si basa la nozione di integrale che viene utilizzata
di solito nei primi due anni di corso, `e suciente per molte applicazioni. Tuttavia per una
trattazione precisa della probabilit`a (e per varie altre questioni importanti) `e indispensabile
una nozione di misura un po pi` u sosticata, che verr`a qui introdotta in maniera sintetica.
Per i nostri scopi non `e indispensabile conoscere la teoria completa ne le dimostrazioni dei
teoremi.
C.1
Indichiamo con un insieme (generico).
Denizione C.1 Una -algebra
C.2
su `e una famiglia E di sottoinsiemi di con le seguenti
propriet`a:
a) E.
b) E E E E.
c) E
k
E k N
kN
E
k
E.
Un sottoinsieme E E `e detto misurabile, e la coppia (, E) `e detta spazio misurabile.
Si noti che su qualsiasi insieme esiste almeno una -algebra: quella di tutti i sottoinsiemi
di . Se S `e una qualsiasi famiglia di sottoinsiemi di , si dimostra che esiste una -algebra
minimale E su tale che S E; si dice allora che E `e la -algebra generata da S.
Si dimostra facilmente:
d) E.
e) E
k
E k N
kN
E
k
E.
f) E
k
E, k = 1, . . . , n
k
E
k
E.
g) E, F E E F E.
Denizione C.2 Unapplicazione f : R
n
si dice misurabile se la preimmagine di ogni
aperto di V R
n
`e un sottoinsieme misurabile di : f
1
(V ) E.
In particolare, la funzione caratteristica
E
di E E `e ovviamente misurabile.
C.3
Se
f
n
: R `e una successione di funzioni misurabili, si dimostra che sono misurabili anche le
funzioni
C.4
sup
n
f
n
, limsup
n
f
n
e, se esiste, lim
n
f
n
. Se f, g : R sono misurabili, lo sono
anche f+g, fg e (f, g) : R
2
.
Denizione C.3 Una misura (positiva) su uno spazio misurabile (, E) `e una funzione :
E [0, ] che sia -additiva, cio`e tale che per ogni famiglia numerabile E
n

nN
di insiemi
misurabili disgiunti si abbia
(
nN
E
n
) =

nN
(E
n
) .
La terna (, E, ) `e detta allora uno spazio di misura.
C.1
Chi voglia approfondire pu` o consultare i riferimenti bibliograci elencati in fondo a questa sezione.
C.2
Storicamente, la lettera si riferisce alla parola somma.
C.3
La funzione caratteristica di un insieme E qualsiasi `e denita da
E
(x) :=
_
1 , x E ,
0 , x E .
C.4
La notazione limsup `e equivalente a max lim.
134 C MISURA E INTEGRAZIONE
Si dimostra:
() = 0.
(E F) = (E) +(F) (E F).
E F (E) (F).
Ovviamente la -additivit`a vale anche per una famiglia nita di insiemi misurabili di-
sgiunti. Per una famiglia numerabile di insiemi misurabili eventualmente non disgiunti si ha
in generale
C.5
(
nN
E
n
)

nN
(E
n
) .
Una successione E
n
di insiemi si dice crescente se m < n E
m
E
n
, e decrescente se
m > n E
m
E
n
. Si dimostra:
Teorema 3.21.
Sia E
n
una successione crescente di insiemi misurabili; si ha
lim
n
(E
n
) = (
nN
E
n
) .
Sia E
n
una successione decrescente di insiemi misurabili; si ha
lim
n
(E
n
) = (
nN
E
n
) .
Esempio C.1. Ricordiamo che la cardinalit`a [S[ di un insieme nito S `e semplicemente il
numero degli elementi che lo compongono. Sia allora un insieme qualsiasi, e sia E la famiglia
di tutti i sottoinsiemi di . Poniamo (E) = se E E `e un insieme innito (cio`e costituito
da inniti elementi), altrimenti (E) = [E[. Allora `e una misura, detta misura discreta, o
del conteggio.
Esempio C.2. Se R
n
possiamo considerare la -algebra B generata da tutti gli aperti;
gli elementi di B sono detti Boreliani (in particolare sono Boreliani gli insiemi chiusi). Una
funzione R si dice Borel-misurabile se `e misurabile rispetto alla -algebra dei Boreliani.
Ogni funzione continua `e dunque Borel-misurabile.
Osservazione. Ricordiamo che un iper-intervallo di R
n
`e il prodotto cartesiano di n intervalli
di R, e che un pluri-intervallo di R
n
`e lunione di un numero nito di iper-intervalli. La misura
di un pluri-intervallo in R
n
pu`o essere denita in modo naturale ed elementare.
Per ogni sottoinsieme E R
n
indichiamo con m
#
(E) lestremo inferiore di tutte le misure
di pluri-intervalli contenenti E, e con m

(E) lestremo superiore di tutte le misure di pluri-


intervalli contenuti in E. Si dice che E `e misurabile secondo Peano-Jordan se m
#
(E) = m

(E);
tuttavia, la famiglia P di tutti gli insiemi misurabili secondo Peano-Jordan non `e una -
algebra. Infatti, come vedremo in seguito con un esempio, la propriet`a c) della denizione C.1
`e vericata solo per una famiglia nita nita di sottoinsiemi. Quindi la funzione m : T
[0, +] : E m(E) := m
#
(E) = m

(E), detta misura di Peano-Jordan, non `e a rigore una


vera misura; o meglio, soddisfa una denizione di misura pi` u debole.
C.5
Pi` u precisamente, si dimostra
C.2 Integrazione astratta 135
C.2 Integrazione astratta
In questo paragrafo consideriamo uno spazio misurabile (, E) ssato.
Una funzione s : R tale che la sua immagine sia un sottoinsieme nito a
1
, . . . , a
n

R `e detta semplice. Una funzione semplice pu`o essere espressa nella forma
s =
n

j=1
a
j

E
j
, E
j
:= s
1
(a
j
) .
Chiaramente s `e misurabile se e solo se `e misurabile ciascuno degli E
j
.
Se f : [0, ) `e misurabile, si dimostra che esiste una successione s
n
di funzioni
semplici misurabili tali che
a) 0 s
1
s
n
f;
b) s
n
(x) f(x) x .
Inoltre, se f `e limitata la convergenza `e uniforme.
Consideriamo ora una misura : E [0, ]. Sia s =

j
a
j

E
j
una funzione semplice
misurabile ed E E. Lintegrale di s su E `e denito in maniera naturale come
_
E
s d :=
n

j=1
a
j
(E
j
E) .
Ci`o suggerisce la denizione di integrale su E di una funzione misurabile non negativa, f :
[0, ], come
_
E
f d := sup
0sf
_
E
s d .
Vale allora il teorema della convergenza monotona: se f
n
`e una successione monotona (f
n

f
n+1
) di funzioni misurabili tali che f
n
(x) f(x) x , allora
_
E
f
n
d
_
E
f d (abbiamo
gi`a detto nel C.1 che se f
n
`e una successione di funzioni misurabili, limf
n
risulta misurabile).
Finalmente arriviamo alla denizione di integrale di una funzione misurabile f : R.
Osserviamo che f pu`o essere decomposta in maniera canonica nella dierenza di due funzioni
non negative; infatti f = f
+
f

dove
f
+
(x) := maxf(x), 0 , f
+
(x) := minf(x), 0 .
Inoltre f `e misurabile se e solo se lo sono f
+
ed f

. Diremo allora che f `e integrabile, o


sommabile, se
_
E
f
+
d e
_
E
f

d sono entrambi niti, e poniamo


_
E
f d :=
_
E
f
+
d
_
E
f

d .
Si osservi che [f[ = f
+
+f

, per cui f `e integrabile se e solo se


_
E
[f[ d `e nito.
`
E immediato vericare le propriet`a:
1.
_
E
f d +
_
E
g d =
_
E
(f+g) d;
2.
_
E
cf d = c
_
E
f d (c costante);
136 C MISURA E INTEGRAZIONE
3. D E =
_
DE
f d =
_
D
f d +
_
E
f d.
Si dimostra il teorema della convergenza dominata: sia f
n
una successione di funzioni
misurabili tali che f
n
(x) f(x) x ; supponiamo inoltre che esista una funzione misura-
bile g : R tale che per ogni n ed ogni x si abbia f
n
(x) g(x); allora f `e integrabile, e si
ha _
E
[f
n
f[ d 0 ,
_
E
f
n
d
_
E
f d .
Consideriamo ora una qualsiasi propriet`a P che in un punto x pu`o valere oppure no
(ad esempio P potrebbe essere la propriet`a f(x) 0, dove f `e una funzione data; oppure
f
n
(x) `e convergente, dove f
n
`e una successione di funzioni). Si dice che P vale quasi
ovunque in un insieme E se il sottoinsieme di E in cui P non vale ha misura nulla. In
particolare, se f e g sono funzioni misurabili e linsieme x[f(x) ,= g(x) ha misura nulla,
diciamo che f = g quasi ovunque; in tal caso scriviamo anche f g, in eetti si tratta di una
relazione di equivalenza.
Se f g, per ogni E E si ha
_
E
f d =
_
E
g d. Viceversa se luguaglianza dellintegrale
vale per ogni insieme misurabile, allora f g. In particolare sia f 0 e
_

f d = 0; allora
f 0, in quanto lintegrale `e zero su qualsiasi insieme misurabile.
Dunque gli insiemi di misura nulla sono trascurabili nei riguardi dellintegrazione. A questo
proposito, ci si aspetterebbe che un sottoinsieme di un insieme trascurabile sia ancora trascu-
rabile. Tuttavia, dagli assiomi della misura non segue che un sottoinsieme di un insieme di
misura nulla debba essere a sua volta misurabile. Diamo allora una nuova denizione: diciamo
che la misura `e completa quando i sottoinsiemi degli insiemi di misura nulla sono misurabili
(e, necessariamente, di misura nulla).
`
E sempre possibile completare una data misura am-
pliando in maniera naturale la -algebra E, includendovi cio`e tutti i sottoinsiemi degli insiemi
di misura nulla. Queste osservazioni suggeriscono allora di riformulare i vari enunciati relati-
vi allintegrazione sostituendo dappertutto x con quasi ovunque (esercizio: riformulare
teoremi della convergenza monotona e della convergenza dominata). In eetti, nulla cambia
se modichiamo in maniera arbitraria le funzioni coinvolte su un insieme di misura nulla.
Lapproccio allintegrazione che abbiamo descritto mira principalmente a generalizzare il
familiare concetto di integrazione secondo Riemann. Lo scopo viene raggiunto introducendo
una nuova misura in R
n
(vedi prossimo paragrafo), detta misura di Lebesgue. Tuttavia lin-
tegrazione astratta `e interessante anche in altri casi; lesempio che segue `e particolarmente
importante.
Esempio C.3. Consideriamo la misura discreta (esempio C.1). In tal caso una funzione sem-
plice s =

j
a
j

E
j
`e sommabile se e solo se ciascuno degli insiemi E
j
`e nito. Se f `e una
funzione positiva, tra tutte le funzioni semplici sue minoranti ci sono le restrizioni di f ai
sottoinsiemi niti di , ed `e evidente che nel valutare
_

f basta limitarsi a considerare queste


ultime. Dunque
_

f =

x
f(x)
dove la sommatoria `e denita come lestremo superiore di tutte le somme nite:

x
f(x) := sup

f(x),

sottoinsieme nito di
_
.
Per denizione, per ogni > 0 esiste un sottoinsieme nito

tale che

x
f(x)

x
f(x)

x
f(x) .
C.3 Misura e integrale di Lebesgue 137
Pertanto esiste una successione
1

2

n
di sottoinsiemi niti di tale che
lim
n

xn
f(x) =

x
f(x) ,
da cui si pu`o ricavare una successione x
k
: N tale che

k=1
f(x
k
) =

x
f(x) .
Vediamo dunque che se f `e sommabile su , il suo supporto x[f(x) ,= 0 `e tuttal pi` u
numerabile.
Se f non `e a valori positivi ed `e sommabile, vuol dire che `e sommabile [f[; allora

x
f(x) =

k
f(x
k
) `e ben denita in quanto la serie `e assolutamente convergente, dunque la somma non
dipende dallordine degli (inniti) addendi.
C.3 Misura e integrale di Lebesgue
Sia (, T ) uno spazio topologico, B la -algebra dei Boreliani e : B [0, ] una misura.
Si dice che `e regolare se B B si ha
r1) (B) = inf
V
(V )[B V T ;
r2) (B) < (B) = sup
K
(K)[K B, K compatto.
Possiamo ora enunciare il teorema di esistenza della misura di Lebesgue in R
n
.
Teorema 3.22. Esistono una -algebra M in R
n
e una misura completa : M [0, +]
aventi le seguenti propriet`a:
a) se I R
n
`e un iper-intervallo, (I) coincide con il volume di I (cio`e con la sua misura
di Peano-Jordan);
b) B M e la restrizione di a B `e regolare;
c) `e invariante per traslazioni: (E +x) = (E) E M, x R
n
;
d) per ogni misura

: B [0, +] che sia invariante per traslazioni e a valori niti sui


compatti, esiste una costante c tale che B B si abbia

(B) = c (B).
La misura di cui sopra `e detta misura di Lebesgue in R
n
, e d`a luogo allintegrazione
secondo Lebesgue. Dal punto a) segue che se f : R
n
R `e integrabile secondo Riemann
lo `e anche secondo Lebesgue, e i due integrali coincidono; il viceversa, come vedremo, non `e
vero. Quando non c`e pericolo di confusione si indica lintegrale di Lebesgue con la medesima
notazione tradizionale per lintegrale di Riemann; ad esempio scriviamo
_
R
f(x) dx per
_
R
f d.
Enunciamo ora alcune generalizzazioni di risultati ben noti nel caso dellintegrale di Rie-
mann.
Il primo risultato `e il teorema di Fubini : sia f : R
2
R una funzione integrabile; allora
per quasi tutti gli x R la funzione f
x
: y f(x, y) `e integrabile, ed `e integrabile la funzione
x
_
R
f
x
(y) dy; analogamente, per quasi tutti gli y R esiste ed `e integrabile la funzione
y
_
R
f
y
(x) dx; si ha
_
R
2
f(x, y) dxdy =
_
R
_
_
R
f
x
(y) dy
_
dx =
_
R
_
_
R
f
y
(x) dx
_
dy .
138 C MISURA E INTEGRAZIONE
Vogliamo poi generalizzare il teorema fondamentale del calcolo integrale. A tale scopo
premettiamo la seguente denizione: una funzione f : R R si dice assolutamente continua
se > 0 esiste > 0 tale che, comunque si scelga un numero nito di intervalli aperti disgiunti
(a
j
, b
j
) con

j
(b
j
a
j
) < , risulta

j
[f(b
j
)f(a
j
)[ < . Le funzioni assolutamente continue
sono derivabili quasi ovunque e uniformemente continue. Limportanza di questa nozione si
manifesta allora nei seguenti due risultati:
I) Se f : R R `e integrabile, allora la funzione F(x) =
_
x

f(t) dt `e assolutamente
continua e si ha quasi ovunque F

= f.
II) Condizione necessaria e suciente perche luguaglianza
f(x) f(a) =
_
x
a
f

(t) dt
valga x [a, b] `e che f sia assolutamente continua su [a, b].
`
E naturale a questo punto chiedersi quali vantaggi porta questa teoria rispetto a quella pi` u
intuitiva e familiare di Riemann. Un vantaggio importante, che storicamente ha motivato lo
sviluppo della teoria,
C.6
`e che sono molto meno restrittive le condizioni richieste per passare al
limite sotto il segno di integrale (si veda il teorema della convergenza dominata). Tra laltro,
ci`o permette di introdurre gli spazi funzionali L
p
([Canarutto]), mediante i quali `e possibile
trattare certe classi di funzioni con il linguaggio semplice e potente degli spazi di Hilbert.
Tale approccio pu`o sembrare un po astratto, ma consente una pi` u chiara comprensione degli
argomenti considerati.
Sarebbe ora desiderabile acquisire un maggiore dimestichezza con le nozioni di misura e
integrale di Lebesgue. Non volendo in questa sede addentrarci nei dettagli delle dimostrazioni,
facciamo alcune considerazioni e introduciamo un paio desempi.
Un punto importante `e che un insieme numerabile ha misura nulla. Sia infatti E :=
a
n

nN
; sia > 0; ogni elemento a
n
ha un intorno I
n
di misura inferiore a 2
n
, da cui
(E) (
nN
I
n
) < .
Esempio C.4. Linsieme Q dei numeri razionali `e numerabile, dunque (Q) = 0. Ne segue
che linsieme [0, 1] Q ha misura 1. Vediamo allora come la misura di Lebesgue permetta di
misurare insiemi di tipo molto pi` u generale rispetto alla misura di Peano-Jordan, per la quale i
razionali e gli irrazionali non sono misurabili: in R i pluri-intervalli sono gli intervalli, dunque la
misura inferiore e quella superiore di [0, 1] Q secondo Peano-Jordan valgono rispettivamente
0 e 1. Da qui si vede anche che la nozione di misurabilit`a secondo Peano-Jordan non denisce
una -algebra: Q non `e misurabile pur essendo unione numerabile di insiemi misurabili.
Da quanto detto si vede che esiste un aperto V R di misura arbitrariamente piccola che
ricopre tutto Q; questo fatto esemplica chiaramente la non intuitivit`a, sotto certi aspetti,
della misura di Lebesgue. Ovviamente il punto essenziale sta nella -additivit`a, che vale per
famiglie innite (purche numerabili) di insiemi misurabili. Ne consegue che la classe M degli
insiemi misurabili secondo Lebesgue `e molto vasta, tanto che non `e facile trovare un insieme
non misurabile; anzi, per dimostrarne lesistenza bisogna ricorrere allassioma della scelta
nella sua forma pi` u forte [5]. Si dimostra inoltre che esistono insiemi misurabili che non sono
Boreliani, cio`e linclusione B M (teorema 3.22) vale in senso proprio (Rudin, 2.21).
C.6
Sono interessanti e utili le Notizie storiche del Giusti [5].
C.3 Misura e integrale di Lebesgue 139
Esempio C.5. Prendiamo lintervallo [0, 1] e togliamone lintervallo aperto centrale (1/3, 2/3);
da ciascuno dei due intervalli rimasti togliamo lintervallo aperto centrale; e cos` via. Al passo
r-esimo viene tolto un aperto E
r
che ha misura 2
r1
/3
r
.
`
E facile allora calcolare la misura di
E =
rN
E
r
(serie geometrica): si ha (E) = 1. Linsieme complementare K := [0, 1] E `e
detto insieme di Cantor. Chiaramente K `e compatto e ha misura nulla.
`
E facile convincersi
che K non `e vuoto: pu`o essere identicato con linsieme di tutti i numeri reali in [0, 1] la
cui espressione in base 3 non contiene la cifra 1. Anzi, si dimostra che K non `e nemmeno
numerabile (ha la potenza del continuo).
Si possono fare tanti esempi di insiemi costruiti in maniera analoga a quello di Cantor. Se
ad ogni passo, invece di togliere 1/3 di ogni segmento, ne tolgo 1/p (p > 3), quello che rimane
ha misura
1

n=0
2
n
p
n+1
=
p 3
p 2
.
Riferimenti bibliograci su misura e integrazione
D. Canarutto, Appunti di Analisi III, Pitagora Editrice, Bologna (1998).
E. Giusti, Analisi Matematica 2, Bollati-Boringhieri.
G. Gilardi, Analisi III, Mc Graw-Hill Italia.
W. Rudin, Real and Complex Analysis, McGraw-Hill.
V. Smirnov, Cours de mathematiques superieures,

Ed. Mir, Moscou.