Appunti Di Probabilità e Statistica (2013, 143p)

Appunti di probabilit` a e statistica
Ingegneria Civile, Firenze, a.a. 2011/2012.

Daniel Canarutto
Dipartimento di Matematica e Informatica U. Dini
21/1/2013
Sommario
Questi appunti raccolgono il contenuto delle lezioni di probabilità e statistica, per il Corso
di Laurea in Ingegneria Civile, svolte nei tre anni accademici dal 2009/2010 al 2011/2012.
Possono essere solo stampati da ciascun individuo per il proprio uso personale di studio. Il
materiale rimane comunque di esclusiva proprietà dellautore. Ogni altro uso (per esempio
da parte di copisterie per rivenderli in qualsiasi forma) è espressamente proibito.
Questa versione è la quarta relativa allanno accademico 2011/2012 (la precedente
era del 14/9/2012). Ulteriori correzioni e piccole modiche potranno essere ancora fatte,
nonostante che a partire dallanno accademico 2012/2013 lautore non tenga pi` u il corso,
per luso degli studenti degli anni precedenti.
II RIFERIMENTI BIBLIOGRAFICI
Riferimenti bibliograci
[1] G. Anichini, Elementi di probabilità e statistica, Pitagora Editrice Bologna.
[2] P. Baldi, Calcolo delle probabilità e statistica, McGraw-Hill.
[3] C. Franchetti, Sommario lezioni di probabilità,
http://www.dma.unifi.it/~franchetti/probab/CorsoProb99.pdf
[4] C. Franchetti, Sommario lezioni di probabilità (versione abbreviata),
http://www.dma.unifi.it/~franchetti/probab/ProbAbbr.pdf
[5] E. Giusti, Analisi Matematica 2, Bollati-Boringhieri.
INDICE III
Indice
1 Introduzione 1
1.1 Fenomeni aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 La probabilità nel linguaggio comune . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Modelli matematici della probabilità 5
2.1 -algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Probabilità nel continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Distribuzioni e delta di Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5 Probabilità condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Schema di Bernoulli 23
3.1 Testa o croce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Due lanci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 n lanci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4 Legge binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5 Legge di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Lanci no a che... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.7 Lanci di un dado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.8 Decadimento radioattivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.9 Distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.10 Coincidenza di compleanni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Variabili aleatorie 35
4.1 Applicazioni dallo spazio dei campioni in un insieme qualsiasi . . . . . . . . . . 35
4.2 Variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3 Funzione di ripartizione e densità . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 Intermezzo: alberi e gra, variazioni sul tema . . . . . . . . . . . . . . . . . . . 41
4.5 Simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Variabili aleatorie vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.7 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.8 Densità condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.9 Calcolo di leggi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.10 Il caso di Mary vos Savant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5 Media e momenti 61
5.1 Media di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 Momenti di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Alcuni esempi di media e momenti . . . . . . . . . . . . . . . . . . . . . . . . . 67
6 Compendio delle leggi pi` u importanti 70
6.1 Legge binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.2 Legge di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.3 Distribuzione geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.4 Distribuzione ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.5 Distribuzione normale, o gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . 73
IV INDICE
6.6 Leggi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.7 Legge esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.8 Legge chi quadro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.9 Distribuzione di Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7 La legge dei grandi numeri 82
7.1 La legge empirica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.2 Convergenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.3 Legge debole e legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . 84
7.4 Funzione di ripartizione empirica e graco dei quantili . . . . . . . . . . . . . . 85
7.5 Funzioni caratteristiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.6 Convergenza in legge e Teorema Limite Centrale . . . . . . . . . . . . . . . . . 92
7.7 Approssimazione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8 Elementi di statistica 100
8.1 Statistica descrittiva e statistica inferenziale . . . . . . . . . . . . . . . . . . . . 100
8.2 Stimatori fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.3 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.4 Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.6 Test di Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
8.7 Intervalli di condenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
A Nozioni basilari di calcolo combinatorio 119
A.1 Coecienti binomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
A.2 Coecienti multinomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
A.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
A.4 Disposizioni senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
A.5 Permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
A.6 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
A.7 Partizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
B Numeri complessi 124
B.1 Numeri complessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
B.2 Funzioni elementari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
B.3 Derivata e integrale di una curva a valori complessi . . . . . . . . . . . . . . . . 129
B.4 Serie (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
C Misura e integrazione 133
C.1 Misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
C.2 Integrazione astratta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
C.3 Misura e integrale di Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
1
1 Introduzione
1.1 Fenomeni aleatori
Laggettivo aleatorio (sinonimo di casuale) proviene dal latino alea, dado, e vale a con-
notare fenomeni la cui evoluzione non possiamo prevedere con precisione. In eetti nessuno è
in grado di lanciare un dado in modo da inuire sul risultato. Questo fatto potrebbe sembrare
in contrasto con la nozione che il moto del dado può essere descritto nellambito della Mecca-
nica Classica, che è deterministica: una volta note le condizioni iniziali (posizioni e velocità
di tutte le particelle che compongono il sistema meccanico studiato) è possibile in linea di
principio prevederne il moto, almeno in un certo intervallo di tempo, risolvendo le equazioni
di moto (un sistema di equazioni dierenziali del secondordine). Cos` lartigliere è in grado
di indirizzare il proiettile sul bersaglio, con notevole esattezza, controllandone la direzione e
la velocità iniziali.
1.1
Nel caso del dado, tuttavia, il moto è cos` sensibile alle condizioni iniziali che una varia-
zione minuscola di queste può dar luogo, alla ne, a un risultato completamente diverso; in
pratica, il controllo di dierenze cos` piccole nelle condizioni iniziali è al di là delle possibilità
umane, e ciò rende appunto aleatorio il risultato dellesperimento.
`
E facile pensare ad altri esperimenti di carattere parimenti aleatorio:
- il lancio di una moneta;
- lestrazione (alla cieca) di un numero di una tombola o del lotto;
- lestrazione di una carta da un mazzo
(negli ultimi due esempi, le palline recanti i numeri e le carte devono essere mescolate in modo
appropriato).
Si potrebbe pensare che le situazioni di questi esempi siano molto particolari, ma è piut-
tosto vero il contrario: di regola, il risultato di un esperimento non può essere previsto con
esattezza. Ciò in fondo è vero anche nel caso del lancio di un proiettile, perche piccole varia-
zioni delle condizioni iniziali o uttuazioni imprevedibili delle condizioni atmosferiche fanno
s` che il bersaglio, per quanto lartigliere possa essere accurato, venga colpito solo con una
certa approssimazione (magari molto buona); eseguendo una serie di lanci in condizioni iden-
tiche i proiettili arriveranno in una area (magari ristretta) intorno al bersaglio, ma non tutti
esattamente nello stesso punto.
1.2
Osservazione. A pensarci bene, il lancio del dado non è poi cos` diverso da quello di un
proiettile, solo che risulta pi` u dicile prevedere la congurazione nale, dopo che è rimbalzato
e si è fermato; un qualche grado di prevedibilità esiste anche in questo caso (per esempio il dado
si fermerà pi` u o meno lontano dal lanciatore a seconda della velocità iniziale). Il punto però
è che, in questesperimento, il risultato a cui siamo interessati non è la congurazione nale
completa ma solo uninformazione parziale riguardo a questa: quale faccia viene a trovarsi in
alto.
Esistono poi in natura fenomeni che, almeno allo stato attuale delle conoscenze, sono re-
golati da leggi aventi carattere aleatorio in un senso ancora pi` u radicale: quei fenomeni, per
lo pi` u sub-microscopici, che sono governati dalla Meccanica Quantistica. Consideriamo per
esempio il cosiddetto decadimento radioattivo: un nucleo atomico può emettere spontanea-
mente varie particelle, ed eventualmente disintegrarsi in pi` u pezzi; listante in cui ciò avviene
1.1
Per un calcolo davvero preciso deve tener conto non solo della forza di gravit` a ma anche delle forze
dinerzia dovute alla rotazione terrestre e della resistenza dellaria; questultima varia con laltezza e dipende
dalla velocità e direzione del vento.
1.2
Non ha neanche senso dire che un proiettile arriva esattamente in un punto nel senso matematico.
2 1 INTRODUZIONE
è del tutto imprevedibile, non solo perche non conosciamo esattamente lo stato del sistema
sico osservato, ma proprio per una questione di principio. In Meccanica Quantistica non vale
il determinismo della sica newtoniana.
1.2 La probabilità nel linguaggio comune
Nel linguaggio comune, laggettivo probabile si usa in maniera informale per connotare
eventi futuri dei quali pensiamo che si vericheranno, anche se non ne siamo certi (è probabile
che oggi non piova); analogamente, laggettivo improbabile serve per connotare eventi
futuri dei quali pensiamo che non si vericheranno (è improbabile che un meteorite caschi su
Piazza della Signoria). Magari ci spingiamo no a dare dei numeri (la probabilità di pioggia
nel pomeriggio è del 10%). Anche gli addetti ai lavori del mondo del calcio (forse non la
categoria pi` u dotata in quanto a precisione nel pensiero matematico) allinizio del campionato
danno una loro valutazione delle probabilità di vittoria nale delle varie squadre in forma di
percentuali (per esempio: Inter 40%, Milan 25%, Juventus 20%, Roma 15% la somma deve
fare 100%).
Quello che noi vogliamo è però una formulazione matematica allinterno della quale la
nozione di probabilità possa essere trattata con esattezza e permetta di fare calcoli precisi (e,
magari, di trarre conclusioni non ovvie). Per costruire un tale modello matematico probabilisti-
co dobbiamo prima di tutto precisare quali sono i possibili risultati dellesperimento in esame;
tali risultati vengono etichettati come elementi di un certo insieme che è tradizional-
mente detto spazio dei campioni. Cos`, nel lancio di un dado, si assumerà = 1, 2, 3, 4, 5, 6
(ignorando gli altri parametri che caratterizzano la congurazione del dado); nel lancio di una
moneta = testa, croce ; nel lancio di un proiettile, potrebbe essere una certa area in-
torno al bersaglio, allinterno della quale si sa che il proiettile atterrerà con certezza (tenendo
conto di certe limitazioni alle possibili variazioni delle condizioni iniziali e delle condizioni
atmosferiche). Vedremo vari altri esempi nel seguito.
Vogliamo dare un signicato pi` u preciso alla percentuale che, nel linguaggio corrente,
esprime la maggiore o minore probabilità di un evento. Assegnare una probabilità del 100%
signica che riteniamo che levento in questione si vericherà certamente; una probabilità
dello 0% signica invece che certamente non si vericherà. E che dire di una probabilità, per
esempio, del 27%? Qui la faccenda è un po pi` u delicata, e verrà chiarita meglio in seguito, ma
in sostanza possiamo dire questo: se fossimo in grado di eseguire lesperimento un gran numero
di volte, sempre nelle stesse identiche condizioni, allora ci aspetteremmo che circa i 27/100
dei risultati rientrino nellevento considerato. Nella gura 1, per esempio, sono i riportati i
risulati di quattro serie di lanci di un dado,
1.3
rispettivamente di 60, 600, 6000 e 60000 lanci.
Si constata che, al cresecere del numero dei lanci, la percentuale di ciascun risultato si avvicina
sempre di pi` u a
1
6
= 0.1666...

= 16.67%.
Visti questi dati, diremo allora che nellesperimento lancio di un dado, per ciascuno dei
possibili risultati la probabilità è 1/6 . Questo sembrerebbe ovvio anche a priori: data la sim-
metria del dado, non cè alcuna ragione per cui un risultato debba uscire pi` u spesso degli altri.
La situazione potrebbe essere dierente: potremmo trovare che, continuando ad aumentare
1.3
Lesperimento non è stato eseguito lanciando materialmente il dado e prendendo nota del risultato ogni
volta, ma mediante una simulazione al computer. In ogni linguaggio di programmazione esiste infatti una
funzione (random) che simula un output aleatorio. Ovviamente tale funzione non è veramente aleatoria, in
quanto è realizzata mediante un algoritmo preciso. Tuttavia questo algoritmo è congegnato (o dovrebbe esserlo)
in modo tale che se non lo conosciamo esplicitamente non possiamo fare alcuna previsione sul risultato; quindi
per lutilizzatore, a tutti gli eetti, è come se si trattasse di un fenomeno autenticamente aleatorio (si parla
anche di procedimento pseudo-aleatorio).
1.2 La probabilità nel linguaggio comune 3
Figura 1: Lanci di un dado
60 lanci
9 17 9 7 11 7
r
r
r
r
r
r
r
r r
r r
r r
r
r
r
r r
r
r r
600 lanci
111 95 104 108 98 84
r
r
r
r
r
r
r
r r
r r
r r
r
r
r
r r
r
r r
6000 lanci
1010 1047 1008 1012 933 990
r
r
r
r
r
r
r
r r
r r
r r
r
r
r
r r
r
r r
60000 lanci
10037 10019 9868 9987 10139 9950
r
r
r
r
r
r
r
r r
r r
r r
r
r
r
r r
r
r r
il numero dei lanci, certi risultati continuano a uscire pi` u frequentemente di altri; il dado è
truccato (ciò può avvenire se il materiale di cui è fatto non è omogeneo, per esempio se
allinterno sono inseriti pezzetti di materiale pi` u pesante in posizione asimmetrica). Suppo-
niamo per esempio che le frequenze dei sei possibili risultati si stabilizzino intorno ai valori
_
22%, 12%, 19%, 26%, 11%, 10%
_
; allora diremo che i vari risultati non sono equiprobabili,
o che la distribuzione di probabilità non è uniforme.
Osservazione. Ci si può chiedere che senso abbiano le probabilità di vittoria nel campionato
di calcio, visto che il campionato non lo si può ripetere quante volte si vuole nelle stesse
identiche condizioni. Queste probabilità sono valutazioni, basate su intuito e ragionamento,
e vanno interpretate in questo senso: laddetto ai lavori ritiene che se si potesse ripetere
il campionato molte volte allora i risultati rispecchierebbero le proprie valutazioni; ma non
esiste modo di vericare no a che punto sono corrette. Notiamo, comunque, che la professione
dellallibratore si basa proprio su valutazioni del genere.
Osservazione. Nei bollettini metereologici
1.4
viene spesso data la probabilità di pioggia
per una data giornata: provare a discutere il signicato di questo tipo di probabilità.
Da questi esempi, e da questi discorsi un po alla buona, incominciamo a vedere che nella
descrizione matematica di un esperimento aleatorio dovrà esserci un modo per calcolare la
probabilità di ogni evento; tale probabilità dovrà essere rappresentata da un numero compre-
so tra 0 e 1 (la percentuale del linguaggio corrente). Tra gli eventi presi in considerazione
non ci sono solo quelli rappresentati dagli elementi dello spazio dei campioni relativi alle-
sperimento in esame; nel caso del lancio del dado, per rimanere nellambito del nostro esempio
base, uno potrebbe chiedersi qualè la probabilità di ottenere un numero pari, oppure di ot-
tenere un numero 4, o ancora di ottenere un numero primo, eccetera. Queste domande si
1.4
Si veda per esempio http://www.arpa.veneto.it/bollettini/htm/dolomiti meteo.asp .
4 1 INTRODUZIONE
riferiscono alluscita di un risultato che appartiene a un sottoinsieme di . Il modello mate-
matico probabilistico dovrà fornire risposte coerenti a tali questioni, e la sua validità potrà
essere vericata eseguendo lesperimento un gran numero di volte.
5
2 Modelli matematici della probabilità
Il 1.1 e il 1.2, a carattere discorsivo, ci sono serviti come introduzione alla nozione di pro-
babilità. A questo punto passiamo a una trattazione pi` u formale, nella speranza che le varie
denizioni e i conseguenti risultati matematici risultino abbastanza digeribili.
La denizione di spazio di probabilità potrebbe essere data, in forma molto sinteti-
ca,
2.1
riferendoci a concetti introdotti e discussi nellAppendice C (Misura e integrazione).
Per non obbligare il lettore a studiarla subito in dettaglio arriviamo alla denizione per gradi,
riformulando i concetti essenziali.
2.1 -algebra
Se è un insieme qualsiasi, indichiamo con P() la famiglia di tutti i sottoinsiemi di
(inclusi stesso e linsieme vuoto ).
Denizione 2.1 Una -algebra su è una famiglia E P() con le seguenti proprietà:
a) E.
b) E E E E.
c) E
k
E k N
kN
E
k
E.
I sottoinsiemi E E sono detti misurabili, e la coppia (, E) è detta spazio misurabile.
La proprietà c) della precedente denizione dice che lunione di una famiglia numerabile
2.2
di insiemi misurabili è ancora un insieme misurabile. Si noti che è condizione molto pi` u
forte che non richiedere solamente che lunione di un numero nito di insiemi misurabili sia
misurabile. In eetti limportanza di tale proprietà risulterà dagli esempi.
Osservazione. E , linsieme di tutti gli elementi di che non appartengono a E , è detto
il complementare di E in , e se non cè pericolo di confusione (linsieme ambiente è
ssato) si indica semplicemente con E
c
. Si trovano altre notazioni per E
c
, ad esempio
E, ma questa è usata anche con signicati dierenti e quindi sarà meglio evitarla.
Dalle proprietà richieste dalla denizione 2.1 si ricavano facilmente le seguenti:
d) E.
e) E
k
E k N
kN
E
k
E.
f) E
k
E, k = 1, . . . , n
k
E
k
E.
g) E, F E E F E.
Dimostrazione:
d) E = E .
e) Segue dalla legge di de Morgan (E F)
c
= E
c
F
c
, che vale anche per una famiglia
numerabile di sottoinsiemi: (
kN
E
k
)
c
=
kN
E
c
k
.
2.1
Ovvero: uno spazio di probabilit` a è uno spazio di misura
_
, E, P
_
tale che P() = 1 .
2.2
Ricordiamo che un insieme S si dice numerabile se esiste una biiezione S N, cioè se i suoi elementi
possono essere numerati: esiste una successione N S : n sn la cui immagine è tutto S.
6 2 MODELLI MATEMATICI DELLA PROBABILIT
`
A
f)
`
E ovvia.
g) Segue da E F = E F
c
.
Dunque una -algebra su è una famiglia di sottoinsiemi di che si comporta in maniera

naturale rispetto allunione e allintersezione; e ciò non solo per le unioni e intersezioni
di famiglie nite di sottoinsiemi, ma anche quando si considerino famiglie innite, purche
numerabili.
Osservazione. Su qualsiasi insieme esiste una -algebra privilegiata, costituita dalla fa-
miglia P() di tutti i sottoinsiemi di . Ci si potrebbe chiedere allora se considerare tale
famiglia non sia suciente in generale per la nozione di probabilità, e se il dare la denizio-
ne 2.1 non sia uninutile complicazione. In eetti, nei casi in cui è nito, oppure è innito ma
numerabile, di regola basterebbe lapproccio pi` u semplice; ma questo non basta per trattare la
probabilità nel continuo, che è un aspetto importante della teoria. L` esistono necessariamente
anche insiemi non misurabili, che vanno distinti da quelli misurabili.
2.2 Probabilità
La nozione di -algebra è utilizzata, in generale, in teoria della misura. Nellambito della teoria
della probabilità si usa una terminologia speciale:
linsieme è detto spazio dei campioni ;
i sottoinsiemi di che appartengono alla -algebra E P() sono detti eventi.
Denizione 2.2 Chiamiamo probabilità, su uno spazio misurabile (, E), una qualsiasi fun-
zione P : E [0, 1] tale che
P() = 1 ;
per ogni famiglia numerabile E
n
nN
E di insiemi misurabili disgiunti valga la
proprietà (detta -additività)
P(
nN
E
n
) =
nN
P(E
n
) .
La terna (, E, ) è detta allora uno spazio di probabilità.
Osservazione. Uno spazio di probabilità è un caso particolare di spazio di misura. In uno
spazio di misura qualsiasi cè una funzione : E [0, ] , detta appunto misura, che gode
della proprietà della -additività ma può assumere qualsiasi valore reale non negativo e ad-
dirittura innito. Daltra parte se una misura assume valori niti su ogni insieme misurabile
allora la si può normalizzare a una probabilità ponendo P(E) := (E)/(), E E .
Dai due assiomi precedenti segue:
i) P() = 0.
ii) P(E F) = P(E) +P(F) P(E F).
iii) E F P(E) P(F).
2.2 Probabilità 7
Dimostrazione:
i) = 1 = P() = P() +P() = 1 +P() .
ii) Si ha E F = E (F E
c
) da cui P(E F) = P(E) +P(F E
c
) ;
inoltre da F = (F E) (F E
c
) segue P(F) = P(F E) +P(F E
c
) ;
mettendo insieme queste due identità si ha lenunciato.
2.3
iii) Se E F si ha F = E (F E) , da cui P(F) = P(E) +P(F E) .
Ovviamente la -additività vale anche per una famiglia nita di insiemi misurabili di-
sgiunti. Per una famiglia numerabile di insiemi misurabili eventualmente non disgiunti si ha
in generale
P(
nN
E
n
)

nN
P(E
n
) .
In eetti, usando ripetutamente la formula P(E F) = P(E) +P(F) P(E F) la si può
generalizzare alla probabilità (misura) dellunione di un numero qualsiasi di insiemi misurabili.
Ad esempio
2.4
P(E) +P(F) +P(G) P(E F) P(E G) P(F G) +P(E F G) .
Una successione E
n
di insiemi si dice crescente se m < n E
m
E
n
, e decrescente se
m > n E
m
E
n
. Si dimostra:
Teorema 2.1.
Sia E
n
una successione crescente di insiemi misurabili; si ha
lim
n
P(E
n
) = P(
nN
E
n
) .
Sia F
n
una successione decrescente di insiemi misurabili; si ha
lim
n
P(F
n
) = P(
nN
F
n
) .
Dimostrazione: Poniamo E
1
E
1
, E
2
E
2
E
1
, . . . , E
n
E
n
E
n1
; allora E
n
E n,
inoltre E
n
= E
1
E
n
e
nN
E
n
=
nN
E
n
. Pertanto P(E
n
) =
n
k=1
E
k
, e
P(
nN
E
n
) =
n=1
P(E
n
) lim
n
n
k=1
P(E
n
) = lim
n
P(E
n
) .
Poniamo ora D
n
F
1
F
n
. Allora i D
n
costituiscono una successione crescente di sot-
toinsiemi di ; inoltre si ha P(D
n
) = P(F
1
) P(F
n
) ,
nN
D
n
= F
1
(
nN
F
n
) . Pertanto,
applicando alla successione D
n
il risultato precedente, si ottiene
P(F
1
) P(
nN
F
n
) = lim
n
P(D
n
) = lim
n
[P(F
1
) P(F
n
)] = P(F
1
) lim
n
P(F
n
) ,
da cui segue lenunciato.
2.3
Oppure si pu` o osservare che E F = (E \ (E F)) (F \ (E F)) (E F) , da cui
P(E F) = (P(E) P(E F)) + (P(F) P(E F)) +P(E F) = P(E) +P(F) P(E F) .
2.4
P(E F G) = P((E F) G) = P(E F) +P(G) P((E F) G) =
= P(E) +P(F) P(E F) +P(G) P((E G) (F G)) =
= P(E) +P(F) +P(G) P(E F) P(E G) P(F G) +P(E F G)
`
A
Esempio 2.1. Supponiamo che sia di cardinalità
2.5
[[ = n N nita, ed etichettiamo i
suoi elementi come
=
1
,
2
, . . . ,
n
.
Poniamo poi E P() , nella quale famiglia sono inclusi i singoletti
i
, i N
n
. Allora
per assegnare una probabilità è suciente assegnare gli n numeri
p
i
P(
i
) , con
n
i=1
p
i
= 1 .
La misura di ogni sottoinsieme (necessariamente nito) E è data allora da
P(E) =
E
P() ,
dove per semplicità si è utilizzata la notazione P() P() . Diremo che la probabilità è
uniforme se tutti i p
i
sono uguali, p
i
= 1/n i N
n
.
Esempio 2.2. Supponiamo ora che sia un insieme innito, ma numerabile, e consideriamo
unarbitraria biiezione N , ovvero una successione (
i
) la cui immagine sia tutto .
Scriviamo cioè
=
1
,
2
, . . . ,
i
, . . . .
Come nellesempio precedente poniamo E P() , e assegnamo la probabilità assegnando la
successione (p
i
), a valori in [0, 1] ,
p
i
P(
i
) , con
i=1
p
i
= 1 .
Si noti che la condizione P() = 1 è ora espressa in termini della somma di una serie, e che
tale somma è indipendente dallordine in quanto i termini sono non negativi (convergenza
assoluta); ciò vale anche per qualsiasi sottoinsieme (nito o innito) E , vale a dire che
si ha
P(E) =
E
P()
indipendentemente dallordine in cui sono numerati gli elementi di E . Si noti, inoltre, che
se [[ non è nito la probabilità non può essere uniforme, in quanto i termini di una serie
convergente devono tendere a zero.
Esempio 2.3. Consideriamo ancora uno spazio di probabilità (, E, P) , con
. Allora
E può essere vista come una famiglia di sottoinsiemi di
, ma evidentemente non è una -

algebra in
; però genera una -algebra E
P(
) , ovvero la pi` u piccola -algebra che

contiene E . Si osservi che E
contiene tutti i complementari in
degli elementi di E, ma in
generale non contiene i singoletti
2.6
di
.
2.5
La cardinalit` a di un insieme nito è data semplicemente dal numero dei suoi elementi. Altrimenti si parla
di cardinalità discreta se linsieme in questione è numerabile, oppure di di cardinalit` a del continuo se esiste
una biiezione tra linsieme ed R. Esistono poi insiemi di cardinalit` a ancora pi` u elevate (ad esempio linsieme
di tutte le funzioni R R).
2.6
Per esempio si consideri = {a, b, c} , E = P() ,
= {a, b, c, d, e} . Allora
E
=
_
, a, b, c, ab, ac, bc, abc, de, ade, bde, cde, abde, acde, bcde, abcde
_
,
dove si è utilizzata labbreviazione abc per {a, b, c} eccetera. Nei sottoinsiemi di
appartenenti a E
i due
elementi d, e
\ compaiono entrambi o nessuno dei due.

2.3 Probabilità nel continuo 9
Si ottiene allora una probabilità su tutto
imponendo
P(E) = P(E ) , E E
,
da cui, in particolare, P(
) = 0 .
Può anche darsi il caso che sia numerabile e
no; allora la probabilità di un elemento

di E
è comunque espresso come somma di una serie.

Osservazione. Vogliamo vericare, in maniera un po informale, un risultato che sarà utile
in alcune discussioni, e cioè il fatto che linsieme Q R dei numeri razionali è numerabile.
r r r r r r r
r r r r r r r
r r r r r r r
r r r r r r r
r r r r r r r
r r r r r r r
r r r r r r r
1
2
3
4
5
6
7
1 2 3 4 5 6 7
Facciamo vedere esplicitamente che è possibile trovare una corrispon-
denza biunivoca tra N e linsieme (0, 1)Q dei razionali compresi tra 0
e 1 . Se contrassegnamo con un punto nel piano ogni coppia di numeri
naturali, è chiaro che si può trovare un percorso che li attraversa tutti,
oppure (come in gura) un percorso che attraversa tutti i punti corri-
spondenti alle coppie (n
1
, n
2
) tali che n
1
< n
2
. Queste coppie danno
luogo a tutti i quozienti di numeri naturali con numeratore inferiore al
denominatore, quindi a tutti gli elementi in (0, 1) Q.
A dire il vero, nella successione trovata ogni razionale viene raggiunto pi` u volte, o meglio in-
nite volte (frazioni equivalenti); perciò va ranata saltando ogni numero che è già comparso
precedentemente. Senza entrare in dettagli formali, dovrebbe essere chiaro che in tal modo si
riesce a denire la biiezione N (0, 1) Q cercata.
2.7
Dovrebbe essere chiaro anche come si
può denire una successione la cui immagine sia tutto Q (non solo (0, 1) Q) .
2.3 Probabilità nel continuo
Gli esempi precedenti, sia di cardinalità nita che innita, rientrano nel caso della probabilità
nel discreto. Abbiamo già accennato al fatto che nel continuo alcuni aspetti sono un po
pi` u complessi e delicati, e vogliamo ora cercare di capire lessenza della questione senza troppi
tecnicismi. Per qualche dettaglio e spiegazione in pi` u si invita a leggere lAppendice C (Misura
e integrazione).
Quando si parla di probabilità nel continuo si intende, prima di tutto, che lo spazio
dei campioni è un opportuno sottoinsieme di R
n
. Per esempio, potrebbe essere linterno
di una sfera o di unaltra qualsiasi supercie in R
3
, oppure la supercie stessa; ma potrebbe
anche essere un insieme non limitato, anche tutto R
3
.
Abbiamo detto che la probabilità è un caso particolare di misura. Ora, in R
n
la parola
misura del linguaggio comune assume un signicato standard preciso: in R, per esempio, si
misurano le lunghezze; in R
2
si misurano le aree e le lunghezze; in R
3
i volumi, le superci e le
lunghezze; e cos` via. Queste misure (che sono legate alla nozione di integrale) sono di solito,
nei corsi di base, denite in termini della cosiddetta misura di Peano-Jordan; riassumiamone
le idee principali.
2.7
Non è dicile scrivere un algoritmo che permetta di elencare i primi n razionali di questa successione. Per
n = 200 otteniamo (1/2, 1/3, 2/3, 3/4, 1/4, 1/5, 2/5, 3/5, 4/5, 5/6, 1/6, 1/7, 2/7, 3/7, 4/7, 5/7, 6/7, 7/8,
5/8, 3/8, 1/8, 1/9, 2/9, 4/9, 5/9, 7/9, 8/9, 9/10, 7/10, 3/10, 1/10, 1/11, 2/11, 3/11, 4/11, 5/11, 6/11, 7/11,
8/11, 9/11, 10/11, 11/12, 7/12, 5/12, 1/12, 1/13, 2/13, 3/13, 4/13, 5/13, 6/13, 7/13, 8/13, 9/13, 10/13, 11/13,
12/13, 13/14, 11/14, 9/14, 5/14, 3/14, 1/14, 1/15, 2/15, 4/15, 7/15, 8/15, 11/15, 13/15, 14/15, 15/16, 13/16,
11/16, 9/16, 7/16, 5/16, 3/16, 1/16, 1/17, 2/17, 3/17, 4/17, 5/17, 6/17, 7/17, 8/17, 9/17, 10/17, 11/17, 12/17,
13/17, 14/17, 15/17, 16/17, 17/18, 13/18, 11/18, 7/18, 5/18, 1/18, 1/19, 2/19, 3/19, 4/19, 5/19, 6/19, 7/19,
8/19, 9/19, 10/19, 11/19, 12/19, 13/19, 14/19, 15/19, 16/19, 17/19, 18/19, 19/20, 17/20, 13/20, 11/20, 9/20,
7/20, 3/20, 1/20, 1/21, 2/21, 4/21, 5/21, 8/21, 10/21) .
`
A
Figura 2: Una gura piana S (delimitata dalla linea curva, pi` u spessa) e due pluri-intervalli, uno
contenuto in essa e uno che la contiene. Le aree dei due pluri-intervalli approssimano larea di S
rispettivamente per difetto e per eccesso. Se lestremo superiore delle aree di tutti i pluri-intervalli
contenuti nella gura coincide con lestremo inferiore delle aree di tutti i pluri-intervalli contenenti la
gura, allora si dice che la gura stessa è misurabile secondo Peano-Jordan. Tuttavia questa nozione
di misurabilità non ha la proprietà della -additività.
S
Ricordiamo che un iper-intervallo di R
n
è il prodotto cartesiano di n intervalli di R (in
R
2
, per esempio, è un rettangolo con i lati paralleli ai vettori della base canonica, in R
3
è un
parallelepipedo, eccetera), e che un pluri-intervallo di R
n
è lunione di un numero nito di
iper-intervalli; la misura di un pluri-intervallo in R
n
può essere denita in modo naturale ed
elementare.
Per ogni sottoinsieme E R
n
indichiamo con m
#
(E) lestremo inferiore di tutte le
misure di pluri-intervalli contenenti E , e con m
(E) lestremo superiore di tutte le misu-

re di pluri-intervalli contenuti in E (gura 2). Si dice che E è misurabile secondo Peano-
Jordan se m
#
(E) = m
(E); tuttavia, la famiglia PJ di tutti gli insiemi misurabili secondo

Peano-Jordan non è una -algebra. Infatti, come vedremo tra poco con un esempio, la -
additività non vale in PJ se non per una famiglia nita di sottoinsiemi. Quindi la funzione
m : PJ [0, +] : E m(E) := m
#
(E) = m
(E), detta misura di Peano-Jordan, non è a

rigore una vera misura; o meglio, soddisfa una denizione di misura pi` u debole.
Esempio 2.4. Per vedere che la misura di Peano-Jordan non verica la -additività osserviamo
prima di tutto che la misura di un singoletto (insieme costituito da un unico punto) è zero,
in quanto esistono pluri-intervalli di misura arbitrariamente piccola che lo contengono. Ma
abbiamo visto che linsieme E (0, 1)Q dei numeri razionali compresi tra 0 e 1 è numerabile,
esiste cioè una successione (q
n
) la cui immagine coincide con E . Pertanto se valesse la -
additività per m si dovrebbe avere
m(E) =
n=1
m(q
n
) =
n=1
0 = 0 .
Dalta parte, il pi` u piccolo intervallo aperto contenente E è (0, 1) , che ha misura 1 , mentre
qualsiasi intervallo contenuto in E è un singoletto, che ha misura zero. Dunque m
#
(E) = 1 ,
m
(E) = 0 ; poiche le due misure (superiore e inferiore) non coincidono, linsieme E considerato
2.3 Probabilità nel continuo 11
non è misurabile secondo Peano-Jordan, pur essendo unione numerabile di insiemi misurabili.
E veniamo al punto essenziale della presente discussione: un teorema fondamentale aerma

che esiste in R
n
ununica misura, detta misura di Lebesgue, che soddisfa a certe condizioni
naturali e che coincide con la misura di Peano-Jordan per gli insiemi che sono misurabili
in quel senso.
2.8
In particolare, sono misurabili secondo Lebesgue tutti gli insiemi aperti.
2.9
La -algebra M P(R
n
) degli insiemi misurabili secondo Lebesgue è cos` grande che non
si riesce a dare esempi concreti di sottoinsiemi di R
n
che non siano misurabili. E tuttavia si
dimostra che tali insiemi non misurabili esistono; è proprio questo il punto che rende necessaria
la nozione di -algebra nella denizione di spazio di misura e, in particolare, di spazio di
probabilità (altrimenti si potrebbe denire una probabilità semplicemente come una funzione
sulla famiglia P(R
n
) di tutti i sottoinsiemi di R
n
).
Alla nozione di misura è associata quella di integrazione; alla misura di Lebesgue è associa-
ta lintegrazione secondo Lebesgue. Non abbiamo bisogno qui di entrare nei dettagli, basterà
aver presente che lintegrale secondo Lebesgue coincide con il familiare integrale secondo Rie-
mann per quelle funzioni che sono integrabili in tal senso; daltra parte, una funzione può
essere integrabile secondo Lebesgue ma non secondo Riemann. Inoltre la nuova nozione di
integrale ha proprietà pi` u forti.
2.10
E
F
E F
Tutto ciò suggerisce, in maniera naturale, esem-
pi di spazi di probabilità nel continuo in cui
coincide con un sottoinsieme di R
n
avente mi-
sura 1 , con la -algebra degli insiemi misura-
bili secondo Lebesgue e contenuti in . For-
se per avere unimmagine intuitiva di quello di
cui stiamo discutendo conviene avere presen-
te il caso di R
2
, che è visualizzabile pi` u facil-
mente (le questioni essenziali sono comunque
le medesime in qualunque dimensione). Sup-
poniamo per esempio che sia un quadrato
di lato 1 . La probabilità di un suo sottoin-
sieme misurabile è semplicemente la sua area
(vedi gura a lato, dove anche la proprietà
P(E F) = P(E) +P(F) P(E F) risulta
di immediata comprensione).
Questo spazio di probabilità matematico potrebbe rappresentare una situazione reale di un
esperimento aleatorio? Possiamo pensare che sia il fondo di un pozzo, avente pareti cos`
irregolari che una pallina di estensione trascurabile, lanciata dentro di esso, per eetto degli
urti contro le pareti stesse atterri in un punto del tutto imprevedibile. Allora la probabilità
che la pallina atterri in un qualche sottoinsieme E è proporzionale allarea di : non cè
alcuna preferenza tra due zone diverse ma aventi la medesima area.
`
E naturale quindi parlare
2.8
Si veda lAppendice C per un enunciato preciso del teorema. Per la dimostrazione, e per una discussione
pi` u approfondita della misura di Lebesgue, si consiglia di consultare il volume di Analisi II di E. Giusti [5].
2.9
In R
n
possiamo considerare la -algebra B generata da tutti gli aperti; gli elementi di B sono detti Boreliani
(in particolare sono Boreliani gli insiemi chiusi). Si noti, tuttavia, che la -algebra Mdella misura di Lebesgue
è pi` u grande di B, cioè esistono insiemi misurabili secondo Lebesgue che non sono Boreliani. Lestensione da B a
Mè importante perche la conseguente nozione di integrazione secondo Lebesgue ha propriet` a particolarmente
buone.
2.10
In particolare sono richieste alla funzione propriet` a meno vincolanti per poter derivare sotto il segno di
integrale.
`
A
di probabilità uniforme, analoga alla probabilità uniforme su un insieme nito. Daltra
parte, si osservi ancora che potremmo suddividere il quadrato in 25 quadrati di lato 0.2 (per
esempio), e chiederci non in che punto atterra la pallina ma soltanto in quale dei quadrati
pi` u piccoli; saremmo allora tornati nel caso discreto, con probabilità uniforme pari a 1/25 per
ciascun quadratino.
Come ulteriore esempio in cui lo spazio dei campioni è una supercie si consideri il seguente:
un meteorite, abbastanza grande da non essere distrutto nellattraversamento dellatmosfera,
sta per nire sulla Terra, ma non sappiamo quando avverrà limpatto ne da quale direzione
arriverà. In base ai dati che abbiamo non siamo quindi in grado di fare alcuna previsione
riguardo al punto della supercie terrestre in cui avverrà limpatto, pertanto il problema è
descritto da uno spazio di probabilità in cui lo spazio dei campioni è una supercie sferica e
la probabilità è uniforme, cioè la probabilità che il meteorite atterri in una supercie di area
A è pari ad A/(4R
2
) essendo R il raggio della Terra.
Daltra parte una situazione di incertezza cos` totale non è realistica. Gli astronomi hanno
di solito unidea abbastanza precisa della direzione da cui proviene un meteorite e di quando
entrerà nellatmosfera; saranno quindi in grado di calcolare dove atterrerà, anche se non con
precisione assoluta. In altri termini, sapranno determinare una distribuzione di probabilità
non uniforme, con valore alto in una certa area e basso in unaltra area avente la mede-
sima supercie (se limpatto è previsto nella zona di Arcore, noi a Firenze possiamo stare
relativamente tranquilli, e ancora pi` u tranquilli saranno in Nuova Zelanda).
`
E facile trovare altri esempi di probabilità non uniforme nel continuo. Nel caso dello
sparo di un proiettile dartiglieria, per esempio, la probabilità di impatto sarà pi` u grande
in prossimità del bersaglio (stante un minimo di competenza da parte dellartigliere); nel
caso della disintegrazione radioattiva, la probabilità che avvenga in un dato intervallo di
tempo non può essere proporzionale alla lunghezza dellintervallo (altrimenti per intervalli
sucientemente grandi si avrebbe probabilità maggiore di 1). Lo studente può sbizzarrirsi a
cercare ulteriori esempi.
Per caratterizzare una probabilità non uniforme nel continuo utilizziamo la nozione di
densità di probabilità. Se R
n
è un insieme misurabile, si dice densità una funzione
misurabile
2.11
p : [0, )
tale che
_
p = 1 .
Si ottiene allora lo spazio di probabilità (, M, P) dove Mè la famiglia di sottoinsiemi di
che sono misurabili (secondo Lebesgue) e, per ciascun E M, la probabilità è data
P(E) =
_
E
p .
2.11
f : R si dice misurabile se la preimmagine di un aperto è un insieme misurabile. La nozione di
integrabilit` a, in teoria della misura, è denita per le funzioni misurabili.
2.4 Distribuzioni e delta di Dirac 13
Esempio 2.5. Uno dei casi pi` u comuni e importanti di densità di probabilità, in R, è
dato dalla densità normale, o Gaussiana,
3 2 1 1 2 3
0.1
0.2
0.3
0.4
p(x) =
1
2
exp
_
(x )
2
2
2
_
.
Si dimostra che, in eetti,
_
+
p(x) dx = 1 .
Il graco di p(x) per = 0 e = 1 è riportato qua
accanto.
Le costanti e
2
sono dette rispettivamente media e varianza della distribuzione (vedremo
pi` u avanti il signicato di questi termini i generale). La densità normale è descritta pi` u in
dettaglio nel 6.5.
2.4 Distribuzioni e delta di Dirac
La probabilità (e, pi` u in generale, la misura) può essere trattata in forme molto simili nel
discreto e nel continuo, tanto è vero che quando i due casi vengono svolti separatamente ne
risulta una forte sovrapposizione, con molti enunciati quasi identici. In eetti è possibile fare
una trattazione unicata, che si specializza nel modo giusto a seconda dei casi. Ciò si ottiene
mendiante una nozione generalizzata di distribuzione; per svilupparla in maniera completa
e rigorosa ci vorrebbe un intero corso, ma poi risulta facilmente maneggiabile, almeno per
quanto serve a noi, in termini di alcune idee essenziali relativamente semplici.
Osservazione. Una prima maniera abbastanza immediata per mettere in relazione i due casi
consiste nel notare come la probabilità nel discreto rientri sostanzialemente nella descrizione
in termini di densità introdotta nel 2.3. Infatti la nozione di sommatoria coincide con quella
di integrale relativamente alla misura discreta (per qualche dettaglio a questo proposito si
veda lAppendice C). Allora, in questambito, lapplicazione
p : [0, 1] : P()
può essere vista come la densità. Ci sono tuttavia alcuni aspetti, della relazione tra caso
discreto e caso continuo, che possono essere chiariti meglio introducendo la suddetta nozione
di distribuzione.
Partiamo da un esempio che ci permetta di capire lidea di base. Consideriamo la succes-
sione di funzioni f
n
(x) il cui termine n-esimo è la densità Gaussiana (vedi esempio 2.5) con
media e varianza = 1/n (i primi 5 termini sono riportati in gura 3). Notiamo subito
che, rimanendo sempre
_
R
f
n
(x) dx = 1 n N, al cresecere di n il graco si appiattisce ai
margini e si restringe al centro, mentre il valore massimo n/
2 cresce. In sostanza possiamo

dire che il grosso dellarea sotto al graco si concentra sempre di pi` u nellintorno di x = ;
pi` u precisamente, si verica facilmente quanto segue: se [a, b] R allora
lim
n
_
b
a
f
n
(x) dx = 1 ,
mentre se , [a, b] R allora
lim
n
_
b
a
f
n
(x) dx = 0 .
`
A
Figura 3: Graco della densità normale per = 1, 1/2, 1/3, 1/4, 1/5 .
x=
=
1
5
=
1
4
= 1
Inoltre se : R R è continua su R, si ha
lim
n
_
+
(x) f
n
(x) dx = () .
La successione di funzioni (f
n
) ora considerata non è certo lunica ad avere queste stesse
proprietà; per esempio è facile vericare (usare il teorema della media integrale) che sono
soddisfatte dalla successione (g
n
) denita da
g
n
(x) =
_
_
_
n, x [
1
2n
,
1
2n
] ,
0 , [x [ >
1
2n
.
Esprimiamo quanto sopra nei termini seguenti: loperazione di passaggio al limite
lim
n
_
+
(x) f
n
(x) dx = lim
n
_
+
(x) g
n
(x) dx = ()
denisce unapplicazione () che associa a ogni funzione continua un numero, e pre-
cisamente il suo valore in x = . Tale applicazione è ovviamente lineare,
2.12
e pertanto è
appropriato, usando una terminologia comune in Analisi, dirla un funzionale. Questo partico-
lare funzionale è detto delta di Dirac,
2.13
e viene indicato con il simbolo
. Pi` u in generale, un
funzionale lineare su uno spazio di funzioni sucientemente regolari è detto una distribuzio-
ne.
2.14
Ogni distribuzione può essere vista come limite, nel senso sopra esemplicato, di una
successione di funzioni ordinarie; diremo allora che la successione di funzioni è una particola-
re rappresentazione della distribuzione (una data distribuzione ha innite rappresentazioni).
In particolare, un funzione ordinaria f sucientemente regolare può essere vista come una
distribuzione, mediante la legge

_
+
(x) f(x) dx .
2.12
r +s r () +s () .
2.13
Paul Dirac (19021984), sico britannico e premio Nobel, ha dato contributi fondamentali alla meccanica
quantistica e allelettrodinamica quantistica.
2.14
Lo spazio delle distribuzioni che si considerano è diverso a seconda del tipo di funzioni a cui vanno applicate;
in questa sede rimaniamo nel generico a questo proposito.
2.4 Distribuzioni e delta di Dirac 15
Se poi f è una qualsiasi distribuzione, anche non caratterizzabile come funzione, si utilizza
lo stesso la notazione qua sopra; in eetti le principali proprietà delle distribuzioni possono
essere descritte formalmente come proprietà dellintegrale (una distribuzione è anche detta
funzione generalizzata). Per esempio si scrive
()
_
+
(x)
(x) dx
_
+
(x) (x ) dx ,
come se la distribuzione delta di Dirac fosse caratterizzabile mediante una vera funzione (x)
0
(x) . Se dovessimo provare a fare il graco di questa funzione verrebbe zero dappertutto
tranne che in x = , dove avrebbe valore innito, e con inegrale su R pari a 1 (un tempo si
usava talvolta rappresentarla come una freccia verso lalto posizionata in x = ).
Osservazione. Il modo in cui Dirac introdusse la non fu aatto preciso dal punto di vista
matematico, tuttavia grazie alla sua geniale intuizione fu in grado di individuarne le proprietà
essenziali e di utilizzarla con sicurezza. Solo dopo diversi anni la teoria delle distribuzioni
venne formulata rigorosamente.
Per noi, lo scopo principale di tutti questi discorsi è quello di scrivere lanalogo di una
densità per una probabilità nel continuo in cui un sottoinsieme numerabile abbia probabilità
1 . Consideriamo per esempio lesperimento lancio di una dado (3.7), in cui lo spazio dei
campioni è = 1, 2, 3, 4, 5, 6 . Se si considera R, abbiamo lo spazio di probabilità
(R, M, P) con densità generalizzata
p = p
1
1
+p
2
2
+p
3
3
+p
4
4
+p
5
5
+p
6
6
,
dove p
i
P(i) . Allora ogni sottoinsieme misurabile A R che non contenga uno dei sei
possibili risultati del lancio di un dado ha probabilità zero; altrimenti, tenendo conto delle
denizioni e convenzioni introdotte si ha
P(A) =
_
+
p(x) dx =
iA
p
i
,
ovvero un integrale (formale) è diventato in pratica una somma.
Per estendere il discorso precedente, notiamo che una funzione integrabile può essere ap-
prossimata nel senso delle distribuzioni, e con precisione arbitraria, come una combinazione
lineare di pi` u delta di Dirac. Per capire lessenza di questo discorso supponiamo di voler cal-
colare lintegrale di f sullintervallo [a, b] ; suddividiamolo in n sottointervalli [x
i
, x
i+1
] con
x
0
a , x
n
b , e consideriamo la distribuzione
f
n
=
n
i=1
(x
i
x
i1
) f(x
i
)
x
i
(x
1
x
0
) f(x
1
)
x
1
+ + (x
n
x
n1
) f(x
n
)
xn
;
allora
_
b
a
f
n
(x) (x) dx = (x
1
x
0
) f(x
1
) (x
1
) + + (x
n
x
n1
) f(x
n
) (x
n
)

=
=
_
b
a
f(x) (x) dx ,
dove lapprossimazione è tanto migliore quanto pi` u tta è la partizione di [a, b] . Si noti che,
in sostanza, stiamo rifacendo in maniera dierente lapprossimazione dellintegrale mediante
lintegrale di una funzione costante a tratti.
`
A
Osservazione. Nellambito dellanalogia tra densità di probabilità e densità di massa di un
continuo, la delta di Dirac descrive una massa concentrata in un punto , cioè la massa di quello
che in Meccanica si chiama un punto materiale.
La delta di Dirac non è aatto lunica distribuzione che non possa essere rappresentata
mediante una funzione vera e propria. In generale, se (f
n
) è una successione di funzioni tali
che per ogni funzione sucientemente regolare e per ogni sottoinsieme compatto K R
esista nito il limite lim
n
_
K
f
n
(x) (x) dx, allora diciamo che la successione (f
n
) denisce una
distribuzione f lim
n
f
n
, e si scrive
lim
n
_
K
f
n
(x) (x) dx
_
K
f(x) (x) dx
anche se a rigore f non è una vera e propria funzione (si parla anche di funzione generalizza-
ta). Gli spazi di distribuzioni sono molto ampi e interessanti, ma in questa sede ci limitiamo
essenzialmente a considerare la delta di Dirac e poche altre nozioni associate ad essa.
Osservazione. Consideriamo ancora la successione di funzioni (g
n
) sopra introdotta, e che
costituisce una particolare rappresentazione di
.
`
E immediato vericare che una primitiva
di g
n
è la funzione G
n
denita da
G
n
(x) =
_
x
g
n
(x
) dx
=
_
_
0 , x
1
2n
,
n(x ) +
1
2
,
1
2n
< x <
1
2n
,
1 , x
1
2n
.
Per n questa successione di funzioni tende puntualmente alla funzione
2.15
G
(x)
1
2
_
1 + sign(x )
_
=
_
_
0 , x 0 ,
1
2
, x = 0 ,
1 , x > 0 ,
che corrisponde alla distribuzione

_
+
(x) dx .
Quando si parla di distribuzioni possiamo quindi dire che la delta di Dirac
è la derivata della
distribuzione denita dalla funzione G
.
2.16
Daltra parte, si può osservare che se si modica
una funzione in un punto
2.17
non cambiano gli integrali in cui viene inserita; pertanto la
distribuzione corrispondente alla G
può essere anche rappresentata mediante la funzione

scalino
2.18
continua a destra
H
(x)
_
_
_
0 , x < 0 ,
1 , x 0 .
2.15
sign(x) x/|x| è la funzione segno (con sign(0) = 0 ).
2.16
In eetti si può dare una denizione precisa di derivata di una distribuzione, che porta a questo risultato.
Inoltre si arriva alla medesima conclusione se si rappresenta la delta mediante una dierente successione di
funzioni ordinarie, per esempio la successione (fn) di distribuzioni Gaussiane (le cui primitive sono date dalla
funzione dellerrore erf , vedi 6.5).
2.17
O anche in un innit` a numerabile di punti, o pi` u in generale su un insieme di misura nulla.
2.18
In Fisica detta spesso funzione di Heaviside.
2.5 Probabilità condizionale 17
Questa rappresentazione sarà utile per descrivere in maniera unicata la funzione di riparti-
zione di una distribuzione di probabilità (4.3). Scriveremo quindi
= H
2.5 Probabilità condizionale

Denizione 2.3 Sia (, E, P) uno spazio di probabilità. Siano poi E, F E , con P(E) ,= 0 .
Diciamo probabilità condizionale di F rispetto ad E il numero
P(F[E) :=
P(E F)
P(E)
[0, 1] .
Per quanto riguarda P(F[E) [0, 1] osserviamo che da E F E segue P(E F) P(E) .
In eetti, una volta ssato E E con P(E) ,= 0 otteniamo un nuovo spazio di probabilità
(E, E
E
, P
E
) dove
E
E
= E F, F E ,
P
E
(F
) = P(F
)/P(E) , F
E
E
.
Un altra maniera di vedere la cosa è la seguente: P
E
è unaltra probabilità su , che assegna
probabilità zero agli eventi disgiunti da E .
Per comprendere il signicato della denizione ora data, pensiamo di eseguire molte volte
lesperimento descritto dallo spazio di probabilità (, E, P) . Circa in una frazione P(E) di
volte si verica levento E, mentre circa in una frazione P(E F) di volte si vericano sia
levento E che levento F. Dunque la relazione P(E F) = P(E) P(F[E) può essere letta
nel modo seguente: di tutte le volte in cui si è vericato levento E, in circa una frazione
P(F[E) delle volte si verica anche F. Quindi P(F[E) è la probabilità che si verichi F
quando sappiamo che E si è vericato.
Esempio 2.6. Lesperimento sia estrazione di una carta da un mazzo di 40 (carte della
briscola). Levento F = esce un fante ha probabilità P(F) = 4/40 = 1/10 . Sia poi E =
esce una gura (fante, donna, re), P(E) = 12/40 = 3/10 ; poiche F E si ha P(E F) =
P(F) = 1/10 , e P(F[E) = P(E F)/P(E) = 1/3 : sapendo che è uscita una gura, la
probabilità che si tratti di un fante è 1/3 .
Esempio 2.7. Nellesperimento lancio di un dado regolare con 20 facce, dunque = N
20
, sia
E = 2, 3, 5, 7, 11, 13, 17, 19 = esce un numero primo, e F = N
12
= esce un numero non
superiore a 12. Si ha P(E) = 8/20 = 2/5 , E F = 2, 3, 5, 7, 11 , P(E F) = 5/20 = 1/4 ,
P(F[E) = P(E F)/P(E) = 5/8 : sapendo che è uscito un numero primo, la probabilità che
questo sia un numero non superiore a 12 è 5/8 .
Se (, E, P) è uno spazio di probabilità ed E, F E sono eventi qualsiasi, dalla denizione
di probabilità condizionale si ha P(F E) = P(F) P(E[F) = P(E) P(F[E) , da cui
P(F[E) = P(E[F)
P(F)
P(E)
.
Utilizzando questa identità si ottiene il
`
A
Teorema 2.2. (formula di Bayes)
Sia F
i
, i N, una famiglia (anche innita purche numerabile) di sottoinsiemi costituente
una partizione
2.19
di . Allora se E E è un qualsiasi altro evento si ha
P(F
i
[E) =
P(F
i
) P(E[F
i
)
P(E)
=
P(F
i
) P(E[F
i
)
j
P(F
j
) P(E[F
j
)
.
Dimostrazione: Per quanto sopra osservato, per ciascun i N
n
si ha
P(F
i
E) = P(F
i
) P(E[F
i
) ,
da cui
P(F
i
[E) =
P(F
i
E)
P(E)
=
P(F
i
) P(E[F
i
)
P(E)
.
Inoltre gli n eventi F
i
E sono due a due disgiunti e la loro unione è E , pertanto
P(E) =
jN
P(F
j
E) =
jN
P(F
j
) P(E[F
j
) ,
da cui segue lultimo membro dellenunciato.
La formula di Bayes esprime le probabilità condizionali P(F
i
[E) in termini delle P(E[F
i
) ,
e ciò permette di utilizzarla per valutare la probabilità che un dato evento sia la causa di un
fenomeno osservato. Il seguente esempio illustra questo modo di ragionare.
Esempio 2.8. Un medico deve fare una diagnosi, dopo che lanamnesi ha ristretto le pos-
sibilità a una di tre patologie A, B e C (escludendo che due o pi` u patologie siano presenti
contemporaneamente); i sintomi non danno alcuna indicazione di preferenza, ma uno studio
statistico sulla popolazione mostra che, tra i casi in cui A, B o C è presente, lincidenza è
rispettivamente del 45%, 30% e 25%.
Il medico prescrive allora al paziente quattro esami clinici, e
1
, e
2
, e
3
ed e
4
, ciascuno dei
quali può dare un risultato positivo (+) o negativo () . Da unaltro studio statistico è stata
dedotta la tabella di gura 4, che riporta la probabilità di risultato positivo di ciascun esame in
presenza di ciascuna delle patologie. I possibili risultati della quaterna di esami sono 2
4
= 16 ,
Figura 4: Probabilità condizionali P(e
i
[A) , P(e
i
[B) , P(e
i
[C) per i = 1, 2, 3, 4
e
1
(+) e
2
(+) e
3
(+) e
4
(+)
A 78% 22% 8% 2%
B 12% 65% 35% 6%
C 3% 9% 58% 72%
e di ciascuno di essi possiamo, a partire dalla precedente tabella, calcolare la probabilità in
presenza di ciascuna patologia (tabella a sinistra nella gura 5). Lapprossimazione a 4 cifre
decimali (discutibile in quanto i dati dei singoli esami erano dati con due cifre decimali) serve
per controllare che la somma di ciascuna colonna viene (circa) 1 . Infatti i dati di ciascuna
colonna sono la distribuzione di probabilità sullo spazio dei campioni costituito dai possibili
2.19
Ci` o signica che gli Fi sono due a due disgiunti e che la loro unione costituisce tutto .
Figura 5: Probabilità dei risultati della quaterna di esami clinici per ciascuna patologia
considerata.
A B C
0.1547 0.1882 0.1038
+ 0.0032 0.0120 0.2669
+ 0.0135 0.1013 0.1434
++ 0.0003 0.0065 0.3686
+ 0.0436 0.3495 0.0103
++ 0.0009 0.0223 0.0264
+ + 0.0038 0.1882 0.0142
+ ++ 0.0001 0.0120 0.0365
+ 0.5485 0.0257 0.0032
++ 0.0112 0.0016 0.0083
++ 0.0477 0.0138 0.0044
+++ 0.0010 0.0009 0.0114
+ + 0.1547 0.0477 0.0003
+ ++ 0.0032 0.0030 0.0008
+ + + 0.0135 0.0257 0.0004
+ + ++ 0.0003 0.0016 0.0011
A B C
0.0696 0.0565 0.0260
+ 0.0014 0.0036 0.0667
+ 0.0061 0.0304 0.0358
++ 0.0001 0.0019 0.0922
+ 0.0196 0.1048 0.0026
++ 0.0004 0.0067 0.0066
+ + 0.0017 0.0565 0.0035
+ ++ 0.0000 0.0036 0.0091
+ 0.2468 0.0077 0.0008
++ 0.0050 0.0005 0.0021
++ 0.0215 0.0041 0.0011
+++ 0.0004 0.0003 0.0029
+ + 0.0696 0.0143 0.0001
+ ++ 0.0014 0.0009 0.0002
+ + + 0.0061 0.0077 0.0001
+ + ++ 0.0001 0.0005 0.0003
risultati dei quattro esami, conosciuta la patologia.
2.20
Però lo spazio dei campioni appro-
priato per questa situazione è un altro: è linsieme di tutte le coppie (X, E) dove X = A, B, C ,
ed E è una qualsiasi delle 16 possibili quaterne di risultati degli esami. Si ottiene la distri-
buzione di probabilità appropriata su questo spazio dei campioni moltiplicando i valori delle
colonne rispettivamente per 0.45, 0.30 e 0.25 (le incidenze relative delle tre patologie); questa
distribuzione è riportata nella tabella di destra in gura 5 (dove ora è la soma di tutti i dati
che fa 1).
Esaminiamo ora tutto ciò in termini della formula di Bayes. I tre eventi (A, E) , (B, E) ,
e (C, E) , ciascuno costituito da tutti gli atomi la cui probabilità è scritta in una delle colonne
della tabella di destra, svolgono il ruolo degli F
i
della formula (i = 1, 2, 3). Se non cè pericolo
di confusione li indichiamo, per brevità, semplicemente come A, B, C , e scriviamo
P(A) = 0.45 , P(B) = 0.3 , C = 0.25 .
Allo stesso modo ciascun esito E della quaterna di esami clinici può essere identicato con un
evento E , e la sua probabilità P(E) è la somma dei valori riportati nella relativa riga
della tabella a destra in gura 5.
Torniamo ora al medico; se gli esami clinici danno come risultato E, con la formula di
Bayes può calcolare
P(A[E) =
P(A) P(E[A)
P(E)
=
P(A) P(E[A)
P(A) P(E[A) +P(B) P(E[B) +P(C) P(E[C)
;
analogamente, sostituendo A con B e con C al numeratore della formula può calcolare P(B[E)
e P(C[E) . I dati P(A) , P(B) e P(C) sono conosciuti, come si è detto, e li abbiamo scritti
2.20
`
E in sostanza lo spazio dei campioni di uno schema di Bernoulli di 4 lanci di una moneta (3).
`
A
poco sopra. I dati P(E[A) , P(E[B) e P(E[C) li deve dedurre dai dati della tabella di gura 4,
e sono poi i numeri contenuti nella tabella a sinistra nella gura 5. Non gli serve di ricavarseli
tutti, ma solo quelli relativi al risultato ottenuto negli esami clinici (contenuti nella relativa
riga della suddetta tabella).
Facciamo un esempio nellesempio: il risultato dellesame sia E = ++ . Allora il
medico si calcola prima di tutto
P(E[A) = 0.0477 , P(E[B) = 0.0138 , P(E[C) = 0.0044 ,
cioè i valori riportati nellundicesima riga di dati della tabella a sinistra di gura 5. Sostituendo
nella formula di Bayes trova
P(A[E) P(A[ ++) = 0.8034 ,
P(B[E) P(B[ ++) = 0.1552 ,
P(C[E) P(C[ ++) = 0.0415 .
Pertanto, approssimando alle due cifre decimali, il medico può valutare intorno all80% la
probabilità che il paziente sia aetto dalla patologia A, intorno al 16% la probabilità che si
tratti della B, e la C intorno al 4%. Si noti che il medico, in sostanza, deve solo applicare
una formula: non ha bisogno di costruirsi il modello probabilistico completo, con lo spazio
dei campioni e la tabella di gura 5 a destra; tutto ciò è servito a noi per chiarirci le
idee (speriamo). Non avendo i problemi del medico a maneggiare i numeri possiamo produrre
Figura 6: Probabilità condizionale di ciascuna patologia per ciascun possibile risultato degli
esami clinici (esempio 2.8).
A B C
0.4579 0.3714 0.1707
+ 0.0198 0.0502 0.9300
+ 0.0837 0.4205 0.4957
++ 0.0013 0.0206 0.9781
+ 0.1546 0.8252 0.0202
++ 0.0293 0.4887 0.4820
+ + 0.0277 0.9149 0.0574
+ ++ 0.0027 0.2826 0.7147
+ 0.9667 0.0302 0.0031
++ 0.6635 0.0647 0.2718
++ 0.8034 0.1552 0.0415
+++ 0.1233 0.0745 0.8022
+ + 0.8288 0.1702 0.0009
+ ++ 0.5599 0.3596 0.0804
+ + + 0.4367 0.5554 0.0079
+ + ++ 0.1378 0.5479 0.3143
unultima tabella (gura 6), dove sono riportati i valori di P(A[E) , P(B[E) e P(C[E) per tutti
i possibili risultati degli esami clinici. La somma di ciascuna riga fa (circa) 1, come devessere
in quanto abbiamo basato il nostro modello probabilistico sullipotesi che il paziente abbia
una e una sola delle tre patologie considerate. Osserviamo che in alcuni casi lindicazione è
netta, in altri meno.
Insomma: la formula di Bayes ci ha permesso di calcolare la probabilità che una data
patologia sia la causa di un eetto osservato (il risultato dellesame clinico), a partire dalla
conoscenza delle probabilità condizionali che i vari possibili risultati siano eetto delle pato-
logie.
Esempio 2.9. Un prodotto viene commercializzato in quattro versioni: A, B, C e D. Una

ricerca di mercato, i cui risultati sono raccolti nella tabella riportata in basso a sinistra in
gura 7, ha permesso di determinare la frequenza con cui gli gli acquirenti appartenenti a
cinque diverse fasce detà acquistano una versione o laltra. Si conoscono inoltre le dimensioni
Figura 7: Tabelle relative allesempio 2.9: consistenza relativa delle fasce detà (in alto), risul-
tati della ricerca di mercato (in basso a sinistra) e probabilità di fascia detà dellaquirente
per tipo di prodotto, calcolate con la formula di Bayes (in basso a destra).
F
1
(20 32) F
2
(33 45) F
3
(46 58) F
4
(59 71) F
5
( > 72)
P(F
i
) 25% 22% 20% 18% 15%
P(A[F
i
) P(B[F
i
) P(C[F
i
) P(D[F
i
)
F
1
37% 19% 11% 4%
F
2
25% 31% 24% 11%
F
3
18% 22% 31% 23%
F
4
12% 16% 19% 34%
F
5
8% 12% 15% 28%
F
1
F
2
F
3
F
4
F
5
A 43% 25% 17% 10% 6%
B 23% 33% 21% 14% 9%
C 14% 27% 31% 17% 11%
D 5% 13% 25% 33% 23%
relative delle fasce detà, che possono essere espresse in termini delle probabilità P(F
i
) che
un individuo di almeno ventanni, scelto a caso, appartenga alla fascia F
i
(gura 7, tabella
in alto). Utilizzando questi dati si possono calcolare, con la formula di Bayes, le probabilità
P(A[F
i
), P(B[F
i
) eccetera che lacquisto di un dato tipo di prodotto sia stato fatto da un
appartenente alle varie fasce detà. Ad esempio, la probabilità che lacquisto di un prodotto
di tipo C sia stato fatto da un individuo di età compresa tra i 33 e i 45 anni (seconda fascia)
è
P(F
2
[C) =
P(F
2
) P(C[F
2
)
5
j=1
P(F
j
) P(C[F
j
)
= 0.27 .
I risultati di calcoli analoghi per tutti i tipi di prodotto e per tutte le fasce detà sono riportati
nella tabella in basso a destra di gura 7, con unapprossimazione di due cifre decimali (la
somma di ciascuna riga può non venire esattamente 1).
`
A
2.6 Indipendenza
Denizione 2.4 Sia (, E, P) uno spazio di probabilità. Due eventi E, F E si dicono
indipendenti
2.21
se
P(E F) = P(E) P(F) .
Dalla denizione di probabilità condizionale segue allora subito che, se E, F E sono
indipendenti, si ha P(E[F) = P(E) e P(F[E) = P(F) . In termini discorsivi, il fatto che F
si sia vericato non modica la probabilità del vericarsi di E (e viceversa): se abbiamo
linformazione che F si è vericato, ciò non ci consente di migliorare le nostre previsoni
riguardo ad E .
Un esempio usuale di eventi indipendenti è dato dallesperimento due lanci di una mo-
neta, che tratteremo in dettaglio nel 3: è intuitivo che il risultato del secondo lancio è
indipendente dal risultato del primo, in quanto la moneta non ricorda niente e non può
essere inuenzata dalle esperienze precedenti (vericheremo poi formalmente lindipendenza
degli eventi suddetti nellambito del modello probabilistico),
Meno intuitiva, almeno per alcuni, è la nozione che il risultato di unestrazione del lotto
sia indipendente dai risultati precedenti.
Pi` u in generale:
Denizione 2.5 Gli eventi di una famiglia F E sono detti due a due indipendenti se
P(E F) = P(E) P(F) per ogni coppia di eventi E, F F . Pi` u in generale, gli eventi di F
sono detti indipendenti se per ogni sottofamiglia nita E
i
F , i N
n
, si ha
P
_
n
i=1
E
i
_
=
n
i=1
P(E
i
) .
Gli eventi di una famiglia possono essere indipendenti due a due, ma non indipendenti nel
senso pi` u ampio. Per esempio si consideri lesperimento lancio di un dado regolare con 4 facce
(tetraedro), con = 1, 2, 3, 4 , e la famiglia costituita dagli eventi E
1
= 1, 4 , E
2
= 2, 4 ,
E
3
= 3, 4 .
`
E immediato allora vericare che gli E
i
sono due a due indipendenti; infatti
P(E
i
) = 1/2 , e lintersezione di due distinti di essi è 4 che ha probabilità 1/4 ; tuttavia
P(E
1
E
2
E
3
) = P(4) =
1
4
,=
1
8
= P(E
1
) P(E
2
) P(E
3
) .
2.21
Questa nozione di indipendenza stocastica non va confusa con quella di indipendenza lineare tra elementi
di uno spazio vettoriale. Sono nozioni che non hanno niente a che fare luna con laltra.
23
3 Schema di Bernoulli
Da qui in poi è necessario conoscere le nozioni basilari di calcolo combinatorio (A).
3.1 Testa o croce
In Italiano si dice testa o croce anche se la croce non è pi` u riportata nelle monete attuali.
Le espressioni equivalenti in altre lingue sono dierenti.
3.1
Allora potremmo semplicemente
contrassegnare le due facce di una moneta con i numeri 0 e 1 (magari intendendo alloccorrenza
0 = testa). Pertanto nellesperimento lancio di una moneta lo spazio dei campioni è
= 0, 1 .
Poiche siamo nel caso discreto, la famiglia E di tutti i sottoinsiemi misurabili coincide con la
famiglia P() di tutti i sottoinsiemi di . Per questo particolare esempio è facile elencare
esplicitamente tali sottoinsiemi; si ha
P() =
_
, 0, 1, 0, 1
_
.
Di regola, se la moneta non è truccata, si ha P(0) = P(1) = 1/2 . Altrimenti, in generale,
si può avere P(0) = p [0, 1] e quindi la probabilità completa è data da
P() = 0 , P(0) p
0
= p , P(1) p
1
= 1 p , P(0, 1) = p
0
+p
1
= 1 .
3.2 Due lanci
Consideriamo ora lesperimento due lanci di una moneta; si ha
=
_
(0, 0), (0, 1), (1, 0), (1, 1)
_
,
ovvero lo spazio dei campioni è costituito da tutte le coppie ordinate di risultati del lancio di
una moneta: il primo elemento di una coppia è il risultato del primo lancio, il secondo elemento
è il risultato del secondo lancio.
3.2
Poiche [[ = 4 , si ha [P()[ = 2
4
= 16 (per esercizio,
scrivere esplicitamente tutti i sottoinsiemi di ). La probabilità è determinata quando si
conoscono le probabilità dei singoletti. Cè un modo naturale per assegnare questa probabilità
nel caso in esame. Ragioniamo infatti come segue: se la moneta che lanciamo due volte è la
medesima che, nel lancio singolo, dà P(0) = p , allora eseguendo un gran numero di coppie
di lanci una frazione circa uguale a p di queste coppie avrà 0 come primo elemento; di queste,
una frazione circa uguale a p avrà 0 anche come secondo elemento, mentre una frazione circa
uguale a 1 p avrà 1 come secondo elemento; in maniera analoga si può ragionare per le
coppie che hanno 1 come primo elemento. Siamo quindi portati ad assegnare le probabilità
P(0, 0) = p
2
, P(0, 1) = P(1, 0) = p (1 p) , P(1, 1) = (1 p)
2
.
Si verica poi subito che P(0, 0) +P(0, 1) +P(1, 0) +P(1, 1) = 1 . In particolare, se p = 1/2
allora abbiamo ancora probabilità uniforme: P(0, 0) = P(0, 1) = P(1, 0) = P(1, 1) = 1/4 .
3.1
Roma antica: caput aut navis; in inglese: head and tail ; Germania: Kopf oder Zahl (testa o numero);
Irlanda: Heads or Harps (teste o arpe); Brasile: Cara ou Coroa (faccia o corona); Messico: Aguila o Sol
(aquila o sole); Honk Kong: testa o parola (il valore delle monete è scritto per esteso).
3.2
Si noti che la descrizione matematica è identica se lesperimento consiste invece nel lancio contemporaneo
di due monete (purche le monete rimangano sempre distinguibili).
24 3 SCHEMA DI BERNOULLI
Il ragionamento che ci ha portato ad assegnare le probabilità per gli atomi di si basa in
sostanza sulla nozione che il risultato del secondo lancio non dipende dal risultato del primo.
In eetti se E
1
ed E
2
sono gli eventi caratterizzabili rispettivamente come viene 0 al primo
lancio e viene 0 al secondo lancio, allora
E
1
= (0, 0), (0, 1) , E
2
= (0, 0), (1, 0) ,
che sono risultano formalmente indipendenti in quanto
P(E
1
) = P(E
2
) = p
2
+p (1 p) = p , P(E
1
E
2
) = P(0, 0) = p
2
= P(E
1
) P(E
2
) .
3.3 n lanci
Lesperimento n lanci di una moneta è anche detto schema di Bernoulli. Lo spazio dei
campioni è linsieme di tutte le n-uple di elementi in 0, 1 . Utilizzando la notazione e la
terminologia dellAppendice A (Nozioni basilari di calcolo combinatorio), può essere visto
come linsieme di tutte le liste di n elementi di 0, 1 , cioè come linsieme D
2
n
di tutte le
applicazioni N
n
0, 1 . Tale insieme ha cardinalità 2
n
; quindi se la probabilità è uniforme
in 0, 1 , cioè se in ciasun lancio si ha P(0) = P(1) = 1/2 , allora è uniforme anche nel
caso in esame, e la probabilità di ciascuna successione di n elementi in 0, 1 è pari a 2
n
. In
generale, se P(0) = p si ha
P(E) = p
k
(1 p)
nk
,
dove k è il numero di volte in cui lelemento 0 è presente nella successione E (e nk è il
numero di volte in cui in E compare lelemento 1).
Osservazione. Il fatto che tutte le successioni di n lanci abbiano la medesima probabi-
lità (limitandoci al caso di probabilità uniforme) dà luogo a un apparente paradosso, cioè a
uno di quei risultati non intuitivi che si incontrano di frequente in teoria della probabilità.
Consideriamo le due seguenti successioni
3.3
di n = 50 lanci di una moneta:
10011011001011000110010000100010100011101011110110 ,
00000000000000000000000000000000000000000000000000 .
La prima successione non ci colpisce in alcun modo particolare, ci appare cioè come un risultato
perfettamente plausibile di una successione di 50 lanci (in eetti è stata ottenuta simulando
i lanci al computer). La seconda non ci sembra altrettanto plausibile, perche corrisponde alla
situazione in cui lanciando 50 volte la moneta si ottiene sempre testa: se uno si trovasse
materialmente in una situazione del genere penserebbe subito impossibile, cè un trucco
da qualche parte. Eppure, le due successioni di risultati hanno esattamente la medesima
probabilità
2
50
=
1
112 589 990 6842 624
= 10
15
.
Ciò signica che se prima di eseguire i lanci avessi scritto la prima successione su un foglio
di carta, e poi il risultato fosse stato proprio quello, chi assiste allesperimento avrebbe avuto
tutto il diritto di pensare che sono un mago, o comunque di essere altrettanto meravigliato
che nel caso in cui fosse uscito sempre testa (ritorneremo in seguito su questo apparente
paradosso).
3.3
Da qui in avanti utilizziamo di solito labbreviazione 10011011 per (1, 0, 0, 1, 1, 0, 1, 1) , eccetera.
3.4 Legge binomiale 25
3.4 Legge binomiale
Sempre nellambito dello schema di Bernoulli, con P(0) = p ,= 1/2 in generale, ci chiediamo
qualè la probabilità di ottenere k volte testa in n lanci (k n). Sia allora linsieme di tutte
le liste N
n
0, 1 e A
n,k
levento costituito da tutte quelle liste di che contengono
esattamente k volte lelemento 0 ; si ottiene
P(A
n,k
) =
_
n
k
_
p
k
(1 p)
nk
.
Infatti, come si è visto poco prima, ciascuna successione di n lanci in cui compare k volte il
risultato testa ha probabilità p
k
(1 p)
nk
; e queste successioni sono in numero di (
n
k
) ,
tanti quanti sono i sottoinsiemi di cardinalità k di un insieme di cardinalità n.
Verichiamo che ciò è in accordo con lassioma P() = 1 :
P() =
n
k=0
P(A
n,k
) =
n
k=0
_
n
k
_
p
k
(1 p)
nk
=
_
p + (1p)
_
n
= 1
n
= 1 .
La legge di probabilità P(A
n,k
) = (
n
k
) p
k
(1 p)
nk
è detta legge binomiale, e si indica
con B[n, p](k) .
3.5 Legge di Poisson
Supponiamo di avere ancora a che fare con un esperimento che rientra nello schema di Bernoul-
li, e nel quale pertanto la probabilità di k successi in n lanci sia data dalla legge binomiale
B[n, p](k) ; ma ora consideriamo il caso in cui la probabilità p di successo in un singolo lancio
sia molto piccola, e il numero di lanci molto grande. Poniamo allora p = /n, dove R
+
è
un numero ssato, e vediamo
3.4
che al crescere di n, con k N ssato, si ha
B
_
n,

n
_
(k)
1
k!
e
1
k!
e
p n
(p n)
k
.
Consideriamo lo spazio dei campioni = 0 N (0, 1, 2, 3, . . . ) . Si vede allora che la
legge di Poisson
p
(k) P
(k) =
1
k!
e
k
denisce una probabilità su . In eetti
k=0
p
(k) = e
k=0
k
k!
= e
= 1 .
3.4
Per vericare questa uguaglianza asintotica utilizziamo la nota formula di Stirling n!
2 n(n/e)
n
.
Abbiamo quindi
B
_
n,

n
_
(k) =
_
n
k
_
_
n
_
k
_
1

n
_
nk
=
n!
k! (n k)!
k
n
k
_
1

n
_
n
_
1

n
_
k

2n(
n
e
)
n
_
2(nk) (
nk
e
)
nk
k
e
k! n
k
=
_
n
n k
_
n
n k
_
n
_
n k
e
_
k
k
e
k! n
k

_
1
1
k
n
_
n
_
n k
e n
_
k
k
e
k!

1
e
k
_
1
e
_
k
k
e
k!
=

k
e
k!
.
La legge di Poisson può essere considerata unapprossimazione della legge binomiale nel senso
detto prima. Aveva una sua particolare importanza soprattutto quando gli strumenti di calcolo
erano primitivi rispetto alle possibilità attuali, per cui rapporti di interi molto grandi, come
n!/(nk)! per n grande, erano ardui da trattare.
Figura 8: Confronto tra il graco (pi` u marcato) della legge di Poisson p
(k) e i graci della

legge binomiale B[n, /n](k) , per = 1 e per n = 2, 3, 4, 8 (a sinistra) e n = 10, 20 (a destra).
Le funzioni rappresentate sono estese a valori reali positivi dellargomento k mediante la
funzione di Eulero (6.6).
1 2 3 4 5 6
0.1
0.2
0.3
0.4
0.5
1 2 3 4 5 6
0.1
0.2
0.3
0.4
Per fare un esempio di utilizzo della legge di Poisson consideriamo il seguente problema:
in un impasto per 500 biscotti alluvetta vengono inseriti 600 acini. Qualè la probabilità che
in un biscotto scelto a caso vi siano k acini? Il numero di acini in un dato biscotto può es-
sere visto come il risultato di 600 prove di Bernoulli con probabilità di successo p = 1/500
in ciascuna prova (è come se si lanciasse 600 volte una moneta, con probabilità p = 1/500
che venga testa, e ci si chiedesse qualè la probabilità P(k) che venga testa k volte).
Dunque P(k) = B[600, 1/500](k) , ma possiamo anche utilizzare lapprossimazione di Poisson
P(k) = p
(k) con = np = 6/5 . Confrontando i valori dati dalla legge binomiale e da quella
di Poisson troviamo, fermandoci alla quarta cifra decimale,
k 0 1 2 3 4 5 6 7 8
binomiale 0.3008 0.3617 0.2171 0.0867 0.0259 0.0061 0.0012 0.0002 0.0000
Poisson 0.3012 0.3614 0.2169 0.0867 0.0260 0.0062 0.0012 0.0002 0.0000
(dove le probabilità dellultima colonna non sono esattamente zero, ma minori di 0.00005 ; ana-
logamente, le dierenze tra le probabilità della terzultima e penultima colonna sono inferiori
a tale valore).
Un esempio meno frivolo: un terrorista si nasconde in un paese di 100 case. Se si sganciano
a caso 400 bombe sul paese, quante sono le probabilità che la casa del terrorista venga colpita
k volte? La risposta è B[400, 1/100](k) oppure, con lapprossimazione di Poisson, p
(k) dove
= 4 .
3.6 Lanci no a che...
Consideriamo ora lesperimento lancio di una moneta nche non venga testa, limitandoci per
il momento al caso in cui la probabilit` a è uniforme. Pi` u precisamente, lesperimento consiste
in questo: si lancia la moneta una prima volta, e se viene testa (0) lesperimento è nito;
3.6 Lanci no a che... 27
altrimenti si lancia la moneta una seconda volta, e lesperimento è nito se viene testa ; e cos`
via. Lo spazio dei campioni è quindi
=
_
0, 10, 110, 1110, . . .
_
,
cioè è costituito da tutte le successioni a valori in 0, 1 , di lunghezza arbitraria, i cui
termini sono tutti 1 tranne lultimo. Si tratta quindi di un insieme di cardinalità innita (ma
pur sempre numerabile, cioè siamo ancora nel caso discreto).
Per assegnare la probabilità in questo caso ragioniamo come segue: se eettuo lesperimento
un gran numero di volte, circa nella metà dei casi verrà testa subito al primo lancio; della
parte restante dei risultati, in circa la metà dei casi verrà testa al lancio successivo; e cos` via.
Siamo quindi indotti naturalmente a porre
P(0) =
1
2
; P(10) =
1
4
; P(110) =
1
8
; . . . P( 11 . . . 1
. .
n1 volte
0) =
1
2
n
.
In eetti si ha
P() =
n=1
1
2
n
=
1
1
1
2
1 = 1 ,
come somma di una serie geometrica
3.5
di ragione 1/2 . Da questo esempio si vede anche come
la proprietà della -additività sia necessaria in generale.
Consideriamo ancora lesperimento lancio di una moneta nche non venga testa (0), ma
ora con P(0) = p , P(1) = 1 p , e ragioniamo in maniera simile a prima. Se lesperimento
viene eseguito un gran numero N di volte, circa p N volte verrà testa al primo lancio; in circa
una frazione p delle restanti (1 p) N volte, quindi circa p (1 p) N volte, verrà testa al
secondo lancio; e cos` via. Dunque assegnamo la probabilità p (1 p)
n1
allelemento n-esimo
nella successione che costituisce linsieme dei campioni. Si ha
P() =
n=1
p (1 p)
n1
= p
k=0
(1 p)
k
= p
1
1 (1 p)
= 1 .
La distribuzione g[p](k) := p (1 p)
k
è detta distribuzione geometrica (vedi anche 6.3).
Osserviamo che si può ottenere lo stesso risultato ragionando in maniera complementare:
la probabilità che non venga testa nei primi n1 lanci è (1 p)
n1
, quindi la probabilità che
lesperimento termini al lancio n-esimo è p (1 p)
n1
.
Questi risultati permettono di rispondere alla seguente domanda: quante volte è necessario
lanciare una moneta perche la probabilità dellevento esce almeno una volta testa abbia un
certo valore s pressato? Se p (1 p)
n1
è la probabilità che esca testa alln-esimo lancio, la
probabilità dellevento esce testa entro lh-esimo lancio, con h N, è la somma nita (vedi
nota 3.5 a piè di pagina)
h
n=1
p (1 p)
n1
= p
h1
m=0
(1 p)
m
= p
1 (1 p)
h
1 (1 p)
=
= 1 (1 p)
h
.
3.5
Se q = 1 è un numero reale o complesso, si ha
h
n=0
q
n
=
1q
h+1
1q
, come si pu` o vericare immediata-
mente svolgendo il prodotto (1+q+q
2
+ +q
h
) (1 q) . Se poi |q| < 1 allora q
h+1
0 per h e quindi
n=0
q
n
=
1
1q
.
Se richiediamo che questa probabilità sia uguale ad s , con semplici passaggi algebrici si ricava
h =
log(1 s)
log(1 p)
.
Oviamente da questa formula non si ricaverà in generale un numero intero; ma trattandosi
di una funzione crescente possiamo aermare che la probabilità di ottenere almeno una volta
testa è > s per h pari al pi` u piccolo intero maggiore del numero ricavato dalla formula. In
particolare, per esempio, la probabilità di ottenere almeno una volta testa in h lanci è almeno
1/2 per h log(2)/[ log(1 p)[ .
Esempio 3.1. Come applicazione delle considerazioni precedenti poniamoci la seguente do-
manda: quante volte è necessario eettuare lesperimento k lanci di una moneta regolare
perche la probabilità di ottenere almeno una volta il risultato k volte testa sia almeno s ? La
questione è equivalente alla seguente: se nel lancio di una moneta non regolare la probabilità
di ottenere testa è 1/2
k
, quante volte è necessario lanciarla perche la probabilità di ottenere
un dato risultato sia almeno s ? (Ancora equivalentemente: abbiamo un dado regolare con
N = 2
k
facce; quante volte è necessario lanciarlo perche la probabilità di ottenere un dato
risultato sia almeno s ?)
Utilizzando la formula sopra trovata si ha che il numero cercato è il pi` u piccolo intero h
non inferiore a log(1 s)/ log(1 2
k
) . Per s = 1/2 e k = 10 tale espressione è

= 709.436 ,
e in eetti
1 (1 2
10
)
710

= 0.500275 .
Ciò vuol dire che se facciamo 710 volte lesperimento 10 lanci di una moneta abbiamo una
probabilità di circa il 50% di ottenere almeno una volta una successione 10 volte testa.
Per controllare se il risultato torna, visto che il computer non si lamenta, gli do il seguente
compito: eseguire 1000 volte lesperimento 710 serie di 10 lanci di una moneta, e vedere in
quante di queste 1000 volte si è ottenuta almeno una volta una successione di 10 teste; anzi,
visto che ci sono gli faccio eseguire pi` u volte la serie di 1000 esperimenti. Ottengo
484, 520, 480, 517, 509, 525, 482, 496, 516, 481, 519, 495, 511, . . .
Insomma sembra proprio che il nostro calcolo sia confermato. Conclusione pi` u generale: se si
ripete una successione di k lanci un numero suciente di volte, non è poi cos` strano che a un
certo punto appaia k volte di seguito lo stesso risultato.
Esempio 3.2. Uno studente vuole provare a dare un esame senza avere studiato. Supponendo
che la probabilità di promozione in una singola prova sia dell1%, quante volte deve tentare
perche la probabilità di promozione sia del 50%?
In sostanza lo studente sta lanciando una moneta sperando che esca testa, evento che però
ha probabilità pari a 1/100 solamente (equivalentemente, lancia un dado regolare con 100
facce, sperando che esca un dato numero). Dobbiamo dunque determinare il pi` u piccolo intero
h log(2)/[ log(.99)[ , che risulta essere h = 69 : con cinque appelli lanno, ci vogliono 14 anni
prima di raggiungere una probabilità del 50% di superamento dellesame (e 230 tentativi, cioè
46 anni, per una probabilità del 90%; da qui la frequente richiesta di pi` u appelli).
3.7 Lanci di un dado
Nella sostanza, lesperimento k lanci di un dado non è molto dierente dai k lanci di una
moneta: rientra nelle k estrazioni di n oggetti con rimpiazzo. Per la moneta si ha n = 2 ,
3.8 Decadimento radioattivo 29
per il dado n = 6 , per il mazzo di carte n = 40 , e cos` via. Facciamo alcune osservazioni sul
caso di un dado usuale,
3.6
sarà facile generalizzarle.
Lo spazio dei campioni è costituito da tutte le successioni di k elementi dellinsieme
1, 2, 3, 4, 5, 6 . Dunque [[ = 6
k
e, limitandoci al caso della probabilità uniforme, ciascuna
di esse ha probabilità 6
k
.
Vogliamo ora considerare, per il dado, un esperimento simile a quello dellultimo esempio
per la moneta: lanciamo il dado nche non viene 6 . Ovviamente, anche qui ha cardinalità
innita.
`
E immediato scrivere gli elementi di lunghezza non superiore a due:
= 6 , 16 , 26 , 36 , 46 , 56 , . . . ,
dove al solito 16 sta per (1, 6) eccetera. Gli elementi di lunghezza uguale a 3 hanno un 6 allul-
timo posto, e ai primi due posti hanno una qualunque successione di elementi in 1, 2, 3, 4, 5 ;
dunque sono 5
2
= 25 . Analogamente gli elementi di lunghezza 3 sono in numero di 5
3
= 125 , e
cos` via. Vediamo ora quale probabilità assegnare a ciascuno di questi atomi di . Ragionando
in maniera analoga alla successione di lanci di una moneta troviamo che: il primo elemento
della lista, costituito dal solo risultato 6 , ha evidentemente probabilità pari a 1/6 ; ciascuno
degli elementi di lunghezza pari a due ha probabilità 1/6
2
; e cos` via, a ciascuno dei 5
i1
elementi di lunghezza pari a i corrisponde probabilità pari a 1/6
i
. La probabilità di ottenere
6 al lancio i-esimo è 5
i1
/6
i
. Per controllare la giustezza delle nostre conclusioni calcoliamo
P() =
i=1
5
i1
6
i
=
i=0
5
i
6
i+1
=
1
6
i=0
5
i
6
i
=
1
6

1
1
5
6
= 1 .
Analogamente, in generale, se si ha un dado con n facce, e probabilità uniforme, la proba-
bilità di ottenere un dato risultato al lancio i-esimo è (n1)
i1
/n
i
. Si osservi che lesperimento
n lanci di un dado a 6 facce è equivalente allesperimento che potremmo denominare lancio
di un dado con 6
n
facce. Similmente, lesperimento n lanci di una moneta è equivalente a
lancio di un dado con 2
n
facce.
Inoltre, il lancio di una moneta con P(0) = p = r/s Q (r, s N) può essere visto come
il lancio di un dado regolare con s facce in cui il risultato testa corrisponde alluscita di un
numero tra 1 e r .
3.8 Decadimento radioattivo
Abbiamo già accennato (1.1) alla questione del decadimento radioattivo. Gli esempi pratici
di questo tipo di fenomeno sono innumerevoli, ma a noi interessa pi` u che altro la descrizione
matematica generale. Abbiamo un sistema quantistico che si trova in uno stato corrispondente
a un minimo locale dellenergia potenziale. Il pi` u semplice esempio classico di tale situazione
3.6
Esistono dadi aventi la forma di solidi dierenti dal cubo, e con un numero dierente di facce (tetraedro,
dodecaedro, eccetera).
è ilustrato nella gura:
che rappresenta un punto materiale vincolato a una guida liscia in un piano verticale. Il punto
si trova in una congurazione tale che, se la sua energia cinetica è abbastanza piccola, non
può uscire dal pozzo in cui si trova. Nel caso di un sistema quantistico che possa essere
descritto in termini analoghi la sica è invece molto diversa. La particella (per esempio un
elettrone) annusa i dintorni del pozzo e a un certo punto può decidere che può prendere in
prestito un po di energia per poi restituirla una volta uscita; quindi ce la possiamo ritrovare
fuori (si parla anche di eetto tunnel). Il bello poi è che, per quanto accurata e completa
sia la nostra conoscenza del sistema in esame, non siamo assolutamente in grado di prevedere
quando (e se) la particella uscirà.
Un nucleo atomico è un sistema molto pi` u complicato, ma il principio di fondo del decadi-
mento radioattivo è quello ora esposto. Per poter decadere, cioè spaccarsi in due o pi` u parti,
il nucleo ha bisogno di un po di energia, in quanto le parti sono tenute insieme da forze che
devono essere vinte; tuttavia una volta che si è rotto può restituire la suddetta energia con gli
interessi.
Vogliamo quindi formulare un modello probabilistico che descriva tale situazione, che per-
metta cioè di dire qualè la probabilit` a che latomo si rompa in un dato intervallo di tempo.
`
E chiaro che si deve trattare di una probabilità nel continuo. Tuttavia possiamo dare una
prima approssimazione discreta del modello probabilistico dellesperimento. Scegliamo una
misura t di intervallo di tempo (per esempio un secondo, un minuto, unora) e controlliamo
con frequenza 1/t se latomo si è rotto oppure no (quindi se t = 1 secondo controlliamo
ogni secondo, se t = 1 minuto controlliamo ogni minuto, e cos` via). Ora se ammettiamo
(come in eetti risulta dai dati sperimentali) che il processo sia privo di memoria, cioè che la
decisione dellatomo di decadere o no non dipenda dal tempo in cui è già esistito, o durante
il quale labbiamo osservato, dovrebbe essere evidente che tale processo, nellapprossimazione
discreta, può essere descritto mediante un modello probabilistico che è identico a uno schema
di Bernoulli. Infatti possiamo vederlo come il lancio di una moneta con frequenza 1/t : se
viene testa latomo decade, altrimenti no. Lunico dato del modello è la probabilità p che la
transizione avvenga in un intervallo di tempo t ; dunque la probabilità che la transizione
avvenga nellintervallo di tempo [t, t + t] = [(n1) t , nt] , dove t (n1) t , è
P[t, t + t] = p (1 p)
n1
= p (1 p)
t/t
.
Il graco della gura 9 va letto solo nel discreto, per valori interi di n = t/t , tuttavia
suggerisce una lettura nel continuo.
`
E naturale allora supporre che lesperimento osservazione
3.8 Decadimento radioattivo 31
Figura 9: Graco di P[t, t + t] in funzione di n = t/t , per p = 0.01 e t = 0.1
10 20 30 40
0.002
0.004
0.006
0.008
0.010
dellistante in cui latomo decade possa essere descritto mediante una densità di probabilità
del tipo
3.7
f(t) =
1
e
t/
,
da intendersi in questo senso: f(t) dt è la probabilità che il decadimento avvenga nellintervallo
[t, t+dt] , essendo t = 0 listante in cui si iniziano le osservazioni. Allora se t è un tempo
abbastanza piccolo si avrà P[t, t + t]

= f(t) t ; facendo il confronto tra descrizione discreta
e continua si ottiene quindi
p (1 p)
t/t

=
1
e
t/
t
p
t
e
(t/t) log(1p)

=
1
e
t/
p
t
e
p t/t

=
1
e
t/
dove si è utilizzata lapprosimazione log(1 p)

= p (sviluppo in serie di Taylor al primordine
per p piccolo). La corrispondenza (tra la descrizione discreta e quella nel continuo data dalla
f) funziona quindi se si fa lidenticazione = t/p .
Cè unaltro modo in cui si può guardare alla questione del decadimento radioattivo.
Supponiamo di avere alcuni grammi di una sostanza radioattiva. Questa massa contiene un
numero enorme N di atomi.
3.8
Chiediamoci qualè la probabilità che, al tempo t , k di questi
atomi siano decaduti. Ciò vuol dire ripetere N volte lesperimento osservazione dellatomo
per un tempo t, con spazio dei campioni
t
= 0, 1 dove levento 1 corrisponde a latomo
è decaduto e levento 0 corrisponde a latomo non è decaduto, e con
p
t
(1) = P[0, t] =
_
t
0
f(t
) dt
= 1 e
t/
;
e la risposta alla nostra questione è data dalla probabilità di ottenere k successi in N lanci di
uno schema di Bernoulli, con probabilità di successo p
t
(1) in ogni lancio. Tale probabilità è
B
_
N, p
t
(1)
_
(k) =
_
N
k
_
(1 e
t/
)
k
(e
t/
)
Nk

=
1
k!
e
k
, (1 e
t/
) N ,
dove si è utilizzata lapprossimazione mediante la legge di Poisson.
In seguito ci porremo ulteriori domande riguardo a questo esperimento (esempio 5.4).
3.7
`
E immediato vericare che
_
0
f(t) = 1 .
3.8
Per esempio, 235 grammi di uranio-235 contengono 6.0221415 10
23
atomi (numero di Avogadro).
3.9 Distribuzione multinomiale
Consideriamo un dado con N facce e probabilità non uniforme: per lesperimento un lancio
del dado si ha allora lo spazio dei campioni = N
N
1, 2, . . . , N , e la distribuzione di
probabilità è data da
P(i) = p
i
,
N
i=1
p
i
= 1 , i .
Lo spazio dei campioni dellesperimento n lanci del dado è il prodotto cartesiano
k

. .
n volte
,
la cui cardinalità è [
n
[ = N
n
.
Sia (
1
, . . . ,
n
)
n
, con
i
. La probabilità su
n
è denita assegnando la
sua distribuzione, cioè la funzione
p :
n
[0, 1] : p() = P() ,
che è data da
p() = P
(
1
) P
(
2
) P
(
n
) .
Se in
n
compare k
1
volte lelemento 1 N
N
, k
2
volte lelemento 2 eccetera, con
N
i=1
k
i
= n ,
allora
P() = (p
1
)
k
1
(p
2
)
k
2
(p
N
)
k
N
(si osservi poi che alcuni dei k
i
possono essere nulli).
Daltro canto, il numero di elementi di
n
(cioè di liste di n elementi di ) che contengono
k
1
volte lelemento 1 , k
2
volte lelemento 2 ,. . . k
N
volte lelemento N , con
N
i=1
k
i
= n, è
pari al numero di partizioni di un insieme di cardinalità n in sottoinsiemi di cardinalità k
i
.
Pertanto la probabilità dellevento
esce k
1
volte lelemento 1 , k
2
volte lelemento 2 , eccetera
è data da
P(k
1
, k
2
, . . . , k
N
) =
_
n
k
1
, k
2
, . . . , k
N
_
(p
1
)
k
1
(p
2
)
k
2
(p
N
)
k
N
.
Si ha allora, come devessere,
P(
n
) =
k
1
,k
2
,... ,k
N
_
n
k
1
, k
2
, . . . , k
N
_
p
k
1
1
p
k
2
2
p
k
N
N
= (p
1
+p
2
+ +p
N
)
n
= 1 .
Esempio 3.3. Si esegue lesperimento consistente nel lanciare 20 volte un dado regolare con
20 facce. Ci si chiede qualè la probabilità che escano esattamente 2 volte il numero 1 e 10
volte un numero primo (diverso da 1). Un possibile modo di ragionare consiste nel descrivere
i risultati a cui siamo interessati come provenienti dal lancio di un dado a tre facce con
distribuzione di probabilità non uniforme (anche se il dado originale a 20 facce è regolare).
3.10 Coincidenza di compleanni 33
Consideriamo infatti lo spazio del campioni = a, b, c dove i sottoinsiemi a, b, c N
20
sono
dati da
a = 1 , p
a
= 1/20 ;
b = 2, 3, 5, 7, 11, 13, 17, 19 , p
b
= 8/20 = 2/5 ;
c = 4, 6, 8, 9, 10, 12, 14, 15, 16, 18, 20 , p
c
= 11/20 .
Allora la probababilità richiesta è data da
P(k
a
, k
b
, k
c
) =
_
20
k
a
, k
b
, k
c
_
(p
a
)
ka
(p
b
)
k
b
(p
c
)
kc
,
con k
a
= 2 , k
b
= 10 , k
c
= 20k
a
k
b
= 8 , ovvero
P(k
a
, k
b
, k
c
) = 0.0182...
Proviamo a fare lesperimento (come al solito simulato al computer) 100 000 volte, e ripetiamo
questa successione di 100 000 esperimenti 10 volte. Ecco i successi che otteniamo:
1846, 1892, 1844, 1840, 1816, 1849, 1760, 1861, 1837, 1806,
ovvero un totale di 18 351 successi su un milione di prove. Sembrerebbe quindi che il nostro
calcolo sia sostanzialmente confermato.
3.10 Coincidenza di compleanni
Un classico esercizio di probabilità è il problema dei compleanni : dato un gruppo di k per-
sone prese a caso, trovare la probabilità che almeno due di esse festeggino il compleanno nel
medesimo giorno.
Possiamo pensare al problema in questi termini: si lancia k volte un dado regolare con 365
facce, qualè la probabilità dellevento A
k
: in k lanci almeno un risultato esce almeno due
volte? Per rispondere conviene calcolare la probabilità dellevento complementare A
c
k
: in k
lanci non esce mai lo stesso risultato due volte. Contiamo allora prima di tutto quante sono
le liste N
k
N
365
che non contengono alcun doppione, ovvero la cardinalità dellinsieme D
365
k
di tutte le delle disposizioni senza ripetizione (vedi Appendice A) di k elementi presi da un
insieme di 365. Si ha
[D
365
k
[ = 365 (365 1) (365 k + 1) =
365!
(365 k)!
.
Daltra parte una qualsiasi lista di k elementi di N
365
ha probabilità 1/365
k
, in quanto ci sono
in totale 365
k
liste. Pertanto P(A
c
k
) = [D
365
k
[/365
k
, e
P(A
k
) = 1
365 (365 1) (365 k + 1)
365
k
.
Il graco di P(A
k
) in funzione di k è riportato qua sotto
20 40 60 80
0.2
0.4
0.6
0.8
1.0
Guardando i valori che si ottengono ci accorgiamo di alcune cose interessanti: per esempio
P(A
k
) supera il valore 0.5 già per k = 23 , e 0.99 per k = 57 ; inoltre per k = 80 si ha
P(A
k
) = 0.999914... , insomma in una classe di 80 studenti ce ne sono quasi sicuramente
almeno due che festeggiano il compleanno nel medesimo giorno.
35
4 Variabili aleatorie
4.1 Applicazioni dallo spazio dei campioni in un insieme qualsiasi
Sia (, E, P) uno spazio di probabilità, e X : S unapplicazione a valori in un insieme
S qualsiasi. Indichiamo poi con X(E) X(E), E E la famiglia di tutte le immagini,
tramite X , dei sottoinsiemi misurabili di . Allora X(E) è una -algebra di sottoinsiemi di
X() S , che genera (si ricordi lesempio 2.3) una -algebra X P(S) . Otteniamo inoltre
una probabilità P
X
: X [0, 1] ponendo
P
X
(A) = P(
X(A)) , A X .
Una notazione comune, per quanto poco precisa, è
P
X
(A) PX A .
Un esempio di quanto sopra è quello delles.3.3, con = N
20
, S = a, b, c e
X :
_
_
1 a ,
2, 3, 5, 7, 11, 13, 17, 19 b ,
4, 6, 8, 9, 10, 12, 14, 15, 16, 18, 20 c .
Consideriamone qualcun altro.
Esempio 4.1. Sia = N
6
N
6
lo spazio dei campioni relativo allesperimento lancio di
due dadi (ovvero due lanci di un dado; qui si sta parlando di un normale dado a sei facce,
regolare). Dunque è linsieme di tutte le coppie (n
1
, n
2
) con 1 n
1
, n
2
6 ; consideriamo
lapplicazione
X : N : (n
1
, n
2
) n
1
+n
2
.
Vediamo subito che limmagine di X non è tutto N, ma il suo sottoinsieme costituito dai
numeri interi compresi tra 2 e 12 . Allora
X :
_
_
(1, 1) 2 ,
(1, 2), (2, 1) 3 ,
(1, 3), (2, 2) (3, 1) 4 ,
(1, 4), (2, 3) (3, 2) (4, 1) 5 ,
(1, 5), (2, 4) (3, 3) (4, 2) (5, 1) 6 ,
(1, 6), (2, 5) (3, 4) (4, 3) (5, 2) (6, 1) 7 ,
(2, 6), (3, 5) (4, 4) (5, 3) (6, 2) 8 ,
(3, 6), (4, 5) (5, 4) (6, 3) 9 ,
(4, 6), (5, 5) (6, 4) 10 ,
(5, 6), (6, 5) 11 ,
(6, 6) 12 .
36 4 VARIABILI ALEATORIE
Con un semplice conteggio vediamo che la distribuzione di probabilità indotta da X su
S 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 è data da
p(2) = p(12) =
1
36
, p(3) = p(11) =
1
18
, p(4) = p(10) =
1
12
,
p(5) = p(9) =
1
9
, p(6) = p(8) =
5
36
, p(7) =
1
6
.
Utilizzando questi conteggi possiamo divertirci a simulare un esperimento in cui si lanciano
i due dadi un certo numero n di volte; ma il risultato dellesperimento non è la coppia ordinata
di numeri cos` ottenuta, bens` la loro somma. Chiediamoci (per esempio) qualè la probabilità
che in una successione di 15 lanci di due dadi la somma venga 2 volte 4 , 3 volte 5 e 3 volte
9 . Ricordando quanto visto nel 3.9 vediamo che tale probabilità è data da
_
15
2, 3, 3, 7
_
[p(4)]
2
[p(5)]
3
[p(9)]
3
[1 p(4) p(5) p(9)]
7
= 0.0036676...
Eseguiamo allore lesperimento successione di quindici lanci di due dadi molte volte e ve-
diamo se la frequenza dei risultati che soddisfano alle condizioni suddette è in accordo con il
calcolo. Facciamo dieci successioni di 100 000 prove; ecco i successi che otteniamo
392, 342, 356, 346, 386, 357, 348, 377, 405, 359,
ovvero un totale di 3668 successi su un milione di prove. Il calcolo della probabilità fatto sopra
sembrerebbe confermato.
Esempio 4.2. Sia ancora = N
6
N
6
, ma ora
X : N : (n
1
, n
2
) n
1
n
2
è il prodotto dei risultati dei singoli dadi. Dunque S X() è costituito dagli elementi
presenti nella tabellina del 6:
1 2 3 4 5 6
2 4 6 8 10 12
3 6 9 12 15 18
4 8 12 16 20 24
5 10 15 20 25 30
6 12 18 24 30 36
dalla quale si vede anche la molteplicità di ciascun risultato, cioè in quanti modi diversi può
venir fuori. Un semplice conteggio dà allora immediatamente
p(1) = p(9) = p(16) = p(25) = p(36) =
1
36
, p(4) =
1
12
, p(6) = p(12) =
1
9
,
p(2) = p(3) = p(5) = p(8) = p(10) = p(15) = p(18) = p(20) = p(24) = p(30) =
1
18
.
Esperimento: una successione di 10 lanci di due dadi; chiamiamo successo levento esce 1
volta il 6, 1 volta il 9, 2 volte il 12. La probabilità di successo è
_
10
1, 1, 2, 6
_
p(6) p(9) [p(12)]
2
[1 p(6) p(9) p(12)]
6
= 0.0170898...
Eseguiamo dieci volte una successione di 100 000 esperimenti; otteniamo i successi
1721, 1785, 1722, 1699, 1809, 1709, 1625, 1714, 1711, 1698,
ovvero 17 193 successi su un milione di prove.
4.2 Variabile aleatoria 37
4.2 Variabile aleatoria
Di regola, il termine variabile aleatoria è riservato a funzioni reali X : R che soddisno la
seguente condizione: per ogni t R, la preimmagine di (, t] è un sottoinsieme misurabile
di :
X((, t]) E t R .
Non è dicile vedere che questa condizione equivale a richiedere che X sia una funzione
misurabile, cioè che la preimmagine di ogni aperto sia misurabile;
4.1
ciò signica che la -
algebra X di sottoinsiemi di R, generata da X , contiene la -algebra B(R) dei Boreliani.
Abbiamo dunque, tenendo conto delle osservazioni precedenti, lo spazio di probabilità
_
R, X, P
X
_
.
In particolare appartengono a X tutti gli intervalli, aperti e chiusi (e semi-chiusi), nonche
tutti i singoletti.
4.3 Funzione di ripartizione e densità
Si dice funzione di ripartizione una funzione F : R R che abbia le seguenti proprietà:
è non decrescente: x
> x F(x
) F(x) ;
è continua a destra:
4.2
F(x
+
) = F(x) x R;
lim
x
F(x) = 0 , lim
x+
F(x) = 1 .
Si ha allora, ovviamente,
0 F(x) 1 , x R.
Se P è una probabilità sulla famiglia M(R) dei sottoinsiemi di R misurabili secondo
Lebesgue, allora da P si ottiene una funzione di ripartizione F
P
ponendo
F
P
(x) = P((, x]) .
Infatti si dimostra
4.3
che F
P
cos` denita soddisfa le proprietà richieste. Si ha poi
4.4
4.1
Dimostriamo questa aermazione. Per prima cosa osserviamo che in generale, se A, B R, allora
X(A B) =
X(A)
X(B) : infatti
X(AB) è linsieme di tutti gli tali che X() A oppure X() B,

cioè tali che
X(A) oppure
X(B) ; analogamente
X(A B) =
X(A)
X(B) , e
X(A
c
) = (
X(A))
c
. Per-
tanto se
X(A),
X(B) E allora anche
X(A B) ,
X(A B) e (
X(A))
c
sono eventi. In particolare sono eventi,
per ogni a, b R, gli insiemi
X((a, +)) e
X((a, b]) . Sia poi (an) una successione crescente convergente a b ;

poiche sono eventi tutti gli insiemi
X((an, b]) è un evento anche la loro intersezione

nN
X((an, b]) =
X({b}) .
A questo punto è immediato vedere che tutte le preimmagini di intervalli aperti e chiusi sono eventi.
4.2
F(x
+
) è unabbreviazione per lim
tx
+ F(t) .
4.3
La propriet` a di essere non decrescente è ovvia. Riguardo alla continuit` a a destra, è suciente dimostrare
che F(xn) F(x) per ogni successione decrescente xn x. Posto allora En = (, xn] , gli En costituiscono
una successione decrescente, da cui (teorema 2.1) limn F(xn) limn P(En) = P(E) , dove E nEn , e la tesi
segue dal fatto che E = (, x] per cui P(E) = F(x) .
Per dimostrare che limxF(x) = 0 facciamo vedere che F
P
(xn) 0 dove (xn) è una qualsiasi successione
decrescente a . Si ha F
P
(xn) = P(En) , dove En = (, xn] , e
nN
En = ; dal teorema 2.1 si ha pertanto
P(En) P() = 0 . Laltro limite si dimostra in maniera analoga.
4.4
La prima segue subito da (, a] (, b] e da (, b] \ (, a] = (a, b] . Si ottiene allora la seconda
considerando una successione crescente xn x e P((xn, x]) = F(x) F(xn) .
P((a, b]) = F
P
(b) F
P
(a) , a < b R;
P(x) = F
P
(x) F
P
(x
) ;
P((a, b)) = P((a, b]) P(b) = F
P
(b
) F
P
(a) , a < b R.
In particolare, se F
P
è continua si ha P(x) = 0 x R: ogni singoletto ha probabilità nulla.
Supponiamo ora che P ammetta una densità, cioè che esista una funzione integrabile
p : R [0, ) tale che per ogni sottoinsieme misurabile (secondo Lebesgue) A R si abbia
P(A) =
_
A
p .
Allora si ha, in particolare,
F
P
(x) =
_
x
p(t)dt ,
P([a, b]) = F
P
(b) F
P
(a) =
_
b
a
p(x) dx .
Osservazione. Se la probabilità P proviene da una densità p , la funzione di ripartizione F
P
è
una primitiva di p e, necessariamente, è una funzione assolutamente continua.
4.5
Daltra parte,
una probabilità può non ammettere densità; pertanto una generica funzione di ripartizione
F può non ammettere densità (nonostante che la monotonia implichi la derivabilità quasi
ovunque). Se F è assolutamente continua allora ammette densità. Si osservi inoltre che, anche
se P non ammette densità nel senso delle funzioni ordinarie, è possibile tuttavia parlare di
densità come distribuzione (2.4) , come si vede dagli esempi 4.3 e successivi.
Siano poi (, E, P) uno spazio di probabilità e X : R una variabile aleatoria. Detta
P
X
la probabilità indotta da X , e F
X
: R [0, 1] la funzione di ripartizione di P
X
, si ha
evidentemente
F
X
(x) = P
_
X(, x]
_
.
Diremo che X è assolutamente continua se F
X
è assolutamente continua; ciò equivale a
dire che F
X
ammette densità (come funzione ordinaria). In ogni caso, se p p
X
è la densità
di P
X
(anche come distribuzione), si usa scrivere
X p ,
e si dice che p è la legge di X .
Osservazione. Una questione non banale è: quali sono i sottoinsiemi A R tali che P
X
(A) =
_
A
p
X
. In generale non tutti i sottoinsiemi A M(R) hanno questa proprietà; tuttavia si
può vedere che non ci sono complicazioni per sottoinsiemi ragionevoli e variabili aleatorie
ragionevoli.
Esempio 4.3. Consideriamo una variabile aleatoria su uno spazio di probabilità discreto:
lesperimento lancio di un dado e la variabile aleatoria X : R denita dalla semplice
4.5
Lassoluta continuit` a è una condizione pi` u forte della continuit` a (per la denizione formale si veda lAp-
pendice C.1). Una funzione che abbia tale propriet` a è necessariamente derivabile quasi ovunque ed è primitiva
della sua derivata.
4.3 Funzione di ripartizione e densità 39
inclusione N
6
R. Sia A R; allora P
X
(A) ,= 0 se e solo se A N
6
,= , pi` u precisamente
P
X
(A) = [A N
6
[ . Questa probabilità è associata alla funzione di ripartizione
F
X
(t) =
_
_
0 , t < 1 ,
1/6 , 1 t < 2 ,
1/3 , 2 t < 3 ,
1/2 , 3 t < 4 ,
2/3 , 4 t < 5 ,
5/6 , 5 t < 6 ,
1 , 6 t ,
il cui graco è disegnato qua sotto:
2 2 4 6 8
0.2
0.4
0.6
0.8
1.0
Si noti che a questa funzione di riprtizione non è associata una densità, almeno come funzione
ordinaria: la densità qui è una distribuzione o funzione generalizzata (2.4), che può essere
scritta in termini della delta di Dirac come
p(x) =
1
6
6
i=1
i
(x) =
1
6
6
i=1
(x i) ,
dove
0
e
i
(x) = (x i) . Ricordando che
i
= H
i
, dove H
i
è la funzione scalino in i ,
possiamo anche scrivere la funzione di ripartizione nella forma
F
X
(x) =
1
6
6
i=1
H
i
(x) =
1
6
_
H
1
(x) +H
2
(x) +H
3
(x) +H
4
(x) +H
5
(x) +H
6
(x)
Esempio 4.4. Nellesperimento lancio di due dadi consideriamo la variabile aleatoria X :

(n
1
, n
2
) n
1
+n
2
, come nellesempio 4.1, ma ora vediamo X come avente valori in R (invece
che nellinsieme 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 N). La funzione di ripartizione ha anche qui
un graco a gradini:
5 10 15
0.2
0.4
0.6
0.8
1.0
Esempio 4.5. Nellesperimento lancio di due dadi consideriamo la variabile aleatoria X :

(n
1
, n
2
) n
1
n
2
, come nellesempio 4.2. Allora F
X
ha il graco
10 20 30 40
0.2
0.4
0.6
0.8
1.0
Esempio 4.6. Una scatola contiene tre palline rosse e tre palline nere; si estrae a caso una
pallina alla volta, se è rossa viene rimesse nella scatola e se è nera viene lasciata fuori. Sia poi
S la variabile aleatoria numero di estrazioni necessarie per togliere tutte le palline nere; si
chiede di calcolare P3 S 4 .
Proviamo a descrivere lo spazio dei campioni, anche se ciò non è strettamente necessario
per rispondere alla questione; anzi, come si vedrà tra poco, la soluzione può essere trovata
ragionando nellambito di spazi di probabilità diversi.
Un modo per inquadrare la questione nellambito di un esperimento preciso può essere
il seguente: si eseguono le estrazioni (seguite da un eventuale rimpiazzo) una dopo laltra,
e lesperimento termina quando non rimangono palline nere della scatola. Gli atomi sono
le successioni di valori (r, n) del numero di palline rosse e nere contenute nella scatola dopo
ciascuna estrazione (in realtà basterebbe solo n, perche r vale sempre 3). La variabile aleatoria
S dà allora la lunghezza del singolo campione. Si noti che ha cardinalità innita, in quanto
lesperimento può terminare dopo un numero arbitrariamente grande di estrazioni; tuttavia si
potrebbe anche troncare lesperimento dopo 4 estrazioni, o dopo un numero di estrazioni 4 ,
e la risposta alla domanda posta sarebbe la stessa, come risulterà chiaro dal ragionamento che
segue.
4.4 Intermezzo: alberi e gra, variazioni sul tema 41
In questo e in altri casi, in cui le pi` u comuni formule del calcolo combinatorio sarebbero di
dicile applicazione, ma al tempo stesso il numero di atomi da prendere in considerazione è
relativamente piccolo, conviene costruirsi lalbero
4.6
delle possibilità.
`
E ciò che abbiamo fatto
nella gura che segue, riportando tutti i risultati possibili dopo tre estrazioni e, di quelli
possibili dopo quattro estrazioni, solo quelli che hanno come esito n = 0 (dopo k estrazioni i
possibili risultati sono 2
k
).
(3, 3)
(3, 3) (3, 2)
1/2 1/2
(3, 3) (3, 2) (3, 2) (3, 1)
1/2
1/2
2/5
3/5
(3, 3) (3, 2) (3, 2) (3, 1) (3, 2) (3, 1) (3, 1) (3, 0)
1/2 1/2 3/5
2/5 3/5 2/5 3/4 1/4
(3, 0) (3, 0) (3, 0)
1/4 1/4 1/4
Ciascuna linea corrisponde a una possibile estrazione, ed è contrassegnata con la relativa
probabilità (dedotta in maniera ovvia). Ogni percorso a partire dalla congurazione iniziale
descrive i primi tre o quattro elementi di ciascun campione, e abbiamo qui descritti compiu-
tamente tutti i campioni di lunghezza 3 e 4. Un attimo di riessione mostra che le probabilità
di ciascuno di questi è data dal prodotto delle probabilità delle singole linee del percorso. A
questo punto la risposta alla domanda posta inizialmente è quasi immediata. Si ha infatti
PS =3 =
1
2

2
5

1
4
=
1
20
= 0.05 ,
PS =4 =
1
2

1
2

2
5

1
4
+
1
2

3
5

2
5

1
4
+
1
2

2
5

3
4

1
4
=
37
400
= 0.0925 ,
P3 S 4 =
1
20
+
37
400
=
57
400
= 0.1425 .
4.4 Intermezzo: alberi e gra, variazioni sul tema

Il modo in cui abbiamo arontato la questione proposta nellesempio 4.6 suggerisce un altro
punto di vista riguardo a problemi di questo tipo: lalbero che abiamo costruito potrebbe
rappresentare un mappa dei possibili percorsi di un sistema sico, con biforcazioni dove il
4.6
Unimportante branca della matematica è la teoria dei gra; un grafo è una coppia (V, E) , dove V è un
insieme i cui elementi sono detti vertici ed E V V è linsieme dei lati (edges). Si può rappresentare un grafo
disegnando i vertici come punti, e i lati come linee che uniscono alcune coppie di vertici (non necessariamente
tutte). Un albero (si pensi anche allalbero genealogico) è un grafo che non ha cammini chiusi.
Si usa anche il termine diagramma, che per` o ha un signicato pi` u generico (la nozione di grafo ha una precisa
denizione matematica).
sistema sceglie la via lanciando una moneta (eventualmente non regolare).
Ad esempio possiamo pensare a un punto materia-
le vincolato a una guida in discesa, come si vede
nella gura qui a destra; alle biforcazioni il deter-
minismo della meccanica classica viene meno, e la
particella può secegliere luna o laltra via con una
distribuzione di probabilità assegnata.
.
.
.
.
.
.,
-
-
-
-
-
-

.
`
`
\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\

\
\
\
\
\
Vengono allora subito in mente possibili generalizzazioni di questo tipo di esperimento.
Prima di tutto, le possibilità ad ogni nodo (o vertice del grafo, vedi nota 4.6 a piè di pagi-
na 41) potrebbero essere pi` u di due. Ad esempio nella gura seguente, a sinistra, si vede una
triforcazione, (che comunque è equivalente a una successione di due biforcazioni, come si
vede a destra).
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Qs
+ ?
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Qs
p
1
p
2
p
3
p
1
+ p
2
+ p
3
= 1
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Qs
Q
Q
Qs
Q
Q
Qs
/
p
1
p
2
+ p
3
q
1
q
2
q
1
= p
2
/(p2 + p
3
)
q
2
= p
3
/(p2 + p
3
)
=
Si noti che, in ogni nodo, la somma delle probabilità delle possibili alternative deve fare 1 .
La seconda generalizzazione che viene in mente è la seguente: non cè nessun motivo per
limitarci a considerare esperimenti tale che il grafo delle possibilità sia un albero; per esempio
la particella, nello scendere lungo la guida, potrebbe reimmettersi su uno dei percorsi che non
aveva preso. Il grafo non è quindi un albero, in quanto contiene dei percorsi chiusi (anche se
la particella non può passare due volte per lo stesso punto: è soggetta ai sensi unici).
Esempio 4.7. Applichiamo le idee sopra introdotte al grafo disegnato qua sotto.
`
E un caso relativamente semplice: le biforcazioni (nei no-
di A, B, C, E, F e H) corrispondono ad alternative sem-
plici (due possibilità) e supponiamo che ciascuna scel-
ta abbia probabilità 1/2 . I nodi D e G non richiedono
invece alcuna scelta, sono solo punti di conuenza.
`
E abbastanza facile elencare tutti i possibili percorsi: se-
guendo le frecce a partire dallinizio, ad ogni biforcazio-
ne si fa una copia del percorso già seguito e si prosegue in
ciascuna delle due copie a seconda della scelta corrispon-
dente (per gestire i casi pi` u complicati si può scrivere
un programmino per computer che stili lelenco).
c
d
d
d
A
d
d
d
B
e
e
e
e
e
e
e
e
e
e
e
e
C
d
d
d
E
d
d
d
F
d
d
d
H
1 2 3 4 5
Troviamo che lo spazio dei campioni è costituito dalle sequenze:
ABE1 ,
ABEG2 , ABDFG2 , ACDFG2 ,
ABDFH3 , ACDFH3 ,
ABDFH4 , ACDFH4 ,
AC5 .
4.4 Intermezzo: alberi e gra, variazioni sul tema 43
La probabilità di ciascun campione la si trova inserendo un fattore 1/2 per ciascun nodo,
incontrato nel percorso, che richieda una scelta; questi nodi sono stati (per comodità del
lettore) sottolineati, ed è immediato scrivere:
p(ABE1) =
1
8
,
p(ABEG2) = p(ABDFG2) = p(ACDFG2) =
1
8
,
p(ABDFH3) = p(ACDFH3) =
1
16
,
p(ABDFH4) = p(ACDFH4) =
1
8
,
p(AC5) =
1
4
.
Si può allora vericare che P() = 1 . Si noti poi che le possibili congurazioni nali sono
state contrassegnate mediante numeri, in modo che possano essere caratterizzate come i valori
assunti da una variabile aleatoria X ; abbiamo dunque
PX =1 =
1
8
, PX =2 =
3
8
, PX =3 =
1
8
, PX =4 =
1
4
, PX =5 =
1
4
.
Unulteriore estensione che viene in mente, per la descrizione di un esperimento tramite

un grafo, è di permettere anche nodi che siano incroci, nei quali cioè due o pi` u percorsi
conuiscano in una congurazione nella quale sono possibili due o pi` u scelte (un semplice
esercizio potrebbe essere quello di modicare lesempio 4.7 aggiungendo una scorciatoia da
D ad H).
Osservazione. Ma allora anche lesperimento dellesempio 4.6 potrebbe essere rappresentato
in maniera pi` u chiara e compatta mediante il grafo (linizio dellesperimento è in alto a destra):
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)
1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)
1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)
1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)
1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)
1/2
1/2
2/5
2/5
1/4
3/4
(3, 3)
?
(3, 2)
?
(3, 1)
?
(3, 0)
1/2
1/2
2/5
2/5
1/4
3/4
Linconveniente di questo tipo di rappresentazione è forse che risulta meno immediato scrivere
tutti i percorsi che portano a una data congurazione nale; ma, nel caso in esame, non è
aatto dicile scrivere tutti i percorsi aventi una data lunghezza (non troppo grande).
Esempio 4.8. Unurna contiene 30 palline, di cui 2 contrassegnate. Si fanno estrazioni suc-
cessive (senza rimpiazzo) no a quando tutte e due le palline contrassegnate non sono state
estratte. Il numero di estrazioni necessarie è una variabile aleatoria S riguardo alla quale si
chiede: determinare il pi` u piccolo intero h N tale che si abbia PS h 1/2 .
Questo esperimento termina dopo 30 estrazioni al massimo. Il grafo (con incroci) che lo
descrive, iniziando stavolta in alto a sinistra, è
(28, 2)
(28, 1)
(28, 0)
S = 2
(27, 2)
(27, 1)
(27, 0)
S = 3
(26, 2)
(26, 1)
(26, 0)
S = 4
(25, 2)
(25, 1)
(25, 0)
S = 5
(1, 2)
(1, 1)
(1, 0)
S = 29
(0, 2)
(0, 1)
(0, 0)
S = 30
-
?
-
?
-
?
-
?
-
?
-
?
-
?
-
?
-
? ?
-
? ?
28/30 27/29 26/28 25/27 1/3
28/29 27/28 26/27 25/26 1/2
2/30
1/29
2/29
1/28
2/28
1/27
2/27
1/26
2/3
1/2
1
1
Un passo in orizzontale corrisponde allestrazione di una pallina non contrassegnata, un passo
in verticale allestrazione di una pallina contrassegnata. Tutti i percorsi che terminano in
una data congurazione hanno lo stesso numero di passi, cioè il medesimo valore di S (che
è riportato corrispondentemente sotto). La cosa curiosa è che, come si verica subito, tutti i
percorsi hanno la medesima probabilit` a
p =
2
30 29
=
1
435
;
abbiamo insomma, un po inaspettatamente, una distribuzione uniforme. Notiamo poi che ci
sono k 1 percorsi corrispondenti a un dato valore S = k , con 2 k 30 . Pertanto
PS =k =
k 1
435
,
PS h =
1
435
h
k=2
(k 1) =
1
435
h(h 1)
2
=
h(h 1)
870
,
e, in particolare, PS 30 = 1 come devessere.
Per rispondere alla questione proposta dobbiamo quindi risolvere rispetto ad h la disequa-
zione
h(h 1)
870

1
2
h(h 1) 435 .
Le radici del polinomio h(h 1) 435 sono
1
2
(1
1741) , corrispondenti a h
= 20.3626 e
h
= 21.3626 . La risposta cercata è pertanto h = 22 (il polinomio è crescente per h > 1/2) .
4.5 Simulazione
La funzione random di un qualsiasi linguaggio di programmazione fornisce di solito risultati
pseudo-aleatori con distribuzione uniforme; il risultato di una simulazione con tale funzione è
riportato in gura 10. Sono stati estratti N volte (con N = 10 000, 100 000, 1 000 000) numeri
a caso nellintervallo [0, 1] ; poi lintervallo è stato suddiviso in 100 intervalli di ampiezza
0.01 , e per ciascun intervallino si è riportato in graco la frazione di volte in cui il risultato
dellestrazione è caduto in esso. Si vede chiaramente come, al crescere di N, tale frazione tenda
dappertutto a 1/100 (riga orizzontale).
Ora vogliamo fare una simulazione nella quale i numeri vengano estratti secondo una
densità dierente. Per vedere come procedere, conviene prima di tutto ricordare il teorema
del cambiamento di variabile negli integrali deniti. Siano [, ] e [a, b] intervalli di R, e
4.5 Simulazione 45
Figura 10: Simulazione con densità uniforme
N = 10 000
N = 100 000 N = 1 000 000
: [, ] [a, b] unapplicazione derivabile tale che () = a , () = b .
[ ]
t

E
[ ]
x
a b
E
f
R
Si ha allora
4.7
_

f((t))
(t) dt =
_
b
a
f(x) dx .
Supponiamo ora che f sia una funzione strettamente positiva nellintervallo [a, b] e tale che
_
b
a
f(x) dx = 1 , ovvero una densità su [a, b] , e che sia strettamente crescente.
4.8
Allora per
ogni intervallo [a
, b
] [a, b] si ha
P([a
, b
]) =
_
b
f(x) dx =
_

f((t))
(t) dt ,
con

(a
) ,

(b
) . In particolare, se si riesce a trovare tale che t [, ] si abbia

f((t))
(t) = 1 , si ottiene
P
f
([a
, b
]) =

(b
(a
) ,
cioè la probabilità di [a
, b
] , secondo la densità f , è la misura dellintervallo

([a
, b
]) . In altri
termini, P
f
è la probabilità su [a, b] determinata dalla variabile aleatoria : [, ] [a, b] ,
dove = 1 e la probabilità su [, ] è data dalla misura di Lebesgue (con densità
pari a 1 , costante).
La condizione f((t))
(t) = 1 signica (regola di derivazione della funzione inversa)

f(x) =

(x) ,
4.7
Nella pratica si usa dire che si fa il cambiamento di variabile x = (t) , da cui dx =
(t) dt , e si cambiano
gli estremi di integrazione t = e t = con x = () = a e x = () = b .
4.8
Questa densit` a su [a, b] pu` o essere estesa a una densit` a

f tutto R ponendo

f(x) = 0 per x [a, b] .
Figura 11: Graci della densità f(x) = 2/((1 + x
2
)) sullintervallo [1, 1] , della funzione di
partizione F(x) e della sua inversa : [1, 1] [0, 1] .
f(x)
1.0 0.5 0.5 1.0
0.2
0.4
0.6
0.8
1.0
(t)
0.2 0.4 0.6 0.8 1.0
1.0
0.5
0.5
1.0
F(x)
cioè

: [a, b] [, ] ha da essere una primitiva di f : [a, b] [0, 1] . Inoltre

(a) = ,
pertanto
(x) = +
_
x
a
f() d .
Di regola converrà, soprattutto nelle simulazioni al computer, prendere [, ] = [0, 1] ; pertanto
la variabile aleatoria cercata sarà linversa di
(x) =
_
x
a
f() d .
Si noti che questultima non è altro che la funzione di ripartizione della densità f .
Esempio 4.9. Consideriamo sullintervallo [a, b] [1, 1] la densità f data da (gura 11)
f(x) =
2
(1 +x
2
)
.
Dato che una primitiva di 1/(1 +x
2
) è arctan x, la funzione di partizione F è data da
F(x) =
_
x
1
f() d =
1
2
+
2
arctan x ,
e la sua inversa (ottenuta risolvendo rispetto a x lequazione F(x) = t) da
(t) = tan
_
2
_
t
1
2
_
.
Controlliamo allora la giustezza dei nostri calcoli e ragionamenti mediante una simulazione
al computer. Procediamo cos`: prima di tutto estraiamo a caso, con la funzione random (quindi
4.6 Variabili aleatorie vettoriali 47
con densità uniforme), N reali nellintervallo [0, 1] ; poi applichiamo a ciascuno di questi numeri
la funzione . Otteniamo cos` N numeri nellintervallo [1, 1] . Inne rappresentiamo con il
solito graco a barre (gura 12) la frazione di risultati nei sottointervalli di ampiezza 0.01 .
Confrontando il graco a barre con il graco di f si vede chiaramente che la simulazione cos`
costruita riproduce la densità assegnata.
Figura 12: Graci a barre della simulazione di N estrazioni con densità f(x) = 2/((1 +x
2
))
sullintervallo [1, 1] .
N = 10 000
N = 100 000
N = 1 000 000
4.6 Variabili aleatorie vettoriali
Sia (, E, P) uno spazio di probabilità. Diremo variabile aleatoria vettoriale, o vettore aleato-
rio, unapplicazione X (X
1
, . . . , X
m
) : R
m
le cui componenti X
i
: R siano varia-
bili aleatorie scalari, cioè variabili aleatorie nel senso precedentemente introdotto. Analoga-
mente al caso scalare, X determina una struttura di spazio di probabilità su R
m
; se A R
m
è un insieme misurabile, la probabilità è
P
X
(A) = PX A P(
X(A)) .
Se x (x
1
, . . . , x
m
) R
m
allora
X(x) =
_
:
X
1
(x
1
) =
X
2
(x
2
) = =
X
m
(x
m
) =
_
=
=
X
1
(x
1
)
X
2
(x
2
)
X
m
(x
m
) .
Se A R
m
è un sottoinsieme qualsiasi allora
X(A) =
_
xA
X(x) =
_
xA
_
X
1
(x
1
)
X
2
(x
2
)
X
m
(x
m
)
_
.
Se I = I
1
I
m
è un iper-intervallo si ha, pi` u semplicemente,
4.9
X(I) =
X
1
(I
1
)
X
m
(I
m
) .
In particolare considereremo gli iper-intervalli del tipo
J
x
= J
x
1
J
x
2
J
xm
, x (x
1
, . . . , x
m
) R
m
,
dove J
x
i
= (, x
i
] R, ovvero
J
x
:= u = (u
i
) R
m
: u
i
x
i
, 1 i m .
Diciamo allora funzione di ripartizione congiunta la funzione F
X
: R
m
[0, 1] denita da
F
X
(x) = P(J
x
) , x (x
i
) (x
1
, . . . , x
m
) R
m
.
Diremo poi che F
X
ammette densità congiunta
4.10
p
X
: R
m
[0, ) se P
X
ha densità p
X
;
in tal caso
_
R
m
p
X
= 1 ,
F
X
(x) =
_
Jx
p
X

_
x
1
du
1
. . .
_
xm
du
m
p
X
(u
1
, . . . , u
m
) .
Le funzioni di ripartizione F
X
i
e le densità p
X
i
delle variabili aleatorie componenti X
i
sono
dette, rispettivamente, funzioni di ripartizione e densità marginali. Conoscendo F
X
e p
X
si
conoscono anche le F
X
i
e le densità p
X
i
; si ha infatti
F
X
i
(x
i
) = lim
x
1
,..., x
i
,...xm
F
X
(x
1
, . . . , x
i
, . . . x
m
) , dove il cappello sopra un simbolo signi-
ca che è eliminato dalla lista (quindi non si fa il limite rispetto a x
i
);
p
X
i
(x
i
) =
_
R
m1
p
X
(x) dx
1
, . . . ,

dx
i
, . . . dx
m
,
p
X
(x
1
. . . x
m
) =

m
x
1
. . . x
m
F
X
(x) .
Per chiarezza sarà opportuno riscrivere queste due formule nel caso m = 2 ; indicando allora
con Z = (X, Y ) la variabile aleatoria bidimensionale si ha
F
X
(x) = lim
y
F
Z
(x, y) , F
Y
(y) = lim
x
F
Z
(x, y) ;
4.9
Se m = 2 (il caso generale si dimostra analogamente) si ha
X(I) =
X(I1 I2) = :
X1() I1 ,
X2() I2 } =
X1(I1)
X2(I2) .
4.10
Come nel caso scalare, a rigore la densit` a non riguarda tanto il vettore aleatorio X quanto con la
probabilit` a P. In molti casi pratici comunque P è determinata da un vettore aleatorio, e anzi pu` o sempre
essere vista in tal senso.
4.6 Variabili aleatorie vettoriali 49
p
X
(x) =
_
+
p
Z
(x, y) dy , p
Y
(y) =
_
+
p
Z
(x, y) dx ,
p
Z
(x, y) =

2
xy
F
Z
(x, y) .
Per vericare le formule precedenti ragioniamo come segue (ci limitiamo al caso bidimen-
sionale, lestensione a dimensione qualsiasi dovrebbe essere ovvio). Dalle solite denizioni di
funzione di ripartizione e di densità per una variabile aleatoria scalare abbiamo
F
X
(x) = P
_
X(, x]
_
= P
_
X(, x]
_
= P
_
X(, x]
Y (, +)
_
=
= lim
y
P
_
X(, x]
Y (, y)
_
= lim
y
F
Z
(x, y) ,
p
X
(x) =
d
dx
F
X
(x) =
d
dx
_
x
du
_
+
dy p
Z
(u, y) =
_
+
p
Z
(x, y) dy ,
p
Z
(x, y) =

2
xy
_
_
x
du
_
y
dv p
Z
(u, v)
_
=

2
xy
F
Z
(x, y) .
Osservazione. Può essere utile, ai ni di una migliore comprensione, tenere presente (qui
come in altre situazioni che vedremo) lanalogia tra densità di probabilità e densità di massa.
Consideriamo un corpo continuo, che a un dato istante occupi un congurazione C che, scelto
un sistema di coordinate cartesiano, può essere visto come un opportuno sottoinsieme di R
3
.
La densità di massa è una funzione scalare : C R (avendo scelto delle unità di misura per
le masse e per le lunghezze), e la massa del corpo è il numero m =
_
C
. Allora la densità
normalizzata p /m è (almeno dal punto di vista tecnico) una densità di probabilità su
C .
La visualizzazione dei concetti è pi` u agevole quando si consideri una congurazione bidi-
mensionale, C R
2
. Nelle illustrazioni che seguono, la curva chiusa rappresenta il bordo di
C ; le aree colorate della prima riga rappresentano i domini di integrazione
4.11
per la densità
che danno rispettivamente F
X
(x) , F
Y
(y) e F
Z
(x, y) . Nella prima gura della seconda riga la
strisciolina compresa tra x e x+dx è il dominio sul quale lintegrale della densità congiunta
dà p
X
(x) dx; analogamente, nella seconda gura della seconda riga la strisciolina compresa
tra y e y +dy è il dominio sul quale lintegrale della densità congiunta dà p
Y
(y) dy ; inne,
nellultima gura, il rettangolino pi` u scuro di lati dx e dy ha probabilità p(x, y) dxdy (gli
integrali sono proporzionali alle aree se la densità è costante).
x
F
X
(x)
y
F
Y
(y)
r(x, y)
F
Z
(x, y)
4.11
I domini eettivi di integrazione qui sono compatti perche C è un insieme limitato.
p
X
(x)dx
x x+dx
p
Y
(y)dy
y
y+dy
p(x, y)dxdy
Dunque la densità congiunta determina le densità marginali. Non basta invece, in generale,
conoscere le densità marginali per conoscere la densità congiunta: densità congiunte diverse
possono avere le stesse densità marginali.
4.12
Esempio 4.10. Consideriamo gli spazi di probabilità aventi come spazio dei campioni rispetti-
vamente
= D
6
2
(due lanci di un dado) = D
6
2

(due estrazioni senza rimpiazzo di due

elementi da un insieme di sei), con probabilità uniforme in entrambi i casi. Si ha [
[ = 36 ,
[[ = 6 5 = 30 ; la densità, costante, vale quindi p
= 1/36 nel primo caso e p = 1/30 nel

secondo. Indichiamo poi con X
1
(risp. X
1
) la variabile aleatoria risultato del primo lancio
(estrazione) e con X
2
(risp. X
2
) la variabile aleatoria risultato del secondo lancio (estra-
zione), e poniamo X (X
1
, X
2
) . Dunque p
X
= 1/36 (costante) e p
X
= 1/30 (costante).
Calcoliamo ora le densità marginali nei due casi:
p
X
1
(i) =
6
j=1
p
(i, j) = 6
1
36
=
1
6
, p
X
2
(i) =
6
j=1
p
(j, i) = 6
1
36
=
1
6
,
p
X
1
(i) =
j=i
p(i, j) = 5
1
30
=
1
6
, p
X
2
(i) =
j=i
p(j, i) = 5
1
30
=
1
6
.
Dunque le densità marginali relative a X e X
sono le stesse, ma le densità p e p
sono dierenti.
Si noti poi che linclusione
fa s` che p e X possano essere viste come una densità e una

variabile aleatoria su
(con p(i, i) = 0 , i N
6
).
Se esiste la densità, per sottoinsiemi A R
m
ragionevoli e vettori aleatori ragionevoli
si ha
P
X
(A) =
_
A
p
X
.
Osservazione. Può darsi il caso che le componenti di un vettore aleatorio abbiano densità
(marginali), ma che non esista la densità congiunta.
4.7 Variabili aleatorie indipendenti
Sia X : R
m
un vettore aleatorio; diremo che le sue componenti
_
X
i
_

_
X
1
, X
2
, . . . , X
m
_
sono indipendenti se, per ogni m-upla di sottoinsiemi A
i
R, sono indipendenti gli m eventi
X
i
(A
i
) , 1 i m ,
ovvero se si ha
P
_

1im
_
X
i
(A
i
)
_
_
=
1im
P
_
X
i
(A
i
)
_
.
4.12
La questione ha a che fare con lindipendenza della variabili aleatorie (4.7)
4.7 Variabili aleatorie indipendenti 51
In particolare, X, Y : R sono indipendenti se per ogni coppia di sottoinsiemi A, B R
si ha
P
_
X(A)
Y (B)
_
= P
_
X(A)
_
P
_
Y (B)
_
,
ovvero, in notazione pi` u tradizionale (per i testi di probabilità)
PX A, Y B = PX A PY B .
Pi` u in generale le variabili aleatorie di una famiglia numerabile
_
X
i
_
, i N, si dicono in-
dipendenti se una qualsiasi sottofamiglia nita è costituita da variabili aleatorie indipendenti.
Un condizione suciente per lindipendenza delle
_
X
i
_
, 1 i m, è chiaramente
lesistenza della densità congiunta p p
X
e delle densità marginali p
X
i
tali che si abbia
p
X
(x
1
, . . . , x
m
) = p
X
1
(x
1
) p
Xm
(x
m
)
quasi ovunque su R
m
. Viceversa se le densità congiunta e marginali esistono e la relazione
qui sopra non vale su un insieme di misura ,= 0 , allora le
_
X
i
_
non sono indipendenti.
4.13
In eetti consideriamo per esempio, nel caso bidimensionale, i sottoinsiemi A = [x, x+x] e
B = [y, y+y] con x e y piccoli; allora
PX A, Y B
= p(x, y) xy ,
mentre
PX A PY B
=
_
p
X
(x) x
_
_
p
Y
(y) y
_
= p
X
(x) p
Y
(y) xy .
Osserviamo poi che la denizione di indipendenza può essere estesa, in maniera del tutto
naturale, al caso di pi` u vettori aleatori (la formulazione esplicita è lasciata al lettore).
In termini discorsivi, lindipendenza di variabili aleatorie signica che la conoscenza del
valore assunta da una di esse in un esperimento non dà alcuna informazione che permetta di
migliorare le nostre previsioni riguardo alle altre.
Il seguente risultato è intuitivamente abbastanza naturale:
Teorema 4.3. Siano X : R
m
e Y : R
n
vettori aleatori indipendenti, e siamo
: R
m
R, : R
n
R funzioni sucientemente regolari. Allora X e Y sono
variabili aleatorie indipendenti.
Lenunciato precedente (che può essere immediatamente esteso al caso di un numero qual-
siasi di vettori aleatori) è incompleto in quanto non precisa le ipotesi di regolarità di e .
Queste ipotesi sono comunque vericate in tutti i casi di interesse pratico; in questa sede non
indagheremo la questione ulteriormente.
4.13
Questo discorso pu` o essere ranato per tener conto del caso in cui la densit` a sia una distribuzione non
rappresentata da una funzione ordinaria (2.4).
Esempio 4.11.
2
0
2
2
0
2
0.0
0.1
0.2
0.3
Un proiettile viene lanciato verso un
bersaglio di coordinate (, ) . Sup-
poniamo che le coordinate X e Y
del punto in cui colpisce siano va-
riabili aleatorie indipendenti, aventi
densità normale rispettivamente
f
X
(x) =
1
2
e
(x)
2
2
2
,
f
Y
(y) =
1
2
e
(y)
2
2
2
.
Allora la densità congiunta di (X, Y ) è
f
(X,Y )
(x, y) =
1
2
e
(x)
2
2
2

(y)
2
2
2
.
Il graco di questa funzione è disegnato qua sopra. Tagliandolo con un piano orizzontale si
ottiene una ellissi, in quanto le varianze
2
e
2
di X e Y sono dierenti.
Scegliamo ora lorigine delle coordinate coincidente con il bersaglio, per cui = = 0 , e
consideriamo le variabili aleatorie R =
X
2
+Y
2
e = arg(X, Y ) , cioè le coordinate polari
con centro nel bersaglio. Abbiamo anche
X = R cos , Y = R sin .
r
Vogliamo determinare la funzione di ripartizione congiunta
F
(R,)
: R
+
[0, 2 ) [0, 1] . Si ha
F
(R,)
(r, ) = P(J
r,
) PR r, =
_
J
r,
f
(X,Y )
,
dove J
r,
R
2
è il settore circolare mostrato nella gura qua ac-
canto. Facendo il cambio di variabile x r cos e y r sin ,
da cui dxdy r dr d , si ottiene
F
(R,)
(r, ) =
_

0
d
_
r
0
dr
r
2
e
r
2
(
cos
2
2
2
+
sin
2
2
2
)
,
dove per semplicare la notazione abbiamo indicato con gli stessi simboli la variabile dinte-
grazione e i limiti superiori dellintervallo dintegrazione. Quindi abbiamo la densità congiunta
f
(R,)
(r, ) =
r
2
e
r
2
(
cos
2
2
2
+
sin
2
2
2
)
.
`
E evidente che questa non può essere scritta come il prodotto di una funzione di r e di
una funzione di . Comunque le densità marginali possono essere calcolate,
4.14
e risulta
f
(R,)
(r, ) ,= f
R
(r) f
() . Dunque R e sono variabili aleatorie non indipendenti. In manie-

ra intuitiva, possiamo renderci conto di questa dipendenza nel modo seguente. Se a, R
+
,
4.14
Lintegrale rispetto alla variabile r si calcola facilmente mediante il cambiamento di variabile r
2
u; si
4.7 Variabili aleatorie indipendenti 53
lintegrale sullintervallo [a, a] di una distribuzione Gaussiana con varianza sucientemen-
te piccola è 1 ; estendendo questo risultato al caso in esame, vediamo che scegliendo
opportuni valori di e possiamo far s` che P
(X,Y )
[a, a] [b, b] dierisca da 1 per una
quantità arbitrariamente piccola. Supponiamo allora che sia b a , cioè che il rettangolo
[a, a] [b, b] sia molto stretto e disposto con il lato pi` u lungo nella direzione dellasse x.
Se sappiamo che un lancio ha dato un valore di r abbastanza elevato (per esempio r 3 b),
possiamo dedurre che molto probabilmente il punto di arrivo si trova vicino allasse x, e quindi
ha un valore vicino a 0 o ; è improbabile che il punto si trovi a una distanza dallasse x
paragonabile con a .
Daltra parte, nel caso particolare = si ha
f
(X,Y )
(x, y) =
1
2
2
e
x
2
+y
2
2
2
(la classica campana) che, tramite il solito cambio di variabile, dà
f
(R,)
(r, ) =
r
2
2
e
r
2
2
2
,
f
R
(r) =
_
2
0
f
(R,)
(r, ) d =
r
2
e
r
2
2
2
f
() =
_

0
f
(R,)
(r, ) dr =
1
2
.
Si ha quindi f
(R,)
(r, ) = f
R
(r) f
() , e le variabili aleatorie R e risultano essere indipen-

denti.
Esempio 4.12. Consideriamo ora una densità nel piano R

2
che sia concentrata sul cerchio di
raggio r ed ivi uniforme, ovvero
p(x, y) =
_
_
_
1
r
2
, x
2
+y
2
< r
2
,
0 , x
2
+y
2
r
2
.
Dovrebbe esser abbastanza evidente allora che X e Y (le stesse variabili aleatorie dellesem-
pio 4.11) non sono indipendenti: se (mettiamo) X = x allora Y [
r
2
x
2
,
r
2
x
2
] . Pi` u
precisamente, con facili calcoli si ottiene
p
X
(x) =
_ +
p(x, y) dy =
_

r
2
x
2
r
2
x
2
p(x, y) dy =
2
r
2
x
2
r
2
,
p
Y
(y) =
2
_
r
2
y
2
r
2
,
ottiene
f
() =
_

0
f
(R,)
(r, ) dr =

2 (
2
cos
2
+
2
sin
2
)
.
Lintegrale rispetto a non è tanto semplice da calcolare, anzi pu` o essere svolto esplicitamente solo in termini
di certe funzioni speciali dette funzioni di Bessel (si tratta di funzioni regolarissime e a pieno titolo, che sono
ampiamente studiate, ma di solito non fanno parte del normale bagaglio appreso nei corsi di base). Si ottiene
infatti
f
R
(r) =
_
2
0
f
(R,)
(r, ) d =
1

r e
r
2
4
(
1
2
+
1
2
)
I0
_
r
2
4
(
1
2

1
2
)
_
,
dove I0(x) appartiene appunto alla suddetta famiglia delle funzioni di Bessel.
e quindi ovviamente p(x, y) ,= p
X
(x) p
Y
(y) . Daltra parte, passando a coordinate polari si ha
p(r, ) =
_
_
_
r
r
2
, r < r ,
0 , r r ,
densità (non uniforme) concentrata sulla striscia R
+
[0, 2 ) R
2
. Quindi R e sono
indipendenti, in quanto
p
R
(r) =
_
2
0
p(r, ) d =
_
2 r
r
2
, r < r ,
0 , r r ,
p
() =
_
r
0
p(r, ) dr =
1
2
.
Con ragionamenti analoghi non è dicile far vedere (esercizio) che se p è una densità
uniforme concentrata sul rettangolo [a, a] [b, b] , con a, b R
+
, allora X e Y sono indi-
pendenti mentre R e non lo sono.
Osservazione. Se una densità è diversa da zero su un sottoinsieme di R

m
che non sia un
prodotto cartesiano di m sottoinsiemi di R, le m variabili aleatorie X
i
: (x
1
, . . . , x
m
) x
i
non
sono indipendenti.
Esempio 4.13. Sia A R
2
il triangolo di vertici (0, 0) , (1, 0) e (0, 1) , e p la densità uniforme
su A: quindi p(x, y) = 2 per (x, y) A e p(x, y) = 0 per (x, y) , A. Se (X, Y ) p è imme-
diato vericare che le densità marginali valgono p
X
(x) = 2 (1 x) e p
Y
(y) = 2 (1 y) , dunque
p(x, y) ,= p
X
(x) p
Y
(y) . In eetti si osservi che p(x, y) può essere scritta esplicitamente, senza
vincoli, nella forma p(x, y) = 2 H(x) H(y) H(1 xy) , dove H è la funzione scalino uni-
tario (introdotta nel 2.4, ultima osservazione).
Esempio 4.14. Nellesperimento lancio di due dadi regolari, quindi = (i, j), 1 i, j 6
e p(i, j) = 1/36 , consideriamo la variabile aleatoria
Z (X, Y ) : R
2
: (i, j) (i +j, i j) ,
Z() = (m, n) : 2 m 12, 5 n 5 .
Le probabilità marginali sono riportate nelle tabelle:
x 2 3 4 5 6 7 8 9 10 11 12
p
X
(x)
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
1
36
y 5 4 3 2 1 0 1 2 3 4 5
p
Y
(y)
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
1
36
Il fatto che le distribuzioni p
X
e p
Y
abbiano un andamento simile non signica ovviamente che
conoscendo il valore di X si conosca il valore di Y (o viceversa); tuttavia X e Y non sono
indipendenti, come si vede dalle seguenti due tabelle in cui sono riportati rispettivamente i
valori di 36 p
(X,Y )
(x, y) e di 1296 p
X
(x) p
Y
(y) :
4.8 Densità condizionale 55
d
d x
y
5 4 3 2 1 0 1 2 3 4 5
2 0 0 0 0 0 1 0 0 0 0 0
3 0 0 0 0 1 0 1 0 0 0 0
4 0 0 0 1 0 1 0 1 0 0 0
5 0 0 1 0 1 0 1 0 1 0 0
6 0 1 0 1 0 1 0 1 0 1 0
7 1 0 1 0 1 0 1 0 1 0 1
8 0 1 0 1 0 1 0 1 0 1 0
9 0 0 1 0 1 0 1 0 1 0 0
10 0 0 0 1 0 1 0 1 0 0 0
11 0 0 0 0 1 0 1 0 0 0 0
12 0 0 0 0 0 1 0 0 0 0 0
d
d x
y
5 4 3 2 1 0 1 2 3 4 5
2 1 2 3 4 5 6 5 4 3 2 1
3 2 4 6 8 10 12 10 8 6 4 2
4 3 6 9 12 15 18 15 12 9 6 3
5 4 8 12 16 20 24 20 16 12 8 4
6 5 10 15 20 25 30 25 20 15 10 5
7 6 12 18 24 30 36 30 24 18 12 6
8 5 10 15 20 25 30 25 20 15 10 5
9 4 8 12 16 20 24 20 16 12 8 4
10 3 6 9 12 15 18 15 12 9 6 3
11 2 4 6 8 10 12 10 8 6 4 2
12 1 2 3 4 5 6 5 4 3 2 1
Daltra parte, è evidente che se (per esempio) lesperimento ha dato Y = 0 , allora la X può
prendere solo valori pari, quindi X e Y non possono essere indipendenti.
In maniera analoga, è facile convincersi che (X, Y ) : R
2
: (i, j) (i +j, i j) non so-
no indipendenti; per esempio, se Y = 36 allora necessariamente X = 12 ; se Y = 12 allora
X 7, 8 , eccetera. Non è dicile fare le tabelle complete delle densità congiunta e margi-
nali anche in questo caso, è solo un po pi` u lungo perche Y () ha cardinalità maggiore.
4.8 Densità condizionale

Siano X, Y : R due variabili aleatorie di densità congiunta p p
X,Y
e densità marginali
p
X
e p
Y
, rispettivamente. Per ciascun y R tale che p
Y
(y) ,= 0 , la densità
p
X|Y =y
: R [0, )
data da
p
X|Y =y
(x)
p(x, y)
p
Y
(y)
è detta densità condizionale di X dato Y = y . Il signicato di p
X|Y =y
dovrebbe essere abba-
stanza ovvio: in generale, il sapere che in un eseprimento la Y ha assunto il valore y modica
le nostre previsioni riguardo alla X . Una ovvia denizione analoga vale per la densità p
Y |X=x
,
con p
X
(x) ,= 0 .
Se X e Y sono indipendenti si ha subito
p
X|Y =y
(x) = p
X
(x) , p
Y |X=x
(y) = p
Y
(y) .
In generale, se A, B R abbiamo la probabilità condizionale
PXA[ Y B =
__
AB
p
X|Y =y
(x) dxdy .
Esempio 4.15. Nel caso della densità uniforme sul cerchio di raggio r (esempio 4.12) si ha
p
X|Y =y
(x) =
1
2
_
r
2
y
2
, p
Y |X=x
(y) =
1
2
r
2
x
2
.
4.9 Calcolo di leggi

La densità determinata da una variabile aleatoria è detta anche legge della medesima. Un
problema che capita spesso è il seguente: data una variabile aleatoria X : R
m
e unappli-
cazione sucientemente regolare : R
m
R
n
, calcolare la legge di (X) X : R
n
.
Un modo ovvio per arontarlo consiste nel trovare la funzione di ripartizione di (X) per poi
derivarla. Si noti anche che se : R
m
R
m
è un dieomorsmo (unapplicazione invertibile e
derivabile in entrambi i sensi) allora la questione consiste sostanzialmente nel fare un cambio
di variabile in un integrale multiplo (come si è visto nel 4.5 e negli esempi 4.11 e 4.12).
Esempio 4.16. Sia X : R una variabile aleatoria di densità f continua; trovare la densità
di a X +b , dove a, b R.
Consideriamo la variabile aleatoria X con (x) = a x +b . Distinguiamo i tre casi
a > 0 , a < 0 , a = 0 . Se a > 0 si ha
(, t] = x R : a x +b t = (,
tb
a
]
F
X
(t) = F
X
(
tb
a
) =
_
(tb)/a
f(x) dx
f
X
(t) =
d
dt
F
X
(t) =
1
a
f(
tb
a
) .
Se a < 0 si ha
(, t] = x R : a x +b t = [
tb
a
, ) = R (,
tb
a
) .
Poiche f è continua, F è derivabile (e, in particolare, continua a sinistra); pertanto
F
X
(t) = 1 F
X
(
tb
a
) = 1
_
(tb)/a
f(x) dx
f
X
(t) =
d
dt
F
X
(t) =
1
a
f(
tb
a
) .
4.9 Calcolo di leggi 57
In denitiva, per a positivo o negativo si ottiene f
X
(t) =
1
|a|
f(
tb
a
) . Se a = 0 si ha invece
(R) = b , da cui
(, t] =
_
, t < b ,
R , t b ,
F
X
(t) = H
b
(t)
_
0 , t < b ,
1 , t b ,
f
X
(t) =
d
dt
F
X
(t) =
b
(t) ,
dove si è utilizzata la relazione tra funzione gradino e delta di Dirac (2.4).
Esempio 4.17. Un caso particolare dellesempio precedente ha una speciale importanza: se la
densità di una variabile aleatoria X è la densità normale
p
X
(x) = N[0, 1](x)
1
2
e
x
2
/2
,
allora prendendo : x x+ si ottiene subito
p
X+
(x) = N[,
2
](x)
1
2
e
(x)
2
2
2
.
Esempio 4.18. Sia X : R una variabile aleatoria di densità f ; trovare la densità di X

2
.
Consideriamo la variabile aleatoria X con (x) = x
2
. Si ha
(, t] =
[0, t] = [
t,
t] F
X
(t) =
_

t
t
f(x) dx
f
X
(t) =
d
dt
F
X
(t) = f(
t)
d
t
dt
f(
t)
d(
t)
dt
=
=
f(
t) +f(
t)
2
t
.
In particolare, sia X N[0, ] . Allora X
2
ha densità
p
X
2
(x) =
1
2
x
_
N[0, ](
x) +N[0, ](
x)
_
=
=
1
2
x
1/2
e
x/2
2
,
che risulta essere una particolare legge Gamma (6.6).
Esempio 4.19. Sia X : R
+
R una variabile aleatoria di densità f ; trovare la densità
di X : R
+
R (
2
,

2
) dove (x, y) = arctan(y/x) .
Per ogni (
2
,

2
) si ha
() = (x, y) R
+
R : y = x tan ,
2
, ] = (x, y) R
+
R : y x tan .
Dunque
2
, ] è la porzione del semipiano R
+
R R
2
delimitata superiormente dalla
semiretta di equazione y = x tan . Pertanto
F
X
() = P
_
(
2
, ]
_
=
_

0
dx
_
x tan
dy f(x, y)
f
X
() =
d
d
F
X
() =
_

0
_
f(x, x tan )
d(x tan )
d
dx =
=
1
cos
2
_

0
f(x, x tan ) xdx .
Ad esempio se f(x, y) =
1
2
2
e
x
2
+y
2
2
2
si trova facilmente
4.15
f
X
() =
1
2
, F
X
() =

2
.
Del seguente risultato verrà utilizzato in particolare per dimostrare una proprietà delle
leggi Gamma (6.6).
Teorema 4.4. Siano X e Y variabili aleatorie reali di densit` a congiunta p(x, y) . Allora la
variabile aleatoria X +Y ha densità
p
X+Y
(z) =
_
+
p(x, z x) dx .
Dimostrazione:
y = tx
A
t
La funzione di ripartizione di X +Y è
F
X+Y
(t) = PX +Y t =
_
At
p(x, y) dxdy ,
dove il semipiano
A
t
= (x, y) R
2
: x+y t R
2
è rappresentato nella gura a lato come la regione co-
lorata. Facendo prima lintegrale rispetto alla variabile y
(quindi su una strisciolina verticale di ampiezza dx), con
il cambio di variabile z = x+y (da cui dy = dz e z = t per
y = t x), si ottiene
F
X+Y
(t) =
_
+
dx
_
tx
dy p(x, y) =
_
+
dx
_
t
dz p(x, z x) =
=
_
t
_
_
+
p(x, z x) dx
_
dz .
4.15
Ricordando che (1 + tan
2
) = 1/ cos
2
e facendo il cambiamento di variabile u = x
2
, da cui du = 2 xdx,
si ottiene
_

0
f(x, x tan ) xdx =
1
2
2
_

0
e
x
2
2
2
cos
2
xdx =
1
2
2

1
2
_

0
e
u
2
2
cos
2
du =
=
1
4
2
(2
2
cos
2
)
_
e
u
2
2
cos
2
0
=
cos
2
2
[0 1] =
cos
2
2
.
4.10 Il caso di Mary vos Savant 59
Pertanto
p
X+Y
(z) =
d
dt
F
X+Y
(t)
t=z
=
_
+
p(x, z x) dx .
4.10 Il caso di Mary vos Savant

Questo noto
4.16
problema di probabilità mostra come anche questioni elementari possano
nascondere sottigliezze e dar luogo a risultati sorprendenti (o comunque poco intuitivi).
In un gioco a premi ci sono tre scatole, una sola delle quale contiene il premio. Il concorrente
ne sceglie una, che non viene aperta. A questo punto il presentatore, che sa dove è il premio,
apre una delle altre due scatole e mostra che è vuota; poi chiede al concorrente se vuole
mantenere la scelta fatta precedentemente o se preferisce cambiarla (prendendo cioè laltra
delle due scatole rimaste ancora chiuse). La questione allora è la seguente: qualè la strategia
migliore per il concorrente? Mantenere la scelta iniziale o cambiarla?
Alla maggior parte delle persone lintuizione immediata suggerisce che le due strategie
siano equivalenti. Dopotutto, una volta che il presentatore ha aperto una scatola vuota il
concorrente sa questo: che una delle due scatole non aperte contiene il premio, mentre laltra
è vuota. Il cambiare o no la scelta iniziale pare equivalente allo scegliere una scatola tra le
due non aperte.
E invece risulta che il concorrente ha maggiore probabibiltà di vincita se cambia la scelta
iniziale. Pi` u precisamente vince con probabilità 2/3 se la cambia (e con probabilità 1/3 se non
la cambia). Per rendersene conto basta guardare il diagramma:
g g
g g g

in cui il seme indica il premio, e un circoletto indica una scatola vuota. I tre simboli in alto
indicano le tre possibili scelte iniziali, i sei in basso indicano i risultati nali; le righe oblique
indicano la scelta di non cambiare scatola ovvero di cambiarla, a seconda che siano tagliate o
no da una riga corta orizzontale.
`
E allora immediato vericare che, dei tre casi in cui la scelta
iniziale viene cambiata, due portano alla vincita (mentre dei tre casi in cui la scelta iniziale
non viene cambiata, solo uno porta alla vincita).
Ma allora, qualè il difetto del ragionamento intuitivo iniziale? Per chiarirlo dobiamo pre-
cisare meglio la descrizione matematica del problema, cioè il suo modello probabilistico. Co-
minciamo con losservare che se il gioco consistesse semplicemente nello scegliere una scatola
delle tre e aprirla, il modello probabilistico appropriato sarebbe uno schema di Bernoulli con
probabilità di successo p = 1/3 ; ciò in quanto il concorrente ha informazione nulla riguardo
a dove si trova il premio. Daltra parte se il concorrente avesse la vista a raggi X come
Superman allora potrebbe andare a colpo sicuro, cioè vincerebbe con probabilità p = 1 . Il
4.16
La questione è stata portata allattenzione del pubblico in una rubrica di Marilyn vos Savant, giornalista
e scrittrice americana, sulla rivista Parade. La vos Savant, nota anche per avere il pi` u alto QI mai misurato,
diede la risposta corretta, ma migliaia di lettori, tra cui molti accademici, scrissero per sostenere che sbagliava.
caso in esame è per cos` dire intermedio, in quanto è complicato dal fatto che il concorrente
dispone in eetti di una qualche informazione, anche se solo parziale. Questa informazione
è fornita dallinterferenza del presentatore con il processo. Il presentatore dispone dellinfor-
mazione completa, e ne fornisce una parte con laprire una scatola che lui sa essere vuota.
Pertanto la scelta nale non può essere equiparata al lancio cieco di una moneta regolare.
Per precisare il modello probabilistico non dobbiamo far altro che rielaborare in modo
un po pi` u formale lo schema precedente. Consideriamo infatti lesperimento consistente nel
lancio di due monete, recanti entrambe sulle facce i numeri 0 e 1 ; ma per la prima valga
p(0) = 1/3 , mentre la seconda sia regolare. Consideriamo poi le variabili aleatorie:
X = risultato del lancio della prima moneta,
Y = risultato del lancio della seconda moneta,
Z = (X +Y ) mod 2
_
0 , se X +Y è pari (vincita),
1 , se X +Y è dispari,
il tutto illustrato dal seguente diagramma:
1/3 2/3
0
d
d
d
d
d
1
d
d
d
d
d
0 1 0 1
0 1 1 0
1/2 1/2 1/2 1/2
X
Y
Z
Il lancio della prima moneta (con le rispettive probabilità dei due risultati indicate a anco
della linea corrispondente) rappresenta la scelta iniziale; la scelta della scatola giusta cor-
risponde al valore X =0 . Il lancio della seconda moneta rappresenta la decisione se cambiare
la scelta iniziale (Y =1) oppure no. Abbiamo quindi uno spazio di probabilità i cui atomi
possono essere contrassegnati mediante le coppie di valori di (X, Y ) , ovvero
= 00, 01, 10, 11 ,
e su cui è denita la variabile aleatoria Z data da
Z(00) = Z(11) = 0 , Z(01) = Z(10) = 1 ;
la vincita nale è rappresentata da Z =0 .
Disponendo di un modello preciso possiamo ora risolvere, mediante calcoli diretti, qualsiasi
problema relativo allesperimento descritto. In particolare, riguardo alla questione di partenza,
troviamo che la probabilità di vincita se cambia la prima scelta risulta pari a
P(Z = 0[Y = 1) =
P(Z = 0 Y = 1)
PY = 1
=
=
P(11)
PY = 1
=
1
2

2
3
1
2
=
2
3
.
61
5 Media e momenti
5.1 Media di una variabile aleatoria
Sia X : R una variabile aleatoria, e sia p : R [0, ) la sua densità. Diciamo che X ha
media nita se
_
+
[x[ p(x) dx < .

Se tale condizione è vericata allora chiamiamo media (ovvero valore di aspettazione) di X il
numero reale
E[X] :=
_
+
xp(x) dx ,
che risulta certamente nito.
5.1
Spesso, se non cè pericolo di confusione, la media viene
indicata semplicemente con il simbolo , o
X
.
Osservazione. Si noterà che le denizioni di media e momenti dipendono solo dalla densità di
probabilità p , piuttosto che dalla variabile aleatoria X . Daltra parte una densità può essere
sempre vista come legata a unopportuna variabile aleatoria.
Osservazione. Quando si interpreta p come densità di massa, la media è il centro di massa.
A una variabile aleatoria scalare corrisponde una distribuzione di massa su una retta, ma la
nozione di media può essere facilmente estesa a un vettore aleatorio a valori in R
n
; in tal caso
la media è un vettore che ha come componente i-esima
E[p]
i
:=
_
R
n
x
i
p(x
1
, . . . , x
n
) dx
1
. . . dx
n
=
_
R
x
i
p
X
i
(x
i
) dx
i
= E[X
i
]
(purche lintegrale converga assolutamente).
Osservazione. Nel caso discreto la densità è una combinazione lineare (eventualmente in-
nita) di distribuzioni del tipo delta di Dirac. Gli integrali allora diventano sommatorie (even-
tualmente somme di serie).
Teorema 5.5. Sia X (X

i
) : R
m
un vettore aleatorio di densità congiunta p
X
p ; sia
: R
m
R una funzione sucientemente regolare. Allora la variabile aleatoria Z X :
R ha media nita se e solo se
_
R
m
[[ p < ,
e in tal caso la media di Z vale
5.2
E[Z] =
_
R
m
p .
Dimostrazione: Dimostriamo questo teorema nel caso in cui lo spazio dei campioni sia
discreto: gli integrali diventano allora somme di serie (la dimostrazione nel caso continuo,
che non riportiamo, utilizza questo risultato e lapprossimazione degli integrali in termini di
funzioni semplici). Per facilitare la comprensione del ragionamento può essere utile guardare
la gura 13, in cui sono rappresentati schematicamente gli insiemi e le applicazioni considerati.
5.1
Lintegrale è convergente in quanto assolutamente convergente, che è condizione suciente ma non
necessaria. Se è convergente ma non assolutamente convergente allora non si parla di media nita.
5.2
_
R
m
p
_
. . .
_
(x1 , . . . , xm) p(x1 , . . . , xm) dx1 . . . dxm e simili.

62 5 MEDIA E MOMENTI
Per ogni z Z() poniamo A
z
:=
(z) R
m
. Dunque
Z(z) =
xAz
X(x) PZ = z P
_
Z(z)
_
=
xAz
p(x) ,
da cui
zZ()
[z[ PZ =z =
zZ()
[z[
_
xAz
p(x)
_
=
zZ()
xAz
[z[ p(x) =
zZ()
xAz
[(x)[ p(x) =
=
xX()
[(x)[ p(x)
(dove lultimo passaggio equivale a un riordinamento della serie, ed è possibile in quanto trat-
tasi di una serie a termini non negativi). Da questa segue che se la serie
xX()
(x) p(x) con-
verge assolutamente, allora Z ha speranza matematica nita. In tal caso ripetendo i passaggi
appena svolti ma senza il valore assoluto si ha
zZ()
z PZ =z =
zZ()
z
_
xAz
p(x)
_
=
zZ()
xAz
z p(x) =
zZ()
xAz
(x) p(x) =
=
xX()
(x) p(x) ,
dove lultimo passaggio è possibile in quanto la serie converge assolutamente e quindi può
essere riordinata.
Figura 13: Rappresentazione schematica della dimostrazione del teorema 5.5. Qui la funzione
e la variabile aleatoria Z assumono valori nellinsieme Z() z, z
, z
R; si hanno
quindi tre sottoinsiemi A
z
, A
z
, A
z
R
m
(qui m = 2), la cui unione costituisce X() .
X()
A
z
A
z
A
z
z
z
A partire dal teorema 5.5 si dimostrano facilmente alcune ulteriori proprietà della media:
Teorema 5.6. Siano X e Y variabili aleatorie con media nita. Allora:
a, b R aX+bY ha media nita e E[aX+bY ] = a E(X) +b E(Y ) ;
5.2 Momenti di una variabile aleatoria 63
[X[ ha media nita e [E[X][ E[[X[] ;
se X e Y sono indipendenti, X Y ha media nita e E[X Y ] = E[X] E[Y ] .
Dimostrazione:
xX()
[a x[ p
X
(x) = [a[
xX()
[x[ p
X
(x) < ,
quindi aX ha media nita. Si ha poi
E[aX] =
xX()
a xp
X
(x) = a
xX()
xp
X
(x) = a E[X] .
Posto Z (X, Y ) : R
2
si ha
(x,y)Z()
[x +y[ p
Z
(x, y)
(x,y)Z()
([x[ +[y[) p
Z
(x, y) =
(x,y)
[x[ p
Z
(x, y) +
(x,y)
[y[ p
Z
(x, y) =
=
x
[x[ p
X
(x) +
y
[y[ p
Y
(y) < ,
quindi X +Y ha media nita. Si ha poi
E[X +Y ] =
(x,y)Z()
(x +y) p
Z
(x, y) =
(x,y)
xp
Z
(x, y) +
(x,y)
y p
Z
(x, y) =
=
x
xp
X
(x) +
y
y p
Y
(y) = E[X] +E[Y ] .
[E[X][ =

xX()
xp
X
(x)
xX()
[x[ p
X
(x) = E[[X[] .
(x,y)Z()
[xy[ p
Z
(x, y) =
(x,y)
[x[ [y[ p
X
(x) p
Y
(y) =
_
x
[x[ p
X
(x)
__
y
[y[ p
Y
(y)
_
< ,
quindi X + Y ha media nita. Ripetendo i medesimi passaggi senza i valori assoluti si
ottiene
E[X Y ] =
_
x
xp
X
(x)
__
y
y p
Y
(y)
_
= E[X] E[Y ] .
5.2 Momenti di una variabile aleatoria

Consideriamo ancora una variabile aleatoria, di densità p . Diremo che X ha momento nito
di ordine k N se la variabile aleatoria X
k
ha media nita; in tal caso
E[X
k
] =
_
R
x
k
p(x) dx
è detto momento di ordine k . Analogamente, se (X E[X])
k
ha media nita allora diremo
che X ha momento centrato di ordine k nito, e E
_
(X E[X])
k
è detto momento centrato di

ordine k .
Teorema 5.7.
Se X ha momento nito di ordine k , allora ha anche momento nito di ordine r k .
Se X e Y hanno momento nito di ordine k , allora anche (X+Y ) ha momento nito di
ordine k . In particolare: se X ha momento nito di ordine k allora ha anche momento
centrato nito di ordine k .
Dimostrazione: Se r k , per ogni x R si ha [x[
r
1 +[x[
k
(infatti [x[ 1 [x[
r
1 ,
mentre [x[ > 1 [x[
r
< [x[
k
). Dunque ponendo p p
X
si ottiene
_
R
[x[
r
p(x) dx
_
R
(1 +[x[
k
) p(x) dx =
_
R
p(x) dx +
_
R
[x[
k
p(x) dx =
= 1 +E[[X
k
[] .
Se X ha momento nito di ordine k allora E[[X
k
[] è nito, per cui risulta nito anche
E[[X
r
[]
_
X()
[x[
r
p(x) dx.
Riguardo alla seconda aermazione dellenunciato, osserviamo che tenendo conto della
convessità della funzione t [t[
k
si ottiene lidentità
5.3
[x +y[
k
2
k1
([x[
k
+[y[
k
) ,
da cui, indicando con p p
(X,Y )
la densità congiunta di X e Y , si ottiene
_
R
2
[x +y[
k
p(x, y) dxdy 2
k1
_
R
2
([x[
k
+[y[
k
) p(x, y) dxdy =
= 2
k1
_
_
R
2
[x[
k
p(x, y) dxdy +
_
R
2
[y[
k
p(x, y) dxdy
_
=
= 2
k1
_
_
R
[x[
k
p
X
(x) dx +
_
R
[y[
k
p
Y
(y) dy
_
=
= 2
k1
_
E[[X[
k
] +E[[Y [
k
]
_
.
Pertanto, se E[[X[
k
] e E[[Y [
k
] sono niti, anche E[[X +Y [
k
] è nito. Consideriamo poi il caso
particolare Y E[X] ; allora p
Y
=
da cui E[[Y [
k
] = [[
k
(vedi esempio 5.2).
Il momento centrato di ordine 2 ,
Var[X] := E
_
(X E[X])
2
,
è detto varianza.
Osservazione. Continuando lanalogia in cui p è interpretata come densità di massa, E[X
2
]
corrisponde al momento dinerzia rispetto allorigine e Var[X] corrisponde al momento diner-
zia rispetto al centro di massa. La prima identità del teorema 5.9 (pagina 65) è in sostanza il
teorema di Huygens.
5.3
Ricordiamo che una funzione f : R R si dice convessa se per ogni coppia di punti (x, y) del suo do-
minio e per ogni [0, 1] si ha f(x+(1 )y) f(x) +(1 )f(y) , cioè il segmento che unisce i punti
(x, f(x)), (y, f(y)) R
2
non sta mai sotto al graco di f. Una f di classe C
2
è convessa su un intervallo se la
sua derivata seconda è (quasi ovunque) non negativa su di esso, e ciò è vero per la funzione t |t|
k
. Prendendo
allora = 1/2 nella disuguaglianza precedente si ottiene subito lidentit` a che ci serve.
5.2 Momenti di una variabile aleatoria 65
Teorema 5.8. (Disuguaglianza di Chebyshev.)
Se la variabile aleatoria X ha momento di ordine 2 nito (esiste E[X
2
]), per ogni c R
+
si
ha
P[X[ c
1
c
2
E[X
2
] ;
in particolare
P[X E[X][ c
1
c
2
Var[X] .
Dimostrazione: Verichiamo la disuguaglianza nel caso discreto (la dimostrazione nel con-
tinuo è sostanzialmente identica). Se p è la densità di X abbiamo
P[X[ c =
|x|c
p(x) =
|x|c
p(x)
x
2
x
2

|x|c
p(x)
x
2
c
2

xX()
p(x)
x
2
c
2
=
E[X
2
]
c
2
(la somma su [x[ > c signica, pi` u esplicitamente, somma su tutti gli x X() tali che [x[ > c).
Applicando questo risultato alla variabile aleatoria XE[X] si ottiene il secondo.
Osservazione. Il risultato precedente può essere interpretato intuitivamente nel senso che
il momento di ordine due dà una misura di quanto la variabile aleatoria X è sparpagliata
rispetto a X = 0 . In particolare, la varianza dà una misura di quanto X è sparpagliata
rispetto a al suo valore di aspettazione.
Infne, come ultime denizioni di questo paragrafo diamo le due seguenti: se X e Y sono
variabili aleatorie con varianza nita, i numeri
Cov[X, Y ] := E
_
(X E[X]) (Y E[Y ])
,
Corr[X, Y ] :=
Cov[X, Y ]
_
Var[X] Var[Y ]
sono detti rispettivamente covarianza e coeciente di correlazione di X e Y .
Teorema 5.9. Si ha:
Var[X] = E[X
2
] (E[X])
2
;
Var[a X] = a
2
Var[X] , a R;
Var[a +X] = Var[X] , a R;
Var[X +Y ] = Var[X] +Var[Y ] + 2 Cov[X, Y ] ;
Cov[X, Y ] = E[XY ] E[X] E[Y ] .
Se X e Y sono indipendenti:
Cov[X, Y ] = 0 , Var[X +Y ] = Var[X] +Var[Y ] .
In generale, se X e Y non sono indipendenti, si ha E[[X Y []
2
E[X
2
] E[Y
2
] , dalla quale
si ottiene anche
Cov[X, Y ]
2
Var[X] Var[Y ] Corr[X, Y ]
2
1 .
Dimostrazione: Posto E[X] , E[Y ] :
Var[X] =
_
(x )
2
p(x) dx =
_
(x
2
+
2
2 x) p(x) dx =
=
_
x
2
p(x) dx +
2
_
p(x) dx 2
_
xp(x) dx = E[X
2
] +
2
1 2 =
= E[X
2
]
2
;
poiche (teorema 5.6) E[a X] = a E[X] , si ottiene
Var[a X] =
_
(a x a )
2
p(x) dx = a
2
_
(x )
2
p(x) dx = a
2
Var[X] .
poiche (teorema 5.6) E[a +X] = a +E[X] , si ottiene
Var[a +X] =
_
(a +x (a +))
2
p(x) dx =
_
(x )
2
p(x) dx = Var[X] .
poiche (teorema 5.6) E[X +Y ] = E[X] +E[Y ] + , si ottiene
Var[X +Y ] =
=
_
(x +y ( +))
2
p(x, y) dxdy =
_ _
(x ) + (y )
_
2
p(x, y) dxdy =
=
_
(x )
2
p(x) dxdy +
_
(y )
2
p(y) dxdy + 2
_
(x ) (y ) p(x, y) dxdy =
=
_
(x )
2
p
X
(x) dx +
_
(y )
2
p
Y
(y) dy + 2
_
(x ) (y ) p(x, y) dxdy =
= Var[X] +Var[Y ] + 2 Cov[X, Y ] .
Cov[X, Y ] = E[(X) (Y )] = E[X Y Y X +] =
= E[X Y ] E[Y ] E[X] + = E[X Y ] .
Se X e Y sono indipendenti si ha E[X Y ] = (teorema 5.6), da cui Cov[X, Y ] = 0 .
Il valore di aspettazione di una variabile aleatoria non negativa è sempre un numero 0 ;
pertanto per qualsiasi R si ha
0 E
_
( [X[ +[Y [)
2
=
2
E[X
2
] + 2 E[[X Y [] +E[Y
2
] .
Guardiamo lultima espressione come un trinomio, nella variabile , che non prende valori
negativi: allora il suo discriminante è 0, cioè E[[X Y [] E[X
2
] E[Y
2
] 0 . Applicando poi
questo risultato alle variabili aleatorie XE[X] e Y E[Y ] si ottiene
Cov[X, Y ]
2
E
_
(XE[X]) (Y E[Y ])
2
E
_
(XE[X])
2
E
_
(Y E[Y ])
2
=
= Var[X] Var[Y ] .
Osservazione. Valore di aspettazione e varianza di una variabile aleatoria vengono spesso
indicati rispettivamente con i simboli e
2
. Quando poi si ha a che fare con due variabili
aleatorie X e Y , si usa anche indicare con
X
e
Y
i rispettivi valori di aspettazione, con (
X
)
2
e (
Y
)
2
le rispettive varianze, con
X,Y
la covarianza e con
X,Y
=
X,Y
X

Y
il coeciente di correlazione. Per quanto visto sopra (ultimo punto del teorema 5.9) si ha
1
X,Y
1 .
La covarianza è un indice di quanto due variabili aleatorie variano in accordo tra loro;
può assumere valori positivi e negativi (un valore negativo signica che al crescere delluna
si accompagna di solito il diminuire dellaltra). Se le due variabili aleatorie sono indipendenti
allora la covarianza è nulla, ma il viceversa non è vero (la covarianza può essere nulla senza che
le variabili aleatorie siano indipendenti). Torneremo sullargomento (8.4) per una ulteriore
discussione riguardo al coeciente di correlazione.
5.3 Alcuni esempi di media e momenti 67
5.3 Alcuni esempi di media e momenti
Uno degli esempi pi` u importanti è quello della distribuzione Gaussiana (6.5).
Esempio 5.1. Sia X una variabile aleatoria uniformemente distribuita sullintervallo [a, b] R
e nulla al di fuori di esso, ovvero
p(x) p
X
(x) =
_
1
ba
, x [a, b] ,
0 , x , [a, b] .
Allora tutti i momenti sono niti, perche sono dati da integrali di funzioni continue su un
intervallo chiuso. Il calcolo è semplice, e si ottiene
E[X] =
1
2
(a +b) ,
E[X
k
] =
b
k+1
a
k+1
(b a) (k + 1)
,
E[(X )
k
] = (1 + (1)
k
)
(b a)
k
2
k+1
(k + 1)
=
_
(ba)
k
2
k
(k+1)
, se k è pari,
0 , se k è dispari.
,
Var[X] E[(X )
2
] =
1
12
(b a)
2
.
Esempio 5.2. Sia X : R : (costante); allora p

X
=
(delta di Dirac, 2.4). Per-

tanto
E[[X[
k
] =
_
R
[x
k
[
(x) dx = [[
k
,
E[X
k
] =
_
R
x
k
(x) dx =
k
,
E[(X )
k
] =
_
R
(x )
k
(x) dx = 0 .
Si osservi che questo caso può essere visto come limite del precedente, con a
, b
+
.
Esempio 5.3. Consideriamo una variabile aleatoria a valori in [1, ) con densità
p
X
(x) = ( 1) x
, > 1 .
`
E allora imemdiato vericare che in eetti
_

1
p
X
(x) dx = 1 .
Ricordiamo che se una funzione va asintoticamente come x
, il suo integrale su un intorno

di + converge per > 1 (disuguaglianza stretta). Pertanto la X ammette media solo per
> 2 , e in generale ammette momento di ordine k solo per > k + 1 . Per > 2 si ottiene
E[X] =
1
2
;
per > 3 si ottiene
Var[X] =
1
( 2)
2
( 3)
.
Esempio 5.4. Consideriamo una variabile aleatoria X discreta la cui densità sia data dalla
legge di Poisson (3.5)
p(k) =
e
k
k!
.
Il momento di ordine r è la somma della serie
E[X
r
] =
k=0
k
r
p(k) = e
k=0
k
r

k
k!
,
che risulta certamente nito in quanto la presenza del fattoriale al denominatore garantisce
la convergenza. In particolare:
E[X] = , E[X
2
] = (1 +) , Var[X] = .
Infatti
E[X] = e
k=0
k

k
k!
= e
k=1
k
(k 1)!
= e
k=0
k
k!
= (e
) e
= ,
E[X
2
] = e
k=0
k
2

k
k!
= e
k=1
k

k
(k 1)!
= e
k=0
(k + 1)

k+1
k!
=
= e
k=0
k

k
k!
+
k=0
k
k!
_
= e
(e
+ e
) = ( + 1) ,
Var[X] = E[X
2
] (E[X])
2
=
(nellultima riga abbiamo utilizzato il primo risultato del teorema 5.9). Si può poi dimostrare
che tutti i momenti centrati, di qualsiasi ordine, hanno il medesimo valore .
Applichiamo questo risultato al caso del decadimento radioattivo (3.8). Abbiamo visto
che, dato un campione di N atomi, la probabilità che k di questi decadano in un tempo t è data
dalla legge di Poisson p(k) =
1
k!
e
k
con (1 e
t/
) N , dove è un tempo caratteristico
del tipo di atomo considerato. La media E[X] = è allora il valore atteso del numero di atomi
che decadono nel tempo t ; in altri termini, se si osserva il campione per un tempo t ci si
aspetta che circa atomi su N decadano. In particolare si ha = N/2 per
e
t/
=
1
2
t = (log 2) .
Questo tempo è detto tempo di dimezzamento.
Esempio 5.5. Ci riferiamo ora allesperimento lancio di due dadi regolari e alle variabili
aleatorie X e Y che danno rispettivamente la somma e la dierenza dei due valori ottenuti.
5.3 Alcuni esempi di media e momenti 69
Utilizzando i risultati dellesempio 4.14 possiamo calcolare facilmente:
E[X] = 7 , E[Y ] = 0 , E[X
2
] =
329
6
, E[Y
2
] =
35
6
,
Var[X] = Var[Y ] =
35
6
, Cov[X, Y ] = 0 .
Quindi abbiamo un esempio di due variabili aleatorie non indipendenti la cui covarianza è
nulla.
Calcoli analoghi si possono fare per le variabili aleatorie, che chiamiamo ancora X e Y ,
che danno rispettivamente la somma e il prodotto dei due valori ottenuti:
E[X] = 7 , E[Y ] =
49
4
, E[X
2
] =
329
6
, E[Y
2
] =
8281
36
,
Var[X] =
35
6
, Var[Y ] =
1603
48
, Cov[X, Y ] =
245
12
,
X,Y
= 7
_
10
229
= 1.46278... .
Esempio 5.6. Consideriamo la probabilità uniforme p(x, y) = 1/ r

2
concentrata sul cerchio
di raggio r in R
2
(esempio 4.12), con le variabili aleatorie X : (x, y) x e Y : (x, y) y ;
abbiamo già osservato che non sono indipendenti, e che
p
X
(x) = 2
_
r
2
x
2
/ r
2
, p
Y
(y) = 2
_
r
2
y
2
/ r
2
.
Si ha evidentemente
E[X] =
_
+ r
r
xp
X
(x) dx =
2
r
2
_
+ r
r
x
_
r
2
x
2
dx = 0 ,
in quanto la funzione integranda è dispari. Analogamente E[Y ] = 0 . Utilizzando la primitiva
_
x
2
_
r
2
x
2
=
1
8
_
x(2 x
2
r
2
)
_
r
2
x
2
+ r
4
arctan
_
x
r
2
x
2
_
_
,
che si può trovare con i normali(?) metodi di integrazione, si calcola
Var[X] = Var[Y ] =
1
4
r
2
.
Inoltre è immediato vericare che Cov[X, Y ] = 0 .
70 6 COMPENDIO DELLE LEGGI PI
`
U IMPORTANTI
6 Compendio delle leggi pi` u importanti
In questa sezione rivediamo le principali distribuzioni introdotte in precedenza (a parte la
distribuzione uniforme e la delta di Dirac, vedi 5.3), e ne introduciamo alcune altre che
verranno utilizzate in seguito. Osserviamo che le distribuzioni discrete nelle quali compaiono i
fattoriali e i coecienti binomiali possono essere estese al caso continuo utilizzando la funzione
di Eulero (6.6).
6.1 Legge binomiale
La legge binomiale (3.4) è
B[n, p](k) =
_
n
k
_
p
k
(1 p)
nk
, n, k N, k n, p (0, 1) .
Il calcolo della media e della varianza è abbastanza semplice; se X B[n, p] si ha:
E[X] =
n
k=0
k B[n, p](k) =
n
k=0
k
_
n
k
_
p
k
(1 p)
nk
=
= np
n
k=1
_
n 1
k 1
_
p
k1
(1 p)
(n1)(k1)
= np
n1
h=0
_
n 1
h
_
p
h
(1 p)
(n1)h
= np ,
E[X
2
] =
n
k=0
k
2
B[n, p](k) =
n
k=0
k
2
_
n
k
_
p
k
(1 p)
nk
=
= np
n
k=1
k
_
n 1
k 1
_
p
k1
(1 p)
(n1)(k1)
=
= np
n1
h=0
(h + 1)
_
n 1
h
_
p
h
(1 p)
(n1)h
=
= np
_
n1
h=0
h
_
n 1
h
_
p
h
(1 p)
(n1)h
+
n1
h=0
_
n 1
h
_
p
h
(1 p)
(n1)h
_
=
= np
_
(n 1) p + 1
_
= np (np p + 1) ,
Var[X] = E[X
2
]
_
E[X]
_
2
= np (np p + 1) (np)
2
=
= np (1 p) .
Osservazione. La distribuzione multinomiale (3.9)
M[p
1
, . . . , p
N
](k
1
, . . . , k
N
) =
_
n
k
1
, . . . , k
N
_
(p
1
)
k
1
(p
N
)
k
N
, n k
1
+ +k
N
,
6.2 Legge di Poisson 71
può essere vista come la legge di un vettore aleatorio N-dimensionale. Il suo valore di aspet-
tazione risulta essere
_
np
1
, . . . , np
N
_
R
N
.
`
E interessante calcolare le leggi marginali...
6.2 Legge di Poisson
Questa legge, data da
p[](k) =
e
k
k!
,
è stata introdota nel 3.5. Nellesempio 5.4 si è visto che se X p[] allora
E[X] = , E[X
2
] = (1 +) , Var[X] = .
6.3 Distribuzione geometrica
`
E cos` detta la distribuzione discreta
g[p](k) = p (1 p)
k
che è stata introdotta nel 3.6. Nel 3.8 si è visto che la sua naturale estensione al caso
continuo è la legge esponenziale (6.7). Per il calcolo della media e della varianza di una
variabile aleatoria X g[p] utilizziamo le identità,
6.1
valide per ogni q R,
(1 q)
2
n
k=0
k q
k
= q (n+1) q
n+1
+nq
n+2
,
(1 q)
3
n
k=0
k
2
q
k
= q +q
2
(n + 1)
2
q
n+1
+ (2 n
2
+ 2 n 1) q
n+2
n
2
q
n+3
,
dalle quali per [q[ < 1 segue
k=0
k q
k
=
q
(1 q)
2
,
k=0
k
2
q
k
=
q +q
2
(1 q)
3
.
Si ha pertanto
E[X] =
k=0
k g[p](k) = p
k=0
k (1 p)
k
=
p (1 p)
p
2
=
1 p
p
,
E[X
2
] =
k=0
k
2
g[p](k) = p
k=0
k
2
(1 p)
k
= p
(1 p) + (1 p)
2
p
3
=
2 3 p +p
2
p
2
,
Var[X] = E[X
2
]
_
E[X]
_
2
=
2 3 p +p
2
p
2

(1 p)
2
p
2
=
1 p
p
2
.
6.1
Per vericarle basta espandere i prodotti, i quali risultano avere la propriet` a telescopica: i termini
intermedi si cancellano.
`
U IMPORTANTI
6.4 Distribuzione ipergeometrica
Problema: in unurna contenente n oggetti ce ne sono r n la cui uscita, in unestrazione
casuale, riguardiamo cone un successo; in una successione di s estrazioni (senza rimpiazzo),
qualè la probabilità p[s, r, n](k) di ottenere k successi?
Ovviamente tale probabilità è diversa da zero solo se k min(r, s) , nel qual caso è data
dalla distribuzione ipergeometrica
p[s, r, n](k) =
(
r
k
)
_
nr
sk
_
(
n
s
)
.
Si ha quindi
min(r,s)
k=0
p[s, r, n](k) = 1 .
Inoltre il valore di aspettazione e la varianza di questa distribuzione risultano essere
E
_
p[s, r, n]
=
r s
n
, Var
_
p[s, r, n]
=
r s (n r) (n s)
(n 1)n
2
.
Dimostrazione: Per ricavare lespressione di p[s, r, n](k) ragioniamo come segue. Linsieme A
degli oggetti nellurna è lunione A
dei due sottoinsiemi, di cardinalità rispettivamente

[A
[ = r e [A
[ = nr , costituiti rispettivamente dai successi e dagli insuccessi; ogni

combinazione di s elementi dellurna, k dei quali siano successi (ed s k insuccessi),
è lunione di due sottoinsiemi B
k
A
e B
sk
A
. Osserviamo poi che i sottoinsiemi B
k
sono in numero di (
r
k
) , mentre i sottoinsiemi B
sk
sono in numero di
_
nr
sk
_
. Pertanto il
numero delle combinazioni distinte di cardinalità s , costituite da elementi di A e contenenti
esattamente k successi, è il prodotto (
r
k
)
_
nr
sk
_
. A questo punto per ricavare p[s, r, n](k)
basta osservare che le combinazioni di s elementi di A sono in numero di (
n
s
) (e quindi ciascuna
di esse, in unestrazione con densità uniforme, ha probabilità 1/ (
n
s
)).
Per calcolare la media di questa distribuzione osserviamo prima di tutto che
nk
s r
p[s, r, n](k) =
k
r
(
r
k
)
_
nr
sk
_
n
s
(
n
s
)
=
_
r1
k1
_ _
nr
sk
_
_
n1
s1
_ =
_
r1
k1
_
_
(n1)(r1)
(s1)(k1)
_
_
n1
s1
_ =
= p[s 1, r 1, n1](k 1) .
Pertanto
E
_
p[s, r, n]
=
min(r,s)
k=0
k p[s, r, n](k) =
r s
n
min(r,s)
k=1
p[s 1, r 1, n1](k 1) =
=
r s
n
min(r1,s1)
h=0
p[s 1, r 1, n1](h) =
=
r s
n
1 =
r s
n
,
dove nel passaggio dalla prima alla seconda riga si è fatta la sostituzione h = k 1 (il calcolo
della varianza è pi` u complicato).
6.5 Distribuzione normale, o gaussiana 73
Osservazione. Cè un ragionamento un po pi` u sottile con cui si riesce a calcolare il valore di
aspettazione in maniera pi` u rapida, e senza fare intervenire lespressione esplicita di p[s, r, n] .
Supponiamo di avere i risultati delle s estrazioni ma di non conoscere lordine in cui sono state
fatte; non esiste alcun modo con cui si possa risalire a tale ordine, e ciò signica che le variabili
aleatorie X
i
(i = 1 . . . , s) che prendono il valore 1 in caso di successo alli-esima estrazione, e 0
in caso di insuccesso, devono avere tutte lo stesso valore di aspettazione. Daltra parte si ha ov-
viamente E[X
1
] = r/n, per cui E
_
p[s, r, n]
i
E[X
i
] = s r/n. Dunque dal punto di vista del
calcolo della media le X
i
si comportano come se fossero indipendenti, anche se evidentemen-
te non lo sono (il calcolo diretto di E[X
i
] = r/n per ciascun i è invece un po complicato, lo si
può fare per esempio disegnando un appropriato diagramma di usso come nel 4.4). Per la
varianza in eetti il ragionamento non funziona: se le X
i
fossero indipendenti si dovrebbe avere
Var
_
p[s, r, n]
i
Var[X
i
] , mentre Var[X
1
] = (0
r
n
)
2
(1
r
n
) + (1
r
n
)
2 r
n
= (1
r
n
)
r
n
.
Figura 14: La distribuzione ipergeometrica assume valori quasi identici a quelli della distribu-
zione normale con stessa media e e varianza
2
. Estendendo la distribuzione ipergeometrica
a valori di k reali positivi mediante la funzione di Eulero, i due graci sono praticamente
indistinguibili. Nel caso qui riportato si ha
p[s, r, n](k) N[, ](k)
< 0.0015 per k [0, 20] .

5 10 15 20
0.05
0.10
0.15
0.20
s =20
r =27
n=50
=10.8
2
=3.04163
6.5 Distribuzione normale, o gaussiana
La distribuzione normale, o Gaussiana, è la densità p : R R
+
denita da
p(x) N[, ](x) :=
1
2
e
(x)
2
2
2
, R, R
+
.
Notiamo che la funzione p è simmetrica rispetto allasse x = , punto in cui ha il massimo
assoluto, e si ha
p() =
1
2
, p( ) =
1
2 e
.
Dunque il parametro R
+
può essere visto come la distanza dallasse di simmetria a cui il
valore di p si riduce del fattore 1/
e . Si noti come, al cresecere di , la campana si allarga

mentre il massimo si abbassa.
`
U IMPORTANTI
Figura 15: Graco della distribuzione normale per alcuni valori dei parametri (i due assi non
sono disegnati nella medesima scala).
6 4 2 2 4 6
0.1
0.2
0.3
0.4
= 0 , = 1
= 0 , = 1.5
= 0 , = 2
= 4 , = 1.5
Il calcolo della media e dei momenti dà:
E[X] = ,
E[X
2
] =
2
+
2
, Var[X] E
_
(X E[X])
2
=
2
,
E[X
3
] =
3
+ 3
2
, E
_
(X E[X])
3
= 0 ,
E[X
4
] =
4
+ 6
2
2
+ 3
4
, E
_
(X E[X])
4
= 3
4
eccetera (tutti i momenti centrati di ordine dispari sono nulli, mentre quelli pari sono propor-
zionali a
k
).
La funzione di ripartizione della densità N[, ] , indicata di solito con il simbolo
,
, può
essere espressa mediante la cosiddetta funzione degli errori (error function) erf : R (1, 1) ,
denita da
erf(x) :=
2
_
x
0
e
2
d .
Per quanto erf(x) non possa essere espressa in termini niti tramite le funzioni elementari
pi` u comuni, è una funzione perfettamente maneggiabile: è analitica dappertutto, cioè può
espressa, scelto un qualsiasi x
0
R, mediante una serie di potenze centrata in x
0
, con raggio
di convergenza innito. Per x
0
= 0 si trova
erf(x) =
2
n=0
(1)
n
x
2 n+1
n! (2 n + 1)
=
2
_
x
1
3
x
3
+
1
10
x
5
1
42
x
7
+
1
216
x
9
. . .
_
.
Con un opportuno cambiamento di variabile si trova allora
,
(x)
_
x
f() d =
1
2
_
1 + erf
_
x
2
__
.
6.5 Distribuzione normale, o gaussiana 75
Figura 16: Graco della funzione erf(x) .
3 2 1 1 2 3
1.0
0.5
0.5
1.0
Figura 17: Graco della funzione di ripartizione della distribuzione normale per = 0 e
= 1, 1.5, 2 (a sinistra) e per = 4 , = 1.5 (a destra). Al decrescere di (cioè via via che la
densità Gaussiana diventa pi` u stretta e con massimo pi` u alto) lo scalino di F diventa pi` u
pronunciato.
6 4 2 2 4 6
0.2
0.4
0.6
0.8
1.0
La p(x) N[, ](x) è la densità della variabile aleatoria X(t)
,
: R, dove la
probabilità di [0, 1] è data dalla densità uniforme (4.5). Si ha poi
,
(t) = +
erf(2 t 1) ,
dove la funzione inversa
erf : [1, 1] R è ancora analitica.

6.2
6.2
Conoscendo la serie di Taylor di erf si pu` o calcolare quella di
erf ; lespressione del coeciente generico

risulta per` o un po intricata e non vale la pena di riportarla. I primi termini dello sviluppo sono
erf(t) =
2
_
t +

12
t
3
+
7
2
480
t
5
+
127
3
40320
t
7
+
4369
4
5806080
t
9
+. . .
_
.
`
U IMPORTANTI
Per quanto riguarda il calcolo della media e dei momenti, osserviamo che si hanno le primitive
_
e
x
2
xdx =
1
2
e
x
2
+ costante ,
_
e
x
2
x
2
dx =
1
2
xe
x
2
+
4
erf(x) + costante ,
_
e
x
2
x
3
dx =
1
2
e
x
2
(1 +x
2
) + costante ,
_
e
x
2
x
4
dx = e
x
2
_
3
4
x +
1
2
x
3
_
+
3
8
erf(x) + costante ,
la prima delle quali si trova subito con il cambio di variabile u x
2
, le altre mediante
successive integrazioni per parti.
6.6 Leggi Gamma
La funzione Gamma di Eulero (vedi anche A.1) è denita da
() :=
_

0
x
1
e
x
dx .
Mediante unintegrazione per parti si ricava subito
6.3
( + 1) = () .
Pertanto, poiche
(1) =
_

0
e
x
dx = 1 0! ,
per n intero si ha
(n) = (n 1)! .
La funzione risulta essere analitica in R
+
(mentre ha delle singolarità C e, in particolare,
in 0 e in tutti gli interi negativi), e costituisce la naturale generalizzazione dellapplicazione
n n! al caso in cui n sia un intero reale positivo (gura 18). Un altro valore notevole, che
si calcola senza dicoltà
6.4
con un cambio di variabile, è
_
1
2
_
=
.
6.3
Nellintegrale che denisce () facciamo i cambi di variabile u x
, da cui du = x
1
dx, e v e
x
da cui dv = e
x
dx. Otteniamo
_
x
1
e
x
dx =
1
_
v du =
1
_
uv
_
udv
_
=
1
_
x
e
x
_
x
(e
x
) dx
_
,
da cui
() =
_

0
x
1
e
x
dx =
1
_
x
e
x
_
0
+
1
_

0
x
e
x
dx = 0 +
1
( + 1) .
6.4
Osserviamo che da
1
2
_
0
e
u
2
/2
2
du =
1
2
segue, ponendo = 1/
2 ,
_
0
e
u
2
du =

/2 . Nellin-
tegrale che denisce (1/2) facciamo allora il cambiamento di variabile u = x
1/2
du =
1
2
x
1/2
dx,
ottenendo
(1/2) =
_

0
x
1/2
e
x
dx = 2
_

0
e
u
2
du =
.
6.6 Leggi Gamma 77
Questo permette di trovare il valore di per ogni argomento semi-intero; si ottiene
_
n +
1
2
=
(2 n 1)!!
2
n
.
Figura 18: Graco della funzione Gamma di Eulero per valori reali positivi dellargomento
(cresce molto rapidamente...).
0 1 2 3 4 5
2
4
6
8
10
Per ogni coppia di numeri reali positivi , R
+
si trova allora che la funzione
[, ](x) :=

()
x
1
e
x/
è una densità concentrata su R
+
. Infatti
_

0
[, ](x) dx =
1
()
_

0
x
1
e
x/
dx =
1
()
_

0
(x/)
1
e
x/
d(x/) =
=
1
()
() = 1 .
Se X [, ] si dice che la variabile aleatoria X segue una legge Gamma di parametri
e , che sono detti rispettivamente parametro di forma e parametro di scala. La legge
Gamma viene anche rappresentata in termini di e = 1/ come
[, 1/](x) :=

()
x
1
e
x
.
Per tracciare qualitativamente un graco di [, ](x) osserviamo prima di tutto che si
hanno i limiti
lim
x0+
[, ](x) =
_
_
+, (0, 1) ,
1/ , = 1 ,
0 , > 1 ,
lim
x
[, ](x) = 0 .
Inoltre la derivata
d
dx
[, ](x) =

()
x
2
e
x/
_
( 1)
x
_
si annulla in x = (1) che è in R
+
per > 1 ; pertanto per > 1 si ha un massimo, o
(trattandosi di una legge di probabilità) valore modale. I graci di [, ](x) per diversi valori
di e sono riportati in gura 19
`
U IMPORTANTI
Figura 19: Graci della distribuzione [, ] per = 2 e = 1, 1.5, 2, 3, 5 (a sinistra), e per
= 2.5 e = 1, 1.5, 2.5, 3 (a destra).
5 10 15 20
0.1
0.2
0.3
0.4
0.5
= 2
= 1
= 5
5 10 15 20
0.05
0.10
0.15
0.20
0.25
0.30
= 2.5 = 1
= 3
Se X [, ] si ha
E[X] =
1
()
_

0
x
x
1
e
x/
dx =

()
_

0
1
x
e
x/
dx =
=
( + 1)
()
= .
E[X
2
] =
1
()
_

0
x
2
x
1
e
x/
dx =

2
()
_

0
2
x
+1
e
x/
dx =
=
( + 2)
()

2
= ( + 1)
2
.
Var[X] = E[X
2
] (E[X])
2
=
2
.
Teorema 6.10. Siano X [, ] e Y [
, ] variabili aleatorie indipendenti. Allora

X +Y [+
, ] .
Dimostrazione: Poiche X e Y sono indipendenti, la densità congiunta è il prodotto delle
singole densità, ovvero
p(x, y) =[, ](x) [
, ](y) =

()
x
1
e
x/
)
y
1
e
y/
=
=

() (
)
x
1
e
x/
y
1
e
y/
.
Ricordando ora il teorema 4.4 abbiamo
p
X+Y
(z) =
_
z
0
p(x, z x) dx =

() (
)
_
z
0
x
1
e
x/
(z x)
1
e
(zx)/
dx =
=

e
z/
() (
)
_
z
0
x
1
(z x)
1
dx ,
dove si è tenuto presente che, essendo le densità di X e Y nulle al di fuori di R
+
, lespressione
p(x, zx) = p
X
(x) p
Y
(zx) è diversa da zero solo nellintervallo (0, z) . Con il cambiamento
di variabile x = z t dx = z dt si ottiene allora, dopo qualche semplice passaggio algebrico,
p
X+Y
(z) =

e
z/
z
+
1
() (
)
_
1
0
t
1
(1 t)
1
dt .
6.7 Legge esponenziale 79
Poiche lintegrale della densità p
X+Y
(z) su R
+
deve fare 1 si ha inne
1 =
_

0
p
X+Y
(z) dz =
1
() (
)
_
_

0
e
z/
z
+
1
dz
__
_
1
0
t
1
(1 t)
1
dt
_
=
=
1
() (
)
( +
)
_
_
1
0
t
1
(1 t)
1
dt
_
.
Troviamo quindi lidentità
_
1
0
t
1
(1 t)
1
dt =
() (
)
( +
)
,
che sostituita nella precedente espressione dà appunto p
X+Y
= [+
, ] .
Osservazione. La funzione di due variabili
B(,
) :=
_
1
0
t
1
(1 t)
1
dt =
() (
)
( +
)
è detta Beta di Eulero.
6.7 Legge esponenziale
Una legge gamma con = 1 ,
[1, ](x) =
1
e
x/
,
è detta legge esponenziale di parametro . Se X [1, ] si ha
E[X] = , Var[X] =
2
.
Questa legge è stata usata in alcuni esempi nel testo (vedi 3.8, ed esempio 7.13).
6.8 Legge chi quadro
Si dice legge chi quadrato (o chi quadro) con gradi di libertà la densità
2
[](x) [/2, 2](x) =
2
/2
x
1+/2
e
x/2
[/2]
=
=
_
2
x
2
e
x
_
1/2
[/2]
.
Se X
2
[] si ha
E[X] = , Var[X] = 2 .
Questa legge è stata incontrata per la prima volta nellesempio 4.18, dove si è visto che se
X N[0, 1] allora X
2
ha densità
p
X
2
(x) =
1
2
x
1/2
e
x/2

2
[1](x) .
Pertanto X
2

2
[1] .
`
U IMPORTANTI
Osservazione. Sia (X
n
) una successione di variabili aleatorie indipendenti, tutte di legge
N[0, 1] . Allora
n
i=1
(X
i
)
2

2
[n] .
Infatti, poiche (X
i
)
2

2
[1] [1/2, 2] , dal teorema 6.10 abbiamo
n
i=1
(X
i
)
2

_
n
1
2
, 2

2
[n] .
Questa legge è usata in un importante test statistico (8.6).

6.9 Distribuzione di Student
La distribuzione di Student
6.5
con gradi di libertà è la densità p : R R
+
denita da
p(x) t[](x) :=

/2
B(
2
,
1
2
)
( +x
2
)
(+1)/2
, R
+
,
dove B è la Beta di Eulero (6.6)
B(, ) :=
() ()
( +)
.
`
E evidente che t[](x) è simmetrica con un andamento a campana; in eetti si può dimostrare
che t[](x) N[0, 1](x) x per ; anzi la convergenza è abbastanza rapida, come si vede
dalla gura 20.
Figura 20: Graco della distribuzione di Student per i valori = 0.2, 1, 4 . Con un tratto pi` u
spesso è rappresentata, per confronto, la distribuzione normale N[0, 1] .
4 2 2 4
0.1
0.2
0.3
0.4
Nel caso particolare = 1 la t[] assume una forma particolarmente semplice e trattabile,
t[](x) =
1
(1 +x
2
)
(in eetti una densità con questa espressione labbiamo già esaminata nellesempio 4.9 di
pagina 46, dove il diverso coeciente di normalizzazione era dovuto al fatto che la densità
6.5
Si tratta dello pseudonimo sotto cui pubblicava il matematico irlandese S. Gosset agli inizi del 900
6.9 Distribuzione di Student 81
era concentrata sullintervallo [1, 1] ). In generale però, per valori di generici, lo studio
analitico preciso della t[] (calcolo dei momenti, funzione di ripartizione eccetera) è alquanto
laborioso, e rimane al di fuori degli scopi di questo corso. Alcuni risultati qualitativi però
possono essere trovati facilmente. Landamento qualitativo del graco è ovvio. Per quanto
riguarda i momenti, osserviamo che per x grande t[](x) va come x
1
; pertanto x
k
t[](x)
va come 1/x
+1k
e dunque ha momento di ordine k nito solo per +1 k > 1 ovvero per
> k .
In particolare, t[](x) ha media nita solo
6.6
per > 1 , e risulta evidentemente
E
_
t[]
= 0 , > 1 .
Il calcolo della varianza è invece complicato, e ci limitiamo a scrivere il risultato
Var
_
t[]
=

2
, > 2 .
Una dierenza qualitativa importante tra la distribuzione di Student e quella normale sta
nel maggior peso delle code: per x la funzione tende a zero come una potenza della x
invece che esponenzialmente.
La distribuzione di Student è molto utilizzata in statistica; vedremo un esempio nel 8.7.
6.6
Ci` o pu` o sembrare strano, visto che per la simmetria si ha ovviamente
_
+
xt[](x) dx = 0 per ogni R

+
,
ma risulta chiaro ricordando la denizione di media di una variabile aleatoria (5.1).
82 7 LA LEGGE DEI GRANDI NUMERI
7 La legge dei grandi numeri
7.1 La legge empirica
`
E una nozione non sorprendente che se si lancia una moneta regolare un gran numero n di
volte, si sommano tutti i risultati ottenuti (0 e 1) e si divide per n, si ottiene un numero molto
vicino a 0.5 . Aumentando n, il risultato delloperazione che si è detto tende ad avvicinarsi al
valore 0.5 . Analogamente, se si lancia un dado un gran numero n di volte, si sommano tutti
i risultati ottenuti e si divide per n, si ottiene un numero molto vicino a 3.5 .
Non è dicile vericare, con qualche simulazione al computer, che qualcosa di analogo
si verica per ogni esperimento al quale sia associata una variabile aleatoria X : se si esegue
lesperimento un gran numero n di volte e si calcola la media aritmetica x
n
dei valori di X
ottenuti (ovvero si sommano i risultati e si divide per n), loperazione dà quasi sempre un
numero molto vicino al valore di aspettazione E[X] calcolato nellambito del modello
matematico probabilistico dellesperimento (se il modello è corretto). In eetti riportando in
graco il valore di x
n
per valori crescenti di n si ottiene qualcosa del genere:
20 40 60 80 100
0.0010
0.0005
0.0005
0.0010
0.0015
0.0020
dove i numeri riportati in ascissa rappresentano multipli di 10 000 prove (abbiamo eseguito
lesperimento in 100 serie, con n crescente da 10 000 a 1 000 000 in passi di 10 000).
`
E vero che la convergenza verso lo zero non pare molto rapida, ma cè. Per poter enunciare
dei risultati precisi dobbiamo prima di tutto precisare la nozione di convergenza per una
successione di variabili aleatorie.
Osservazione. Nel caso della moneta regolare, la legge empirica dei grandi numeri può essere
spiegata in questo modo: per n abbastanza grande, la grande maggioranza delle successioni
N
n
0, 1 contiene circa lo stesso numero di 0 e 1 . In eetti, sappiamo che il numero
di tali successioni che contengono esattamente k volte lo 0 è (
n
k
) , che prende valori molto
elevati soprattutto per k vicino a n/2 e molto pi` u piccoli appena se ne allontana.
`
E anche
interessante notare che se si riporta in un graco (gura 21) landamento della distribuzione
binomiale B[n,
1
2
](k) = 2
n
(
n
k
) si ottengono dei punti che si trovano quasi esattamente sul
graco della distribuzione normale avente stessa media = n/2 e varianza
2
= n/4 .
7.2 Convergenza
Sia (, E, P) uno spazio di probabilità; si possono considerare diversi tipi di convergenza per
una successione (X
n
) di variabili aleatorie R, cioè diversi modi in cui la successione si
possa dire avere come limite una variabile aleatoria X : R. Le solite nozioni di convergen-
7.2 Convergenza 83
Figura 21: Corrispondenza tra legge binomiale per una moneta regolare e distribuzione
normale con stessa media e varianza
1 2 3 4 5 6
0.05
0.10
0.15
0.20
0.25
0.30
0.35
n = 5
10 20 30 40 50
0.02
0.04
0.06
0.08
0.10
0.12
0.14
n=30
n=50
za puntuale e di convergenza uniforme, denite in generale
7.1
per successioni di funzioni su un
insieme qualsiasi, non sono le uniche possibili. Vi sono infatti ulteriori nozioni di convergenza
che risultano particolarmente importanti nello studio delle successioni di variabili aleatorie.
Diremo che:
X
n
converge quasi certamente a X se
P lim
n
X
n
= X = 1 ;
X
n
converge a X in probabilità (o in misura) se per ogni R
+
si ha
lim
n
P[X
n
X[ < = 1 ,
ovvero, in maniera equivalente,
lim
n
P[X
n
X[ = 0 ;
X
n
converge a X in legge se, dette F
n
ed F le funzioni di ripartizione di X
n
ed X , si
ha la convergenza puntuale
lim
n
F
n
(x) = F(x)
per ogni x R in cui F è continua;
7.1
Come è vero in generale per le successioni di funzioni su un insieme qualsiasi, si possono denire le nozioni
di convergenza puntuale e di convergenza uniforme. Se per ciascun la successione ordinaria (Xn()) è
convergente, resta denita una funzione R : X() limn Xn() . Diciamo allora diciamo che (Xn)
converge a X puntualmente (o punto per punto). In altri termini, diciamo che la successione (Xn) converge
alla funzione (eventualmente variabile aleatoria) X se
(, ) R
+
n, N :
_
n > n, |Xn() X()| <
_
.
Diciamo poi che la successione (Xn) converge uniformemente a X se
R
+
n N :
_
n > n |Xn() X()| <
_
.
Se R, possiamo visualizzare la convergenza uniforme nel modo seguente: per n > n il graco di Xn è
tutto contenuto nella porzione di R
2
delimitata dai graci di X+ e X .
Inoltre negli spazi L
p
delle funzioni tali che
_
|X|
p
< esiste la nozione di convergenza in norma
_
|Xn X|
p
0 .
X
n
converge a X in media k-esima se E[[X
n
[] < per ogni n N e se
lim
n
E[[X
n
X[
k
] = 0 ;
in particolare, se la precedente condizione vale per k = 2 , diciamo che X
n
converge a
X in media quadratica.
Sarà opportuno rendere queste denizioni un po pi` u esplicite. Riguardo alla prima, osser-
viamo che
P lim
n
X
n
= X P
_
: lim
n
X
n
() = X()
_
.
Dunque la convergenza quasi certa signica che è nulla la probabilità dellevento costituito da
quegli tali che lim
n
X
n
() ,= X() ; in altri termini, X
n
tende puntualmente a X quasi
ovunque (eccettuato un insieme di misura nulla: la convergenza puntuale tout court è detta
convergenza certa).
Si ha poi
P[X
n
X[ < P
_
: [X
n
() X()[ <
_
.
Quindi la convergenza in probabilità signica che > 0 posso, pur di prendere n abbastanza
grande, rendere arbitrariamente vicina ad 1 la probabilità dellevento costituito dagli
tali che [X
n
() X()[ < . Si può dimostrare che la convergenza quasi certa implica la
convergenza in probabilità, mentre il viceversa non è vero (esistono esempi di convergenza in
probabilità che non è quasi certa).
La convergenza in legge implica che per qualunque x R, al crescere di n, la probabilità
che X
n
assuma valori in (, x] tende alla probabilità che X assuma valori nel medesimo
intervallo.
7.2
Inoltre si può dimostrare che la convergenza in probabilità implica la convergenza
in legge.
Inne, la convergenza in media k-esima equivale alla convergenza in norma /
k
(vedi ultimo
capoverso della nota 7.1 a piè di pagina 83).
7.3 Legge debole e legge forte dei grandi numeri
La legge dei grandi numeri, cioè il risultato matematico preciso che spiega le osservazioni
empiriche riportate nella parte introduttiva del 7, può essere enunciata in vari modi diversi e
non del tutto equivalenti. In ogni caso si considera una successione (X
n
) di variabili aleatorie
e, a partire da questa, la successione media calcolata
7.3
(

X
n
) denita da
X
n
:=
1
n
n
i=1
X
i

1
n
(X
1
+ +X
n
) .
Teorema 7.11. (legge debole dei grandi numeri)
Sia (X
n
) una successione di variabili aleatorie indipendenti, aventi la stessa media e la
stessa varianza. Allora (

X
n
) 0 in probabilità.
Dimostrazione: Dal teorema 5.6 abbiamo
E[

X
n
] =
1
n
(E[X
1
] + +E[X
n
]) = .
7.2
Ne segue che per qualsiasi intervallo I la probabilit` a che Xn assuma valori in I tende alla probabilit` a che
X assuma valori nel medesimo intervallo.
7.3
Detta anche media campionaria.
7.4 Funzione di ripartizione empirica e graco dei quantili 85
Inoltre dal teorema 5.9, poiche le X
n
sono indipendenti, ponendo
2
Var[X
i
] abbiamo
Var[

X
n
] =
1
n
2
(Var[X
1
] + +Var[X
n
]) =
1
n
2
(n
2
) =
1
n

2
.
Utilizzando allora la disuguaglianza di Chebyshev otteniamo
P[

X
n
[
1
2
Var[

X
n
] =

2
n
2
,
e lenunciato segue dal fatto che lultimo termine va a zero per n .
Osservazione.
`
E immediato vericare che il teorema precedente vale anche se le X
i
non
hanno tutte la medesima varianza, ma le diverse varianze sono limitate, cioè se esiste tale
che Var[X
i
]
2
i .
Vediamo in che modo lenunciato precedente spiega il comportamento osservato delle me-
die di esperimenti. Consideriamo per esempio il solito schema di Bernoulli, in cui lesperimento
consiste in n lanci di una moneta; la variabile aleatoria X
i
sia il risultato delli-esimo lancio:
allora il teorema aerma che, scelto un qualsiasi numero positivo , con un numero n sucien-
temente grande di lanci posso redere arbitrariamente arbitrariamente piccola la probabilità
che

X
n
si discosti da pi` u di .
Si osservi poi che per dimostrare la legge debole non abbiamo utilizzato lipotesi (vera nel
caso particolare dello schema di Bernoulli) che le X
i
abbiano la medesima densità: abbiamo
solo richiesto che le X
i
abbiano stessa media e stessa varianza (nite). Se invece si aggiunge
lipotesi della medesima densità (addirittura senza lipotesi di varianza nita), si arriva a
dimostrare:
Teorema 7.12. (legge forte dei grandi numeri)
Sia (X
n
) una successione di variabili aleatorie indipendenti, aventi la stessa densità e media
nita (necessariamente la stessa per tutte). Allora (

X
n
) 0 quasi certamente.
(Di questo teorema ci limitiamo a dare lenunciato senza dimostrazione.)
Esiste poi un risultato ancora pi` u forte, che vedremo nel 7.6.
Osservazione. Le legge dei grandi numeri è un risultato di analisi matematica, nel cui enun-
ciato non compare esplicitamente lidea sottogiacente: se un processo aleatorio è descritto da
uno spazio di probabilità (
1
, E, P) , allora
n
1

1

1
è lo spazio dei campioni
che descrive la ripetizione dellesperimento n volte. Se X X
1
è una variabile aleatoria (scala-
re o vettoriale)
1
, e poniamo X
i
(
1
, . . . ,
n
) := X
1
(
i
) , allora le X
i
sono variabili aleatorie
indipendenti e aventi la medesima densità (si può comunque pensare ad applicazioni della
legge dei grandi numeri anche in un contesto un po diverso).
7.4 Funzione di ripartizione empirica e graco dei quantili
In questo paragrafo consideriamo una successione (X
i
) di variabili aleatorie indipendenti,
aventi tutte la stessa legge.
Sia x = (x
1
, . . . , x
n
) R
n
, e consideriamo la funzione di variabile reale
F
x
(t) =
1
n
n
i=1
H(t x
i
) ,
dove H H
0
è la funzione gradino unitario continua a destra (2.4). Scelta la n-upla di
numeri reali x si ottiene quindi una funzione a gradini continua a destra, dunque una funzione
di ripartizione (come per esempio in gura 22). Si osservi che se indichiamo con
x = ( x
1
x
n
) R
n
la medesima n-upla x di numeri reali, ma ordinata in senso crescente, allora possiamo scrivere
F
x
(t) =
_
_
0 , t < x
1
,
k/n , x
k
t x
k+1
, 1 k n1 ,
1 , x
n
t .
Figura 22: Graco di F
x
(t) per x = (e, 1, 3/2,
5, 5/3) , x = (3/2, 1, 5/3,
5, e) .
2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
Per ogni t R consideriamo la successione
_
F
n
(t)
_
di variabili aleatorie denita da
F
n
(t) =
1
n
n
i=1
H(t X
i
) ;
possiamo anche vedere F
n
come un oggetto aleatorio che associa una funzione di ripartizione
ad ogni (
1
, . . . ,
n
) , denito da
F
n
(t)() := F
x
(t) , x =
_
X
i
()
_
=
_
X
1
(
1
), . . . , X
n
(
n
)
_
.
In altri termini, per ciascun si considera la n-upla x dei valori assunti dalle variabili aleatorie
X
i
, i = 1, . . . , n, e poi la funzione di ripartizione determinata da questo x mediante la regola
che abbiamo dato sopra.
Teorema 7.13. Sia F la funzione di ripartizione delle variabili aleatorie indipendenti X
i
(aventi tutte la medesima legge); per ogni t R la variabile aleatoria F
n
(t) converge quasi
certamente a F(t) .
Dimostrazione: Se f è una funzione misurabile le composizioni f(X
i
) f X
i
sono variabili
aleatorie indipendenti (teorema 4.3 a pagina 51). In particolare sono indipendenti, per ciascun
t R, le variabili aleatorie H(t X
i
) . Inoltre se p(x) è la densità delle X
i
per il teorema 5.5
(pagina 61) si ha
E
_
H(t X
i
)
=
_
+
H(t x) p(x) dx =
_
t
p(x) dx = F(t) ,
in quanto la funzione H(t x) vale 1 per t x 0 (ovvero, ssato t , per x t) e vale 0
per t x < 0 . Per la legge forte dei grandi numeri la successione di variabili aleatorie F
n
(t)
converge allora quasi certamente a E
_
H(t X
i
)
= F(t) per ciascun t R.

7.4 Funzione di ripartizione empirica e graco dei quantili 87
Pertanto, per n abbastanza grande, la funzione di ripartizione empirica F
n
() costituirà
una buona approssimazione per F. In gura 23, per esempio, vediamo un graco di F
n
ottenuto
da una simulazione della legge normale, insieme con la funzione di ripartizione della legge
medesima.
Figura 23: Funzioni di ripartizione empiriche ottenute mediante simulazione della legge
normale con n = 10, 20, 50, 250 .
3 2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
3 2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
3 2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
4 2 2 4
0.2
0.4
0.6
0.8
1.0
Queste osservazioni hanno un risvolto pratico importante. Supponiamo di avere una n-upla
x = (x
1
, . . . , x
n
) di risultati di un certo esperimento aleatorio di cui ignoriamo la legge; allora
possiamo confrontare la funzione di ripartizione empirica con quella di una legge teorica che
ipotizziamo essere quella giusta. Se la nostra ipotesi è corretta, per 1 i n si dovrà avere
F
n
( x
i
)

= F( x
i
) , cioè
i
n
= F( x
i
) ;
se F è continua (come per esempio nel caso della legge normale e di molte altre leggi impor-
tanti) possiamo applicare linversa
F ai due membri della relazione precedente, e otteniamo
F
_
i
n
_

= x
i
.
Dunque riportando nel piano cartesiano i punti di coordinate
_
x
i
,
F(i/n)
_
, questi si dovranno
disporre in prima approssimazione lungo la bisettrice del primo e terzo quadrante; abbiamo
cos` un modo per controllare ad occhio la plausibilità dellipotesi che la distribuzione del
processo aleatorio considerato sia di un dato tipo. Poiche
F(i/n) e x
i
sono denominati quan-
tili (vedi 8.3), questi graci (di cui vediamo due esempi in gura 24) sono detti dei quantili
contro quantili.
Nello studio di un processo aleatorio capita frequentemente che la distribuzione di pro-
babilità della grandezza misurata sia di tipo gaussiano; daltra parte in generale non sarà
ragionevole aspettarci che tale distribuzione sia proprio N[0, 1] , anche perche i parametri
Figura 24: Graci dei quantili, ottenuti per confronto con la legge normale, relativi a una
simulazione (4.5) della legge normale stessa (a sinistra) e della densità p(x) = 2/[ (1 +x
2
)]
concentrata sullintervallo [1, 1] .
1.5 1.0 0.5 0.5 1.0 1.5
2
1
1
2
1.0 0.5 0.5
2
1
1
2
e dipenderanno dalle unità di misura utilizzate.
7.4
Una situazione pi` u comune sarà quella
in cui si possa ipotizzare che la legge sia N[, ] , e in tal caso il graco dei quantili permette
di vericare lipotesi e anche di stimare i valori di e . Infatti linversa della funzione di
ripartizione
,
(t) = +
erf(2 t 1)
soddisfa ovviamente lidentità
,
= +
,
0,1
.
Pertanto nel graco dei quantili si avrà
,
_
i
n
_

= x
i
+
_
i
n
_

= x
i
,
e quindi i punti di coordinate
_
x
i
,
(i/n)
_
si disporranno nel piano cartesiano lungo la retta
di equazione y = (x )/ (gura 25).
7.5 Funzioni caratteristiche
Ricordiamo che il campo C dei numeri complessi può essere visto come R
2
con unulteriore
struttura di prodotto.
7.5
Una variabile aleatoria complessa sarà pertanto denita come un
7.4
A questo proposito osserviamo che e hanno le stesse dimensioni siche [X] della variabile aleatoria
studiata, di modo che lesponente (x )
2
/(2
2
) è un numero puro, p(x) = exp[(x )
2
/2
2
]/(
2 )
ha le dimensioni [X]
1
(densit` a di probabilit` a per unit` a di lunghezza, tempo ecc.) e P(A) =
_
A
p(x) dx è un
numero puro.
7.5
In pratica si pu` o denire il prodotto di numeri complessi scrivendo ogni elemento (a, b) R
2
come a +i b e
richiedendo che valgano le regole dellalgebra ordinaria con laggiunta di i
2
= 1 (si veda lAppendice B.1 per
un eventuale ripasso).
7.5 Funzioni caratteristiche 89
Figura 25: Graco dei quantili, ottenuti per confronto con la legge normale N[0, 1] , relativi
a una simulazione della legge normale N[, ] con = 2 e = 3 . I punti si dispongono nel
piano cartesiano lungo la retta di equazione y = (x 2)/3 .
4 2 2 4 6
2
1
1
2
vettore aleatorio R
2
, quando si tenga conto della suddetta identicazione R
2
= C, e
potrà essere scritta nella forma
Z = X + i Y ,
con X, Y : R variabili aleatorie reali. Oppure, in forma trigonometrica,
Z = R(cos + i sin ) R exp(i ) ,
R := [Z[
_
X
2
+Y
2
, := arg(Z) .
Dato un vettore aleatorio X = (X
i
), in generale di dimensione m qualsiasi, è naturale
(seconda osservazione del 5.1) denire la sua media come il vettore le cui componenti sono le
medie E[X
i
] delle componenti di X. In particolare, nel caso di una variabile aleatoria complessa
Z = X +i Y , si pone
E[Z] = E[X] + i E[Y ] .
Anche nel campo dei numeri complessi vale la disuguaglianza triangolare [z +z
[ [z[ +[z
[ ,
per cui è facile dimostrare (esattamente come per il secondo punto del teorema 5.6) che
[E[Z][ E[[Z[] .
Sia ora X = (X
i
) :R
m
un vettore aleatorio; diciamo sua funzione caratteristica la
X
: R
m
C : E[e
i X
] = E[cos( X)] + i E[sin( X)] ,
dove X
1
X
1
+ +
m
X
m
è il prodotto scalare del vettore R
m
con il vettore aleato-
rio X . La denizione di funzione caratteristica è ben data qualunque sia X , perche la media
E[e
i X
] è sempre nita in quanto [E[e
i X
][ = 1 . Osserviamo inoltre che è sempre
X
(0) = 1 .
Il teorema 5.5 ci dà poi in generale
X
() =
_
R
m
e
i x
p
X
(x) dx
1
...dx
m
, x (x
1
, . . . , x
m
) ,
ovvero
X
è la cosiddetta trasformata di Fourier
7.6
della densità p
X
(x) .
I seguenti risultati si vericano facilmente:
Teorema 7.14.
Se X, Y : R
m
sono indipendenti allora
X+Y
() =
X
()
Y
() .

X
() =
X
() , la funzione complessa coniugata.
Se A : R
m
R
n
è unapplicazione lineare,
AX
() =
X
(A
) dove A
: R
n
R
m
è
lapplicazione lineare trasposta.
7.7
Se b R
m
è un vettore ssato,
X+b
() = e
i b
X
()
In particolare, se X è una variabile aleatoria reale e a, b R si ha
aX+b
() = e
i b
X
(a ) ,
dove ora il prodotto scalare è il normale prodotto in R.
`
E naturale a questo punto chiedersi se e quando una funzione caratteristica sia derivabile.
Poiche la funzione e
i x
è analitica,
7.8
ciò equivale a chiedersi si possono scambiare le
operazioni di derivazione rispetto a e di fare la media (che è unintegrazione). Precisando
questidea si dimostra il
Teorema 7.15. Per qualsiasi variabile aleatoria X scalare, la funzione caratteristica
X
ri-
sulta essere continua. Se X ha momento di ordine k N allora
X
è derivabile k volte, e si
ha
d
k
d
k
X
() = E[(i X)
k
e
i X
] .
In particolare
d
k
d
k
X
(0) = i
k
E[X
k
] .
Viceversa, se
X
è derivabile k volte con k pari, allora X ha momento di ordine k .
Risultati analoghi, ma un po pi` u intricati da esprimere, valgono per le funzioni caratteri-
stiche di vettori aleatori e le derivate parziali rispetto alle componenti
i
di .
La densità p
X
denisce univocamente la funzione caratteristica
X
; viceversa, nota la
funzione caratteristica si può risalire alla densità. Si dimostra infatti la formula di inversione
p
X
(x) =
1
(2 )
m/2
_
R
m
e
i x
X
() d
1
...d
m
.
Esempio 7.1. Densità esponenziale: p(x) = e
x
,
() =
_
+
0
e
i x
e
x
dx =
_
+
0
e
(i ) x
dx =
=

i
lim
x
(e
(i ) x
1) =

i
,
in quanto [e
(i ) x
[ = e
x
.
7.6
Di solito la trasformata di Fourier è denita con un fattore (2 )
m/2
.
7.7
Denita da x A
= (Ax) x R
m
.
7.8
Innitamente derivabile e sviluppabile in serie di Taylor.
7.5 Funzioni caratteristiche 91
Esempio 7.2. Densità normale: p(x) = N(0, 1)(x)
1
2
e
x
2
/2
,
() =
1
2
_
+
e
i x
e
x
2
/2
dx
() =
1
2
_
+
i xe
i x
e
x
2
/2
dx .
Abbiamo calcolato la derivata
()
d
d
() in quanto per determinare () dobbiamo ricor-
rere a un trucco, non potendo trovare una primitiva per il primo integrale; nel secondo invece
possiamo fare unintegrazione per parti, che dopo qualche passaggio
7.9
dà
() = () ;
integrando questa equazione dierenziale con la condizione iniziale (0) = 1 si ottiene
7.10
() = e
2
/2
,
cioè la funzione caratteristica della densità normale N[0, 1](x) è la densità normale N[0, 1]()
moltiplicata
7.11
per
2 .
Possiamo ora utilizzare questo risultato per trovare la funzione caratteristica di una di-
stribuzione Gaussiana con media e varianza (,
2
) ,= (0, 1) , osservando che se la densità di
X è N[0, 1] allora (esempio 4.17 a pagina 57) la densità di X + è N[,
2
] e applicando il
teorema 7.14. Si ottiene
X+
= e
i
e
2
/2
.
Esempio 7.3. Siano X, Y variabili aleatorie indipendenti con densità Gaussiane N[,
2
] e
N[ ,
2
] , rispettivamente. Allora la funzione caratteristica della somma X +Y è
X+Y
() =
X
()
Y
() = e
i (+)
e
(
2
+
2
)
2
2
.
Pertanto, poiche la funzione caratteristica determina la densità, concludiamo che X +Y ha
densità Gaussiana N[ +,
2
+
2
] .
Esempio 7.4. Distribuzione binomiale (3.4): B[n, p](k) = (
n
k
) p
k
(1 p)
nk
, p [0, 1] ,
() =
n
k=0
(
n
k
) p
k
(1 p)
nk
e
i k
=
n
k=0
(
n
k
) (p e
i
)
k
(1 p)
nk
=
= (1 p +p e
i
)
n
.
7.9
Scriviamo la formula di integrazione per parti come
_
udv = uv
_
v du, e poniamo u e
i x
du = i e
i x
dx, dv xe
x
2
/2
dx v =
_
dv = e
x
2
/2
(come si vede subito con il cambio di variabile
t = x
2
/2). Pertanto
() =
i
2
_
+
xe
i x
e
x
2
/2
dx =
_
e
i x
(e
x
2
/2
)
_+
2
_
+
(e
x
2
/2
) i e
i x
dx =
= 0

2
_
+
e
i x
e
x
2
/2
dx = () .
7.10
d
d
=
d
= d log =
1
2

2
+c = a e
2
/2
, con a e
c
.
Imponendo (0) = 1 si ottiene a = 1 .
7.11
Se la funzione caratteristica è denita nella maniera standard per le trasformate di Fourier, con il fattore
1/
2 , allora la distribuzione Gaussiana è la funzione caratteristica di se stessa.

Esempio 7.5. Distribuzione geometrica (3.6): f(k) = p (1 p)
k
, p [0, 1] ,
() =
k=0
p (1 p)
k
e
i k
= p
k=0
[(1 p) e
i
]
k
=
1
1 (1 p) e
i
.
Esempio 7.6. Distribuzione di Poisson (3.5): f(k) =

1
k!
e
k
,
() = e
k=0
1
k!

k
e
i k
= e
k=0
1
k!
(e
i
)
k
=
= e
e
e
i
= e
(e
i
1)
.
7.6 Convergenza in legge e Teorema Limite Centrale

Ricordiamo (7.2) che una successione (X
n
) di variabili aleatorie è detta convergere in legge a
una variabile aleatoriaX se la successione (F
n
) delle rispettive funzioni di ripartizione converge
puntualmente alla funzioni di ripartizione F F
X
in tutti i punti di continuità di questultima.
Teorema 7.16. (P. Levy)
Siano (X
n
) una successione di variabili aleatorie e X una variabile aleatoria; siano poi
n
la
funzione caratteristica di X
n
e la funzione caratteristica di X . Allora X
n
X in legge se
e solo se
n
puntualmente, ovvero
n
() () per ogni R.
Esempio 7.7. Supponiamo che (come avviene in molti esempi discreti) tutte le variabili alea-
torie in esame prendano valori interi positivi, X, X
n
: N. In tal caso la convergenza in
legge è equivalente alla condizione che per ogni k N si abbia
lim
n
PX
n
=k = PX =k .
Supponiamo infatti che X
n
X in legge; scelto (0, 1) si ha che F è continua in k + e in
k per k N (tuttal pi` u F può essere discontinua in k), per cui
PX
n
=k = F
n
(k +) F
n
(k )
n
F(k +) F(k ) = PX =k .
Viceversa supponiamo che PX
n
=k PX =k per ogni k N; indicando con x| la parte
intera
7.12
di x R si ha
F
n
(x) = PX
n
x =
x
k=0
PX
n
=k
n
k=0
PX =k = PXx = F(x) .
In particolare, X
n
B[n, /n] converge in legge a X p[](n) di Poisson. Si noti che un
ragionamento analogo (con qualche piccola complicazione formale) vale se tutte le variabili
aleatorie prendono valori in un insieme discreto con unopportuna ipotesi di separazione tra
gli elementi (per esempio > 0 tale che la distanza tra due elementi qualsiasi è > ).
7.12
Il pi` u grande intero x.
7.6 Convergenza in legge e Teorema Limite Centrale 93
Esempio 7.8. Riprendiamo il caso del dado regolare, = 1, 2, 3, 4, 5, 6 con distribuzione
di probabilità uniforme, e variabile aleatoria X : R denita semplicemente da X(i) = i
(esempio 4.3). Ricordiamo che la densità e la funzione di ripartizione determinate da X possono
essere scritte nella forma
p(x) =
1
6
6
i=1
(x i) , F(x) =
1
6
6
i=1
H(x i) ,
con
0
e H H
0
. Consideriamo poi la successione (X
n
) di variabili aleatorie data da
X
n
(i) = i +
1
n
.
In maniera del tutto analoga, le successioni p
n
e F
n
delle corrispondenti densità e funzioni di
ripartizione sono
p
n
(x) =
1
6
6
i=1
(x i 1/n) , F
n
(x) =
1
6
6
i=1
H(x i 1/n) .
Vediamo allora che X
n
X in legge; infatti i punti di discontinuità della F sono gli x N
6
, e
per x diverso da uno di questi valori si ha evidentemente F
n
(x) x. Si osservi poi che nei punti
di discontinuità si ha invece F
n
(x) ,F(x) ; infatti i N
6
F
n
(i) = (i 1)/6 = lim
n
F
n
(i) ,
mentre F(i) = i/6 .
Esempio 7.9. Sia X
: abbiamo cioè una variabile aleatoria che prende il valore con

probabilità 1 . Abbiamo visto (2.4) che la distribuzione
può essere rappresentata come

limite della successione di distribuzioni normali N[, 1/n] , quindi è naturale chiedersi se
X
n
N[, 1/n] tenda a X in legge. A tale scopo consideriamo le funzioni caratteristiche

X
e
n

Xn
; si ha
() =
_
+
(x) e
i x
dx = e
i
,
n
() = e
i
e
2
/2n
,
dove si è utilizzato lesempio 7.2. Poiche
n
() () per ogni , per il teorema di Levy
risulta vericata la convergenza in legge.
Esempio 7.10. Consideriamo ora una successione X
n
N[, n] . Poiche
p
n
(x) =
1
2 n
e
n(x)
2
/2
si ha p
n
(x) 0 x, che non è una densità. Dunque qui si può prevedere qualche problema,
e infatti la successione delle funzioni caratteristiche
n
è
n
() = e
i
e
n
2
/2
n
_
0 , = 0 ,
e
i
, ,= 0 .
Poiche questo limite è una funzione () che è diversa da zero solo in un punto, dal punto di
vista degli integrali equivale alla funzione identicamente nulla; e in eetti non è la funzione
caratteristica di alcuna distribuzione di probabilità
7.13
(ricordiamo anche, dal teorema 7.15,
che una funzione caratteristica è continua, mentre la funzione limite ora trovata non lo è).
Teorema 7.17. (Limite Centrale) Sia (X

n
) una successione di variabili aleatorie indipendenti
aventi tutte la medesima distribuzione, con media E[X
n
] e varianza
2
Var[X
n
] . Allora
la successione
7.14
n S
n
:=
X
1
+ +X
n
n
(

X
n
) ,
converge in legge a una variabile aleatoria S N[0, 1] .
Dimostrazione: Poniamo Y
k
(X
k
)/ , per cui le variabili aleatorie Y
k
hanno tutte la
stessa legge, con E[Y
k
] = 0 e Var[Y
k
] = 1 , e si ha
S
n
=
1
n
n
k=1
Y
k
.
Dette
Y
k
la funzione caratteristica e p p
Y
k
la legge delle Y
k
abbiamo
Y
k
/
n
() =
_
+
e
i
x
n

p(x) dx = (/
n) ,
da cui, utilizzando
7.15
il primo punto dellenunciato del teorema 7.14,
Sn
() = [(/
n)]
n
.
Per n si ha (/
n) (0) = 1 , pertanto il lim

n
Sn
() è un caso indeterminato della
forma 1
. Lo calcoliamo utilizzando gli sviluppi in serie, dal momento che /
n è innitesimo.
Per sviluppare () nellintorno di = 0 osserviamo (utilizzando anche il teorema 7.15) che
(0) = 1 ,
(0) = i E[Y
k
] = 0 ,
(0) = i
2
E[(Y
k
)
2
] = Var[Y
k
] = 1 .
Pertanto () = 1
1
2

2
+o([[
2
) , ovvero, per ssato e n ,
n
_
= 1

2
2 n
+o
_
1
n
_
.
Sostituendo questa espressione nel limite cercato abbiamo
lim
n
Sn
() = lim
n
_
1

2
2 n
_
n
= e
2
/2
.
Poiche (esempio 7.2) questa è proprio la funzione caratteristica della legge normale N[0, 1] ,
lenunciato è dimostrato.
Osservazione. Ricordando il secondo punto dellenunciato del teorema 5.9, vediamo allora
che la successione

n(

X
n
) converge in legge a S
N[0,
2
]
7.13
Nella teoria delle trasformate di Fourier si dimostra che loperazione che a una distribuzione fa corrispondere
la sua trasformata è invertibile, cioè nota la trasformata di una distribuzione si pu` o risalire alla distribuzione
stessa mediante unoperazione simile che è detta antitrasformata.
7.14
Sn è detta anche somma standardizzata delle Xi .
7.15
Le X
k
sono indipendenti, e dal teorema 4.3 (pagina 51) segue che anche le Y
k
lo sono. Daltra parte,
una facile estensione dellesempio 4.16 mostra che se X e Y hanno densit` a congiunta p , allora

X aX +b e
Y cY +d con a, c = 0 hanno densit` a congiunta p(x, y) =

1
|ac|
p(
xb
a
,
yd
c
) ; dunque

X e

Y sono indipendenti
se e solo se anche X e Y lo sono.
7.7 Approssimazione normale 95
7.7 Approssimazione normale
Il teorema del Limite Centrale ha una particolare importanza; dice che, per n grande, la
legge di S
n
(che in generale sarà complicata) può essere approssimata con una legge normale,
qualunque sia la legge delle X
n
(purche con varianza nita). Anzi si può dimostrare una
versione del teorema anche con ipotesi pi` u deboli, senza richiedere che le X
n
abbiano tutte
la stessa legge. Ciò spiega come mai la distribuzione Gaussiana è cos` comune in natura, si
potrebbe dire onnipresente. Pensiamo alle misure di una grandezza sica, che sono in generale
aette da piccoli errori casuali. Per esempio le misure delle emissioni monocromatiche di un
dato atomo mostrano un andamento gaussiano nellintorno della frequenza teorica (gura 26).
Figura 26: Spettro di emissione dellidrogeno nel visibile. La luce emessa dallatomo passa
attraverso una fenditura e poi attraverso un prisma, che la scompone nelle varie frequenze.
Per una luce bianca si ottiene uno spettro continuo che mostra tutti i colori delliride, nel
caso di un atomo di una data specie si ottengono invece delle righe, che sono immagini della
fenditura alle frequenze di emissione dellatomo; frequenze che possono assumere solo certi
valori discreti, corrispondenti a transizioni tra i livelli di energia degli elettroni dellatomo.
Ciascuna riga è la somma di un gran numero di eventi singoli: lemissione di un fotone da parte
dellatomo. Per lindeterminazione inerente le misure quantistiche, la frequenza di ciascun
fotone non risulta avere esattamente il valore corrispondente allenergia di transizione (in
base alla formula di Planck E = h); la si può invece considerare come il valore assunto da
una variabile aleatoria con media uguale a tale frequenza. Pertanto il prolo di ciascuna riga
(cioè il graco dellintensità di emissione in funzione della frequenza) risulta avere in pratica
un andamento gaussiano.
Il teorema del Limite Centrale può essere utilizzato per valutazioni approssimate, che si
basano sul modo seguente di esprimere il medesimo enunciato: per ogni x R si ha
lim
n
P
_
X
1
+ +X
n
n
n
x
_
= (x) ,
dove
(x) :=
_
x
N[0, 1]() d =
1
2
_
1 + erf
_
x
2
__
è la funzione di ripartizione della legge normale (6.5). Dunque per n abbastanza grande si
avrà
P
_
X
1
+ +X
n
n
n
x
_

= (x) .
Supponiamo allora di voler stimare la probabilità PX
1
+ +X
n
x per un certo
x R; scriveremo
PX
1
+ +X
n
x = P
_
X
1
+ +X
n
n
n

x n
n
_

=
_
x n
n
_
.
Nei tempi bui quando non cerano i computer si avevano a disposizione delle tabelle dei valori
di (x) , in modo da poter dare una risposta approssimata a un dato problema. Tutto sommato
potrebbe esserci utile anche oggi (gura 27), visto che la funzione (x) non è presente nelle
normali calcolatrici tascabili.
Figura 27: Valori di (x)
1
2
[1 + erf(
x
2
)] , approssimati alle due cifre decimali, per
2.57 x < 2.58 a passi di 0.01 . Sono riportati solo i valori di x in cui il valore appros-
simato di (x) cambia; cos`, per esempio, (x) vale circa 0.07 tra 1.51 e 1.42 ; inoltre (x)
vale circa 0 (sempre con lapprossimazione di due cifre decimali) per x 2.58 , e circa 1 per
x 2.58 . Come vedremo nel 8.3, questa è la tabella dei cosiddetti percentili (o 100-quantili )
della densità normale.
x 2.57 2.17 1.95 1.81 1.69 1.59 1.51 1.43 1.37 1.31
(x) 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10
x 1.25 1.20 1.15 1.10 1.05 1.01 0.97 0.93 0.89 0.85
(x) 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20
x 0.82 0.78 0.75 0.72 0.69 0.65 0.62 0.59 0.56 0.53
(x) 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30
x 0.51 0.48 0.45 0.42 0.39 0.37 0.34 0.31 0.29 0.26
(x) 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40
x 0.24 0.21 0.18 0.16 0.13 0.11 0.08 0.06 0.03 0.01
(x) 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50
x 0.02 0.04 0.07 0.09 0.12 0.14 0.17 0.19 0.22 0.25
(x) 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60
x 0.27 0.30 0.32 0.35 0.38 0.40 0.43 0.46 0.49 0.52
(x) 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70
x 0.54 0.57 0.60 0.63 0.66 0.70 0.73 0.76 0.79 0.83
(x) 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80
x 0.86 0.90 0.94 0.98 1.02 1.06 1.11 1.16 1.21 1.26
(x) 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90
x 1.32 1.38 1.44 1.52 1.60 1.70 1.82 1.96 2.18 2.58
(x) 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00
Esempio 7.11. Nellesperimento lancio di una moneta sia Pcroce = p , Ptesta = 1 p .
In uno schema di Bernoulli di n lanci sia poi X
i
la variabile aleatoria che assegna il valore 1
Figura 28: Graco di (x) =
1
2
[1 + erf(
x
2
)] , la funzione di ripartizione della densità
N[0, 1](x) .
3 2 1 1 2 3
0.2
0.4
0.6
0.8
1.0
a croce nelli-esimo lancio e 0 a testa nelli-esimo lancio. Si ha
E[X
i
] = 0 (1 p) + 1 p = p ,
2
Var[X
i
] = (0 p)
2
(1 p) + (1 p)
2
p = p (1 p) .
Allora la probabilità dellevento
E esce non pi` u di k volte croce in n lanci
è data da
P(E) = PX
1
+ +X
n
k
=
_
k n
n
_
=
_
k np
_
p (1 p) n
_
.
Ad esempio, la probabilità di ottenere non pi` u di di 65 volte croce in 100 lanci, se la probabilità
di ottenere croce in ciascun lancio è 0.6 , risulta essere
PX
1
+ +X
100
65
=
_
65 100 0.6
0.6 0.4 100

_

= (1.02) .
Per valutare (1.02) andiamo alla tabella e vediamo che la nostra valutazione della proba-
bilità richiesta è circa 0.85 . Giocando un po con i numeri si vede che, come ci si aspetta,
Ph X
1
+ . . . +X
100
k è sensibilmente diversa da 0 per h e k vicini a np .
In eetti riportando in funzione di k
p
k
PX
1
+ . . . +X
100
= k =
= PX
1
+ . . . +X
100
k
PX
1
+ . . . +X
100
k 1
=
_
k np
_
p (1 p) n
_
_
k 1 np
_
p (1 p) n
_
50 60 70 80
0.02
0.04
0.06
0.08
si ottiene il graco qui accanto.
Osservazione. Il valore di n necessario perche lapprossimazione normale sia buona varia
con il tipo di esperimento considerato; di solito si suppone, in base a dati empirici, che il
valore minimo di n debba essere compreso tra 30 e 50. Un aspetto interessante della faccenda
è che se la distribuzione delle X
i
è simmetrica rispetto alla media, allora basta un valore
di n pi` u basso. Nella gura qua sotto sono riportati i risultati delle simulazioni di S
n
per
n = 20 , rispettivamente per variabili aleatorie X
i
uniformemente distribuite nellintervallo
[0, 1] e per variabili aleatorie con legge esponenziale p(x) = e
x
in [0, ) . Il range dei valori
assunti dalle variabili aleatorie è stato suddiviso in intervalli di ampiezza 0.1 , e per ciascuno di
essi si è riportata nel graco la percentuale di eventi in cui S
20
ha assunto un valore compreso
nellintervallo.
3 2 1 1 2 3
0.1
0.2
0.3
0.4
3 2 1 1 2 3
0.1
0.2
0.3
0.4
Osservazione. Le considerazioni dellesempio 7.11 si applicano al seguente problema: vo-

gliamo decidere se una moneta è regolare facendo un certo numero di lanci. Se la moneta è
eettivamente regolare ci si aspetta, come si è già osservato in precedenza, che circa la metà
delle volte venga testa; anche se si trova una frazione molto dierente non possiamo essere
sicuri che la moneta sia irregolare, ma possiamo dare una risposta probabilistica: per esempio,
per una moneta regolare la probabilità di ottenere testa non pi` u di 55 volte su 100 lanci è
PX
1
+ +X
100
55
=
_
55 100 0.5
0.5
100
_
= (1.0)

= 0.84 .
Quindi la probabilità di ottenere testa pi` u di 55 volte è circa 1 0.84 = 0.16 .
Esempio 7.12. Per un velivolo di 220 posti una compagnia aerea accetta 250 prenotazioni,
sapendo che in media il 13% di coloro che hanno prenotato non si presenta. Supponendo
che la decisione di ciascun passeggero se presentarsi o no sia descrivibile come esito di un
esperimento del tipo schema di Bernoulli, qualè la probabilità che tutti i passeggeri trovino
eettivamente posto? La risposta è
PX
1
+ +X
250
220
=
_
220 250 0.87
0.13 0.87 250

_

= (0.47)

= 0.68 .
Con questi numeri la compagnia rischia di fare imbufalire diversi passeggeri; supponiamo allora
che certi criteri di qualità richiedano che tutti i passeggeri trovino posto con probabilità
del 95%; quante prenotazioni si possono accettare? Guardando ancora la tabella abbiamo che
(x)

= 0.95 per x = 1.60 ; pertanto, detto n il numero massimo di prenotazioni accettabili, si
ottiene
220 n 0.87
0.13 0.87 n
= 1.60 n
= 243.228 ,
dunque non pi` u di 243 prenotazioni. Diminuendo ancora di poco il numero di prenotazioni si
ottiene un ottimo risultato: con n = 240 , per esempio, la probabilità che tutti trovino posto
è quasi del 99%.
Esempio 7.13. Nellesperimento detto del gatto di Schrodinger un gatto viene chiuso in
un contenitore a tenuta stagna, nel quale lapertura di una capsula di cianuro viene attivata
dallemissione di un certo atomo che decade: il gatto rimane in vita nche latomo non decade
(si tratta di un esperimento ideale, non risulta che nessuno lo abbia mai eseguito in pra-
tica). Pertanto la variabile aleatoria tempo di vita del gatto segue una legge esponenziale
p(t) = e
t/
/ , con media e varianza
7.16
=
_

0
t
e
t/
dt = ,
2
=
_

0
(t )
2
e
t/
dt =
2
.
Facciamo ora una variante dellesperimento, in cui il decadimento di un atomo non attiva
lapertura della capsula ma un dispositivo analogo, che a sua volta ne attiva un terzo e cos`
via; il gatto viene ucciso solo quando lultimo di n dispositivi viene azionato.
La probabilità che il gatto sia morto entro un tempo h è dunque
PX
1
+ +X
n
h
=
_
(h n)

n
_
=
_
(h n)
n
_
.
Per esempio se = 1 minuto e n = 30 , la probabilità che il gatto sia morto entro 35 minuti è
circa (5/
30)

= (0.91) , ovvero intorno all82%.
In conclusione: di regola si potr` a utilizzare lapprossimazione normale quando si conside-
rano eetti cumulativi di un numero abbastanza grande di processi aleatori indipendenti; è
necessario conoscere la media e la varianza del singolo processo, ma non la sua legge precisa.
Cercare di immaginarsi esempi diversi può essere un utile esercizio.
7.16
Le primitive
_
t p(t) dt = (t +) e
t/
e
_
(t )
2
p(t) dt = (t
2
+
2
) e
t/
si trovano facilmente
mediante unintegrazione per parti.
100 8 ELEMENTI DI STATISTICA
8 Elementi di statistica
8.1 Statistica descrittiva e statistica inferenziale
In termini molto semplicati, la statistica è la disciplina che si occupa della raccolta e dellana-
lisi di dati sperimentali, al ne di formulare descrizioni utili dei fenomeni studiati e, possibil-
mente, di costruirne dei modelli matematici probabilistici. Si tratta di un campo vastissimo,
con problematiche che vanno dalle modalità di raccolta dei dati, al modo di organizzarli e
presentarli (statistica descrittiva), ai metodi di analisi (statistica inferenziale) che utiliz-
zano procedure molto diversicate e sosticate.
`
E quindi evidente che noi potremo solo dare
un assaggio di metodi statistici, nella speranza che le idee assimilate siano di aiuto per un
futuro studio, pi` u approfondito, dei metodi utilizzati nel campo di competenza di ciascuno.
Le situazioni in cui si applicano questo metodi sono le pi` u svariate. Ci sono le analisi
dei risultati sperimentali riguardo a un fenomeno sico, sia che questo abbia una natura es-
senzialmente aleatoria sia che lincertezza riguardi principalmente il processo di misura (si
raccoglierà di regola il numero maggiore possibile di dati cercando di ripetere lesperimento in
condizioni il pi` u possibile identiche). Ci sono la raccolta e lanalisi dei dati riguardo a popo-
lazioni, ambiente, farmaci; e ciò al ne di prendere decisioni riguardo a questioni economiche,
mediche, biologiche, di progetto e pianicazione territoriale, eccetera.
Un aspetto importante è quanti dati si devono raccogliere per costruire un modello ada-
bile.
`
E chiaro che se si deve decidere su questioni di programmazione economica non si può,
di regola, disporre dei dati riguardo a tutti gli individui di una popolazione, ma si dovrà agire
in base a un campione limitato. Questo è anche un aspetto molto delicato dellindagine stati-
stica, perche è facilissimo, se non si procede in maniera scrupolosa e in base a criteri provati,
costruire un modello a partire da un campione bacato, nel quale per esempio vi siano corre-
lazioni nascoste che falsano in partenza i risultati; cos`, per fare un caso banale, se si conduce
unindagine sulle preferenze dei consumatori in un quartiere ricco o in un quartiere povero,
oppure in particolari fasce orarie, dicilmente i risultati saranno estendibili a tutta la popo-
lazione. Infatti in questo tipo di indagini (come in quelle sulle tendenze politiche) la raccolta
dati deve essere fatta scegliendo i campioni in numerose celle omogenee che rappresentino
le diverse fasce di popolazione secondo una caratterizzazione basata su molti parametri; al
profano viene il sospetto che questo particolare campo della statistica stia a cavallo tra la
scienza e larte, e comunque dipenda in larga misura da un progressivo ranamento delle
tecniche basato anche su tentativi e raronti sperimentali di vario tipo.
Ma i trabocchetti della statistica riguardano anche lanalisi dei dati e le conseguenze che
se ne traggono. Gli annali sono pieni di clamorose cantonate, prese per supercialità o anche
in malafede. In eetti è spesso facilissimo piegare linterpretazione dei dati per sostenere
una tesi precostituita, in modo da ingannare chi non è addetto ai lavori.
Nonostante tutte le dicoltà a cui abbiamo accennato, o forse almeno in parte proprio
in virt` u di queste, la statistica è un campo dindagine aascinante e importantissimo, con
implicazioni losoche e metodologiche complesse; potremmo perno aermare che è legato
strettamente alla natura stessa della nostra percezione e rappresentazione della realtà.
8.2 Stimatori fondamentali
Come abbiamo già osservato, il compito essenziale della statistica potrebbe essere descritto
in maniera concisa come la costruzione di un modello matematico probabilistico di un dato
processo aleatorio utilizzando dei dati empirici. Di solito questo modello non sarà comple-
tamente sconosciuto: potremmo avere delle idee a piori sul tipo di distribuzione, e magari,
8.2 Stimatori fondamentali 101
nel caso migliore, può darsi che ci sia da determinare solo un parametro o due. Ad esempio
può darsi che si sappia di già, o si possa ipotizzare, che il fenomeno è descrivibile mediante
una distribuzione di probabilità di tipo Gaussiano (magari per analogia con fenomeni simili,
o altre considerazioni di vario tipo); in tal caso si deve solo determinare (o meglio, stimare)
la media e la varianza
2
. Ma il problema, in generale, può essere pi` u complesso.
In molti casi (ma non sempre) la questione può essere impostata, in maniera un po gene-
rica, come segue. Se il processo aleatorio è descritto da uno spazio di probabilità (
1
, E, P) ,
allora
n

n
1

1

1
è lo spazio dei campioni che descrive la ripetizione dellesperimento n volte. Sia poi
X X
1
:
1
R
d
una variabile aleatoria (scalare o vettoriale), e indichiamo con X
i
, 1 i n, la variabile
aleatoria denita da
X
i
(
1
, . . . ,
n
) := X
1
(
i
) .
Allora le X
i
sono variabili aleatorie indipendenti e aventi la medesima densità (dunque, in
particolare, si applicano ad esse la legge dei Grandi Numeri e il teorema Limite Centrale). I
dati empirici di cui si diceva consisteranno in una n-upla
(x
1
, . . . , x
n
) =
_
X
i
()
_

_
X
1
(
i
)
_
di valori assunti dalle X
i
per un certo (
1
, . . . ,
n
)
n
.
I vari metodi per valutare la plausibilità di un modello probabilistico consistente con i
dati empirici si basano prima di tutto su certe nuove variabili aleatorie, dette stimatori ; uno
stimatore T in generale ha la forma
T = (X
1
, . . . , X
n
) :
n
R
m
,
essendo : R
n
R
m
unapplicazione sucientemente regolare.
Elenchiamo di eseguito alcuni degli stimatori pi` u comuni.
8.1
La media aritmetica (o media calcolata, o media campionaria)
X :=
1
n
n
i=1
X
i

1
n
(X
1
+ +X
n
) .
La media geometrica
X
geom
:=
_
n
i=1
X
i
_
1/n
n
_
X
1
X
2
X
n
.
La media armonica
X
arm
:=
n
n
i=1
1
X
i
n
1
X
1
+ +
1
Xn
.
8.1
Attenzione a non confondere uno stimatore con leventuale quantit` a, avente lo stesso nome, denita per
una data variabile aleatoria. Cos`, ad esempio, gli stimatori media e varianza non vanno confusi con la
media E[Xi] e la varianza Var[Xi] , anche se sono ad esse collegati.
Il campo di variazione (o estensione, o range)
R[X] := maxX
i
minX
i
.
La deviazione media
MD[X] :=
1
n
n
i=1
[X
i

X[ .
La deviazione standard (o scarto quadratico medio) e la varianza
S[X] :=
_
1
n
n
i=1
(X
i

X)
2
, S
2
[X] =
1
n
n
i=1
(X
i

X)
2
.
La deviazione standard e la varianza campionarie (o corrette)
S[X] :=
_
1
n 1
n
i=1
(X
i

X)
2
,

S
2
[X] =
1
n 1
n
i=1
(X
i

X)
2
.
Il momento terzo o indice di asimmetria
A[X] :=
n
i=1
(X
i

X)
3
_
n
i=1
(X
i

X)
2
_
3/2
.
Il momento quarto o indice di curtosi
K[X] :=
n
i=1
(X
i

X)
4
_
n
i=1
(X
i

X)
2
_
2
.
Gli ultimi due stimatori sono meno usati degli altri; il loro ruolo è un ranamento nella
descrizione dei dati ottenuti. Cos`, A[X] assume valore 0 per una n-upla di dati
_
X
i
()
_
che sia
distribuita simmetricamente intorno alla media; se assume valore negativo indica che si sono
ottenuti pi` u valori inferiori alla media (e viceversa). Lindice di curtosi è una misura del peso
delle code rispetto alla parte centrale; si confronta con quanto accade per la distribuzione
normale, a cui viene attribuito un valore di curtosi pari a 3 (distribuzione a picco, cioè con
code leggere, per K[X] < 3 , e piatte per K[X] > 3).
Gli stimatori sopra elencati dal campo di variazione in poi sono anche detti misure di
dispersione.
Discuteremo in seguito, anche con alcuni esempi, lutilizzo di questi stimatori. Per ora ci
limitiamo a un paio di osservazioni, la prima delle quali è che la media aritmetica

X è la
maniera pi` u ovvia per stimare la media E[X] della variabile aleatoria X ; in eetti la legge
dei Grandi Numeri ci dice che se scegliamo un campione (x
1
, . . . , x
n
) =
_
X
1
(), . . . , X
n
()
_
con n abbastanza grande, ci si può aspettare che

X() sia circa uguale a E[X] . A naso, un
discorso analogo dovrebbe valere per la varianza. Vediamo. Supponiamo prima di tutto che
la media = E[X] sia nota. Allora
E
_
1
n
n
i=1
(X
i
)
2
=
1
n
n
i=1
E
_
(X
i
)
2
=
1
n
nVar[X
i
] = Var[X
i
] .
8.2 Stimatori fondamentali 103
In tal caso sarà quindi naturale usare proprio
1
n
(X
i
)
2
come stimatore della varianza.
Se invece non è noto (cioè dobbiamo stimare sia che
2
) allora dobbiamo utilizzare lo
stimatore S
2
[X] . Vogliamo calcolarne la media. Prima di tutto osserviamo che
n
i=1
(X
i

X)
2
=
n
i=1
(X
i
)
2
+n

X
2
2

X
n
i=1
X
i
=
n
i=1
(X
i
)
2
n

X
2
(avendo utilizzato
i
X
i
= n

X). Inoltre (teorema 5.9) si ha Var[X] = E[X
2
] E[X]
2
, da cui
E[

X
2
] = Var[

X] +E[

X]
2
=
1
n
2
nVar[X
i
] +E[X
i
]
2
=
1
n
Var[X
i
] +E[X
i
]
2
,
e si ottiene
E
_
n
i=1
(X
i

X)
2
= E
_
n
i=1
(X
i
)
2
E
_
n

X
2
=
n
i=1
E
_
(X
i
)
2
nE[

X
2
] =
=
n
i=1
_
Var[X
i
] +E[X
i
]
2
_
_
Var[X
i
] +nE[X
i
]
2
_
=
= nVar[X
i
] Var[X
i
] = (n 1) Var[X
i
] .
Dunque vediamo che
E[S
2
[X]] =
n 1
n
Var[X
i
] , E[
S
2
[X]] = Var[X
i
] .
Insomma

S
2
[X] è un cosiddetto stimatore non distorto di
2
Var[X
i
] , mentre S
2
[X] non
ha questa proprietà. Continuando a usare questa terminologia, potremmo dire che

X è uno
stimatore non distorto di E[X
i
] , in quanto
E[

X] =
1
n
n
i=1
E[X
i
] = .
Osserviamo poi che si ha, identicamente,
n
i=1
(X
i

X) =
n
i=1
X
i
n

X = n

X n

X = 0 ,
ovvero la somma algebrica degli scarti dalla media è zero.
Unulteriore osservazione: se la variabile aleatoria X è a valori positivi si ha
X
arm

X
geom

X ,
e luguaglianza vale se le X
i
prendono tutte lo stesso valore.
8.2
Esercizio. In alcuni casi si considera la media ponderata, in cui ai possibili valori di X
vengono attribuiti dei pesi a priori; darne una denizione precisa e fare qualche esempio.
8.2
Infatti essendo concava la funzione logaritmo si ha
log X
1
n
(log X1 + + log Xn) log
_
1
n
(X1 + + log Xn)
_
log X ,
per cui
Xgeom = e
1
n
(log X
1
++log Xn)
e
log
_
1
n
(X
1
++log Xn)
_
e
log X
= X .
Inoltre
1
Xarm
= 1/X 1/X
geom
=
n
_
1
X1

1
Xn
=
1
Xgeom
.
8.3 Quantili
Abbiamo già incontrato brevemente i quantili nel 7.4. Ricordiamo che per ogni n-upla di
dati x (x
i
) R
n
si considera la funzione di ripartizione empirica
F
x
(t) =
1
n
n
i=1
H(t x
i
) .
Se poi X (X
i
) è un vettore aleatorio n-dimensionale, si considera loggetto aleatorio F
X
F
X
(t) F
n
(t) :=
1
n
n
i=1
H(t X
i
) ,
che associa una funzione di ripartizione empirica ad ogni esperimento. Si è anche già visto
come F
n
costituisca, in sostanza, uno stimatore della funzione di ripartizione delle X
i
, in
quanto converge quasi certamente ad essa.
8.3
Abbiamo poi visto che i quantili, relativamente a una n-upla di dati, sono i punti di
discontinuità della funzione di ripartizione empirica determinata da questa; pi` u precisamente
si dice i-esimo quantile (o i-esimo n-quantile) della n-upla x lelemento
8.4
q
i
(x) := x
i
, 1 i < n ,
dove x := ( x
1
, . . . , x
n
) indica la medesima n-upla riordinata. Dunque q
i
(x) divide x nei due
sottoinsiemi
( x
h
)
hi
, ( x
h
)
h>i
,
di cardinalità rispettivamente i ed ni .
Se k N è un sottomultiplo di n, la n-upla ordinata x dei dati può essere suddivisa in k
sottoinsiemi di cardinalità h = n/k nel modo seguente:
x = ( x
1
, . . . , x
h
) ( x
h+1
, . . . , x
2 h
) ( x
nh+1
, . . . , x
n
) .
Lelemento pi` u grande del j-esimo di questi sottoinsiemi, ovvero
q
j,k
:= x
j h
x
j n/k
è detto il j-esimo k-quantile: è lelemento di x che suddivide i dati tra i j sottogruppi di
n/k elementi che hanno valori non superiori a q
j,k
, e gli altri k j gruppi di dati, con valori
maggiori di q
j,k
. In altri termini, i k-quantili suddividono gli n dati in k sottogruppi contenenti
il medesimo numero di elementi.
Questo modo di suddividere i dati, anche se a prima vista può sembrare arbitrario, è im-
portante in statistica, soprattutto negli studi sulle popolazioni. Ora è chiaro che la condizione
che k debba essere un sottomultiplo di n, per poter parlare di k-quantili, è una seccatura ab-
bastanza inutile: immaginiamoci di raccogliere un numero n molto grande di dati, e di volerli
suddividere in k =20 classi (pensiamo alle classi detà tra i consumatori, o alla fascia di peso
tra coloro che prendono un certo farmaco); sarebbe assurdo non poterlo fare perche i dati
raccolti sono (mettiamo) n=6133 ; potremmo scartare 13 dati scelti a caso, ma in realtà non
8.3
Pi` u precisamente, secondo la denizione di stimatore che abbiamo dato in precedenza (8.2), Fn(t) è uno
stimatore per ciascun t R.
8.4
Si noti che ci sono solo n1 quantili, perche i casi i =0 e i =1 non vengono considerati (per lo meno di
solito).
8.3 Quantili 105
è necessario perche quello che ci interessa è suddividere i dati approssimativamente in k classi
nel modo migliore possibile. Si sceglie allora un qualche criterio per ssare q
j,k
se j n/k non
è intero. Per esempio si potrebbe porre q
j,k
:= x
h
dove h j n/k| è la parte intera di j n/k
(cioè il pi` u grande intero < j n/k) , oppure prendere la media tra x
h
e x
h+1
, ovvero
q
j,k
:=
_
_
_
x
j n/k
, j n/k N ,
1
2
( x
h
+ x
h+1
) , h j n/k| , j n/k , N .
Nella letteratura e nelluso esistono varie altre denizioni leggermente diverse (a cui non siamo
interessati in questa sede).
`
E chiaro allora che la funzione di ripartizione empirica determinata
dai (q
j,k
) , j = 1, . . . , k 1 sarà una versione pi` u grossolana di quella determinata da tutta
la lista originale x dei dati (gura 29).
Figura 29: Funzione di ripartizione empirica determinata da un insieme di dati generati con
densità uniforme nellintervallo [0, 1] , e funzione di ripartizione determinata dai quintili del
medesimo insieme (a destra)
0.2 0.4 0.6 0.8 1.0
0.2
0.4
0.6
0.8
1.0
0.2 0.2 0.4 0.6 0.8 1.0
0.2
0.4
0.6
0.8
1.0
I k-quantili, per certi valori di k usati pi` u spesso, hanno nomi appositi:
il 2-quantile (ce nè uno solo) è detto mediana;
i 3-quantili sono detti terzili ;
i 4-quantili sono detti quartili ;
i 5-quantili sono detti quintili ;
i 9-quantili sono detti nonili ;
i 10-quantili sono detti decili ;
i 12-quantili sono detti duo-decili ;
i 20-quantili sono detti vigintili ;
i 100-quantili sono detti percentili ;
i 1000-quantili sono detti permillesimi.
Per la mediana, in particolare, prendendo la seconda denizione di q
j,k
con k = 2 avremmo
mediana(x) =
_
_
_
x
n/2
, se n è pari ,
1
2
( x
(n1)/2
+ x
(n+1)/2
) , se n è dispari .
Tuttavia se deniamo la mediana come il valore che divide linsieme dei dati, ordinati dal
pi` u piccolo al pi` u grande, esattamente in due parti [1], allora è pi` u naturale porre
mediana(x) =
_
_
_
x
(n+1)/2
, se n è dispari ,
1
2
( x
n/2
+ x
1+n/2
) , se n è pari .
Per n grande non è molto importante quale delle due denizioni si considera.
Esempio 8.1. Un metodo di valutazione degli esami utilizzato in alcuni paesi consiste di due
fasi. Nella prima fase si assegna a ciascun esame un punteggio (per esempio da 1 a 100) secondo
certi criteri predeniti; nella seconda fase si suddividono i risultati ottenuti in classi di uguale
cardinalità, e la valutazione nale consiste nella classe di appartenenza. Ad esempio le classi
potrebbero essere sei, contrassegnate con le lettere da A ad F. In questo modo, uno studente
che ha ottenuto nella prima fase un punteggio non particolarmente alto, può riportare alla ne
un A, che è quello che conta ai ni del pezzo di carta. Il sistema ha vantaggi e svantaggi. Un
vantaggio è che incoraggia gli studenti con qualche dicoltà: nessuno riceve una valutazione
inferiore ad F, ed è comunque in compagnia di diversi altri; uno studente bravino riceve un
A anche se non ha fatto benissimo. Daltra parte, uno molto bravo che ha fatto tutto bene o
quasi si ritrova sempre nel gruppo. In eetti la suddivisione in quantili tende a diminuire
limportanza delle code della distribuzione. Un ulteriore eetto negativo è che può favorire
una tendenza al ribasso nella qualità dellapprendimento.
A questo punto, avendo denito q
j,k
(x) per una generica n-upla x di dati, è naturale
considerare lo stimatore
q
j,k
(X
1
, . . . , X
n
) : q
j,k
_
X
1
() , . . . , X
n
()
_
,
che come si è già visto (7.4) determina un oggetto aleatorio F
k
con valori nellinsieme del-
le funzioni di ripartizione; per ciascun t R, per n, k si ha che F
k
(t) converge quasi
certamente a F(t) , essendo F la funzione di partizione comune delle X
i
.
Daltra parte, una densità di probabilità continua p che si annulli al pi` u in punti isolati
determina una funzione di partizione F invertibile; per una tale densità si denisce j-esimo
k-quantile il numero
q
j,k
q
j,k
[p] :=
F(j/k) , 1 j < k N 1 .
Pertanto se p è la densità della variabile aleatoria X si ha
PX q
j,k
= F(q
j,k
) =
j
k
,
cioè i q
j,k
(che, si osservi, sono in numero di k 1) suddividono la retta reale in k intervalli di
uguale probabilità (gura 30):
_
q
1,k
p(x) dx =
_
q
j+1,k
q
j,k
p(x) dx =
_

q
k1,k
p(x) dx =
1
k
.
Pi` u in generale, per (0, 1) non necessariamente razionale si denisce il quantile di ordine
di una densità p continua come il numero q
R dato da
PX q
= .
Cè inne un ulteriore indicatore di tendenza centrale usato in statistica: la moda, che può
essere denito come il valore che si ripete pi` u spesso. Pi` u precisamente, di una successione di
n dati si fa una partizione in sottoinsiemi suddividendo il campo di variazione in parti uguali
(non con i quantili!), e si prende il punto di mezzo dellintervallo in cui cade il maggior numero
di dati. Questoperazione, composta con la n-upla (X
1
, . . . , X
n
) di variabili aleatorie, fornisce
uno stimatore del punto di massimo della densità, ammesso che ce ne sia uno (potrebbero
anche venir fuori pi` u punti modali ). In quanto alla densità continua p(x) , la sua moda è proprio
il valore di x per cui p(x) ha il massimo (gura 30). Si osservi che nel caso di distribuzioni
simmetriche la media, la mediana e la moda coincidono.
8.3 Quantili 107
Figura 30: A sinistra: moda, mediana e media di una densità continua. A destra suddivisione
in k parti, aventi area 1/k , del trapezoide delimitato dal graco di p(x) e dallasse delle ascisse;
i valori che delimitano le parti sono i k-quantili (qui k =5).
2 4 6 8 10
0.05
0.10
0.15
2 4 6 8 10
0.05
0.10
0.15
Esempio 8.2. Un gruppo di 220 persone deve viaggiare su un aereo (occupando tutti i posti),
e si vuole valutare quanto bagaglio potrà portare ciascuno, sapendo che il carico massimo
dellaereo è di 20 tonnellate.
`
E necessario allora valutare la somma dei pesi corporei dei pas-
seggeri, e lo si farà moltiplicando per 220 un peso medio ricavato dalle statistiche. Supponendo
che tale peso medio sia di 68 kg ci si aspetta di avere 68 220 = 14.960 kg di passeggeri, e
dunque rimangono 5.040 kg per i bagagli (poco meno di 23 kg a testa).
Esempio 8.3. In vista della stagione invernale, un negozio situato vicino a una scuola deve
rifornirsi di giubbotti; siccome gli studenti tendono a comprare tutti il medesimo modello, il
negoziante dovrà sapere di quale modello si tratta: la moda, appunto.
Esempio 8.4. Cento studenti concorrono per 50 borse di studio partecipando a un esame
scritto. Il dato importante, per ciascuno di essi, è se la sua valutazione risulterà superiore o
no alla mediana.
Osservazione. (Sarà utilizzata nel 8.7.) Nel caso di una densità p simmetrica
8.5
:
se X p allora X p ;
F(x) = 1 F(x) ;
q
= q
1
(dove q
denota il quantile di ordine );

se X p allora P[X[ q
1/2
= 1 ;
infatti:
dette F
X
e F
X
le funzioni di ripartizione di X e di X , si ha
F
X
(t) = PX t = PX t =
_
t
p(x) dx =
_
t
p(x) dx =
_
t
p(x) dx =
=
_
t
p(x) dx = F
X
(t) ;
ponendo ora F F
X
F
X
si ha
F(x) = PX x = PX x = PX x = 1 PX x = 1 F(x) ;
PX q
= PX q
= PX q
= 1 PX q
= 1 ;
P[X[ q
1/2
= Pq
1/2
X q
1/2
= PX q
1/2
PX q
1/2
=
= [1

2
] [1 (1

2
)] = 1 .
8.5
O pari, cioè tale che p(x) = p(x) x, come per esempio la legge normale o la legge di Student.
8.4 Correlazione
Abbiamo già incontrato (5) il coeciente di correlazione tra due variabili aleatorie X e Y ,
Corr[X, Y ] :=
Cov[X, Y ]
_
Var[X] Var[Y ]
, ovvero
X,Y
=
X,Y
X

Y
,
e si è visto che 1
X,Y
1 . Come stimatore di Corr[X, Y ] utilizziamo
R[X, Y ] :=
n
i=1
(X
i

X) (Y
i

Y )
nS[X] S[Y ]
=
n
i=1
(X
i

X) (Y
i

Y )
(n 1)
S[X]
S[Y ]
.
Si è anche osservato che Corr[X, Y ] è zero quando X e Y sono indipendenti, ma che daltra
parte il suo annullarsi non implica lindipendenza delle due variabili aleatorie, come mostrano
gli esempi 5.5 e 5.6. In eetti, un po pi` u in generale, è facile vedere che Corr[X, Y ] si annulla
quando una delle due variabili aleatorie è distribuita simmetricamente rispetto allo zero e
laltra è una funzione pari della prima.
Per studiare un po pi` u in dettaglio il signicato del coeciente di correlazione conside-
riamo prima di tutto il caso in cui si abbia Y = X + , con , R, ,= 0 ; si dice allora
che X e Y sono correlate linearmente. Ponendo per brevità E[X] si ottiene
Cov[X, Y ] = E
_
(X ) (X + E[X +])
= E
_
(X ) (X + )
=
= E
_
(X )
2
= E
_
(X )
2
= Var[X] .
Inoltre (teorema 5.9) Var[Y ] = Var[X +] =
2
Var[X] , da cui
Corr[X, Y ] =
Cov[X, Y ]
_
Var[X] Var[Y ]
=
a Var[X]
_
2
Var[X] Var[X]
=
=

[[
= sign() .
Dunque il coeciente di correlazione, se X e Y sono legate da una mutua dipendenza lineare,
vale 1 o 1 a seconda che le due variabili aleatorie crescano insieme oppure che luna decresca
quando laltra cresce.
Modichiamo ora la relazione tra X e Y aggiungendo un termine stocastico, cioè una
nuova variabile aleatoria W indipendente da X, avente valore di aspettazione nullo e varianza
che pensiamo piccola. Scriviamo dunque
8.6
Y = X + +W , , R, ,= 0 .
Tenendo conto delle ipotesi su W si ha
E[W] = 0 , Var[Y ] = Var[X +] +Var[W] =
2
Var[X] +Var[W] ,
da cui
Cov[X, Y ] = E
_
(X ) (X + +W E[X +])
= E
_
(X ) (X +W ])
=
= E
_
(X )
2
+ (X ) W
= E[(X )
2
] +E[X ] E[W] =
= E[(X )
2
] = Var[X] .
8.6
`
E chiaro che se il termine W fosse del tutto arbitrario allora questa nuova relazione sarebbe priva di
signicato.
8.5 Regressione lineare 109
Pertanto
Corr[X, Y ] =
Cov[X, Y ]
_
Var[X] Var[Y ]
=
Var[X]
_
Var[X] (
2
Var[X] +Var[W]
,
che in valore assoluto è strettamente minore di 1 (a meno che la varianza di W non sia nulla, che
vorrebbe dire W = costante). Perciò si dice che Corr[X, Y ] è un indice del grado di dipendenza
lineare tra le due variabili aleatorie. Esistono poi molte altre misure di correlazione usate in
statistica, atte a rilevare vari tipi di relazioni tra le variabili aleatorie, ma ciò non rientra tra
gli scopi di questo corso.
Concludiamo questo paragrafo con alcuni esempi, nei quali si riportano nel piano carte-
siano i valori ottenuti di X e Y mediante una simulazione in cui il disturbo W ha densità
gaussiana.
Figura 31: A sinistra: simulazione di relazione Y = 2 X +W dove il disturbo W ha densità
gaussiana, media nulla e varianza 1/64 , e n = 100. Il coeciente di correlazione teorico
Corr[X, Y ] , calcolato con la formula data in precedenza, è confrontato con il coeciente di
correlazione empirico R[X, Y ] . A destra simulazione analoga, con Y =
3
2
X +W .
Corr[X, Y ]

= 0.977356
R[X, Y ]

= 0.975547
Corr[X, Y ]

= 0.960769
R[X, Y ]

= 0.961121
8.5 Regressione lineare
Supponiamo di avere ottenuto, in un esperimento, due n-uple di dati x = (x
1
, . . . , x
n
) e
y = (y
1
, . . . , y
n
) ; ipotizziamo che si tratti di valori di variabili aleatorie X e Y legate tra
loro da una relazione del tipo Y = X + +W , con , R, ,= 0 , dove W è un disturbo
stocastico a media nulla; vogliamo stimare i parametri e .
La situazione di partenza potrebbe essere del tipo illustrato in gura 31, ma potremmo
avere ancora meno dati. In ogni caso la retta che meglio si adatta ai dati non è univocamente
denita dai dati stessi, e la stima di e che otterremo dipende dal criterio che scegliamo
per determinarli.
Un criterio che risulta funzionare bene in pratica, e che è relativamente facile da applicare,
è il cosiddetto metodo dei minimi quadrati ; come dice il nome, si basa sul trovare e in
modo da minimizzare la somma dei quadrati degli scarti tra gli y
i
e i corrispondenti valori
x
i
+ che la variabile aleatoria Y assumerebbe se fosse esattamente uguale ad X + ; in
Figura 32: Simulazione con perturbazione di relazioni non lineari (non è dicile indovinarle
qualitativamente) tra le variabili aleatorie X e Y . Sono riportati i coecienti di correlazione
empirici, quelli teorici non possono essere ricavati dalla formula valida nel caso lineare e vanno
calcolati come integrali.
R[X, Y ]

= 0.63346
R[X, Y ]

= 0.020273
altri termini, si vogliono determinare e in modo che lespressione
U(, )
n
i=1
(y
i
x
i
)
2
assuma il valore pi` u piccolo possibile. In sostanza si tratta allora di un problema di minimo
di una funzione U(, ) di due variabili, che dipende dalle due n-uple di dati ma è ssata una
volta che questi sono assegnati. I minimi vanno cercati tra le soluzioni del sistema di equazioni
U =

U = 0 , ovvero
_
_
2
n
i=1
x
i
(y
i
x
i
) = 0 ,
2
n
i=1
(y
i
x
i
) = 0 ,
che riscriviamo nella forma
_
_
_
n
i=1
(x
i
)
2
_
+
_
n
i=1
x
i
_
=
n
i=1
x
i
y
i
,
_
n
i=1
x
i
_
+n =
n
i=1
y
i
.
_
_
n
i=1
(x
i
)
2
_
+n x =
n
i=1
x
i
y
i
,
x + = y ,
essendo
i
x
i
n x,
i
y
i
n y . Abbiamo quindi un sistema di due equazioni lineari del
tipo
_
A +B = C ,
D +E = F ,
nelle due incognite e , la cui soluzione è
=
C E BF
AE BD
, =
AF C D
AE BD
,
8.5 Regressione lineare 111
ovvero
8.7
=
i
x
i
y
i
n x y
i
(x
i
)
2
n x
2
, =
y
i
(x
i
)
2
x
i
x
i
y
i
i
(x
i
)
2
n x
2
.
In pratica converrà trovare dalla prima formula e poi = y x.
Nella gura 33 vediamo due esempi di applicazione del metodo dei minimi quadrati. Se i
dati sono molti il calcolo può essere svolto solo predisponendo un programmino al computer
(comè ovvio, tutto ciò è già presente nei software dedicati); con soli dieci dati, come nel
secondo esempio, lo si può fare anche con laiuto di una semplice calcolatrice. Riportiamoli,
approssimati alla quarta cifra decimale, per leventuale studente volonteroso:
x = (0.0129, 0.3122, 0.8068, 0.372, 0.7226, 0.1651, 0.6417, 0.2023, 0.9256, 0.4018) ,
y = (0.7966, 1.7359, 2.4894, 1.5853, 2.3659, 1.6931, 2.3538, 1.3566, 2.7845, 1.8793) .
Figura 33: A sinistra, simulazione analoga a quella della gura 31: Y = 2 X + 1 +W dove
la variabile aleatoria W ha legge N[0, 1/8] ; dagli n = 100 dati si ricavano i valori di e
con notevole precisione. A destra abbiamo solo 10 dati, ottenuti con relazione analoga tra
X e Y ma W N[0, 1/4] , dunque il disturbo ha varianza maggiore. Come ci si aspetta, la
determinazione di e è meno precisa, ma comunque non è troppo lontana dal vero. In
entrambi i casi, la retta disegnata è quella ricavata dai dati.

= 1.99186

= 0.996991

= 1.90121

= 1.03653
8.7
Si può dimostrare [2] che le variabili aleatorie
i
Xi Yi n

X

Y
i
(Xi)
2
n

X
2
,
i
(Xi)
2
i
Xi Yi
i
(Xi)
2
n

X
2
sono stimatori non distorti per e .
Esercizio: Trovare, con il metodo dei minimi
quadrati, i coecienti e relativi ai dati:
x = (0.77, 0.32, 0.68, 0.02, 0.94, 0.68) ,
y = (2.31, 1.65, 2.55, 1.19, 2.68, 2.31) .
Risposta:

= 1.66 ,

= 1.17 .
A anco sono riportati i dati e disegnate entrambe
le rette, quella di parametri e trovati e quella
di parametri = 2 e = 1 che sono stati in eetti
utilizzati per la simulazione che ha generato i dati.
0.2 0.4 0.6 0.8
2.0
2.5
Osservazione. Poiche Var[Y ] =
2
Var[X] +Var[W] , avendo stimato con il metodo dei
minimi quadrati e stimando Var[X] e Var[Y ] mediante

S
2
[X] e

S
2
[Y ] si ottiene una stima di
Var[W] .
8.6 Test di Pearson
Consideriamo un esperimento consistente nel lancio di un dado con N facce, N N, quindi
1, . . . , N . Consideriamo poi per ciascun k la variabile aleatoria
k
: R : h
k
(h) :=
hk

_
1 , h = k ,
0 , h ,= k .
In una successione di n N ripetizioni dellesperimento indichiamo con
k,i
(
k
)
i
la
variabile aleatoria
k
applicata alli-esima ripetizione, e con
k

1
n
n
i=1
k,i
la media campionaria di
k
(dunque n
k
n
k
=
i

k,i
è il numero di volte che, nelle n
ripetizioni dellesperimento, è uscito il risultato k).
Lesperimento sarà soggetto a una certa distribuzione di probabilità
8.8
P(k) = p
k
(0, 1) , k = 1, . . . , N ,
N
k=1
p
k
= 1 ,
Introduciamo, per ciascun n N, lo stimatore
T
n
:= n
N
k=1
(
k
p
k
)
2
p
k
.
Si dimostra allora (teorema di Pearson) che si ha la convergenza in legge
T
n
T
2
[N1] .
8.8
Come sar` a chiarito meglio in seguito, quando eseguiamo il test di Pearson noi non conosciamo tale
distribuzione, ma sottoponiamo al test unipotesi riguardo ad essa.
8.6 Test di Pearson 113
Osservazione. Da un punto di vista qualitativo lenunciato del teorema di Pearson non
sorprende, quando si osservi che
2
[1] è la legge del quadrato di una variabile aleatoria con
legge normale (6.8), e che
k
, in quanto variabile aleatoria di tipo cumulativo, ha legge
approssimativamente normale per n abbastanza grande (teorema del Limite Centrale, 7.6).
Ovviamente le
k
non sono indipendenti, quindi non si può usare la proprietà, per la legge
2
, dedotta dal teorema 6.10 (pagina 78).
Per ogni q R
+
abbiamo quindi PT
n
q
= PT q . Pertanto, detto q
con
=
_
q
0
2
[N1](t) dt
il quantile (8.3) della legge
2
[N1] corrispondente ad (0, 1) , abbiamo
PT
n
q
= .
I risultati sopra esposti possono essere utilizzati nel modo seguente. Supponiamo di avere
ottenuto una n-upla di dati da ripetizioni indipendenti di un dato esperimento lancio di
un dado con N facce; non sappiamo qualè la distribuzione di probabilità appropriata per
descrivere lesperimento, ma disponiamo di unipotesi (basata su considerazioni di vario tipo)
consistente in una N-upla di valori (p
k
) . Scegliamo ora un valore di piuttosto vicino ad 1, per
esempio = 0.95 , e valutiamo sulla n-upla di dati lo stimatore T
n
costruito in base allipotesi;
se lipotesi è corretta si ha PT
n
q
= , quindi è molto probabile che risulti T

n
q
. Se
invece si ottiene T
n
> q
abbiamo forti motivi di sospettare che la nostra ipotesi sia sbagliata,

cioè che la N-upla (p
k
) non costituisca un modello probabilistico adeguato per lesperimento
studiato (per quanto sia sempre possibile, ancorche improbabile, ottenere T
n
> q
anche se
lipotesi è corretta).
In sostanza quindi il test di Pearson, che stiamo descrivendo, consiste in un criterio per
decidere se i dati permettano di respingere o no una certa ipotesi. Osserviamo che il test
dipende dalla scelta di , che è essenzialmente arbitraria, anche se esistono dei valori che
convenzionalmente si considerano standard. Letica di chi studia le statistiche richiede che
lipotesi (p
k
) e il valore di (che determina il livello di signicatività del test) vengano
precisati prima di raccogliere i dati. Non possiamo fare a meno di osservare, a questo proposito,
che se si calcola T
n
utilizzando le frequenze empiriche f
k

k
al posto dei p
k
si ottiene
automaticamente T
n
= 0 , qualunque sia la n-upla dei risultati (questo è un esempio di come
i metodi statistici possano essere usati erroneamente).
Ovviamente il test è tanto pi` u adabile quanto maggiore è n; di solito si assume, in base
a valutazioni empiriche, che debba essere n > 5/p
k
.
Esempio 8.5. Per mostrare lutilizzo del test di Pearson illustriamo le modalità di una semplice
simulazione fatta con il computer. Abbiamo simulato il lancio di un dado con N = 6 facce
utilizzando tre diverse distribuzioni di probabilità,
8.9
quella uniforme e altre due:
p = (
1
6
,
1
6
,
1
6
,
1
6
,
1
6
,
1
6
) ,
p
= (0.15, 0.07, 0.18, 0.16, 0.24, 0.20) ,

p
= (0.12, 0.07, 0.10, 0.09, 0.24, 0.38) .

8.9
La funzione di partizione qui non è invertibile, ma in pratica si pu` o procedere semplicemente nel modo
seguente: si suddivide lintervallo [0, 1] in sei sottointervalli di misura proporzionale alle probabilità desiderate,
poi si sceglie a caso un numero reale r [0, 1] e si etichetta il risultato con il numero dordine di quello dei sei
intervalli a cui r appartiene.
Per applicare il test non è necessario elencare il risultato dei singoli lanci uno per uno, basta
conoscere per ciascun k = 1, . . . , N il numero di volte n
k
= n
k
che è uscito il risultato k .
Nelle tabelle di gura 34 sono riportati i dati ottenuti dalle simulazioni in forma di N-uple
(n
k
) , e i corrispondenti valori di T
n
per ciascuna delle tre ipotesi p , p
e p
. Il confronto
con i valori dei quantili per
2
[6 1] =
2
[5] , riportati nella tabella della gura 35, permette
di respingere unipotesi oppure no in base ai dati sperimentali.
Il test di Pearson può poi essere utilizzato per respingere o no unipotesi consistente in una
distribuzione di probabilità continua. A tale scopo si dovrà suddividere il campo di variazione
della variabile aleatoria studiata in un certo numero nito di intervalli, in modo da riportarsi
al caso discreto; tale suddivisione può essere fatta con vari criteri: in parti uguali, per quantili,
o altro.
Figura 34: Risultati delle simulazioni del lancio di un dado con N = 6 facce e distribuzioni di
probabilità p (in alto), p
(nel mezzo) e p
(in basso), e numero di lanci n = 10, 20, 50, 100, 200 .

A ciascun risultato viene poi applicato il test di Pearson relativamente a ciascuna delle tre
ipotesi p , p
e p
(tutti i numeri sono approssimati alla seconda cifra decimale). Si osserva

che in tutti i casi il test dà il valore pi` u basso per lipotesi giusta, ma che permette di
scartare le altre ipotesi solo da n = 50 in su.
n (n
k
) T
n
[p] T
n
[p
] T
n
[p
]
10 (3,1,0,2,2,2) 3.20 3.60 6.09
20 (2,1,1,3,1,2) 2.00 2.69 7.23
50 (3,13,11,5,8,10) 8.56 31.39 40.14
100 (19,19,16,18,14,14) 1.64 28.08 56.58
200 (39,36,34,33,28,30) 2.38 48.25 102.42
n (n
k
) T
n
[p] T
n
[p
] T
n
[p
]
10 (2,1,1,1,3,2) 2.00 1.03 1.68
20 (2,0,3,2,3,0) 5.60 3.92 10.53
50 (4,3,8,11,15,9) 11.92 3.79 17.94
100 (15,3,20,20,23,19) 15.44 3.60 36.02
200 (22,19,30,26,48,55) 32.50 11.67 16.31
n (n
k
) T
n
[p] T
n
[p
] T
n
[p
]
10 (1,1,3,1,2,2) 2.00 1.39 5.09
20 (1,2,0,0,6,1) 15.20 11.88 11.81
50 (6,3,3,1,7,30) 70.48 52.58 12.05
100 (7,9,12,7,31,34) 46.40 23.74 5.96
200 (19,13,32,20,46,70) 69.10 31.63 9.09
8.7 Intervalli di condenza 115

Figura 35: Quantili q
della legge
2
[N] per N = 1, . . . , 30 e per = 0.95, 0.975, 0.99 ,
approssimati alla seconda cifra decimale.
N 0.95 0.975 0.99
1 3.84 5.02 6.63
2 5.99 7.38 9.21
3 7.81 9.35 11.34
4 9.49 11.14 13.28
5 11.07 12.83 15.09
6 12.59 14.45 16.81
7 14.07 16.01 18.48
8 15.51 17.53 20.09
9 16.92 19.02 21.67
10 18.31 20.48 23.21
N 0.95 0.975 0.99
11 19.68 21.92 24.72
12 21.03 23.34 26.22
13 22.36 24.74 27.69
14 23.68 26.12 29.14
15 25.00 27.49 30.58
16 26.30 28.85 32.00
17 27.59 30.19 33.41
18 28.87 31.53 34.81
19 30.14 32.85 36.19
20 31.41 34.17 37.57
N 0.95 0.975 0.99
21 32.67 35.48 38.93
22 33.92 36.78 40.29
23 35.17 38.08 41.64
24 36.42 39.36 42.98
25 37.65 40.65 44.31
26 38.89 41.92 45.64
27 40.11 43.19 46.96
28 41.34 44.46 48.28
29 42.56 45.72 49.59
30 43.77 46.98 50.89
8.7 Intervalli di condenza
Se vogliamo stimare il valore di aspettazione di una variabile aleatoria X a partire da una
n-upla di dati ricavati da ripetizioni indipendenti dellesperimento, la prima cosa da fare è
ovviamente calcolare la media dei dati stessi, cioè applicare lo stimatore

X . Ciò tuttavia non
ci dà ancora unidea di quanto precisa sia la stima.
`
E evidente che una stima a partire da pochi
dati è meno adabile di una basata su molti dati, cos` come è evidente che, a parità di n, la
stima è tanto pi` u precisa quanto pi` u la varianza del campione è piccola. Ma in molti casi è
importante sapere con maggiore esattezza quantè adabile la stima; anzi, sarebbe opportuno
avere una denizione del grado di adabilità della stima stessa.
Per comprendere meglio lidea di fondo vediamo intanto una situazione semplice in cui
la questione ha una risposta naturale ed immediata: supponiamo ovviamente di non cono-
scere il valore di aspettazione E[X
i
] , che stiamo stimando, ma di conoscere la varianza

_
Var[X
i
] comune a tutte le X
i
. In tal caso possiamo fare appello al teorema del Limite
Centrale (7.6, 7.7), secondo cui la successione delle somme standardizzate
S
n

(

X )
converge in legge a un variabile aleatoria S N[0, 1] . Pertanto se q
indica il quantile di
ordine di N[0, 1] , ricordando losservazione al termine del 8.3, scelto un qualsiasi (0, 1)
abbiamo
1 = P
_
S
n
q
1/2
_
= P
_
q
1/2

(

X ) q
1/2
_
=
= P
_

X

n
q
1/2

X +

n
q
1/2
_
.
Possiamo ora interpretare quanto sopra nel modo seguente: scelto un (piccolo), la probabilità
dellevento

_

X

n
q
1/2
,

X +

n
q
1/2
è uguale a 1 ; in altri termini, la probabilità che il valore di aspettazione sconosciuto

E[X] sia contenuto nel suddetto intervallo, che è stimato a partire dai dati, è pari a
1 (quindi è grande se è piccolo). Tale intervallo, ripetiamolo costruito mediante i dati
ottenuti, è detto un intervallo di condenza (o di ducia) di livello 1 per E[X] . Questa
terminologia, che esprime nel caso particolare in esame un concetto generale importante della
statistica, signica insomma che chi elabora i dati e vuole stimare calcola per prima cosa
X, e poi a partire da

X determina in quale intervallo si trova con probabilità 1 (il livello
di condenza che è stato stabilito prima dellesecuzione del test).
Proviamo allora a dare un denizione pi` u generale della nozione di intervallo di condenza.
La situazione sarà quella in cui si cerca di determinare la legge p della variabile aleatoria
X ; tale legge di regola non sarà completamente sconosciuta, potremo supporre che sia di
un certo tipo e che per determinarla si debba trovare il valore di un certo parametro (in
generale potrà essere multi-dimensionale, cioè consistere in pi` u parametri scalari, ma per
ora limitiamoci al caso R). Un intervallo di condenza di livello 1 per consiste allora
in due stimatori, T
1
e T
2
, tali che
8.10
P [T
1
, T
2
] = 1 .
Nellesempio da cui siamo partiti abbiamo quindi
T
1
=

X

n
q
1/2
, T
2
=

X +

n
q
1/2
.
Questo particolare intervallo di condenza ha però un inconveniente che lo rende raramente
applicabile in pratica, e cioè il fatto che presuppone la conoscenza di
2
= Var[X] . Vien fatto
allora subito di pensare che si possa, nellespressione di T
1
e T
2
, sostituire a
2
lo stimatore
S
2
[X]
1
n 1
n
i=1
(X
i

X)
2
.
In eetti questidea è sostanzialmente giusta, ma si trova che allora cè qualche altro aggiu-
stamento da fare. Per vederlo enunciamo (senza dimostrazioni) i seguenti risultati.
Teorema 8.18.
Se Y N[0, 1] e Z
2
[n] sono variabili aleatorie indipendenti allora
n
Y
Z
t[n]
(legge di Student, 6.9).
Si ha
8.11
Y
(

X ) N[0, 1] , Z
n1
S
2
[X]
2
[n1] ,
e inoltre queste due variabili aleatorie risultano essere indipendenti.
8.12
Pertanto
T :=
n1
Y
Z
=
X
_
S
2
[X]
t[n1] .
8.10
Pi` u in generale ancora si potr` a richiedere P{() [T1 , T2]} = 1 dove è una opportuna funzione.
8.11
Per evitare confusioni qui chiamiamo Y la variabile aleatoria che in precedenza abbiamo chiamato Sn .
8.12
Ci` o non è aatto ovvio, perche

X interviene nel calcolo di

S
2
[X] .
8.7 Intervalli di condenza 117
Con un ragionamento analogo a quello fatto nel caso in cui è nota, scelto un qualsiasi
(0, 1) e indicando ora con q
il quantile di ordine della legge di Student t[n1] , abbiamo

1 = P
_
q
1/2
_
= P
_
q
1/2

S
q
1/2
_
=
= P
_

X
n
q
1/2

X +
n
q
1/2
_
,
dove per abbreviare abbiamo scritto

S
_
S
2
[X] . Otteniamo quindi lintervallo di condenza
di livello 1 dato dagli stimatori
T
1
=

X
n
q
1/2
, T
2
=

X +
n
q
1/2
.
In sostanza, concludiamo che se la varianza
2
di X non è nota si ottiene un intervallo di
condenza modicando la regola trovata in precedenza nel modo seguente: sostituendo con
S e i quantili della distribuzione normale N[0, 1] con quelli della distribuzione di Student
t[n1] . Per calcoli approssimati alla seconda cifra decimale è suciente una tabella come
quella riportata in gura 36.
Osservazione. Non esiste un unico intervallo di ducia di un dato livello 1 ssato. Ad
esempio non è dicile vedere, con calcoli analoghi ai precedenti, che
_

X
n
q
1/4
,

X +
n
q
13/4
_
e
_
,

X +
n
q
1
_
soddisfano al medesimo requisito. Lintervallo [T
1
, T
2
] sopra trovato è però lunico centrato
intorno a

X .
Esempio 8.6. In una località è stato registrato per 90 anni di seguito il dato sulla piovosità
nel mese di novembre, espressa in millimetri; si è ottenuta la successione
87 106 71 93 93 83 71 89 82 81 83 78 78 91 86 84 98 82
85 73 77 86 83 83 76 92 95 97 83 103 82 95 84 83 85 65
81 92 77 94 89 76 93 95 79 88 70 89 96 91 82 69 89 89
95 67 82 87 81 74 86 100 84 89 97 90 71 98 100 97 89 94
84 84 84 93 91 86 83 88 82 79 81 92 87 79 88 96 81 74
Vogliamo trovare un intervallo di condenza per E[X], centrato in

X, di livello 0.9 (supponendo
che i dati dei diversi anni siano indipendenti). Procediamo quindi a calcolare le quantità
necessarie; si ottiene
X

= 85.72 ,

S = 8.40 , q
0.95

= 1.66
n
q
0.95

= 1.47 ,
dove il valore di q
0.95
, il quantile di ordine 0.95 di t[89] , è stato ricavato dalla tabella di
gura 36. Pertanto lintervallo cercato è
[T
1
, T
2
]

= [85.72 1.47 , 85.72 + 1.47]

= [84.25 , 87.19] .
Se invece vogliamo un intervallo di condenza di livello 0.99 allora troviamo sulla tabella
q
0.995

= 2.63 , da cui
n
q
0.95

= 2.33 [T
1
, T
2
]

= [85.72 2.33 , 85.72 + 2.33]

= [83.39 , 88.05] .

Osservazione. Lanalisi statistica dei dati idrologici (di cui sopra abbiamo dato un esempio
elementare) è importante per ingegneri, economisti ed amministratori del territorio, al ne di
ottenere una conoscenza pi` u precisa possibile del rischio idraulico in funzione dei progetti
per infrastrutture (dighe, sistemi di smaltimento delle acque eccetera). Si noti anche come
leventualità di cambiamenti climatici consistenti può rendere poco adabili i dati raccolti
negli anni.
Figura 36: Quantili q
della legge di Student t[n] per diversi valori di n e per =

0.95, 0.975, 0.99, 0.995 , approssimati alla seconda cifra decimale. Si ha t[] N[0, 1] .
n 0.95 0.975 0.99 0.995
1 6.31 12.71 3.08 63.66
2 2.92 4.30 1.89 9.92
3 2.35 3.18 1.64 5.84
4 2.13 2.78 1.53 4.60
5 2.02 2.57 1.48 4.03
6 1.94 2.45 1.44 3.71
7 1.89 2.36 1.41 3.50
8 1.86 2.31 1.40 3.36
9 1.83 2.26 1.38 3.25
10 1.81 2.23 1.37 3.17
11 1.80 2.20 1.36 3.11
12 1.78 2.18 1.36 3.05
13 1.77 2.16 1.35 3.01
14 1.76 2.14 1.35 2.98
15 1.75 2.13 1.34 2.95
16 1.75 2.12 1.34 2.92
17 1.74 2.11 1.33 2.90
18 1.73 2.10 1.33 2.88
19 1.73 2.09 1.33 2.86
20 1.72 2.09 1.33 2.85
n 0.95 0.975 0.99 0.995
21 1.72 2.08 1.32 2.83
22 1.72 2.07 1.32 2.82
23 1.71 2.07 1.32 2.81
24 1.71 2.06 1.32 2.80
25 1.71 2.06 1.32 2.79
26 1.71 2.06 1.31 2.78
27 1.70 2.05 1.31 2.77
28 1.70 2.05 1.31 2.76
29 1.70 2.05 1.31 2.76
30 1.70 2.04 1.31 2.75
40 1.68 2.02 2.42 2.70
50 1.68 2.01 2.40 2.68
60 1.67 2.00 2.39 2.66
70 1.67 1.99 2.38 2.65
80 1.66 1.99 2.37 2.64
90 1.66 1.99 2.37 2.63
100 1.66 1.98 2.36 2.63
110 1.66 1.98 2.36 2.62
120 1.66 1.98 2.36 2.62
1.64 1.96 2.33 2.58
119
A Nozioni basilari di calcolo combinatorio
A.1 Coecienti binomiali
Ricordiamo la denizione di coeciente binomiale:
_
n
k
_
:=
n!
k! (nk)!
, n N 0 , k = 0, 1, . . . , n .
Il nome è dovuto al fatto che questi coecienti entrano nellespressione di una potenza di
un binomio
(a +b)
n
=
n
k=0
(
n
k
) a
nk
b
k
.
Per valori non troppo grandi di n intero, (
n
k
) può essere trovato facilmente come elemento
(k+1)-esimo nella riga (n+1)-esima del triangolo di Pascal
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
. . . . . . . . . eccetera . . . . . . . . .
in cui ciascun elemento è la somma dei due che stanno sopra di esso.
Alcune proprietà dei coecienti binomiali:
_
n
k
_
=
n(n1) (n2) (nk +1)
k!
. (i)
_
n
k
_
=
_
n
nk
_
. (ii)
_
n
0
_
=
_
n
n
_
= 1 . (iii)
_
n
k
_
=
n
k
_
n1
k 1
_
. (iv)
_
n
k
_
=
_
n1
k 1
_
+
_
n1
k
_
. (v)
Lultima identità è detta formula di Pascal (da essa dipende la costruzione del triangolo di
Pascal).
Osservazione. Il fattoriale n! := n(n1) (n2) 2 è denito un numero intero n N.
Tuttavia la funzione Gamma di Eulero, denita da
(x) :=
_

0
t
x1
e
t
dt ,
120 A NOZIONI BASILARI DI CALCOLO COMBINATORIO
Figura 37: Graco della funzione Gamma di Eulero per valori reali positivi dellargomento
0 1 2 3 4 5
2
4
6
8
10
è tale che per n intero si ha (n) = (n 1)! .
Allora si può estendere la denizione di coeciente binomiale (
n
k
) al caso n e k reali, mediante
_
n
k
_
:=
(n + 1)
(k + 1) (n k + 1)
.
A.2 Coecienti multinomiali

In maniera analoga ai coecienti binomiali si deniscono i coecienti multinomiali. Per n, r
0 N, poniamo
_
n
k
1
, k
2
, . . . , k
r
_
:=
n!
k
1
! k
2
! k
r
!
, dove
r
i=1
k
i
= n .
Nel caso r = 2 ritroviamo i coecienti binomiali in quanto
_
n
k
1
, k
2
_
=
_
n
k
1
, nk
1
_
=
_
n
k
1
_
=
_
n
k
2
_
.
I coecienti multinomiali nascono quando si espande una potenza di un polinomio; si ha
cioè
(a
1
+a
2
+ +a
r
)
n
=
k
1
,k
2
,... ,kr
_
n
k
1
, k
2
, . . . , k
r
_
a
k
1
1
a
k
2
2
a
kr
r
.
I coecienti multinomiali hanno varie proprietà simili a quelle dei coecienti binomiali
(ma ovviamente pi` u complicate); in particolare, vale la relazione di ricorrenza
_
n
k
1
, k
2
, . . . , k
r
_
=
_
n 1
k
1
1 , k
2
, . . . , k
r
_
+
_
n 1
k
1
, k
2
1 , . . . , k
r
_
+ +
_
n 1
k
1
, k
2
, . . . , k
r
1
_
.
Inoltre hanno la proprietà della simmetria, cioè scambiando di posto alcuni dei k
i
il valore del
coeciente non cambia (ciò è ovvio dalla denizione).
A.3 Disposizioni con ripetizione 121
A.3 Disposizioni con ripetizione
Indichiamo con N
k
:= (1, 2, . . . , k) N linsieme ordinato dei primi k numeri naturali, e con
A un insieme di cardinalità nita [A[ = n N. Si noti che A è distinto da N
n
in quanto in A
non è stato ssato a priori alcun ordine.
Denizione A.1 Una lista di k elementi di A, con k N, è unapplicazione f : N
k
A.
Una lista può essere rappresentata mediante la sua immagine
_
a
1
, a
2
, . . . , a
k
_
=
_
f(1), f(2), . . . , f(k)
_
,
che è una k-upla ordinata di elementi di A. Si osservi che tali elementi non sono necessaria-
mente tutti distinti.
Indichiamo ora con D
n
k
(A) , eventualmente abbreviato semplicemente con D
n
k
, linsieme
di tutte le liste di k elementi di A. Si dice anche che D
n
k
(A) è linsieme delle disposizioni
con ripetizione
A.1
di elementi di A, dove la parola ripetizione indica appunto che un dato
elemento di A può apparire pi` u volte nella lista. La cardinalità di questinsieme è
[D
n
k
[ = n
k
.
In eetti, basta contare quante scelte si devono fare per ssare una lista: lelemento a
1
= f(1)
può essere scelto in n maniere diverse, tante quanti sono gli elementi di A; anche lelemento
a
2
= f(2) può essere scelto in n maniere diverse, dato che la precedente scelta di a
1
non pone
alcuna condizione sulla scelta di a
2
(niente mi impedisce di scegliere di nuovo il medesimo
elemento); lo stesso vale per tutti gli elementi della lista. Dunque una lista di k elementi di A
può essere scelta in n n n
. .
k volte
= n
k
maniere diverse.
Possiamo pensare linsieme D
n
k
(A) come un modo per rappresentare la seguente situazione
pratica: una scatola contiene n oggetti (etichettati mediante gli elementi di A); se ne estrae
uno, lo si rimette nella scatola, se ne estrae unaltro (che eventualmente potrebbe anche essere
lo stesso di prima), e cos` via per k volte. Ovviamente i possibili risultati di queste k estrazioni
possono essere identicati con gli elementi di D
n
k
(A) , e quindi sono in numero di n
k
. Si parla
anche di estrazioni con rimpiazzo.
Una situazione a prima vista diversa, ma che può essere rappresentata sempre mediante
linsieme D
n
k
(A) , è la seguente: supponiamo di avere k palline (o altri oggetti di qualsiasi
genere) distinte, che etichettiamo con i numeri interi da 1 a k , e di doverle inserire in n
scatole dierenti, etichettate mediante gli elementi di A, permettendo che in ciascuna scatola
possa eventualmente andare a nire pi` u di un oggetto (o nessuno). I modi possibili di portare
a termine tale compito sono in corrispondenza biunivoca con gli elementi di D
n
k
(A) , e quindi
sono in numero di n
k
, in quanto ciascuno di essi può essere caratterizzato associando a ciascuna
pallina (quindi a ciascun elemento di N
k
) lelemento di A corrispondente alla scatola in cui la
pallina viene messa.
Lesempio pi` u comune di disposizioni con ripetizione è dato dalle colonne del totocalcio.
Assegnare una colonna signica assegnare unapplicazione N
13
1, X, 2 , che associa uno
dei tre possibili risultati di una partita a ciascun intero compreso tra 1 e 13. Dunque k = 13,
n = 3 e le possibili colonne del totocalcio sono 3
13
= 1 594 323 .
A.1
Dunque i termini lista (nel senso sopra introdotto)) e disposizione con ripetizione sono sinonimi.
122 A NOZIONI BASILARI DI CALCOLO COMBINATORIO
A.4 Disposizioni senza ripetizione
Consideriamo ora le liste f : N
k
A che siano iniettive. Ciò signica che ad elementi distinti
di N
k
vengono associati elementi distinti di A, ovvero che nella k-upla
_
a
1
, a
2
, . . . , a
k
_
=
_
f(1), f(2), . . . , f(k)
_
non vi sono due elementi uguali. Si parla allora di disposizioni senza
ripetizione. In termini di estrazioni, una tale lista descrive unestrazione senza rimpiazzo: si
estraggono a turno k oggetti da una scatola che ne contiene n, ma senza rimetterli nella
scatola; dunque ad ogni estrazione viene fuori un oggetto diverso.
`
E cos` che funzionano (di
solito) il gioco del lotto, la tombola, e, nei giochi di carte, la distribuzione di queste dal mazzo.
In termini della distribuzione di k palline in n scatole, liniettività signica che in ciascuna
scatola si mette una sola pallina.
`
E evidente che questa situazione richiede che sia k n (a dierenza del caso delle dispo-
sizioni con ripetizione, che non impone condizioni tra k ed n). Linsieme di tutte le dispo-
sizioni senza ripetizione N
k
A si indica con il simbolo D
n
k
(A) , eventualmente abbreviato
semplicemente con D
n
k
, ed ha cardinalità
[D
n
k
[ = n(n1) (nk +1) =
n!
(nk)!
.
In eetti, nellassegnare una disposizione senza ripetizione abbiamo n scelte per il primo
oggetto, n1 scelte per il secondo, n2 scelte per il terzo, e cos` via. Analogamente nel
sistemare k palline in n scatole, senza che ci possa essere pi` u di una pallina in una scatola, si
possono scegliere n sistemazioni per la prima pallina, n1 per la seconda e cos` via.
A.5 Permutazioni
Consideriamo ora il caso particolare delle disposizioni senza ripetizione quando sia n = k .
Limmagine di una lista è allora una n-upla ordinata
_
a
1
, a
2
, . . . , a
n
_
di elementi distinti di
A; poiche A è costituito esattamente da n elementi, la lista è un particolare ordinamento
di A. Gli ordinamenti di A sono detti anche permutazioni, e costituiscono linsieme P
n

P
n
(A) := D
n
n
(A) di cardinalità
[P
n
[ = n! .
A.6 Combinazioni
Immaginiamo ora di eseguire unestrazione senza rimpiazzo di k oggetti dellinsieme A, come
nel A.4, ma di essere interessati solo a quali oggetti sono usciti indipendentemente dallordine
in cui sono usciti. In altri termini riguardiamo come equivalenti due k-uple di elementi di
A che contengono gli stessi elementi, anche se ordinati dierentemente. Identicare k-uple
equivalenti, cioè considerarle come lo stesso oggetto, signica
A.2
considerare linsieme C
n
k
i
cui elementi sono i sottoinsiemi (non ordinati) di A aventi cardinalità k. Quanti sono questi
sottoinsiemi, cioè qualè la cardinalità di C
n
k
? Per rispondere osserviamo che D
n
k
può essere
visto come linsieme dei sottoinsiemi ordinati di A, aventi cardinalità k ; in altri termini,
due elementi di D
n
k
corrispondenti a sottoinsiemi di A che contengono gli stessi elementi, ma
ordinati dierentemente, sono visti come distinti. Daltra parte ciascuna di queste classi di
A.2
In termini un po pi` u precisi, diciamo che C
n
k
:= D
n
k
/ è il quoziente di D
n
k
per la relazione di equivalenza:
f g se e solo se le immagini f(N
k
), g(N
k
) A contengono i medesimi elementi, ovvero f(N
k
) = g(N
k
) come
insiemi non ordinati.
A.7 Partizioni 123
sottoinsiemi (equivalenti in C
n
k
ma non in D
n
k
) è composta da k! elementi (A.5), pertanto
concludiamo che
[C
n
k
[ =
1
k!
[D
n
k
[ =
n(n1) (nk +1)
k!
=
n!
k! (nk)!

_
n
k
_
.
Questo risultato ci consente di contare quanti sono tutti i sottoinsiemi di A, tra i quali si
annovera anche A stesso (k = n) e linsieme vuoto (k = 0). Questo numero è dato da
n
k=0
_
n
k
_
=
n
k=0
_
n
k
_
1
nk
1
k
= (1+1)
n
= 2
n
.
Perciò linsieme P(A) di tutti i sottoinsiemi di A è anche indicato con il simbolo 2
A
, notazione
che permette di scrivere
[2
A
[ = 2
|A|
.
A.7 Partizioni
In maniera pi` u generale, ma analoga a quanto visto nel A.6, il coeciente multinomiale
(
n
k
1
,k
2
,... ,kr
) =
n!
k
1
! k
2
! kr!
, con k
1
+ +k
r
= n, è legato al numero di partizioni diverse del-
linsieme A (con [A[ = n) in r sottoinsiemi di cardinalità k
i
. Pi` u precisamente, (
n
k
1
,k
2
,... ,kr
)
è il numero di r-uple distinte ordinate
_
A
1
, A
2
, . . . , A
r
_
di sottoinsiemi disgiunti di A, di
cardinalità rispettivamente k
1
, k
2
, . . . , k
r
, la cui unione sia tutto A.
Non è dicile vericare tale aermazione; per semplicità limitiamoci al caso r = 3 , dal
quale si intuisce subito come il ragionamento funziona in generale. Supponiamo dunque di
voler scegliere un sottoinsieme A
1
A che abbia cardinalità k
1
: per la prima scelta abbiamo
n possibilità, per la seconda n1 , e cos` via; per la k
1
-esima abbiamo nk
1
+1 possibilità,
pertanto la scelta del sottoinsieme A
1
può essere fatta in n(n1) (nk
1
+1) modi diversi.
A questo punto passiamo alla scelta di un sottoinsieme A
2
A che abbia cardinalità k
2
: si
parte, per il primo elemento, da nk
1
scelte, e in denitiva la scelta dei k
2
elementi di A
2
può essere fatta in (nk
1
) (nk
1
1) (nk
1
k
2
+1) modi. A questo punto il sottoinsieme
A
3
= A (A
1
A
2
) , di cardinalità k
3
nk
1
k
2
, risulta determinato, e il totale delle scelte
che abbiamo fatto è
n(n1) (nk
1
k
2
+1) = n(n1) (k
3
+1) =
n!
k
3
!
.
Poiche però siamo interessati alla partizione di A in sottoinsiemi (di cardinalità data) indi-
pendentemente dallordinamento, mentre le scelte fatte determinano anche un ordinamento di
A
1
e A
2
(non di A
3
), per avere il numero di scelte necessarie dobbiamo dividere per il numero
di permutazioni di A
1
e di A
2
, cioè per k
1
! k
2
! . In denitiva il numero cercato è appunto
n!
k
1
! k
2
! k
3
!

_
n
k
1
, k
2
, k
3
_
.
124 B NUMERI COMPLESSI
B Numeri complessi
Questappendice è un compendio di nozioni, già note da altri corsi, che gli studenti del cor-
so di Probabilità e Statistica (Ingegneria Civile, a.a. 2009/2010) dovrebbero avere presenti.
Le sezioni contrassegnate da un asterisco (*) sono inserite per completezza, ma non sono
indispensabili per il corso suddetto.
B.1 Numeri complessi
Il campo C dei numeri complessi può essere denito come lo spazio vettoriale R
2
dotato, oltre
che delle solite operazioni, del prodotto C C C dato da:
(a, b) (a
, b
) := (aa
bb
, ab
+ba
) .
Un numero complesso c = (a, b) può essere scritto in forma polare o trigonometrica
(utilizzando cioè le coordinate polari sul piano R
2
) come
c = (cos , sin ) , R
+
, R ,
dove = (a
2
+ b
2
)
1/2
, e è determinato a meno di multipli di 2 (è indeterminato solo per
c = (0, 0)). I numeri reali [c[ = e arg(c) = si dicono rispettivamente modulo e argomento di
c ; si noti che [c[ coincide con la norma Euclidea di c in R
2
, da cui abbiamo la disuguaglianza
triangolare:
[c +c
[ [c[ +[c
[ , c, c
C .
In forma polare il prodotto di due numeri complessi diventa:
cc
_
cos( +
), sin( +
)
_
,
ovvero il modulo del prodotto è il prodotto dei moduli, largomento del prodotto è la somma
degli argomenti.
Il sottospazio di C costituito da tutti i numeri complessi della forma (a, 0) può essere
identicato con R. Scriviamo cioè R C, e identichiamo il numero complesso (a, 0) con il
numero reale a .
`
E immediato vericare che la restrizione ad R del prodotto di C è il solito
prodotto di R.
Consideriamo poi il sottospazio di C costituito da tutti i numeri complessi della forma
(0, b) , detti numeri immaginari. Si vede subito che il prodotto di due numeri immaginari
è un numero reale, e che il quadrato di un numero immaginario è negativo. In particolare,
consideriamo lunità immaginaria i := (0, 1) ; si ha i
2
= 1 . In generale, un numero complesso
può essere scritto in uno e in un sol modo come la somma di un numero reale e un numero
immaginario, ovvero:
c := (a, b) = a + i b = (cos + i sin ) , a, b, R, R
+
.
I numeri reali a e b si dicono parte reale e parte immaginaria del numero complesso c ; si scrive
anche:
1c = a = cos , c = b = sin .
Non è dicile vericare che le operazioni di somma e prodotto di numeri complessi godono
di tutte le proprietà che permettono, nel manipolare unespressione complessa, di utilizzare le
B.2 Funzioni elementari 125
solite regole dellalgebra ordinaria (con in pi` u la regola i
2
= 1). In particolare, ogni numero
complesso diverso da 0 ha un unico inverso:
c = (cos + i sin ) c
1
=
1
(cos i sin ) .
Il numero complesso coniugato di c = a + i b = (cos + i sin ) è denito come:
c = a i b = (cos i sin ) .
Dunque c è il numero complesso con lo stesso modulo di c e argomento opposto. Si osservi
che il modulo quadrato di c (e di c) è dato da:
2
= c c = a
2
+b
2
.
Inoltre si ha:
c = c ; 1c =
1
2
(c + c) ; c =
1
2 i
(c c) ;
cd = c

d ; c +d = c +

d ; 1/c = 1/ c .
Osservazione. Moltiplicando un numero complesso (visto come elemento di R
2
) per i lo si
ruota in senso antiorario di /2 ; in altri termini, la moltiplicazione per i può essere vista come
lapplicazione lineare R
2
R
2
la cui matrice nella base canonica è
_
i
_
=
_
0 1
1 0
_
, e in generale
la moltiplicazione per il numero immaginario i b può essere vista come lapplicazione lineare
R
2
R
2
la cui matrice nella base canonica è b
_
i
_
=
_
0 b
b 0
_
. Daltra parte, la moltiplicazione
di un numero complesso per il numero reale a può essere vista come lomotetia a11 , cioè
lapplicazione lineare R
2
R
2
la cui matrice (in qualsiasi base) è
_
a11
_
=
_
a 0
0 a
_
. Dunque C
può essere visto come il sottospazio di dimensione 2, dello spazio di tutte le matrici 2 2 ,
costituito dalle matrici della forma
a + i b
_
a11 +b i
_
=
_
a b
b a
_
,
con loperazione di prodotto data dal solito prodotto di matrici (è un facile esercizio ve-
ricare che si ottiene proprio la regola introdotta allinizio di questo paragrafo). In forma
trigonometrica:
(cos + i sin )
_
cos sin
sin cos
_
.
Si noti poi che al numero complesso coniugato corrisponde la matrice trasposta e allinverso
la matrice inversa; inoltre, il modulo quadrato di un numero complesso è il determinante della
matrice corrispondente. I numeri complessi di modulo 1, cioè quelli della forma cos +i sin ,
corrispondono a rotazioni di un angolo in senso antiorario.
B.2 Funzioni elementari
Nello studiare funzioni C C si indica tradizionalmente la variabile indipendente con la
lettera z , e la variabile dipendente (se necessario) con la lettera w. Inoltre si indicano la parte
reale e immaginaria della funzione rispettivamente con u e v . Dunque scriviamo:
w = f(z) = u(x, y) + i v(x, y) , z = (x, y) x + i y = (cos + i sin ) .
In generale considereremo funzioni denite su un sottoinsieme aperto U C.
Potenze
La funzione f(z) = z
m
, m N, può essere calcolata immediatamente in termini di modulo e
argomento:
z
m
=
m
(cos m + i sin m) .
Questa formula vale poi anche per esponente negativo o nullo, ponendo:
z
0
:= 1 ; z
m
:= (z
m
)
1
= (z
1
)
m
.
Radici (*)
Calcoliamo poi la radice m-esima di un numero complesso. Sia = (cos + i sin ) tale che
m
= z := (cos + i sin ) , ovvero:
_
m
= ,
cos m = cos ,
sin m = sin .
I valori (tutti e soli) di e che soddisfano queste relazioni sono:
_
_
_
=
1/m
;
= ( + 2 k )/m ;
con k Z. Si hanno dunque m radici m-esime distinte di z ,= 0 . Se consideriamo argomenti
compresi nellintervallo [0, 2) , queste possono essere scritte:
=
1/m
_
cos
_
+ 2 k
m
_
+ i sin
_
+ 2 k
m
_
, k = 0, 1, . . . , m1
Se prendiamo un intervallo dierente per gli argomenti, questa formula vale sempre ma con
valori diversi di k , da determinarsi da caso a caso. La particolare radice
m
z :=
1/m
_
cos(/m) + i sin(/m)
_
, (, ] ,
è detta valore principale di z
1/m
, ed è discontinua nei punti dellasse reale negativo.
Ponendo z
n/m
:= (z
1/m
)
n
abbiamo denito la potenza di un numero complesso con espo-
nente razionale qualsiasi.
`
E importante sottolineare che si tratta di una funzione multivoca o
polidroma, cioè a pi` u valori. Le solite proprietà delle potenze continuano a valere, ma sempre
nei limiti di questa non completa determinatezza, per cui devono essere utilizzate con cautela.
Per esempio la formula (zz
)
q
= z
q
z
q
, q Q, è vera solo se i valori dei due membri sono
scelti opportunamente tra quelli papabili.
Esponenziale
Estendiamo ora ai numeri complessi la funzione esponenziale (vedremo meglio in seguito come
questa estensione dellesponenziale reale sia proprio quella naturale). Per ogni R poniamo:
e
i
:= cos + i sin .
Dunque un numero complesso di modulo e argomento può essere scritto in forma espo-
nenziale come
z = e
i
.
B.2 Funzioni elementari 127
Dato un numero complesso qualunque z = x + i y poniamo allora
exp(z) := e
z
= e
x+i y
:= e
x
e
i y
(richiediamo cioè che continui a valere una delle proprietà formali dellesponenziale reale).
`
E
facile vedere allora che si ha in generale:
e
z+z
= e
z
e
z
, z, z
C .
Osserviamo poi che si ha:
z = e
i
,
z z
e
i (+
)
,
z
m
=
m
e
i m
, m Z
(lultima formula è in accordo con unaltra proprietà dellesponenziale reale).
Funzioni trigonometriche e iperboliche
Vediamo ora come estendere le funzioni circolari e iperboliche (tutte queste estensioni sono
naturali, in un senso che verrà precisato in seguito). Osserviamo che dalla denizione di e
i
si
ricavano cos e sin in termini di esponenziali; richiedendo che tali espressioni valgano per
argomento complesso qualunque, otteniamo le formule di Eulero:
cos z =
e
i z
+e
i z
2
; sin z =
e
i z
e
i z
2 i
.
Inoltre poniamo:
cosh z =
e
z
+e
z
2
; sinh z =
e
z
e
z
2
.
Si ricavano allora facilmente le formule:
cos iz = cosh z ; sin iz = i sinh z .
Non è dicile vericare, inoltre, che le solite identità trigonometriche continuano a valere per
le estensioni complesse; ma si osservi (lo vedremo meglio tra poco) che nel campo complesso
hanno soluzione equazioni come (ad esempio) cos z = r con r reale maggiore di 1 .
Logaritmo
Deniamo il logaritmo come la funzione inversa dellesponenziale, log(e
z
) = z z . Dal mo-
mento che z = e
i
= e
log +i
, dove := [z[ e := arg z , abbiamo:
log z = log + i = log [z[ + i arg z .
Si osservi che arg z è determinato a meno di multipli di 2 , dunque il logaritmo è una funzione
polidroma: assume un unico valore solo se si sceglie un dato intervallo, di ampiezza 2 , per
gli argomenti. In particolare scegliendo arg z (, ] abbiamo, come nel caso della radice,
il valore principale del logaritmo, che è discontinuo nei punti dellasse reale negativo.
Le solite proprietà formali del logaritmo continuano a valere, ma nellutilizzarle occorre
attenzione. Uno che facesse dei calcoli senza pensare potrebbe scrivere, per esempio,
0 = log 1 = log(1)
2
= 2 log(1) ,
e dedurne log(1) = 0 . Dovè lerrore? Per applicare la formula arg(zz
) = arg z + arg z
bisogna che tutti gli argomenti appartengano al medesimo intervallo di ampiezza 2 ; nel
nostro caso possiamo prendere per esempio (/2, 5/2) , e quindi log 1 = 2i .
Fissato un intervallo per gli argomenti (di regola il valore principale) si pone
z
:= e
log z
, C 0 ,
che per Q coincide con la denizione data precedentemente.
Funzioni circolari e iperboliche inverse (*)
Dal momento che le funzioni circolari e iperboliche sono espresse in termini della funzione
esponenziale, non è sorprendente che le loro inverse siano esprimibili in termini del logarit-
mo (in eetti, exp e log sono essenzialmente le uniche funzioni elementari trascendenti). La
costruzione richiede però qualche cautela, proprio per le questioni legate alla multivocità.
Consideriamo per cominciare la funzione sin ; si vede facilmente (esercizio) che perche sia
iniettiva deve essere ristretta a unopportuna striscia del piano complesso. La scelta standard
è
U := z C : 1(z) (/2, /2) .
Si vede allora (esercizio) che
V := sin(U) = C x R : [x[ 1 .
La funzione arcsin : V U è denita da sin(arcsin(z)) =z , ovvero
e
i w
e
i w
= 2 i z , w := arcsin(z) .
Dal momento che lesponenziale è sempre diverso da zero (esercizio), questa è unequazione
di secondo grado in e
i w
, la cui soluzione è e
i w
= i z +(1 z
2
)
1/2
, cioè
arcsin(z) = i log
_
i z + (1 z
2
)
1/2
_
.
Questespressione è ambigua in quanto composizione di funzioni polidrome, ma si vede (eser-
cizio) che è esattamente quella cercata quando si considerano i valori principali sia della della
radice che del logaritmo.
La funzione cos è iniettiva (esercizio) se ristretta alla striscia
U
:= z C : 1(z) (0, ) ,
e risulta (esercizio) cos(U
) = V = sin(U) . Per esprimere la funzione arccos possiamo risolvere

rispetto a e
i w
lequazione e
i w
+e
i w
= 2z , o anche, osservando che da cos(/2 w) = sin w
segue arcsin z+arccos z = /2 , ricavare direttamente (esercizio):
arccos z =

2
arcsin z = i log
_
z + i (1 z
2
)
1/2
_
.
La funzione tan(z) := sin(z)/ cos(z) è iniettiva (esercizio) sullo stesso insieme U del seno,
e si ha
V
:= tan(U) = C i y iR : [y[ 1 .
Inne la funzione inversa arctan : V
U è data da
arctan(z) =
i
2
log
i +z
i z
,
dove si prende il valore principale del logaritmo (esercizio).
In maniera analoga si possono studiare le inverse delle funzioni iperboliche (si veda per
esempio il volume di Abramowitz-Segun, elencato nei riferimenti bibliograci al termine di
questa sezione).
B.3 Derivata e integrale di una curva a valori complessi 129
B.3 Derivata e integrale di una curva a valori complessi
Consideriamo una curva a valori in C, cioè unapplicazione derivabile
z : I C R
2
: t z(t) = x(t) + i y(t)
_
x(t), y(t)
_
,
dove I R è un aperto. La sua derivata
B.1
(o vettore tangente) è lapplicazione
z : I C R
2
: t z(t) = x(t) + i y(t)
_
x(t), y(t)
_
,
dove si è indicato la derivata di una funzione rispetto a t con un punto sopra al simbolo della
medesima ( z
d
dt
z eccetera). In particolare
B.2
d
dt
e
i t
d
dt
(cos t + i sin t) = sin t + i cos t = i e
i t
.
A partire da questa è facile far vedere che, in pratica, la derivata di una curva a valori in
C può essere calcolata con le solite regole di derivazione. In particolare valgono la regola di
Leibnitz (derivata di un prodotto) e la regola della catena (derivata di una composizione).
Similmente si denisce lintegrale indenito
_
z(t) dt :=
_
x(t) dt + i
_
y(t) dt ,
e, se (a, b) I , lintegrale denito
_
b
a
z(t) dt :=
_
b
a
x(t) dt + i
_
b
a
y(t) dt .
Dal teorema fondamentale del calcolo integrale si ricava che la curva
Z : I C : t Z(t) :=
_
t
a
z(s) ds
è una primitiva di z , cioè

Z = z . Si verica facilmente che valgono la formula di integrazione
per parti e la formula del cambiamento di variabile; le primitive e gli integrali deniti si
calcolano in sostanza con le medesime regole del caso di funzioni R R.
B.4 Serie (*)
Ricapitoliamo alcuni fatti riguardanti successioni e serie a valori complessi. Le dimostrazioni
sono analoghe a quelle del caso reale; controllarne la validità nel caso complesso è un utile
esercizio.
Osserviamo prima di tutto che la topologia (insiemi aperti, insiemi chiusi, intorni ecc.) di
C è quella standard di R
2
(volendo utilizzare una norma si può prendere quella denita dal
modulo). In termini di tale topologia sono deniti i limiti di successioni N C, e i limiti e la
continuità di funzioni C C. In particolare, una successione c
n
:= a
n
+ ib
n
converge se e
solo se convergono a
n
e b
n
, e si ha limc
n
= lima
n
+i limb
n
; se c
n
e d
n
sono entrambe
B.1
La derivata
d
dz
f(z) di una funzione di variabile complessa f : C C è un argomento ben pi` u intricato (si
vedano i riferimenti bibliograci al termine di questa sezione).
B.2
La curva t e
i t
è un moto circolare uniforme di raggio unitario, e questa formula mi dice che il vettore
tangente a questo moto lo si ottiene (comè ovvio) ruotando di /2 il vettore di posizione rispetto al centro.
convergenti si ha lim(c
n
d
n
) = (limc
n
)(limd
n
) , e se limc
n
,= 0 allora lim(1/c
n
) = 1/(limc
n
) .
Risultati analoghi valgono per i limiti di funzioni.
Nessuna novità sostanziale anche per quanto riguarda i concetti di serie, somme parziali
e somma di una serie. La serie
n=0
c
n
è detta assolutamente convergente se la serie (reale a termini non negativi)
n=0
[c
n
[
è convergente. Una serie assolutamente convergente è convergente, e ogni serie ottenuta
riordinandone i termini converge alla medesima somma.
Richiamiamo il concetto di convergenza uniforme. Sia S un insieme qualsiasi e (f
n
: S C)
una successione di funzioni. Tale successione è detta uniformemente convergente su S se esiste
una funzione f : S C con la proprietà:
> 0 n
N : [f
n
(s) f(s)[ < n > n
, s S .
Se (f
n
) converge uniformemente e i singoli termini sono funzioni continue, anche illimite f è
una funzione continua.
La serie
f
n
è detta uniformemente convergente se tale è la successione delle sue somme
parziali, e assolutamente convergente se è convergente la serie
[f
n
[ . Il criterio del confronto
aerma che se esiste una successione r
n
a termini reali non negativi, tale che la serie
r
n
sia
convergente, e che z S si abbia [f
n
(z)[ r
n
, allora la serie
f
n
converge uniformemente
e assolutamente.
Consideriamo in particolare le serie di potenze, ovvero serie di funzioni del tipo
n=0
c
n
(z z
0
)
n
,
dove z
0
C è ssato e c
n
è la successione (a valori complessi) dei coecienti della serie.
Come nel caso reale, dal criterio del confronto segue il seguente
Teorema 2.19. Se una serie di potenze non converge assolutamente z C, allora esiste
un unico r R
+
tale che la serie converge assolutamente per [z z
0
[ < r e non converge per
[z z
0
[ > r .
Inoltre, la serie converge uniformemente su ogni cerchio [z z
0
[ s , s < r .
Il numero r del precedente teorema è detto raggio di convergenza della serie.
B.3
Dunque la
serie converge assolutamente allinterno di un cerchio di raggio r con centro in z
0
, e converge
uniformemente su ogni cerchio [z z
0
[ r
< r . Ovviamente una serie di potenze converge

assolutamente almeno per z = z
0
. Per convenzione, si dice convergente una serie che ha raggio
di convergenza non nullo.
Il raggio di convergenza può essere calcolato mediante il seguente
Teorema 2.20. Se r è il raggio di convergenza della serie di potenze
c
n
z
n
, si ha
1
r
= limsup [c
n
[
1/n
,
B.3
Si osservi che il teorema non dice niente riguardo alla convergenza nei punti della circonferenza |zz0| = r .
In eetti si possono avere vari casi, ma noi non ci occuperemo di tali questioni.
B.4 Serie (*) 131
relazione da interpretarsi in senso esteso, ovvero r = 0 se limsup [c
n
[
1/n
= , r = se
limsup [c
n
[
1/n
= 0 .
Non è dicile vericare che le funzioni elementari hanno i medesimi sviluppi in serie di
Taylor delle corrispondenti funzioni reali. Ne riportiamo alcuni dei pi` u comuni, nellintorno di
z
0
= 0.
1
1 +z
=
n=0
(1)
n
z
n
= 1 z +z
2
z
3
+z
4
+ , [z[ < 1.
(1 +z)
n=0
( n + 1)( n + 2)
n!
z
n
=
= 1 +z +
( 1)
2
z
2
+
( 1)( 2)
3!
z
3
+
+
( 1)( 2)( 3)
4!
z
4
+ , [z[ < 1 .
e
z
=
n=0
z
n
n!
= 1 +z +
z
2
2!
+
z
3
3!
+
z
4
4!
+ , z C .
sin z =
n=0
(1)
n
z
2n+1
(2n + 1)!
= z
z
3
3!
+
z
5
5!

z
7
7!
+ , z C .
cos z =
n=0
(1)
n
z
2n
(2n)!
= 1
z
2
2!
+
z
4
4!

z
6
6!
+ , z C .
tan z = z +
z
3
3
+
2z
5
15
+
17z
7
315
+
62z
9
2835
+O(z
11
), [z[ <

2
.
sinh z =
n=0
z
2n+1
(2n + 1)!
= z +
z
3
3!
+
z
5
5!
+
z
7
7!
+ , z C .
cosh z =
n=0
z
2n
(2n)!
= 1 +
z
2
2!
+
z
4
4!
+
z
6
6!
+ , z C .
tanh z = z
z
3
3
+
2z
5
15

17z
7
315
+
62z
9
2835
+O(z
11
), [z[ <

2
.
log(1 +z) =
n=1
(1)
n
z
n
n
= z
z
2
2
+
z
3
3

z
4
4
+ , [z[ < 1 .
arcsin z = z +
1
2
z
3
3
+
1 3
2 4
z
5
5
+
1 3 5
2 4 6
z
7
7
+ , [z[ < 1 .
arctan z =
n=0
(1)
n
z
2n+1
(2n + 1)
= z
z
3
3
+
z
5
5

z
7
7
+ , [z[ < 1 .
In particolare, osserviamo che
e
i
=
n=0
(i )
n
n!
= 1 + i

2
2!
i

3
3!
+

4
4!
+ i

5
5!
+ =
= (1

2
2!
+

4
4!
+ ) + i (

3
3!
+

5
5!
+ ) = cos + i sin ,
in accordo con la denizione di esponenziale complesso.
Riferimenti bibliograci sui numeri complessi
M. Abramowitz - I. A. Segun, Handbook of mathematical functions, Dover.
Un riferimento utile per tutte le principali funzioni di variabile reale e complessa; contiene anche
le tavole numeriche (queste ultime ormai poco utili: servivano negli anni sessanta quando non si
poteva avere un computer sulla scrivania).
D. Canarutto, Appunti di Analisi III, Pitagora Editrice, Bologna (1998). Spiegazioni pi` u
dettagliate e numerosi esercizi svolti sui numeri complessi (e altro).
J. Bak - D. J. Newman, Complex Analysis, Springer-Verlag.
S. Lang, Complex Analysis, Springer-Verlag.
V. Smirnov, Cours de mathematiques superieures,

Edition Mir, Moscou.
T. Needham, Visual Complex Analysis, Oxford.
133
C Misura e integrazione
C.1 Misura
Il concetto di misura secondo Riemann, su cui si basa la nozione di integrale che viene utilizzata
di solito nei primi due anni di corso, è suciente per molte applicazioni. Tuttavia per una
trattazione precisa della probabilità (e per varie altre questioni importanti) è indispensabile
una nozione di misura un po pi` u sosticata, che verrà qui introdotta in maniera sintetica.
Per i nostri scopi non è indispensabile conoscere la teoria completa ne le dimostrazioni dei
teoremi.
C.1
Indichiamo con un insieme (generico).
Denizione C.1 Una -algebra
C.2
su è una famiglia E di sottoinsiemi di con le seguenti
proprietà:
a) E.
b) E E E E.
c) E
k
E k N
kN
E
k
E.
Un sottoinsieme E E è detto misurabile, e la coppia (, E) è detta spazio misurabile.
Si noti che su qualsiasi insieme esiste almeno una -algebra: quella di tutti i sottoinsiemi
di . Se S è una qualsiasi famiglia di sottoinsiemi di , si dimostra che esiste una -algebra
minimale E su tale che S E; si dice allora che E è la -algebra generata da S.
Si dimostra facilmente:
d) E.
e) E
k
E k N
kN
E
k
E.
f) E
k
E, k = 1, . . . , n
k
E
k
E.
g) E, F E E F E.
Denizione C.2 Unapplicazione f : R
n
si dice misurabile se la preimmagine di ogni
aperto di V R
n
è un sottoinsieme misurabile di : f
1
(V ) E.
In particolare, la funzione caratteristica
E
di E E è ovviamente misurabile.
C.3
Se
f
n
: R è una successione di funzioni misurabili, si dimostra che sono misurabili anche le
funzioni
C.4
sup
n
f
n
, limsup
n
f
n
e, se esiste, lim
n
f
n
. Se f, g : R sono misurabili, lo sono
anche f+g, fg e (f, g) : R
2
.
Denizione C.3 Una misura (positiva) su uno spazio misurabile (, E) è una funzione :
E [0, ] che sia -additiva, cioè tale che per ogni famiglia numerabile E
n
nN
di insiemi
misurabili disgiunti si abbia
(
nN
E
n
) =
nN
(E
n
) .
La terna (, E, ) è detta allora uno spazio di misura.
C.1
Chi voglia approfondire pu` o consultare i riferimenti bibliograci elencati in fondo a questa sezione.
C.2
Storicamente, la lettera si riferisce alla parola somma.
C.3
La funzione caratteristica di un insieme E qualsiasi è denita da
E
(x) :=
_
1 , x E ,
0 , x E .
C.4
La notazione limsup è equivalente a max lim.
134 C MISURA E INTEGRAZIONE
Si dimostra:
() = 0.
(E F) = (E) +(F) (E F).
E F (E) (F).
Ovviamente la -additività vale anche per una famiglia nita di insiemi misurabili di-
sgiunti. Per una famiglia numerabile di insiemi misurabili eventualmente non disgiunti si ha
in generale
C.5
(
nN
E
n
)

nN
(E
n
) .
Una successione E
n
di insiemi si dice crescente se m < n E
m
E
n
, e decrescente se
m > n E
m
E
n
. Si dimostra:
Teorema 3.21.
Sia E
n
una successione crescente di insiemi misurabili; si ha
lim
n
(E
n
) = (
nN
E
n
) .
Sia E
n
una successione decrescente di insiemi misurabili; si ha
lim
n
(E
n
) = (
nN
E
n
) .
Esempio C.1. Ricordiamo che la cardinalità [S[ di un insieme nito S è semplicemente il
numero degli elementi che lo compongono. Sia allora un insieme qualsiasi, e sia E la famiglia
di tutti i sottoinsiemi di . Poniamo (E) = se E E è un insieme innito (cioè costituito
da inniti elementi), altrimenti (E) = [E[. Allora è una misura, detta misura discreta, o
del conteggio.
Esempio C.2. Se R
n
possiamo considerare la -algebra B generata da tutti gli aperti;
gli elementi di B sono detti Boreliani (in particolare sono Boreliani gli insiemi chiusi). Una
funzione R si dice Borel-misurabile se è misurabile rispetto alla -algebra dei Boreliani.
Ogni funzione continua è dunque Borel-misurabile.
Osservazione. Ricordiamo che un iper-intervallo di R
n
è il prodotto cartesiano di n intervalli
di R, e che un pluri-intervallo di R
n
è lunione di un numero nito di iper-intervalli. La misura
di un pluri-intervallo in R
n
può essere denita in modo naturale ed elementare.
Per ogni sottoinsieme E R
n
indichiamo con m
#
(E) lestremo inferiore di tutte le misure
di pluri-intervalli contenenti E, e con m
(E) lestremo superiore di tutte le misure di pluri-

intervalli contenuti in E. Si dice che E è misurabile secondo Peano-Jordan se m
#
(E) = m
(E);
tuttavia, la famiglia P di tutti gli insiemi misurabili secondo Peano-Jordan non è una -
algebra. Infatti, come vedremo in seguito con un esempio, la proprietà c) della denizione C.1
è vericata solo per una famiglia nita nita di sottoinsiemi. Quindi la funzione m : T
[0, +] : E m(E) := m
#
(E) = m
(E), detta misura di Peano-Jordan, non è a rigore una

vera misura; o meglio, soddisfa una denizione di misura pi` u debole.
C.5
Pi` u precisamente, si dimostra
C.2 Integrazione astratta 135
C.2 Integrazione astratta
In questo paragrafo consideriamo uno spazio misurabile (, E) ssato.
Una funzione s : R tale che la sua immagine sia un sottoinsieme nito a
1
, . . . , a
n

R è detta semplice. Una funzione semplice può essere espressa nella forma
s =
n
j=1
a
j
E
j
, E
j
:= s
1
(a
j
) .
Chiaramente s è misurabile se e solo se è misurabile ciascuno degli E
j
.
Se f : [0, ) è misurabile, si dimostra che esiste una successione s
n
di funzioni
semplici misurabili tali che
a) 0 s
1
s
n
f;
b) s
n
(x) f(x) x .
Inoltre, se f è limitata la convergenza è uniforme.
Consideriamo ora una misura : E [0, ]. Sia s =
j
a
j
E
j
una funzione semplice
misurabile ed E E. Lintegrale di s su E è denito in maniera naturale come
_
E
s d :=
n
j=1
a
j
(E
j
E) .
Ciò suggerisce la denizione di integrale su E di una funzione misurabile non negativa, f :
[0, ], come
_
E
f d := sup
0sf
_
E
s d .
Vale allora il teorema della convergenza monotona: se f
n
è una successione monotona (f
n

f
n+1
) di funzioni misurabili tali che f
n
(x) f(x) x , allora
_
E
f
n
d
_
E
f d (abbiamo
già detto nel C.1 che se f
n
è una successione di funzioni misurabili, limf
n
risulta misurabile).
Finalmente arriviamo alla denizione di integrale di una funzione misurabile f : R.
Osserviamo che f può essere decomposta in maniera canonica nella dierenza di due funzioni
non negative; infatti f = f
+
f
dove
f
+
(x) := maxf(x), 0 , f
+
(x) := minf(x), 0 .
Inoltre f è misurabile se e solo se lo sono f
+
ed f
. Diremo allora che f è integrabile, o

sommabile, se
_
E
f
+
d e
_
E
f
d sono entrambi niti, e poniamo

_
E
f d :=
_
E
f
+
d
_
E
f
d .
Si osservi che [f[ = f
+
+f
, per cui f è integrabile se e solo se

_
E
[f[ d è nito.
`
E immediato vericare le proprietà:
1.
_
E
f d +
_
E
g d =
_
E
(f+g) d;
2.
_
E
cf d = c
_
E
f d (c costante);
3. D E =
_
DE
f d =
_
D
f d +
_
E
f d.
Si dimostra il teorema della convergenza dominata: sia f
n
una successione di funzioni
misurabili tali che f
n
(x) f(x) x ; supponiamo inoltre che esista una funzione misura-
bile g : R tale che per ogni n ed ogni x si abbia f
n
(x) g(x); allora f è integrabile, e si
ha _
E
[f
n
f[ d 0 ,
_
E
f
n
d
_
E
f d .
Consideriamo ora una qualsiasi proprietà P che in un punto x può valere oppure no
(ad esempio P potrebbe essere la proprietà f(x) 0, dove f è una funzione data; oppure
f
n
(x) è convergente, dove f
n
è una successione di funzioni). Si dice che P vale quasi
ovunque in un insieme E se il sottoinsieme di E in cui P non vale ha misura nulla. In
particolare, se f e g sono funzioni misurabili e linsieme x[f(x) ,= g(x) ha misura nulla,
diciamo che f = g quasi ovunque; in tal caso scriviamo anche f g, in eetti si tratta di una
relazione di equivalenza.
Se f g, per ogni E E si ha
_
E
f d =
_
E
g d. Viceversa se luguaglianza dellintegrale
vale per ogni insieme misurabile, allora f g. In particolare sia f 0 e
_
f d = 0; allora
f 0, in quanto lintegrale è zero su qualsiasi insieme misurabile.
Dunque gli insiemi di misura nulla sono trascurabili nei riguardi dellintegrazione. A questo
proposito, ci si aspetterebbe che un sottoinsieme di un insieme trascurabile sia ancora trascu-
rabile. Tuttavia, dagli assiomi della misura non segue che un sottoinsieme di un insieme di
misura nulla debba essere a sua volta misurabile. Diamo allora una nuova denizione: diciamo
che la misura è completa quando i sottoinsiemi degli insiemi di misura nulla sono misurabili
(e, necessariamente, di misura nulla).
`
E sempre possibile completare una data misura am-
pliando in maniera naturale la -algebra E, includendovi cioè tutti i sottoinsiemi degli insiemi
di misura nulla. Queste osservazioni suggeriscono allora di riformulare i vari enunciati relati-
vi allintegrazione sostituendo dappertutto x con quasi ovunque (esercizio: riformulare
teoremi della convergenza monotona e della convergenza dominata). In eetti, nulla cambia
se modichiamo in maniera arbitraria le funzioni coinvolte su un insieme di misura nulla.
Lapproccio allintegrazione che abbiamo descritto mira principalmente a generalizzare il
familiare concetto di integrazione secondo Riemann. Lo scopo viene raggiunto introducendo
una nuova misura in R
n
(vedi prossimo paragrafo), detta misura di Lebesgue. Tuttavia lin-
tegrazione astratta è interessante anche in altri casi; lesempio che segue è particolarmente
importante.
Esempio C.3. Consideriamo la misura discreta (esempio C.1). In tal caso una funzione sem-
plice s =
j
a
j
E
j
è sommabile se e solo se ciascuno degli insiemi E
j
è nito. Se f è una
funzione positiva, tra tutte le funzioni semplici sue minoranti ci sono le restrizioni di f ai
sottoinsiemi niti di , ed è evidente che nel valutare
_
f basta limitarsi a considerare queste

ultime. Dunque
_
f =
x
f(x)
dove la sommatoria è denita come lestremo superiore di tutte le somme nite:
x
f(x) := sup
f(x),
sottoinsieme nito di
_
.
Per denizione, per ogni > 0 esiste un sottoinsieme nito
tale che
x
f(x)
x
f(x)
x
f(x) .
C.3 Misura e integrale di Lebesgue 137
Pertanto esiste una successione
1

2

n
di sottoinsiemi niti di tale che
lim
n
xn
f(x) =
x
f(x) ,
da cui si può ricavare una successione x
k
: N tale che
k=1
f(x
k
) =
x
f(x) .
Vediamo dunque che se f è sommabile su , il suo supporto x[f(x) ,= 0 è tuttal pi` u
numerabile.
Se f non è a valori positivi ed è sommabile, vuol dire che è sommabile [f[; allora
x
f(x) =
k
f(x
k
) è ben denita in quanto la serie è assolutamente convergente, dunque la somma non
dipende dallordine degli (inniti) addendi.
C.3 Misura e integrale di Lebesgue
Sia (, T ) uno spazio topologico, B la -algebra dei Boreliani e : B [0, ] una misura.
Si dice che è regolare se B B si ha
r1) (B) = inf
V
(V )[B V T ;
r2) (B) < (B) = sup
K
(K)[K B, K compatto.
Possiamo ora enunciare il teorema di esistenza della misura di Lebesgue in R
n
.
Teorema 3.22. Esistono una -algebra M in R
n
e una misura completa : M [0, +]
aventi le seguenti proprietà:
a) se I R
n
è un iper-intervallo, (I) coincide con il volume di I (cioè con la sua misura
di Peano-Jordan);
b) B M e la restrizione di a B è regolare;
c) è invariante per traslazioni: (E +x) = (E) E M, x R
n
;
d) per ogni misura
: B [0, +] che sia invariante per traslazioni e a valori niti sui

compatti, esiste una costante c tale che B B si abbia
(B) = c (B).
La misura di cui sopra è detta misura di Lebesgue in R
n
, e dà luogo allintegrazione
secondo Lebesgue. Dal punto a) segue che se f : R
n
R è integrabile secondo Riemann
lo è anche secondo Lebesgue, e i due integrali coincidono; il viceversa, come vedremo, non è
vero. Quando non cè pericolo di confusione si indica lintegrale di Lebesgue con la medesima
notazione tradizionale per lintegrale di Riemann; ad esempio scriviamo
_
R
f(x) dx per
_
R
f d.
Enunciamo ora alcune generalizzazioni di risultati ben noti nel caso dellintegrale di Rie-
mann.
Il primo risultato è il teorema di Fubini : sia f : R
2
R una funzione integrabile; allora
per quasi tutti gli x R la funzione f
x
: y f(x, y) è integrabile, ed è integrabile la funzione
x
_
R
f
x
(y) dy; analogamente, per quasi tutti gli y R esiste ed è integrabile la funzione
y
_
R
f
y
(x) dx; si ha
_
R
2
f(x, y) dxdy =
_
R
_
_
R
f
x
(y) dy
_
dx =
_
R
_
_
R
f
y
(x) dx
_
dy .
Vogliamo poi generalizzare il teorema fondamentale del calcolo integrale. A tale scopo
premettiamo la seguente denizione: una funzione f : R R si dice assolutamente continua
se > 0 esiste > 0 tale che, comunque si scelga un numero nito di intervalli aperti disgiunti
(a
j
, b
j
) con
j
(b
j
a
j
) < , risulta
j
[f(b
j
)f(a
j
)[ < . Le funzioni assolutamente continue
sono derivabili quasi ovunque e uniformemente continue. Limportanza di questa nozione si
manifesta allora nei seguenti due risultati:
I) Se f : R R è integrabile, allora la funzione F(x) =
_
x
f(t) dt è assolutamente
continua e si ha quasi ovunque F
= f.
II) Condizione necessaria e suciente perche luguaglianza
f(x) f(a) =
_
x
a
f
(t) dt
valga x [a, b] è che f sia assolutamente continua su [a, b].
`
E naturale a questo punto chiedersi quali vantaggi porta questa teoria rispetto a quella pi` u
intuitiva e familiare di Riemann. Un vantaggio importante, che storicamente ha motivato lo
sviluppo della teoria,
C.6
è che sono molto meno restrittive le condizioni richieste per passare al
limite sotto il segno di integrale (si veda il teorema della convergenza dominata). Tra laltro,
ciò permette di introdurre gli spazi funzionali L
p
([Canarutto]), mediante i quali è possibile
trattare certe classi di funzioni con il linguaggio semplice e potente degli spazi di Hilbert.
Tale approccio può sembrare un po astratto, ma consente una pi` u chiara comprensione degli
argomenti considerati.
Sarebbe ora desiderabile acquisire un maggiore dimestichezza con le nozioni di misura e
integrale di Lebesgue. Non volendo in questa sede addentrarci nei dettagli delle dimostrazioni,
facciamo alcune considerazioni e introduciamo un paio desempi.
Un punto importante è che un insieme numerabile ha misura nulla. Sia infatti E :=
a
n
nN
; sia > 0; ogni elemento a
n
ha un intorno I
n
di misura inferiore a 2
n
, da cui
(E) (
nN
I
n
) < .
Esempio C.4. Linsieme Q dei numeri razionali è numerabile, dunque (Q) = 0. Ne segue
che linsieme [0, 1] Q ha misura 1. Vediamo allora come la misura di Lebesgue permetta di
misurare insiemi di tipo molto pi` u generale rispetto alla misura di Peano-Jordan, per la quale i
razionali e gli irrazionali non sono misurabili: in R i pluri-intervalli sono gli intervalli, dunque la
misura inferiore e quella superiore di [0, 1] Q secondo Peano-Jordan valgono rispettivamente
0 e 1. Da qui si vede anche che la nozione di misurabilità secondo Peano-Jordan non denisce
una -algebra: Q non è misurabile pur essendo unione numerabile di insiemi misurabili.
Da quanto detto si vede che esiste un aperto V R di misura arbitrariamente piccola che
ricopre tutto Q; questo fatto esemplica chiaramente la non intuitività, sotto certi aspetti,
della misura di Lebesgue. Ovviamente il punto essenziale sta nella -additività, che vale per
famiglie innite (purche numerabili) di insiemi misurabili. Ne consegue che la classe M degli
insiemi misurabili secondo Lebesgue è molto vasta, tanto che non è facile trovare un insieme
non misurabile; anzi, per dimostrarne lesistenza bisogna ricorrere allassioma della scelta
nella sua forma pi` u forte [5]. Si dimostra inoltre che esistono insiemi misurabili che non sono
Boreliani, cioè linclusione B M (teorema 3.22) vale in senso proprio (Rudin, 2.21).
C.6
Sono interessanti e utili le Notizie storiche del Giusti [5].
C.3 Misura e integrale di Lebesgue 139
Esempio C.5. Prendiamo lintervallo [0, 1] e togliamone lintervallo aperto centrale (1/3, 2/3);
da ciascuno dei due intervalli rimasti togliamo lintervallo aperto centrale; e cos` via. Al passo
r-esimo viene tolto un aperto E
r
che ha misura 2
r1
/3
r
.
`
E facile allora calcolare la misura di
E =
rN
E
r
(serie geometrica): si ha (E) = 1. Linsieme complementare K := [0, 1] E è
detto insieme di Cantor. Chiaramente K è compatto e ha misura nulla.
`
E facile convincersi
che K non è vuoto: può essere identicato con linsieme di tutti i numeri reali in [0, 1] la
cui espressione in base 3 non contiene la cifra 1. Anzi, si dimostra che K non è nemmeno
numerabile (ha la potenza del continuo).
Si possono fare tanti esempi di insiemi costruiti in maniera analoga a quello di Cantor. Se
ad ogni passo, invece di togliere 1/3 di ogni segmento, ne tolgo 1/p (p > 3), quello che rimane
ha misura
1
n=0
2
n
p
n+1
=
p 3
p 2
.
Riferimenti bibliograci su misura e integrazione
D. Canarutto, Appunti di Analisi III, Pitagora Editrice, Bologna (1998).
E. Giusti, Analisi Matematica 2, Bollati-Boringhieri.
G. Gilardi, Analisi III, Mc Graw-Hill Italia.
W. Rudin, Real and Complex Analysis, McGraw-Hill.
V. Smirnov, Cours de mathematiques superieures,

Ed. Mir, Moscou.

Appunti Di Probabilità e Statistica (2013, 143p)

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Appunti Di Probabilità e Statistica (2013, 143p)

Caricato da

Copyright:

Formati disponibili

Appunti di probabilit` a e statistica

Ingegneria Civile, Firenze, a.a. 2011/2012.

Dunque una -algebra su `e una famiglia di sottoinsiemi di che si comporta in maniera

, ma evidentemente non `e una -

; per`o genera una -algebra E

) , ovvero la pi` u piccola -algebra che

contiene tutti i complementari in

\ compaiono entrambi o nessuno dei due.

no; allora la probabilit`a di un elemento

`e comunque espresso come somma di una serie.

(E) lestremo superiore di tutte le misu-

(E); tuttavia, la famiglia PJ di tutti gli insiemi misurabili secondo

(E), detta misura di Peano-Jordan, non `e a

E veniamo al punto essenziale della presente discussione: un teorema fondamentale aerma

2 cresce. In sostanza possiamo

pu`o essere anche rappresentata mediante la funzione

2.5 Probabilit`a condizionale

Esempio 2.9. Un prodotto viene commercializzato in quattro versioni: A, B, C e D. Una

(k) e i graci della

X(AB) `e linsieme di tutti gli tali che X() A oppure X() B,

X(B) E allora anche

X((a, b]) . Sia poi (an) una successione crescente convergente a b ;

X((an, b]) `e un evento anche la loro intersezione

Esempio 4.4. Nellesperimento lancio di due dadi consideriamo la variabile aleatoria X :

Esempio 4.5. Nellesperimento lancio di due dadi consideriamo la variabile aleatoria X :

4.4 Intermezzo: alberi e gra, variazioni sul tema

Unulteriore estensione che viene in mente, per la descrizione di un esperimento tramite

) . In particolare, se si riesce a trovare tale che t [, ] si abbia

] , secondo la densit`a f , `e la misura dellintervallo

(t) = 1 signica (regola di derivazione della funzione inversa)

(due estrazioni senza rimpiazzo di due

= 1/36 nel primo caso e p = 1/30 nel

sono le stesse, ma le densit`a p e p

fa s` che p e X possano essere viste come una densit`a e una

() . Dunque R e sono variabili aleatorie non indipendenti. In manie-

() , e le variabili aleatorie R e risultano essere indipen-

Esempio 4.12. Consideriamo ora una densit`a nel piano R

Osservazione. Se una densit`a `e diversa da zero su un sottoinsieme di R

4.8 Densit`a condizionale

4.9 Calcolo di leggi

Esempio 4.18. Sia X : R una variabile aleatoria di densit`a f ; trovare la densit`a di X

4.10 Il caso di Mary vos Savant

[x[ p(x) dx < .

Teorema 5.5. Sia X (X

(x1 , . . . , xm) p(x1 , . . . , xm) dx1 . . . dxm e simili.

5.2 Momenti di una variabile aleatoria

`e detto momento centrato di

Esempio 5.2. Sia X : R : (costante); allora p

(delta di Dirac, 2.4). Per-

, il suo integrale su un intorno

Esempio 5.6. Consideriamo la probabilit`a uniforme p(x, y) = 1/ r

dei due sottoinsiemi, di cardinalit`a rispettivamente

[ = nr , costituiti rispettivamente dai successi e dagli insuccessi; ogni

. Osserviamo poi che i sottoinsiemi B

p[s, r, n](k) N[, ](k)

< 0.0015 per k [0, 20] .

e . Si noti come, al cresecere di , la campana si allarga

erf : [1, 1] R `e ancora analitica.

erf ; lespressione del coeciente generico

, ] variabili aleatorie indipendenti. Allora

Questa legge `e usata in un importante test statistico (8.6).

xt[](x) dx = 0 per ogni R

5, 5/3) , x = (3/2, 1, 5/3,