Dispense PDF

Calcolo delle Probabilità e Statistica 2019/2020
INTRODUZIONE
1 L’incertezza e la probabilità
Il concetto di probabilità è strettamente collegato al concetto di incertezza. A tal proposito,
si considerino le seguenti affermazioni:
A = “domani a Bologna piove”,

B = “domani a Bologna la temperatura è superiore a 25 ◦ C”,
C = A e B = “domani a Bologna piove e la temperatura è superiore a 25 ◦ C”.
Esse riguardano il verificarsi di un evento futuro, per tale ragione non è possibile dire
con certezza assoluta se sono vere oppure false, è possibile però dire che sono probabili.
Mentre in logica matematica (anche detta logica del certo) si studiano solo affermazioni
vere oppure false, nella realtà si ha a che fare con affermazioni di cui in genere è possibile
solamente dire che sono probabili. Tali affermazioni riguardano infatti eventi (non solo
futuri come nel caso di A, B, C, ma anche presenti o passati) di cui non si hanno tutte
le informazioni a disposizione per dire con certezza assoluta se sono veri oppure falsi. A
questo proposito, riportiamo la seguente citazione:
“. . . il caso della certezza, intesa come certezza assoluta, è, se non un’astrazione
illusoria, per lo meno un caso limite, mentre sarebbe da considerarsi normale il caso
dell’incertezza.” 1
La probabilità è una quantificazione o misura dell’incertezza: in logica matematica si

attribuisce il valore numerico 1 ad un’affermazione vera e 0 ad un’affermazione falsa; la
probabilità permette di andare oltre questi due casi limite, assegnando ad un’affermazio-
ne un qualunque valore numerico nell’intervallo [0, 1]. Gli estremi dell’intervallo, 0 e 1,
corrispondono ai valori di verità “falso” e “vero” utilizzati in logica matematica.
Si consideri ad esempio l’affermazione A = “domani a Bologna piove”. La probabilità
di tale affermazione, indicata con P(A), è un numero appartenente all’intervallo [0, 1] tale
che:
• P(A) = 0 significa che con certezza assoluta l’affermazione è falsa;
• P(A) = 1 significa che con certezza assoluta l’affermazione è vera;
• P(A) ∈ (0, 1) significa che l’affermazione è probabile, in particolare più P(A) è vicino
ad 1 più è probabile che l’evento “domani a Bologna piove” si verifichi.
In sintesi, possiamo dunque descrivere la probabilità come una
“misura dell’avverabilità di un evento” 2 .
Concludiamo questa sezione introduttiva accennando alle tre questioni fondamentali

che ruotano attorno al concetto di probabilità.
• Che cos’è la probabilità?

1
Bruno de Finetti, “Vero, falso, oppure probabile?”, 1982.
2
Italo Scardovi, “Il tempo e il caso”, 1999.
2
• Come si assegna/stima la probabilità?
• Quali regole/assiomi3 verifica la probabilità?
La prima questione (a cui abbiamo già fornito una possibile risposta affermando che la
probabilità è una “misura dell’avverabilità di un evento”) è di pertinenza della Filosofia.
La seconda è invece di competenza della Statistica e può essere affrontata a due livelli:
ingenuo o formale. Infine, la terza questione può essere risolta servendosi unicamente
di argomentazioni assiomatico-deduttive ed è dunque di pertinenza della Matematica: la
disciplina che se ne occupa è il Calcolo delle probabilità o, semplicemente, Probabilità (in
particolare, almeno nella prima parte riguardante gli eventi, può essere vista come un
nuovo capitolo della logica matematica, la logica dell’incerto).
Infine, possiamo affermare che:
• il Calcolo delle probabilità ha come obiettivi formulare e studiare modelli matematici

(anche detti modelli probabilistici) per descrivere “situazioni d’incertezza”;
• la Statistica permette di passare da una situazione d’incertezza reale al corrispon-

dente modello probabilistico. Essa si divide in descrittiva e inferenziale:
– la Statistica descrittiva si occupa di descrivere e, in particolare, sintetizzare

tramite indici e grafici i dati a disposizione riguardanti la situazione d’incertezza
in esame;
– la Statistica inferenziale 4 si occupa di determinare (inferire) il modello proba-
bilistico “più fedele possibile” ai dati e alle informazioni a disposizione.
2 Richiami di teoria degli insiemi

Come vedremo in seguito, un “evento” sarà descritto matematicamente da un insieme.
Per questo motivo, è utile fare qualche richiamo di teoria degli insiemi.
Indichiamo con la lettera greca maiuscola omega, simbolo Ω, un insieme qualunque.
Un generico elemento di Ω verrà indicato con la lettera greca minuscola omega: ω. Scri-
veremo ω ∈ Ω per dire che ω appartiene ad Ω o, equivalentemente, che ω è un elemento
di Ω.
Sottoinsiemi. Per indicare che A è un sottoinsieme di Ω, scriveremo
A ⊂ Ω.
Si noti che tra tutti i sottoinsiemi di Ω ci sono anche5 l’insieme vuoto (indicato con il
simbolo ∅) e l’insieme Ω stesso, ovvero ∅ ⊂ Ω e Ω ⊂ Ω. Indicheremo con P(Ω) l’insieme
delle parti di Ω, ovvero l’insieme i cui elementi sono tutti i sottoinsiemi di Ω, compresi
l’insieme vuoto ∅ e Ω stesso.
3
Ad esempio, nota la probabilità degli eventi A e B, cosa possiamo dire della probabilità dell’evento
C = A e B?
4
Anche detta Statistica induttiva o Statistica matematica.
5
L’insieme vuoto e Ω sono anche detti sottoinsiemi impropri di Ω, mentre tutti gli altri si chiamano
sottoinsiemi propri.
3
Operazioni insiemistiche. Ricordiamo la definizione di unione, intersezione e com-
plementazione.
A∪B = {ω ∈ Ω: ω appartiene ad almeno uno tra A e B},

A1 ∪ A2 ∪ · · · ∪ An = {ω ∈ Ω: ω appartiene ad almeno un insieme tra A1 , A2 , . . . , An },
A∩B = {ω ∈ Ω: ω appartiene sia ad A che a B},
A1 ∩ A2 ∩ · · · ∩ An = {ω ∈ Ω: ω appartiene a tutti gli insiemi A1 , A2 , . . . , An },
Ac = {ω ∈ Ω: ω non appartiene ad A}.
Ricordiamo inoltre che il simbolo B\A ha il seguente significato:
B\A = {ω ∈ B : ω non appartiene ad A}.
Quindi, in particolare, Ac = Ω\A. Ricordiamo infine le leggi di De Morgan:

• per due insiemi
(A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c ,
• per n insiemi
(A1 ∪A2 ∪· · ·∪An )c = Ac1 ∩Ac2 ∩· · ·∩Acn , (A1 ∩A2 ∩· · ·∩An )c = Ac1 ∪Ac2 ∪· · ·∪Acn .
Unioni e intersezioni infinite. Nel seguito considereremo anche unioni e intersezioni

di una famiglia numerabile di sottoinsiemi di Ω, che ora definiamo. Siano A1 , A2 , . . . , An , . . .
sottoinsiemi di Ω. Si dice che A1 , A2 , . . . , An , . . . costituiscono una famiglia numerabile o
successione di sottoinsiemi di Ω. Definiamo
∞
[
An = {ω ∈ Ω : ω ∈ An per almeno un n},
n=1
\∞
An = {ω ∈ Ω : ω ∈ An per ogni n}.
n=1
Le leggi di De Morgan valgono anche per unioni e intersezioni infinite:

[ ∞ c \∞ \ ∞ c [∞
c
An = An , An = Acn .
n=1 n=1 n=1 n=1
Esercizio 2.1. Per le seguenti successioni di insiemi, determinare ∪∞ ∞

n=1 An e ∩n=1 An .
1) An = {n}. Risposta: ∪∞ ∞
n=1 An = N e ∩n=1 An = ∅.
2) An = [0, 1/n]. Risposta: ∪∞ ∞

n=1 An = [0, 1] e ∩n=1 An = {0}.
Cardinalità. Indicheremo con |Ω| oppure #Ω la cardinalità di un qualunque insieme

Ω, ovvero il numero dei suoi elementi.
4
Esercizio 2.2. Siano A1 , A2 , . . . , An , . . . tutti uguali all’insieme vuoto. Mostrare che tali
insiemi sono tra loro disgiuntia e la loro unione è uguale all’insieme vuoto.
a
Ai ∩ Aj = ∅, per ogni i 6= j.
Esercizio 2.3. Si determini P(Ω) e se ne calcoli la cardinalità nei seguenti casi:
1) Ω = {a}. Risposta: P(Ω) = {∅, {a}} e |P(Ω)| = 2.
2) Ω = {a, b}. Risposta: P(Ω) = {∅, {a}, {b}, {a, b}} e |P(Ω)| = 4.
3) Ω = {a, b, c}. Risposta: P(Ω) = {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}} e |P(Ω)| = 8.
Sulla base di quanto ottenuto nei tre casi appena studiati, qual è la cardinalità di P(Ω)
quando Ω ha n elementi? Risposta: |P(Ω)| = 2n .
3 Modello matematico di un esperimento aleatorio

3.1 Esperimento aleatorio
Iniziamo con l’introdurre alcuni concetti fondamentali 6 .
Un esperimento aleatorio (detto anche fenomeno aleatorio o situazione

d’incertezza) è un esperimento di cui non conosciamo con certezza il risultato.
Un esito (o evento elementare) è un ipotetico risultato dell’esperimento aleatorio.
Esempi classici di esperimenti aleatori sono i seguenti:
• lancio di una moneta, i cui esiti sono generalmente indicati con “testa” e “croce”;
• lancio di un dado, i cui esiti sono generalmente indicati con i numeri naturali da 1
a 6.
Definizione 3.1. Un evento è un’ affermazione riguardante l’ipotetico risultato dell’e-

sperimento aleatorio, di cui è possibile dire con certezza se è vera oppure falsa una volta
noto l’esito dell’esperimento aleatorio.
Gli esiti per cui un evento è vero si chiamano casi favorevoli (per l’evento in questione).
Un evento viene solitamente indicato con una lettera maiuscola dell’alfabeto. Spesso si
utilizzano le prime lettere dell’alfabeto: A, B, C, . . .
6
Le definizioni di esperimento aleatorio ed esito qui riportate, come anche quella di probabilità a cui
abbiamo precedentemente accennato, non sono vere e proprie definizioni matematiche. Tali concetti sono,
più precisamente, enti primitivi (come punto, retta, piano in geometria). Possono quindi essere definiti
solo intuitivamente e a partire da essi vengono formulate tutte le altre (vere) definizioni.
5
Esempio 3.1. Si lancia un dado. L’affermazione
A = “esce un numero pari”
è un evento.
3.2 Modello matematico di un esperimento aleatorio

Il modello matematico di un esperimento aleatorio è una descrizione sintetica dell’esperi-
mento stesso che fa uso della teoria degli insiemi.
Spazio campionario ed eventi. Diamo le seguenti definizioni.
Definizione 3.2. Si chiama spazio campionario un insieme i cui elementi rap-

presentano (secondo un opportuno codice) tutti gli ipotetici risultati dell’esperimento
aleatorio.
Lo spazio campionario si indica generalmente con la lettera greca maiuscola omega: Ω.
Un generico elemento di Ω verrà chiamato esito e sarà indicato con la lettera greca
minuscola omega: ω.
Definizione 3.3. Ogni evento, inteso come affermazione, è rappresentato dal sottoin-
sieme di Ω costituito dai casi favorevoli, ovvero dagli esiti per cui l’evento è vero (è
rappresentato dall’insieme vuoto ∅ se è sempre falso).
Un qualunque sottoinsieme di Ω lo chiameremo ancora evento.
Osservazione. Il termine “evento” lo useremo dunque indistintamente per indicare sia

l’ affermazione che il sottoinsieme. Per tale ragione, nel seguito indicheremo entram-
bi con lo stesso simbolo (tipicamente una lettera maiuscola dell’alfabeto), come acca-
de nell’esempio seguente in cui la lettera maiuscola A indica sia l’affermazione che il
sottoinsieme.
Esempio 3.2. Si lancia un dado. Consideriamo l’evento
A = “esce un numero pari”.
Uno spazio campionario naturale per questo esperimento aleatorio è l’insieme
Ω = {1, 2, 3, 4, 5, 6}.
Dunque l’evento A è rappresentato dal sottoinsieme
A = {2, 4, 6}.
Alcuni eventi hanno nomi specifici.
6
• L’evento certo è un’affermazione che è sempre vera, qualunque sia l’esito dell’e-
sperimento aleatorio. Essa è rappresentata dall’insieme Ω stesso. Per tale ragione
si dice che l’insieme Ω è l’evento certo.
• L’evento impossibile è un’affermazione che è sempre falsa, qualunque sia l’esito
dell’esperimento aleatorio. Essa è rappresentata dall’insieme vuoto ∅. Per tale
ragione si dice che l’insieme ∅ è l’evento impossibile.
• Un evento elementare è un’affermazione che è vera per un solo esito, quindi
è rappresentata da un sottoinsieme di Ω che contiene un solo elemento. Per tale
ragione tutti i sottoinsiemi di Ω che contengono un solo elemento sono chiamati
eventi elementari.
Esempio 3.3. Si lancia un dado. Consideriamo gli eventi:
A = “esce un numero naturale compreso tra 1 e 6”,

B = “esce un numero maggiore o uguale a 7”,
C = “esce il numero 2”,
A è un evento certo, B è un evento impossibile, C è un evento elementare.

Se si considera lo spazio campionario
Ω = {1, 2, 3, 4, 5, 6},
gli eventi A, B e C sono rappresentati dai seguenti sottoinsiemi:
A = Ω, B = ∅, C = {2}.
Operazioni tra eventi. Come abbiamo visto gli eventi sono descritti sia da affer-
mazioni che da insiemi. Sulle affermazioni possiamo eseguire certe operazioni tramite
i connettivi logici, che corrispondono ad opportune operazioni/relazioni 7 insiemistiche,
come riportato nella tabella seguente:
Connettivi logici Operazioni/Relazioni insiemistiche

Disgiunzione Unione
AoB A∪B
Congiunzione Intersezione
AeB A∩B
Negazione Complementazione
non A Ac
Implicazione Inclusione
A =⇒ B A⊂B
Doppia implicazione Uguaglianza
A ⇐⇒ B A=B
7
“ ⊂ ” e “ = ” sono relazioni (anziché operazioni) insiemistiche.
7
Esercizio 3.1. A cosa corrisponde “A ma non B”?
Assiomi della probabilità. L’ultimo elemento del modello matematico di un esperi-

mento aleatorio è la probabilità e, in particolare, gli assiomi8 che essa verifica.
Assioma I. A ciascun sottoinsieme (o evento) A di Ω è assegnato un numero P(A) che

verifica:
0 ≤ P(A) ≤ 1.
Tale numero P(A) si chiama probabilità dell’evento A.
Assioma II. P(Ω) = 1.
Assioma III. Vale la proprietà di additività numerabilea : sia A1 , A2 , . . . , An , . . . una
successione di sottoinsiemi di Ω tra loro disgiuntib e sia
∞
[
A = An .
n=1
Allora ∞
X
P(A) = P(An ).
n=1
a
Anche detta σ-additività.
b
In formule: Ai ∩ Aj = ∅, per ogni i 6= j. In altri termini, non hanno elementi in comune.
Osservazione. La probabilità P è dunque una funzione che ad ogni sottoinsieme A di Ω

fa corrispondere un numero in [0, 1]:
A ∈ P(Ω) 7→ P(A) ∈ [0, 1],
dove P(Ω) è l’insieme delle parti di Ω e rappresenta il dominio9 della funzione P, mentre
il codominio è l’intervallo [0, 1]. In simboli:
P : P(Ω) −→ [0, 1].
Definizione 3.4. La coppia (Ω, P) si dice spazio di probabilità o modello

matematico dell’esperimento aleatorio.
8
Tali assiomi sono stati formulati dal matematico sovietico Kolmogorov nel 1933.
9
Quando Ω ha cardinalità non numerabile, come accade nel caso in cui Ω = R, risulta necessario
definire la probabilità P su un dominio più piccolo, ossia su una famiglia F di sottoinsiemi di R tale che
F è strettamente contenuta in P(R) e, in particolare, non contiene certi sottoinsiemi “anomali” di R
(come ad esempio l’insieme di Vitali). Per semplicità, supporremo che P possa sempre essere definita su
tutto P(Ω).
8
Esempio 3.4. Siano Ω = R e x0 un numero reale fissato. Si consideri la funzione
δx0 : P(R) −→ [0, 1]
data da (
1, se x0 ∈ A,
δx0 (A) = ∀ A ⊂ R.
0, se x0 ∈
/ A,
δx0 si chiama delta di Dirac in x0 . Si verifica che δx0 soddisfa gli Assiomi I-II-III,
quindi δx0 è una probabilità e (R, δx0 ) è uno spazio di probabilità.
Esempio 3.5. Siano Ω = R, x1 , . . . , xn e p1 , . . . , pn numeri reali, con

n
X
0 ≤ pi ≤ 1, pi = 1. (3.1)
i=1
Si consideri la funzione
P : P(R) −→ [0, 1]
data da n
X
P(A) = pi δxi (A), ∀ A ⊂ R.
i=1
P è dunque una combinazione linearea di delta di Dirac. Si verifica che P soddisfa gli
Assiomi I-II-III, quindi P è una probabilità e (R, P) è uno spazio di probabilità.
a
Si tratta in particolare di una combinazione convessa, ovvero di una combinazione lineare con
coefficienti che verificano (3.1).
9
4 Conseguenze degli assiomi
Teorema 4.1. Sia (Ω, P) uno spazio di probabilità. Le seguenti proprietà della probabilità
P discendono dagli Assiomi I-II-III:
IV) P(∅) = 0.
V) Additività finita: se A e B sono disgiunti allora
P(A ∪ B) = P(A) + P(B).
Più in generale, se A1 , . . . , An sono tra loro disgiunti allora

n
X
P(A1 ∪ · · · ∪ An ) = P(Ai ).
i=1
VI) P(Ac ) = 1 − P(A).
VII) Monotonia: se A ⊂ B, allora P(A) ≤ P(B).
Dimostrazione.
IV) Sappiamo dall’Assioma I che P(∅) è un numero che verifica 0 ≤ P(∅) ≤ 1. Per
semplificare la notazione, poniamo p := P(∅). Dobbiamo mostrare che p = 0.
A tale scopo utilizziamo l’additività numerabile (Assioma III) prendendo come
successione A1 , A2 , . . . , An , . . . gli insiemi
A1 = ∅, A2 = ∅, ··· An = ∅, ···
Tali insiemi sono evidentemente disgiunti tra loro (cioè non hanno elementi in co-
mune; questo è evidente dato che sono tutti uguali all’insieme vuoto, quindi ciascun
insieme non contiene alcun elemento). Inoltre, posto
∞
[
A = An
n=1
si ha che A = ∅. Segue allora dall’additività numerabile (Assioma III)

+∞
X
P(A) = P(An ),
n=1
ovvero (ricordando che p = P(∅) = P(A) = P(An ))

+∞
X
p = p.
n=1
10
Questa è un’equazione nell’incognita p, che è verificata solo per p = 0. Infatti il
primo termine è uguale a p (quindi è uguale a zero se p = 0), mentre il secondo è
dato da 
+∞
X 0, se p = 0,
p =
n=1
+∞, se 0 < p ≤ 1.
V) Dimostriamo il caso con due insiemi A e B (il caso con n insiemi si dimostra in
modo analogo). Utilizziamo l’additività numerabile (Assioma III) prendendo come
successione A1 , A2 , . . . , An , . . . gli insiemi
A1 = A, A2 = B, An = ∅, per ogni n ≥ 3.
Tali insiemi sono tra loro disgiunti, inoltre

∞
[
A∪B = An .
n=1
Segue allora dall’additività numerabile (Assioma III) e dal fatto che P(An ) = 0
quando n ≥ 3
∞
X
P(A ∪ B) = P(An ) = P(A) + P(B).
↑
n=1 P(An )=0, n≥3
VI) Utilizziamo l’additività finita dimostrata al punto precedente prendendo gli insiemi
A e Ac .
Si noti che A e Ac sono disgiunti. Inoltre
Ω = A ∪ Ac .
Per l’additività finita abbiamo che
P(Ω) = P(A) + P(Ac ).
Per l’Assioma II si ha che P(Ω) = 1. Quindi
P(Ac ) = 1 − P(A).
VII) Se A ⊂ B allora esiste C tale che B = A ∪ C e A ∩ C = ∅. Quindi, per l’additività

finita,
P(B) = P(A ∪ C) = P(A) + P(C) ≥ P(A).
↑
P(C)≥0
11
Esercizio 4.1. Lanciamo un dado perfettamente bilanciatoa a sei facce.
Qual è la probabilità che esca un numero maggiore o uguale a 3?
a
equilibrato, regolare, non truccato, . . ., oppure, equivalentemente, se il testo non dice nulla è
sottinteso che sia perfettamente bilanciato (ciò è una conseguenza del cosiddetto “principio di ragione
non sufficiente” di Laplace: se non si ha alcuna informazione a riguardo, si suppone che tutti i risultati
dell’esperimento siano tra loro equiprobabibili, dato che, non avendo alcuna informazione più precisa,
non c’è alcuna ragione per cui uno debba essere più probabile degli altri).
Soluzione. Nel testo dell’esercizio si fa riferimento all’evento
A = “esce un numero maggiore o uguale a 3”.
Per risolvere l’esercizio dobbiamo innanzitutto trovare uno spazio campionario per l’espe-
rimento aleatorio in questione. In tal caso, è naturale scegliere come spazio campionario
l’insieme
Ω = {1, 2, 3, 4, 5, 6}.
Dunque l’evento A è rappresentato dal sottoinsieme
A = {3, 4, 5, 6}.
Resta da determinare P(A). Dal testo dell’esercizio sappiamo che il dado è perfettamente
bilanciato, ovvero che gli eventi elementari
{1}, {2}, {3}, {4}, {5}, {6}
sono equiprobabili :
P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}). (4.1)
Dato che gli eventi {1}, . . . , {6} sono tra loro disgiunti e la loro unione è pari a
Ω = {1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6},
utilizzando l’additività finita e la proprietà P(Ω) = 1 (Assioma II), otteniamo
P({1}) + P({2}) + P({3}) + P({4}) + P({5}) + P({6}) = 1.
Quest’ultima equazione, insieme alle cinque equazioni (4.1), fornisce un sistema di sei
equazioni in sei incognite:


 P({1}) = P({2}),

P({2}) = P({3}),





P({3}) = P({4}),


 P({4}) = P({5}),



 P({5}) = P({6}),

P({1}) + P({2}) + P({3}) + P({4}) + P({5}) + P({6}) = 1.

12
Tale sistema si risolve facilmente, ponendo x = P({1}) = · · · = P({6}) e sostituendo
nell’ultima equazione, che diventa 6 x = 1. Si conclude che l’unica soluzione del sistema
è data da
1
P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) = .
6
Ricordando che A = {3, 4, 5, 6}, dall’additività finita si ottiene
4
P(A) = P({3}) + P({4}) + P({5}) + P({6}) = .
6

Nell’esercizio appena svolto, dato un qualunque evento A vale la formula
no di eventi elementari che compongono A casi favorevoli
P(A) = = .
6 casi possibili
Questa proprietà vale ogni volta che l’esperimento aleatorio può essere descritto da uno
spazio campionario Ω finito con esiti equiprobabili , come affermato nel seguente Teo-
rema.
Teorema 4.2. Consideriamo un esperimento aleatorio descritto da uno spazio

campionario finito:
Ω = {ω1 , . . . , ωN }
con esiti equiprobabili:
P({ω1 }) = P({ω2 }) = · · · = P({ωN }).
In tal caso diciamo che P è la probabilità uniforme e valgono le seguenti proprietà:
1) dato un qualunque evento elementare {ωi }, vale che

1
P({ωi }) = ;
N
2) dato un qualunque evento A, vale la formula di Laplace

P(A) = = .
N casi possibili
Dimostrazione. Si ragiona come nell’Esercizio 4.1. Più precisamente, sappiamo che

P({ω1 }) = P({ω2 }) = · · · = P({ωN }). (4.2)
Dato che gli eventi {ω1 }, . . . , {ωN } sono tra loro disgiunti e la loro unione è pari a
Ω = {ω1 } ∪ {ω2 } ∪ · · · ∪ {ωN },
utilizzando l’additività finita e la proprietà P(Ω) = 1 (Assioma II), otteniamo
P({ω1 }) + P({ω2 }) + · · · + P({ωN }) = 1.
13
Quest’ultima equazione, insieme alle N − 1 equazioni (4.2), fornisce un sistema di N
equazioni in N incognite:


 P({ω1 }) = P({ω2 }),

P({ω2 }) = P({ω3 }),



P({ω3 }) = P({ω4 }),

 .
..,



P({ω1 }) + P({ω2 }) + · · · + P({ωN }) = 1.

Tale sistema ammette un’unica soluzione data da

1
P({ω1 }) = P({ω2 }) = · · · = P({ωN }) = .
N
Quindi la proprietà 1) enunciata nel Teorema vale. Infine, per quanto riguarda la proprietà
2), essa segue direttamente dall’additività finita.
Nell’ambito degli spazi di probabilità con spazio campionario finito, il caso di esiti equi-
probabili è estremamente particolare. Tuttavia, se guardiamo ai libri di testo di Calcolo
delle probabilità, la stragrande maggioranza degli esercizi ha esiti equiprobabili. Questo
perché, se gli esiti non sono equiprobabili, il testo dell’esercizio deve in aggiunta specifi-
care esattamente in che modo non lo sono, dato che ci sono infinite10 possibilità. A tal
proposito, si veda l’esercizio seguente.
Esercizio 4.2. Si dispone di un dado non bilanciato a forma di tetraedro regolare con
le facce numerate da 1 a 4. Lanciando il dado, la probabilità che esca 1 è il doppio della
probabilità che esca 2, che a sua volta è il doppio della probabilità che esca 3, che a sua
volta è il doppio della probabilità che esca 4.
Se si lancia il dado, qual è la probabilità che esca un numero pari?
Soluzione. Nel testo dell’esercizio si fa riferimento all’evento
A = “esce un numero pari”.
In tal caso, è naturale scegliere come spazio campionario l’insieme
Ω = {1, 2, 3, 4},
dunque
A = {2, 4}.
Resta da determinare P(A). Dal testo dell’esercizio sappiamo che il dado non è bilanciato,
è più precisamente che
10
Infatti, se gli esiti sono equiprobabili, dal Teorema 4.2 sappiamo che necessariamente P({ω1 }) = · · · =
P({ωN }) = N1 . Se invece non sono equiprobabili, sappiamo solo (dagli Assiomi I e II) che
0 ≤ P({ωi }) ≤ 1, P({ω1 }) + · · · + P({ωN }) = 1. (4.3)
Possiamo dunque scegliere come vogliamo P({ω1 }), . . . , P({ωN }), purché i vincoli (4.3) siano verificati.
14
“. . . la probabilità che esca 1 è il doppio della probabilità che esca 2,
che a sua volta è il doppio della probabilità che esca 3,
che a sua volta è il doppio della probabilità che esca 4.”
Abbiamo dunque delle informazioni riguardo la probabilità degli eventi elementari
{1}, {2}, {3}, {4}.
Sappiamo infatti che
P({1}) = 2 P({2}), P({2}) = 2 P({3}), P({3}) = 2 P({4}). (4.4)
Dagli assiomi della probabilità, sappiamo inoltre che
P({1}) + P({2}) + P({3}) + P({4}) = 1.
Quest’ultima equazione, insieme alle tre equazioni (4.4), fornisce un sistema di quattro
equazioni in quattro incognite:


 P({1}) = 2 P({2}),

P({2}) = 2 P({3}),


 P({3}) = 2 P({4}),

P({1}) + P({2}) + P({3}) + P({4}) = 1.
Tale sistema si risolve facilmente, ponendo x = P({4}), da cui si ottiene P({3}) = 2 x,

P({2}) = 4 x e P({1}) = 8 x. Sostituendo nell’ultima equazione, si ottiene 15 x = 1. Si
conclude che l’unica soluzione del sistema è data da

8
P({1}) = 15 ,


P({2}) = 4 ,

15
P({3}) = 152 ,



P({4}) = 1 .
15
Ricordando che A = {2, 4}, dall’additività finita si ottiene

1
P(A) = P({2}) + P({4}) = .
3

Concludiamo questa sezione enunciando un’ultima proprietà della probabilità. Abbiamo

visto che se A e B sono eventi disgiunti, allora
P(A ∪ B) = P(A) + P(B).
Cosa possiamo dire se A e B non sono disgiunti ?
15
Teorema 4.3 (Formula dell’unione di due eventi ). Siano A e B due eventi
qualunque (non necessariamente disgiunti), allora
P(A ∪ B) = P(A) + P(B) − P(A ∩ B). (4.5)
Osservazione 1. Si noti che nel caso in cui A e B sono disgiunti, si ha che A ∩ B = ∅,

quindi P(A ∩ B) = 0. Applicando la formula (4.5) del Teorema 4.3 ritroviamo dunque la
formula dell’ additività finita
P(A ∪ B) = P(A) + P(B).
Osservazione 2. Per convincersi della validità della formula (4.5), basta osservare che
la somma P(A) + P(B) conta due volte l’intersezione, per tale ragione dobbiamo sottrarre
P(A ∩ B).
Dimostrazione. Consideriamo gli insiemi
C1 = A\B, C2 = B\A.
È facile convincersi (utilizzando ad esempio un diagramma di Eulero-Venn) che gli insiemi

C1 , C2 , A ∩ B sono disgiunti e la loro unione è A ∪ B. Quindi, dall’additività finita si ha
che
P(A ∪ B) = P(C1 ) + P(C2 ) + P(A ∩ B).
A secondo membro, aggiungiamo e sottraiamo la quantità P(A ∩ B), trovando
P(A ∪ B) = P(C1 ) + P(A ∩ B) + P(C2 ) + P(A ∩ B) − P(A ∩ B). (4.6)
Ora, notiamo che
P(A) = P(C1 ) + P(A ∩ B),

P(B) = P(C2 ) + P(A ∩ B).
Utilizzando queste ultime due uguaglianze in (4.6), otteniamo la formula (4.5).
Infine, è interessante osservare come la formula dell’unione divenga “ingombrante” quando

si passa alla probabilità dell’unione di tre o più eventi (non necessariamente disgiunti).
Ad esempio, nel caso di tre eventi, vale che
P(A ∪ B ∪ C) = P(A) + P(B) + P(C)

− P(A ∩ B) − P(A ∩ C) − P(B ∩ C)
+ P(A ∩ B ∩ C).
16
PROBABILITÀ CONDIZIONALE
E INDIPENDENZA
1 Probabilità condizionale
1.1 Definizione e proprietà
Consideriamo un evento A riguardante l’esito di un qualche esperimento aleatorio, e in-
dichiamo con P(A) la sua probabilità. Se veniamo a conoscenza del fatto che un altro
evento B si è verificato, come è sensato aggiornare il valore di P(A) per tenere conto di
questa nuova informazione?
Introduciamo un simbolo per indicare la probabilità dell’evento A sapendo che l’evento B
si è verificato:
P(A|B).
Chiameremo P(A|B) la probabilità condizionale (o condizionata) di A dato B. Quanto
vale P(A|B)? Prima di rispondere vediamo due esempi.
Esempio 1.1. Lanciamo un dado (a sei facce).

Qual è la probabilità che esca un numero maggiore o uguale a 3 sapendo che è uscito un
numero pari?
Soluzione. In primo luogo, introduciamo uno spazio di probabilità (Ω, P) che descriva
l’esperimento aleatorio: Ω = {1, 2, 3, 4, 5, 6} e P probabilità uniforme 1 .
Nel testo dell’esercizio si fa riferimento ai due eventi seguenti:
A = “esce un numero maggiore o uguale a 3”,

B = “esce un numero pari”.
Essi sono rappresentati dai seguenti sottoinsiemi di Ω:
A = {3, 4, 5, 6},
B = {2, 4, 6}.
La probabilità richiesta dall’esercizio è la probabilità condizionale di A dato B:
P(A|B).
Poiché non abbiamo ancora detto come si calcola tale probabilità, possiamo solo provare
a indovinare quanto dovrebbe valere: dato che si è verificato B, cioè è uscito un numero
pari, i “veri” casi possibili sono 2, 4, 6; dunque i “veri” casi favorevoli sono 4 e 6;
supponendo che sia lecito utilizzare la formula “veri” casi favorevoli/ “veri” casi possibili,
otteniamo
2
P(A|B) = .
3
1 1
Quindi P({1}) = · · · = P({6}) = 6 e vale la formula di Laplace:

P(A) = = .
6 casi possibili
2
In effetti questa è la risposta corretta, come si potrà verificare utilizzando la formula per
la probabilità condizionale.
Vediamo ora un secondo esempio in cui la probabilità non è uniforme.
Esempio 1.2. Lanciamo un dado truccato a quattro facce, per cui la probabilità che
esca 1 è il doppio della probabilità che esca 2, che a sua volta è il doppio della probabilità
che esca 3, che a sua volta è il doppio della probabilità che esca 4.
Qual è la probabilità che esca un numero maggiore o uguale a 3 sapendo che è uscito un
numero pari?
Soluzione. Abbiamo già studiato questo esperimento aleatorio e sappiamo che uno spazio
di probabilità (Ω, P) che lo descrive è Ω = {1, 2, 3, 4} e P tale che
8 4 2 1
P({1}) = , P({2}) = , P({3}) = , P({4}) = .
15 15 15 15
I due eventi
A = “esce un numero maggiore o uguale a 3”,

B = “esce un numero pari”,
sono rappresentati dai seguenti sottoinsiemi di Ω:
A = {3, 4},
B = {2, 4}.
Resta da trovare P(A|B). Come nell’esempio precedente, non avendo ancora a disposizione
la formula di P(A|B), possiamo solo provare a indovinare quanto dovrebbe valere. Il
ragionamento è lo stesso di prima: dato che si è verificato B, i “veri” casi possibili sono
2 e 4; dunque c’è un solo “vero” caso favorevole che è 4. Come seguirà dalla formula,
P(A|B) è pari al rapporto tra la probabilità dei “veri” casi favorevoli e la probabilità dei
“veri” casi possibili:
P({4}) 1
P(A|B) = = .
P({2}) + P({4}) 5

Definizione 1.1. Siano A e B due eventi cona P(B) > 0. La probabilità condizionale
di A dato B è
P(A ∩ B)
P(A|B) = .
P(B)
a
Si richiede che P(B) > 0 solo perché P(B) compare a denominatore.
Osservazione 1. Possiamo esprimere a parole la formula che definisce P(A|B) dicendo

che la probabilità condizionale di A dato da B è pari al rapporto tra la probabilità dei
3
“veri” casi favorevoli e la probabilità dei “veri” casi possibili:
probabilità dei “veri” casi favorevoli
P(A|B) = .
probabilità dei “veri” casi possibili
Nel caso in cui Ω sia finito e gli esiti siano equiprobabili, dunque P è uniforme, allora
P(A|B) è pari al rapporto tra i “veri” casi favorevoli e i “veri” casi possibili:
no dei “veri” casi favorevoli

P(A|B) = .
no dei “veri” casi possibili
Osservazione 2. In generale, non2 vale l’uguaglianza P(A|B) = P(B|A).

È interessante studiare due casi particolari.
• Se B = Ω, allora dalla definizione segue che
P(A ∩ Ω)
P(A|Ω) = = P(A).
P(Ω)
Questo è naturale, infatti se l’evento che sappiamo essersi verificato è Ω, non pos-
sediamo alcuna informazione aggiuntiva (i casi possibili non sono cambiati). Infatti
Ω è l’evento certo e sappiamo già che si verificherà sicuramente.
• Se scegliamo A = Ω (in altri termini, ci chiediamo quale sia la probabilità di Ω

sapendo che B si è verificato), allora P(Ω|B) è uguale a 1, infatti
P(Ω ∩ B) P(B)
P(Ω|B) = = = 1.
P(B) ↑ P(B)
Ω∩B=B
Più in generale, se B ⊂ A, si ottiene P(A|B) = 1. I due casi limite sono A = Ω (che

abbiamo appena visto) e A = B. Anche in quest’ultimo caso vale che P(B|B) = 1,
infatti
P(B ∩ B) P(B)
P(B|B) = = = 1.
P(B) P(B)
La probabilità condizionale è anch’essa una probabilità (la “vera” probabilità se sappiamo

che l’evento B si è verificato) definita per tutti i sottoinsiemi dello spazio campionario
Ω. Ciò significa innanzitutto che essa è una funzione che ha come dominio l’insieme delle
parti di Ω, ovvero P(Ω), e come codominio l’intervallo [0, 1]. In simboli:
P( · |B) : P(Ω) −→ [0, 1].
Inoltre, essa possiede tutte le proprietà di una probabilità, come affermato nel seguente
teorema.
2
Vedremo in seguito che relazione esiste tra P(A|B) e P(B|A) (formula di Bayes).
4
Teorema 1.1. Sia B un evento tale che P(B) > 0. Valgono le seguenti proprietà:
I) Per ciascun sottoinsieme (o evento) A di Ω, la probabilità condizionale verifica
0 ≤ P(A|B) ≤ 1.
II) P(Ω|B) = 1.
III) Vale la proprietà di additività numerabile (o σ-additività): sia

A1 , A2 , . . . , An , . . . una successione di sottoinsiemi di Ω tra loro disgiunti e
sia ∞
[
A = An .
n=1
Allora ∞
X
P(A|B) = P(An |B).
n=1
IV) P(∅|B) = 0.
V) Additività finita: se A1 e A2 sono disgiunti allora
P(A1 ∪ A2 |B) = P(A1 |B) + P(A2 |B).
Più in generale, se A1 , . . . , An sono tra loro disgiunti allora

n
X
P(A1 ∪ · · · ∪ An |B) = P(Ai |B).
i=1
VI) P(Ac |B) = 1 − P(A|B).
VII) Monotonia: se A1 ⊂ A2 , allora P(A1 |B) ≤ P(A2 |B).
Dimostrazione. Notiamo innanzitutto che è sufficiente dimostrare le proprietà I-II-III,

in quanto le altre proprietà si dimostrano a partire da I-II-III come è stato fatto nel caso
della probabilità P.
Per quanto riguarda I-II-III, riportiamo, a titolo di esempio, solo la dimostrazione
della proprietà I.
I) Dato che A ∩ B è un sottoinsieme di B, cioè A ∩ B ⊂ B, per la monotonia della
probabilità non condizionale P si ha che
P(A ∩ B) ≤ P(B).
Perciò
P(A ∩ B)
P(A|B) = ≤ 1.
P(B)
Inoltre P(A|B) ≥ 0. Quindi 0 ≤ P(A|B) ≤ 1.

5
1.2 Utilizzo della probabilità condizionale
Quando si studiano esperimenti aleatori reali, spesso molte probabilità condizionali sono
note. Analogamente, negli esercizi, la probabilità condizionale è spesso data dal testo
dell’esercizio (anche se non esplicitamente, come vedremo), mentre sarà nostro compito
determinare la probabilità dell’intersezione P(A∩B), che nella formula di P(A|B) compare
a numeratore:
P(A ∩ B)
P(A|B) = .
P(B)
In altri termini, spesso (anche se non sempre) utilizzeremo tale formula riscritta come
segue:
P(A ∩ B) = P(A|B) P(B), (1.1)
dove P(B) e P(A|B) saranno note, mentre P(A ∩ B) sarà l’incognita. Data l’importanza
della formula (1.1) (che chiameremo regola della catena), è utile riportarla come teorema.
Teorema 1.2. Siano A e B due eventi con P(B) > 0. Vale la regola della catena:
P(A ∩ B) = P(A|B) P(B).
Più in generale, dati n eventi A1 , A2 , . . . , An , con P(A1 ∩ · · · ∩ An−1 ) > 0, vale la regola
della catena:
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(An |A1 ∩ A2 ∩ · · · ∩ An−1 ) · · · P(A2 |A1 ) P(A1 ).
Osservazione. Nella regola della catena per n insiemi, la richiesta P(A1 ∩· · ·∩An−1 ) > 0
garantisce che tutte le probabilità condizionali che compaiono siano definite. Infatti, dato
che
A1 ∩ · · · ∩ An−1 ⊂ A1 ∩ · · · ∩ An−2 ⊂ · · · ⊂ A1 ,
dalla monotonia della probabilità segue che anche le probabilità P(A1 ∩· · ·∩An−2 ), . . . , P(A1 )
sono strettamente maggiori di zero.
Dimostrazione. La dimostrazione della regola della catena nel caso di due insiemi A
e B è riportata appena prima dell’enunciato del teorema e segue immediatamente dalla
definizione di P(A|B) (è infatti un modo di riscrivere la definizione di P(A|B)).
La regola della catena per n insiemi segue anch’essa dalla definizione di P(An |A1 ∩
A2 ∩ · · · ∩ An−1 ), . . ., P(A2 |A1 ), infatti
P(An |A1 ∩ A2 ∩ · · · ∩ An−1 ) P(An−1 |A1 ∩ A2 ∩ · · · ∩ An−2 ) · · · P(A2 |A1 ) P(A1 )

P(A1 ∩ A2 ∩ · · · ∩ An ) P(A1 ∩ A2 ∩ · · · ∩ An−1 ) P(A1 ∩ A2 )
= ··· P(A1 ).
P(A1 ∩ A2 ∩ · · · ∩ An−1 ) P(A1 ∩ A2 ∩ · · · ∩ An−2 ) P(A1 )
Elidendo i termini uguali tra loro, si ottiene P(A1 ∩ A2 ∩ · · · ∩ An ).
La regola della catena è particolarmente utile quando si studiano esperimenti aleatori

costituiti da più sotto-esperimenti aleatori, come accade nell’esercizio seguente.
6
Esercizio 1.1. Un’urna contiene tre palline bianche, due palline nere e una pallina rossa.
Si eseguono tre estrazioni senza reimmissione.
Qual è la probabilità di estrarre nell’ordine una bianca, una rossa e una nera?
Soluzione. Si noti che l’esperimento aleatorio è costituito da tre sotto-esperimenti alea-

tori che corrispondono alle tre estrazioni dall’urna. L’evento di cui dobbiamo calcolare la
probabilità è
A = “si estraggono nell’ordine una bianca, una rossa e una nera”.
Per risolvere questo esercizio non è necessario introdurre uno spazio campionario Ω, elen-
cando dunque tutti gli esiti dell’esperimento aleatorio. Esiste infatti un’altra via, più
semplice e veloce, per risolvere l’esercizio, la quale utilizza solo gli eventi e le proprietà
della probabilità (in particolare, la regola della catena). Vediamone i dettagli nel risolve-
re questo esercizio. Invece di elencare gli esiti dell’esperimento aleatorio, elenchiamo gli
eventi di cui conosciamo la probabilità (condizionale oppure non condizionale). Essi sono
in generale eventi che si riferiscono ai singoli sotto-esperimenti aleatori. Nell’esercizio in
questione, sono gli eventi che si riferiscono alle singole estrazioni:
Bi = “si estrae una pallina bianca alla i-esima estrazione”,

Ni = “si estrae una pallina nera alla i-esima estrazione”,
Ri = “si estrae una pallina rossa alla i-esima estrazione”,
con i = 1, 2, 3. Dato che il testo dell’esercizio non dice nulla a riguardo, si suppone
che le palline all’interno dell’urna abbiano tutte la stessa probabilità di essere estratte.
Dunque, nota la composizione dell’urna, vale l’equiprobabilità, ovvero vale la formula casi
favorevoli /casi possibili. Ad esempio
3 1
P(B1 ) = =
↑
6 2
è l’urna iniziale
oppure
2
P(B2 |B1 ) =
↑
5
nell’urna ci sono
2 b, 2 n e 1 r
oppure
1
P(B3 |B1 ∩ B2 ) = .
↑
4
nell’urna ci sono
1 b, 2 n e 1 r
Queste tre probabilità sono date (anche se non esplicitamente) dal testo dell’esercizio,
infatti seguono dalla sola ipotesi secondo cui ad ogni estrazione le palline hanno tutte
7
la stessa probabilità di essere estratte3 . In conclusione, le seguenti probabilità sono note
(non sono riportate tutte quelle relative agli eventi B3 , N3 , R3 ):
3 1
P(B1 ) = = ,
6 2
2 1
P(N1 ) = = ,
6 3
1
P(R1 ) = ,
6
2
P(B2 |B1 ) = ,
5
3
P(B2 |N1 ) = ,
5
3
P(B2 |R1 ) = ,
5
2
P(N2 |B1 ) = ,
5
1
P(N2 |N1 ) = ,
5
2
P(N2 |R1 ) = ,
5
1
P(R2 |B1 ) = ,
5
1
P(R2 |N1 ) = ,
5
P(R2 |R1 ) = 0,
1
P(B3 |B1 ∩ B2 ) = ,
4
2 1
P(B3 |B1 ∩ N2 ) = = ,
4 2
2 1
P(B3 |B1 ∩ R2 ) = = ,
4 2
e cosı̀ via . . .
L’evento A di cui è richiesta la probabilità può essere espresso in termini degli eventi che
abbiamo introdotto come segue:
A = B1 ∩ R2 ∩ N3 .
Dunque, per la regola della catena,
2 1 3 1
P(A) = P(N3 |B1 ∩ R2 ) P(R2 |B1 ) P(B1 ) = · · = .
4 5 6 20
↑ ↑ ↑
nell’urna ci sono nell’urna ci sono è l’urna iniziale
2 b, 2 n e 0 r 2 b, 2 n e 1 r
3
Come abbiamo detto, l’ipotesi secondo cui le palline hanno tutte la stessa probabilità di essere estratte
è assunta seppur tacitamente. Se infatti non fosse assunta, il testo dell’esercizio dovrebbe segnalarlo e
dovrebbe spiegare come cambiano le probabilità (come accade nell’esercizio riguardante il dado truccato).
8
Nello studio di un esperimento aleatorio costituito da più sotto-esperimenti aleatori, in cui
come abbiamo visto nel precedente esercizio sono note alcune probabilità condizionali e
altre non condizionali, è utile servirsi del diagramma ad albero. Ad esempio, il diagramma
ad albero relativo all’Esercizio 1.1 è il seguente:
1
P(B3 |B1 ∩ B2 ) = 4
B3
1
P(N3 |B1 ∩ B2 ) = 2
B2 N3
2
P(B2 |B1 ) = 5
1
P(R3 |B1 ∩ B2 ) = 4 R3
1
P(B3 |B1 ∩ N2 ) = 2
B3
2
P(N2 |B1 ) = 5 P(N3 |B1 ∩ N2 ) = 1
4
B1 N2 N3
1
P(R3 |B1 ∩ N2 ) = 4 R3
1
P(B3 |B1 ∩ R2 ) = 2
B3
1
P(R2 |B1 ) = 5
1
P(N3 |B1 ∩ R2 ) = 2
R2 N3
1
P(B1 ) = 2 P(R3 |B1 ∩ R2 ) = 0 R3
1
P(B3 |N1 ∩ B2 ) = 2
B3
1
P(N3 |N1 ∩ B2 ) = 4
B2 N3
3
P(B2 |N1 ) = 5
1
P(R3 |N1 ∩ B2 ) = 4 R3
3
P(B3 |N1 ∩ N2 ) = 4
B3
1
P(N2 |N1 ) = 5 P(N3 |N1 ∩ N2 ) = 0
Ω N1 N2 N3
1
P(N1 ) = 3
1
P(R3 |N1 ∩ N2 ) = 4 R3
3
P(B3 |N1 ∩ R2 ) = 4
B3
1
P(R2 |N1 ) = 5
1
P(N3 |N1 ∩ R2 ) = 4
R2 N3
P(R3 |N1 ∩ R2 ) = 0 R3
1
P(R1 ) = 6
1
P(B3 |R1 ∩ B2 ) = 2
B3
1
P(N3 |R1 ∩ B2 ) = 2
P(B2 |R1 ) = 3 B2 N3
5
P(R3 |R1 ∩ N2 ) = 0 R3
R1 3
P(B3 |R1 ∩ N2 ) = 4
B3
1
P(N2 |R1 ) = 2 P(N3 |R1 ∩ N2 ) = 4
5 N2 N3
P(R3 |R1 ∩ N2 ) = 0 R3
Le caratteristiche di un diagramma ad albero sono le seguenti:
• ogni nodo corrisponde ad un evento4 (il primo nodo, la radice, corrisponde sempre
all’evento certo Ω);
• ogni ramo corrisponde ad una probabilità: nella prima ramificazione ci sono pro-
babilità non condizionali; dalla seconda ramificazione in poi ci sono probabilità
condizionali;
4
Tipicamente, la prima ramificazione descrive il primo sotto-esperimento aleatorio, la seconda il
secondo sotto-esperimento aleatorio e cosı̀ via.
9
• i rami che escono da un medesimo nodo conducono ad eventi tra loro disgiunti la
cui unione è Ω; per tale ragione, le probabilità dei rami che escono da un medesimo
nodo sommano a uno;
• scelto un cammino che collega la radice ad un evento, ad esempio Ω → R1 → B2 →

N3 , moltiplicando le probabilità lungo i rami del cammino, cioè
P(N3 |R1 ∩ B2 ) P(B2 |R1 ) P(R1 ),
sappiamo dalla regola della catena che si ottiene la probabilità dell’intersezione degli
eventi, infatti
P(R1 ∩ B2 ∩ N3 ) = P(N3 |R1 ∩ B2 ) P(B2 |R1 ) P(R1 ).
La probabilità P(R1 ∩ B2 ∩ N3 ) si chiama probabilità del cammino Ω → R1 → B2 →

N3 .
La terza proprietà di un diagramma ad albero riportata qui sopra, ovvero che i rami che
escono da un medesimo nodo conducono ad eventi tra loro disgiunti la cui unione è Ω,
può essere abbreviata dicendo che i rami che escono da un medesimo nodo conducono ad
una partizione di Ω. La definizione di partizione di Ω è la seguente.
Definizione 1.2. Si dice che n eventi (o sottoinsiemi) B1 , . . . , Bn di Ω sono una

partizione (anche detta schema di alternative) di Ω se:
1) gli insiemi B1 , . . . , Bn sono tra loro disgiunti;
2) l’unione degli insiemi B1 , . . . , Bn è Ω:

n
[
Ω = Bn .
i=1
3) per ogni i = 1, . . . , n si ha chea P(Bi ) > 0.

a
La richiesta P(Bi ) > 0 serve solo affinché la probabilità condizionale “dato Bi ” sia definita e, per tale
ragione, in alcuni testi è omessa.
Osservazione. Se una partizione è costituita solamente da due insiemi B1 e B2 , allora

B1 e B2 sono necessariamente uno il complementare dell’altro.
Esercizio 1.2. Ci sono due urne: la prima contiene due palline rosse e una bianca; la
seconda contiene tre palline rosse e due bianche. Si lancia una moneta: se esce testa si
estrae una pallina dalla prima urna, se esce croce si estrae una pallina dalla seconda urna.
Qual è la probabilità che l’esito del lancio della moneta sia testa e la pallina estratta sia
bianca?
10
Soluzione. L’esperimento aleatorio è costituito da due sotto-esperimenti aleatori: il
lancio della moneta seguito dall’estrazione dall’urna che è stata scelta. L’evento di cui
dobbiamo calcolare la probabilità è
A = “l’esito del lancio della moneta è testa e la pallina estratta è bianca”.
Elenchiamo gli eventi riguardanti i due sotto-esperimenti aleatori:
T = “l’esito del lancio della moneta è testa”,
C = “l’esito del lancio della moneta è croce” = T c ,
B = “la pallina estratta è bianca”,
R = “la pallina estratta è rossa” = B c .
Si noti che per ogni sotto-esperimento aleatorio abbiamo considerato una partizione 5 o
schema di alternative. Infatti, gli insiemi T e C sono una partizione di Ω, come anche gli
insiemi B ed R. Le probabilità note sono le seguenti:
1
P(T ) = ,
2
1
P(C) = ,
2
1
P(B|T ) = ,
↑
3
1a urna
2
P(R|T ) = ,
↑
3
1a urna
3
P(B|C) = ,
↑
5
2a urna
2
P(R|C) = ,
↑
5
2a urna
Il diagramma ad albero associato all’esperimento aleatorio è dunque il seguente:

2
P(R|T ) = 3 R
1
P(T ) = 2 T
P(B|T ) = 1 B
3
Ω 3
P(R|C) = 5 R
1 C
P(C) = 2
P(B|C) = 2 B
5
5
Se non fosse cosı̀ per qualche sotto-esperimento aleatorio, vorrebbe dire che gli eventi considerati non
tengono conto di tutti i possibili risultati del sotto-esperimento in questione.
11
L’evento A di cui è richiesta la probabilità può essere espresso in termini degli eventi che
abbiamo introdotto come segue:
A = T ∩ B.
Quindi, per la regola della catena,
1 1 1
P(A) = P(B|T ) P(T ) = · = .
3 2 6

2 Eventi indipendenti
La probabilità condizionale P(A|B) rappresenta la probabilità dell’evento A sapendo che
l’evento B si è verificato. Può succedere che l’informazione che l’evento B si è verificato
non alteri la probabilità di A, cioè P(A|B) = P(A)? Quando questo accade, diremo che A
e B sono eventi “indipendenti”, nel senso che verificano quanto affermato nella definizione
seguente (si noti che nella Definizione 2.1 non compare la probabilità condizionale; questo
punto sarà chiarito dal Teorema 2.1).
Definizione 2.1. Due eventi A e B si dicono indipendenti se
P(A ∩ B) = P(A) P(B). (2.1)
Notazione. Se A e B sono eventi indipendenti scriviamo
A B.
|=
Si noti che la proprietà di essere indipendenti è simmetrica, ovvero se il fatto di sapere

che un evento si è verificato “non influenza” la probabilità di un altro evento, vale anche
il viceversa, come enunciato nel teorema seguente.
Teorema 2.1.
1) Se P(B) > 0 allora
A B ⇐⇒ P(A|B) = P(A).
|=
2) Se P(A) > 0 allora
A B ⇐⇒ P(B|A) = P(B).
|=
Osservazione. In altri termini, se P(A) > 0 e P(B) > 0, le tre uguaglianze seguenti
sono equivalenti:
P(A ∩ B) = P(A) P(B), P(A|B) = P(A), P(B|A) = P(B).
12
Viene adottata come definizione di indipendenza la (2.1) in quanto è simmetrica rispetto
ad A e B, inoltre non necessita di assunzioni su P(A) o P(B).
Dimostrazione (del Teorema 2.1). Dimostriamo solo l’affermazione 1), dato che la 2)
si dimostra allo stesso modo.
La 1) è una conseguenza della seguente catene di equivalenze:
P(A ∩ B) P(A) P(B)

A B ⇐⇒ P(A ∩ B) = P(A) P(B) ⇐⇒ =
|=
P(B) P(B)
⇐⇒ P(A|B) = P(A).

Osservazione. La nozione di indipendenza non è da confondersi con quella di insie-
mi disgiunti. Due eventi A e B sono contemporaneamente disgiunti e indipendenti solo
quando P(A) = 0 oppure P(B) = 0. Infatti
0 = P(∅) = P(A ∩ B) = P(A) P(B).

↑ ↑
A e B disgiunti A e B indip.
L’uguaglianza P(A) P(B) = 0 è verificata solo quando P(A) = 0 oppure P(B) = 0.
Teorema 2.2. Siano A e B due eventi indipendenti. Allora anche Ac e B, oppure A e

B c , oppure Ac e B c sono coppie di eventi indipendenti.
Dimostrazione. Dimostriamo ad esempio che Ac , B è una coppia di eventi indipendenti.

Dobbiamo mostrare che vale l’uguaglianza seguente:
P(Ac ∩ B) = P(Ac ) P(B).
Dato che
B = Ω ∩ B = (A ∪ Ac ) ∩ B = (A ∩ B) ∪ (Ac ∩ B)
e gli eventi A ∩ B e Ac ∩ B sono disgiunti, per l’additività finita abbiamo che
P(B) = P(A ∩ B) + P(Ac ∩ B) = P(A) P(B) + P(Ac ∩ B).

↑
A e B indip.
Quindi
P(Ac ∩ B) = P(B) − P(A) P(B) = (1 − P(A)) P(B) = P(Ac ) P(B).
La seguente definizione generalizza la nozione di indipendenza ad una famiglia di tre o

più eventi.
13
Definizione 2.2. Tre eventi A, B, C si dicono indipendenti se valgono
simultaneamente le quattro uguaglianze seguenti:
P(A ∩ B) = P(A) P(B),

P(A ∩ C) = P(A) P(C),
P(B ∩ C) = P(B) P(C),
P(A ∩ B ∩ C) = P(A) P(B) P(C).
Più in generale, n eventi A1 , A2 , . . . , An si dicono indipendenti se valgono

simultaneamente le uguaglianze seguenti:
P(Ai1 ∩ · · · ∩ Aik ) = P(Ai1 ) · · · P(Aik ),
per ogni k = 2, . . . , n e per ogni scelta di indici i1 , . . . , ik , tutti distinti tra loro e compresi
tra 1 e n.
Concludiamo questa sezione con alcuni esercizi.
Esercizio 2.1. Si lancia un dado regolare a sei facce. Siano
A = “esce un numero maggiore di 4”,

B = “esce un numero pari”.
Quanto valgono P(A) e P(A|B)?
Soluzione. Consideriamo (Ω, P) con Ω = {1, 2, 3, 4, 5, 6} e P probabilità uniforme. Allora
A = {5, 6},
B = {2, 4, 6}.
Quindi
1
P(A) = ,
3
P(A ∩ B) P({6}) 1
P(A|B) = = = .
P(B) P(B) 3
Perciò P(A) = P(A|B), quindi A e B sono indipendenti.

Osservazione. Detto in modo poco preciso, due eventi sono indipendenti se e solo se
“si intersecano nelle giuste proporzioni”. Come abbiamo appena visto nell’Esercizio 2.1,
questo può accadere anche per eventi riferiti allo stesso sotto-esperimento aleatorio.
Un’altra situazione particolarmente importante in cui ci possono essere eventi indipen-
denti si verifica quando tali eventi riguardano sotto-esperimenti aleatori distinti che “non
si influenzano tra loro” (come avviene nell’esempio che segue). Si noti che il testo dell’e-
sercizio generalmente non dice in maniera esplicita che l’indipendenza vale; tuttavia, se
14
non valesse, dovrebbe spiegare in che modo i sotto-esperimenti aleatori si influenzano tra
loro (come accade ad esempio negli Esercizi 1.1 e 1.2).
Esercizio 2.2. Lanciamoa una moneta e un dado a quattro facce, entrambi non truccati.
Determinare uno spazio di probabilità che descriva l’esperimento aleatorio.
a
Dato che i due sotto-esperimenti aleatori “non si influenzano tra loro”, non ha alcuna importanza
quale si effettua per primo (possono anche svolgersi contemporaneamente).
Soluzione. Uno spazio campionario naturale è il seguente:
Ω = {t, c} × {1, 2, 3, 4}

= (t, 1), (t, 2), (t, 3), (t, 4), (c, 1), (c, 2), (c, 3), (c, 4) .
Resta da determinare P, che significa assegnare la probabilità di tutti gli eventi elementari
P({(t, 1)}), P({(t, 2)}), . . . , P({(c, 4)}). Intuitivamente è naturale aspettarsi che gli eventi
elementari (che sono otto) siano equiprobabili:
1
P({(t, 1)}) = P({(t, 2)}) = · · · = P({(c, 4)}) = . (2.2)
8
Ciò significa che P è la probabilità uniforme, quindi vale la formula casi favorevoli /casi
possibili:
no di eventi elementari che compongono A
P(A) = ,
8
per ogni sottoinsieme A di Ω.
Dimostriamo dunque la validità di (2.2). Ciò che sappiamo è solamente che dado e moneta
non sono truccati, e inoltre che i due sotto-esperimenti aleatori “non si influenzano tra
loro” (sono indipendenti), infatti diversamente sarebbe descritto nel testo dell’esercizio il
modo in cui si influenzano. Esprimiamo tutto questo in formule introducendo gli eventi
che riguardano i singoli sotto-esperimenti aleatori:
T = “l’esito del lancio della moneta è testa”,

C = “l’esito del lancio della moneta è croce” = T c ,
Ei = “l’esito del lancio del dado è i”, i = 1, 2, 3, 4.
Dato che dado e moneta non sono truccati, abbiamo che

1
P(T ) = P(C) =
2
e
1
P(E1 ) = P(E2 ) = P(E3 ) = P(E4 ) = .
4
Dire che i due sotto-esprimenti aleatori “non si influenzano tra loro” significa dire, in
termini matematici, che gli eventi ad essi riferiti sono tra loro indipendenti. Quindi vale
che
1
P(T ∩ E1 ) = P(T ) P(E1 ) = ,
8
15
1
P(T ∩ E2 ) = P(T ) P(E2 ) = ,
8
1
P(T ∩ E3 ) = P(T ) P(E3 ) = ,
8
1
P(T ∩ E4 ) = P(T ) P(E4 ) = ,
8
1
P(C ∩ E1 ) = P(C) P(E1 ) = ,
8
1
P(C ∩ E2 ) = P(C) P(E2 ) = ,
8
1
P(C ∩ E3 ) = P(C) P(E3 ) = ,
8
1
P(C ∩ E4 ) = P(C) P(E4 ) = .
8
Poiché
T ∩ Ei = (testa, i) e C ∩ Ei = (croce, i)
per ogni i = 1, 2, 3, 4, abbiamo dimostrato che tutti gli eventi elementari hanno la stessa
probabilità pari a 81 , ovvero che vale (2.2).
Osservazione. Il risultato ottenuto nell’Esercizio 2.2 vale in generale: se un esperimento
aleatorio si compone di più sotto-esperimenti aleatori tra loro “indipendenti”, ognuno
dei quali ha esiti equiprobabili, anche l’esperimento aleatorio nel suo complesso ha esiti
equiprobabili.
Vediamo infine un esercizio in cui si utilizza anche quanto visto nella prima sezione.
Esercizio 2.3. Nel gioco del lotto si estraggono senza reimmissione cinque numeri da
un’urna che contiene 90 palline numerate da 1 a 90.
1) Determinare uno spazio di probabilità che descriva l’esperimento aleatorio.
2) Come cambia la risposta al punto precedente se le estrazioni avvengono con

reimmissione?
Soluzione.
1) Uno spazio campionario naturale è l’insieme di tutte le cinquine ordinate di numeri
distinti da 1 a 90:

Ω = (x1 , x2 , x3 , x4 , x5 ) : xi è un numero naturale da 1 a 90, con xi 6= xj se i 6= j .
Si noti che
|Ω| = 90 · 89 · 88 · 87 · 86.
Resta da determinare P. Intuitivamente, ci aspettiamo che P sia la probabilità uniforme,
ovvero
1
P({(x1 , x2 , x3 , x4 , x5 )}) = , ∀ (x1 , x2 , x3 , x4 , x5 ) ∈ Ω. (2.3)
90 · 89 · 88 · 87 · 86
16
Dimostriamo questo risultato. Introduciamo gli eventi che riguardano i singoli sotto-
esperimenti aleatori, ovvero le singole estrazioni:
Ei,n = “all’i-esima estrazione esce il numero n”, i = 1, 2, 3, 4, 5, n = 1, . . . , 90.
Consideriamo ad esempio la cinquina (17, 54, 2, 76, 45). Allora possiamo esprimere l’evento
elementare {(17, 54, 12, 76, 45)} in termini degli eventi Ei,n come segue:

(17, 54, 2, 76, 45) = E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ∩ E5,45 .
Per determinare la probabilità di {(17, 54, 12, 76, 45)} (e dimostrare la validità di (2.3))
possiamo usare la regola della catena:
P({(17, 54, 2, 76, 45)}) = P(E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ∩ E5,45 )

= P(E5,45 |E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ) P(E4,76 |E1,17 ∩ E2,54 ∩ E3,12 ) ×
× P(E3,12 |E1,17 ∩ E2,54 ) P(E2,54 |E1,17 ) P(E1,17 ).
Tutte queste probabilità sono note, poiché ad ogni estrazione conosciamo la composizione
dell’urna. In particolare, si ha che
1
P(E1,17 ) = ,
90
1
P(E2,54 |E1,17 ) = ,
89
1
P(E3,12 |E1,17 ∩ E2,54 ) = ,
88
1
P(E4,76 |E1,17 ∩ E2,54 ∩ E3,12 ) = ,
87
1
P(E5,45 |E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ) = .
86
Quindi
1
P({(17, 54, 2, 76, 45)}) = .
90 · 89 · 88 · 87 · 86
È chiaro che questo ragionamento vale per qualunque cinquina, non solo per (17, 54, 2, 76, 45).
Possiamo dunque concludere che (2.3) è valida, quindi che P è la probabilità uniforme.
2) Se le estrazioni avvengono con reimmissione, uno spazio campionario naturale è l’in-
sieme di tutte le cinquine ordinate di numeri da 1 a 90, non necessariamente distinti:

Ω = (x1 , x2 , x3 , x4 , x5 ) : xi è un numero naturale da 1 a 90 .
Si noti che in tal caso Ω può anche essere scritto come segue:
Ω = {1, 2, 3, 4, . . . , 88, 89, 90}5

= {1, 2, 3, 4, . . . , 88, 89, 90} × · · · × {1, 2, 3, 4, . . . , 88, 89, 90} .
| {z }
5 volte
Notiamo inoltre che

|Ω| = 905 .
17
Resta da determinare P. Dato che in questo caso le estrazioni non si influenzano tra
di loro, sono dunque indipendenti, inoltre ogni estrazione ha esiti equiprobabili, possia-
mo concludere senza fare conti (come già osservato alla fine dell’Esercizio 2.2) che la
probabilità P è uniforme, ovvero
1
P({(x1 , x2 , x3 , x4 , x5 )}) =, ∀ (x1 , x2 , x3 , x4 , x5 ) ∈ Ω. (2.4)
905
Tuttavia, per maggiore chiarezza, possiamo comunque procedere come prima e dimostrar-
lo. Utilizziamo le stesse notazioni introdotte al punto precedente, quindi
Ei,n = “all’i-esima estrazione esce il numero n”, i = 1, 2, 3, 4, 5, n = 1, . . . , 90.
Consideriamo ad esempio la cinquina (52, 34, 65, 34, 52). Allora

(52, 34, 65, 34, 52) = E1,52 ∩ E2,34 ∩ E3,65 ∩ E4,34 ∩ E5,52 .
A differenza del punto precedente, nel caso con reimmissione gli eventi che si riferiscono
ad estrazioni differenti sono tra loro indipendenti, quindi vale che
P({(52, 34, 65, 34, 52)}) = P(E1,52 ∩ E2,34 ∩ E3,65 ∩ E4,34 ∩ E5,52 )
1
= P(E1,52 ) P(E2,34 ) P(E3,65 ) P(E4,34 ) P(E5,52 ) = .
905
Abbiamo dunque dimostrato la validità di (2.4).
3 Formula delle probabilità totali

Abbiamo già introdotto il concetto di partizione (o schema di alternative), si veda la
Definizione 1.2. Possiamo dunque enunciare la formula delle probabilità totali.
Teorema 3.1 (Formula delle probabilità totali). Sia B1 , . . . , Bn una partizione di Ω.

Allora per ogni evento A vale la formula:
n
X n
X
P(A) = P(A ∩ Bi ) = P(A|Bi ) P(Bi ).
| {z } | {z }
i=1 i=1
prob. totale di A prob. parziale di A
Dimostrazione. Si noti che

n
[ n
[
A = A∩Ω = A∩ Bi = (A ∩ Bi ),
i=1 i=1
dove l’ultima uguaglianza segue dalla proprietà distributiva dell’intersezione rispetto all’u-
nione. Inoltre, dato che gli eventi B1 , . . . , Bn sono disgiunti (ovvero, non hanno elementi
in comune), segue che anche gli eventi A ∩ B1 , . . . , A ∩ Bn sono disgiunti. Quindi, per la
proprietà di additività finita della probabilità,
n
X
P(A) = P(A ∩ Bi ).
i=1
18
Infine, dalla regola della catena,
P(A ∩ Bi ) = P(A|Bi ) P(Bi ), ∀ i = 1, . . . , n.
Quindi
n n
regola catena
X X
P(A) = P(A ∩ Bi ) = P(A|Bi ) P(Bi ).
i=1 i=1
Osservazione. Grazie alla formula delle probabilità totali, possiamo dire qualcosa di più
sul diagramma ad albero di un esperimento aleatorio. Infatti, segue dalla formula delle
probabilità totali la seguente importante proprietà di un diagramma ad albero:
• la probabilità di un qualunque evento che compare nel diagramma ad albero (in
altri termini, un evento che corrisponde ad un nodo dell’albero) è la somma delle
probabilità di tutti i cammini che dalla radice Ω conducono ad esso.
Il modo migliore per rendersi conto della validità di questa proprietà è con un esercizio,
come quello che segue.
Esercizio 3.1. Un’urna contiene 10 palline di cui 6 bianche e 4 rosse. Si estraggono due
palline senza reimmissione. Calcolare la probabilità dell’evento
B2 = “la seconda estratta è bianca”.
Soluzione. Introduciamo gli eventi riguardanti le due estrazioni:
B1 = “la prima estratta è bianca”,

R1 = “la prima estratta è rossa” = B1c ,
B2 = “la seconda estratta è bianca”,
R2 = “la seconda estratta è rossa” = B2c .
Le probabilità note sono le seguenti (in realtà, per trovare la probabilità di B2 , come
richiesto dall’esercizio, non serve riportare tutte queste probabilità):
6 3
P(B1 ) = = ,
10 5
2
P(R1 ) = 1 − P(B1 ) = ,
5
5
P(B2 |B1 ) = ,
9
4
P(R2 |B1 ) = 1 − P(B2 |B1 ) = ,
9
6 2
P(B2 |R1 ) = = ,
9 3
3 1
P(R2 |R1 ) = 1 − P(B2 |R1 ) = = .
9 3
19
Allora, dalla formula delle probabilità totali otteniamo
5 3 2 2 3
P(B2 ) = P(B2 |B1 ) P(B1 ) + P(B2 |R1 ) P(R1 ) = · + · = .
9 5 3 5 5
A tale risultato si può arrivare utilizzando il diagramma ad albero:
5
P(B2 |B1 ) = 9 B2
3
P(B1 ) = 5 B1
P(R2 |B1 ) = 4 R2
9
Ω 2
P(B2 |R1 ) = 3 B2
2 R1
P(R1 ) = 5
P(R2 |R1 ) = 1 R2
3
Infatti, sappiamo che la probabilità dell’evento B2 è la somma delle probabilità di tutti

i cammini che dalla radice Ω conducono a B2 stesso. Ci sono solo due cammini: Ω →
B1 → B2 e Ω → R1 → B2 . Quindi
P(B2 ) = P(cammino Ω → B1 → B2 ) + P(cammino Ω → R1 → B2 ).
Ricordando che la probabilità di un cammino è il prodotto delle probabilità dei suoi rami,
otteniamo
P(B2 ) = P(B2 |B1 ) P(B1 ) + P(B2 |R1 ) P(R1 ),
che corrisponde alla formula delle probabilità totali.
4 Formula di Bayes
Le formule che seguono dalla definizione di probabilità condizionale sono tre: la regola
della catena, la formula delle probabilità totali e la formula di Bayes, che ora presentia-
mo. Sono molto importanti in quanto permettono di risolvere problemi di Calcolo delle
probabilità utilizzando solo gli eventi, senza dover introdurre esplicitamente lo spazio
campionario. Sono inoltre strettamente collegate al diagramma ad albero.
Veniamo dunque alla formula di Bayes, che stabilisce la relazione tra le probabilità
condizionali P(A|B) e P(B|A).
Teorema 4.1 (Formula di Bayes). Siano A e B due eventi tali che P(A) > 0 e P(B) >
0, allora vale la formula
P(A|B) P(B)
P(B|A) = .
P(A)
Dimostrazione. Per definizione di P(B|A) si ha che
P(A ∩ B)
P(B|A) = .
P(A)
20
Utilizzando la regola della catena, possiamo riscrivere il numeratore come segue
P(A ∩ B) = P(A|B) P(B).
Quindi
P(A ∩ B) P(A|B)P(B)
P(B|A) = = ,
↑ P(A) ↑ P(A)
defn. di P(B|A) reg. catena
che conclude la dimostrazione.
Osservazione (utilizzo della formula di Bayes). Come già detto, in un proble-

ma di Calcolo delle probabilità molte probabilità condizionali sono note. Questo accade
ad esempio quando in P(A|B) l’evento B riguarda il primo (in ordine di tempo) sotto-
esperimento aleatorio, mentre l’evento A riguarda il secondo sotto-esperimento aleatorio.
Se ora consideriamo la probabilità condizionale P(B|A), in essa gli eventi B ed A non so-
no disposti nell’ordine temporale naturale6 . Per questo motivo la probabilità P(B|A) non
è in generale nota (a meno che i due sotto-esperimenti aleatori non siano indipendenti,
nel qual caso P(B|A) = P(B)). È in situazioni del genere che è utile utilizzare la formula
di Bayes per calcolare P(B|A).
Esercizio 4.1. Ci sono due urne: la prima urna contiene una pallina bianca e due palline
rosse, mentre la seconda contiene due palline bianche e cinque palline rosse. Si lancia una
moneta: se esce testa si estrae una pallina dalla prima urna, se esce croce si estrae una
pallina dalla seconda.
Sapendo che è stata estratta una pallina bianca, calcolare la probabilità che l’esito del
lancio della moneta sia stato testa.
Soluzione. Introduciamo gli eventi riguardanti i due sotto-esperimenti aleatori:
T = “l’esito del lancio della moneta è testa” = “si sceglie la prima urna”,
C = “l’esito del lancio della moneta è croce” = “si sceglie la seconda urna” = T c ,
B = “si estrae una pallina bianca”,
R = “si estrae una pallina rossa” = B c .
Il diagramma ad albero dell’esperimento aleatorio è il seguente:

1
P(B|T ) = 3 B
1
P(T ) = 2 T
P(R|T ) = 2 R
3
Ω 2
P(B|C) = 7 B
1 C
P(C) = 2
P(R|C) = 5 R
7
6
Con riferimento al diagramma ad albero, il nodo A è un “figlio” del nodo B.
21
La probabilità richiesta è la seguente probabilità condizionale
P(T |B),
che si calcola con la formula di Bayes:
P(B|T ) P(T )
P(T |B) = .
P(B)
Le due probabilità a numeratore sono note, mentre (come accade spesso quando si usa la
formula di Bayes) il denominatore va calcolato con la formula delle probabilità totali:
P(B) = P(B|T ) P(T ) + P(B|C) P(C).
Quindi
1 1
P(B|T ) P(T ) ·
3 2 7
P(T |B) = = 1 1 = .
P(B|T ) P(T ) + P(B|C) P(C) 3
· 2
+ 27 · 1
2
13

5 Esercizi e paradossi
Esercizio 5.1. In un’urna ci sono due palline che possono essere rosse (R) o bianche
(B). La composizione esatta non è nota, quindi le composizioni possibili sono:
RR, RB, BB.
Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale
probabilità pari a 1/3 alle tre composizioni (ipotesi) possibili, che denotiamo H0 , H1 e H2 .
1) Se si estrae una pallina dall’urna, qual è la probabilità che sia bianca?
2) Si effettuano tre estrazioni con reimmissione: sapendo che le prime due palline
estratte sono bianche, qual è la probabilità che anche la terza pallina estratta sia
bianca?
Soluzione. Introduciamo i seguenti eventi:
H0 = “nell’urna ci sono due palline rosse”,

H1 = “nell’urna ci sono una pallina rossa e una pallina bianca”,
H2 = “nell’urna ci sono due palline bianche”,
Ri = “all’i-esima estrazione esce una pallina rossa”, i = 1, 2, 3,
c
Bi = “all’i-esima estrazione esce una pallina bianca” = Ri , i = 1, 2, 3.
Il diagramma ad albero dell’esperimento aleatorio fino alla seconda estrazione è il seguente:
22
P(R2 |H0 ∩ R1 ) = 1 R2
P(R1 |H0 ) = 1 R1
P(B2 |H0 ∩ R1 ) = 0 B2
H0
1
P(H0 ) = 3
P(B1 |H0 ) = 0 B1 1
P(R2 |H1 ∩ R1 ) = 2 R2
1
P(R1 |H1 ) = 2
R1
P(H1 ) = 1
P(B2 |H1 ∩ R1 ) = 1 B2
3 2
Ω H1 1
P(R2 |H1 ∩ B1 ) = 2 R2
1
P(B1 |H1 ) = 2 B1
P(B2 |H1 ∩ B1 ) = 1 B2
2
P(R1 |H2 ) = 0 R1
1
P(H2 ) = 3
H2
P(R2 |H2 ∩ B1 ) = 0 R2
P(B1 |H2 ) = 1 B1
P(B2 |H2 ∩ B1 ) = 1 B2
1) La probabilità richiesta è P(B1 ). Dalla formula delle probabilità totali (o, equivalente-
mente, dal diagramma ad albero), si ottiene
1
P(B1 ) = P(B1 |H0 ) P(H0 ) + P(B1 |H1 ) P(H1 ) + P(B1 |H2 ) P(H2 ) = .
2
2) La probabilità richiesta è P(B3 |B1 ∩ B2 ). Dalla definizione di probabilità condizionale,

si ha che
P(B1 ∩ B2 ∩ B3 )
P(B3 |B1 ∩ B2 ) =
P(B1 ∩ B2 )
Calcoliamo denominatore e numeratore con la formula delle probabilità totali:
P(B1 ∩ B2 ) = P(B1 ∩ B2 ∩ H0 ) + P(B1 ∩ B2 ∩ H1 ) + P(B1 ∩ B2 ∩ H2 )
P(B1 ∩ B2 ∩ B3 ) = P(B1 ∩ B2 ∩ B3 ∩ H0 ) + P(B1 ∩ B2 ∩ B3 ∩ H1 )

+ P(B1 ∩ B2 ∩ B3 ∩ H2 ).
Le probabilità a destra del segno di uguaglianza si calcolano con la regola della catena.
Si ottiene
P(B1 ∩ B2 ) = P(B1 ∩ B2 ∩ H0 ) + P(B1 ∩ B2 ∩ H1 ) + P(B1 ∩ B2 ∩ H2 )

1 1 1 1 5
= 0+ · · + =
2 2 3 3 12
23
e
P(B1 ∩ B2 ∩ B3 ) = P(B1 ∩ B2 ∩ B3 ∩ H0 ) + P(B1 ∩ B2 ∩ B3 ∩ H1 )

+ P(B1 ∩ B2 ∩ B3 ∩ H2 )
1 1 1 1 1 3
= 0+ · · · + = .
2 2 2 3 3 8
Quindi
3
P(B1 ∩ B2 ∩ B3 ) 8 9
P(B3 |B1 ∩ B2 ) = = 5 = .
P(B1 ∩ B2 ) 12
10
Esercizio 5.2 (Paradosso delle tre carte). Giochiamo con tre carte. Una è bianca su
entrambi i lati, una è rossa su entrambi i lati e una è bianca da un lato e rossa dall’altro.
Ogni carta è nascosta in una scatoletta nera. Il giocatore sceglie una delle tre scatolette,
estrae la carta e la posa sul tavolo in modo che sia visibile un solo lato.
Sapendo che il lato superiore della carta è bianco, qual è la probabilità che l’altro lato sia
rosso?
Soluzione. Possiamo utilizzare gli stessi eventi introdotti nell’Esercizio 5.1 per descrivere
questo esperimento aleatorio:
H0 = “la carta scelta dal giocatore ha entrambi i lati rossi”,

H1 = “la carta scelta dal giocatore ha un lato rosso e l’altro bianco”,
H2 = “la carta scelta dal giocatore ha entrambi i lati bianchi”,
R1 = “il lato superiore è rosso”,
B1 = “il lato superiore è bianco” = R1c ,
R2 = “il lato inferiore è rosso”,
B2 = “il lato inferiore è bianco” = R2c .
Il diagramma ad albero dell’esperimento aleatorio è il seguente (si noti che nella terza
ramificazione le probabilità sui rami sono diverse rispetto all’albero dell’Esercizio 5.1;
sarebbero state le stesse se nell’Esercizio 5.1 l’estrazione fosse stata senza reimmissione):
24
P(R2 |H0 ∩ R1 ) = 1 R2
P(R1 |H0 ) = 1 R1
P(B2 |H0 ∩ R1 ) = 0 B2
H0
1
P(H0 ) = 3
P(B1 |H0 ) = 0 B1
P(R2 |H1 ∩ R1 ) = 0 R2
1
P(R1 |H1 ) = 2
R1
P(H1 ) = 1 P(B2 |H1 ∩ R1 ) = 1 B2
3
Ω H1
P(R2 |H1 ∩ B1 ) = 1 R2
1
P(B1 |H1 ) = 2 B1
P(B2 |H1 ∩ B1 ) = 0 B2
P(R1 |H2 ) = 0 R1
1
P(H2 ) = 3
H2
P(R2 |H2 ∩ B1 ) = 0 R2
P(B1 |H2 ) = 1 B1
P(B2 |H2 ∩ B1 ) = 1 B2
La probabilità richiesta è P(R2 |B1 ). Si procede dunque come al punto 2 dell’Esercizio 5.1.
Si ottiene quindi
P(B1 ∩ R2 )
P(R2 |B1 ) =
P(B1 )
P(B1 ∩ R2 ∩ H0 ) + P(B1 ∩ R2 ∩ H1 ) + P(B1 ∩ R2 ∩ H2 )
=
P(B1 )
1 1
0+1· 2 · 3 +0 1
= 1 = .
2
3
Esercizio 5.3 (Dilemma di Monty-Hall). Sei a un gioco a premi, e devi scegliere fra
tre porte. Dietro a una porta c’è un’automobile, mentre dietro alle altre troverai solo delle
capre. Tu scegli, diciamo, la porta no 1, e il presentatore, che sa dov’è l’automobile, ne
apre un’altra, dietro a cui c’è una capra. A questo punto, ti dà la possibilità di scegliere
tra il restare fedele alla porta no 1 o il passare all’altra.
Che cosa ti conviene fare?
(a) Restare fedele alla porta no 1.
(b) Passare all’altra porta.
Soluzione. Introduciamo i due eventi seguenti:
B = “vinci restando fedele alla porta no 1”,
25
C = “vinci passando all’altra porta non ancora aperta dal presentatore” = B c .
La strategia migliore è quella che ha probabilità maggiore. Dobbiamo dunque calcolare

P(B) e P(C). Si noti che C = B c , ossia C si verifica se e solo se l’automobile si trova
dietro la porta no 2 oppure dietro la porta no 3. È dunque sufficiente calcolare P(B). A tal
proposito, notiamo innanzitutto che l’automobile potrebbe essere, con uguale probabilità,
dietro alla porta no 1, no 2 oppure no 3. Infatti il testo dell’esercizio non dice nulla a
riguardo, non c’è dunque alcuna ragione per assegnare probabilità differenti a questi tre
casi distinti. Allora si ha che
1 2
P(B) = , P(C) = 1 − P(B) = .
3 3
In conclusione P(B) < P(C), quindi conviene passare all’altra porta.
6 Come si stima la probabilità?

Come accennato all’inizio del primo Capitolo, la stima della probabilità è un problema
della Statistica, che può essere affrontato in modo ingenuo oppure formale. Vediamo in
questa sezione due possibili modi ingenui, la cui formalizzazione conduce alla Statistica in-
ferenziale frequentista e bayesiana, rispettivamente, ovvero ai due approcci più importanti
alla Statistica inferenziale.
Consideriamo un esperimento aleatorio. Supponiamo di aver determinato lo spazio
campionario Ω. Resta dunque il problema di assegnare la probabilità P. In particolare,
fissato un generico evento A, quanto dovrebbe valere approssimativamente P(A)?
Nell’approccio frequentista si ripete “infinite” volte l’esperimento aleatorio e si calcola
P(A) come segue:
no di volte che si è verificato A nelle prime n prove
P(A) = lim . (6.1)
n→+∞ n
La (6.1) vale solo sotto certe ipotesi. Come vedremo è una conseguenza della Legge dei
grandi numeri.
Nonostante l’approccio frequentista sia ancora oggi il più utilizzato, esso presenta
alcuni difetti. In particolare, dato che è impossibile nella realtà eseguire infinite prove,
non è chiaro quante prove siano necessarie per avere una “buona” stima di P(A). A tal
proposito, citiamo Bruno de Finetti7 :
. . . Ma ciò non toglie il difetto d’origine, cioè la distinzione, concettualmente posta come
fondamentale, tra “effetto di massa” e “effetto dei singoli elementi”. Conoscere l’esito
di un certo numero di prove, grande o piccolo che sia, conduce dall’opinione iniziale
all’opinione finale esattamente nello stesso modo che si otterrebbe pensando di venire a
conoscere l’esito delle singole prove, una per volta, e di modificare ogni volta l’opinione
conformemente al (piccolo in genere) influsso di una singola informazione.
Una possibile soluzione al problema delle infinite prove, è fornito dall’approccio bayesiano,
a cui si fa riferimento nella citazione riportata qui sopra. In tale approccio, si formula
7
Teoria delle probabilità, Einaudi, Torino, 1970.
26
innanzitutto una congettura su P(A), a partire dalle informazioni in nostro possesso8 , poi
si esegue una singola prova e sulla base dell’esito ottenuto si “aggiorna” il valore di P(A)
tramite la formula di Bayes:
P(esito ottenuto | A)
P(A) dopo aver eseguito la prova := P(A | esito ottenuto) = P(A)
↑ P(esito ottenuto)
Bayes
in cui anche le probabilità P(esito ottenuto | A) e P(esito ottenuto) devono essere conget-
turate. Il rapporto
P(esito ottenuto | A)
P(esito ottenuto)
rappresenta l’impatto che quel particolare esito ha sulla probabilità dell’evento A.
Possiamo riassumere con il seguente schema l’approccio bayesiano:
Eseguo una volta Aggiorno il valore di P(A)

Congettura su P(A) −→ l’esperimento aleatorio
−→ tramite la formula di Bayes
Eseguendo un numero elevato di prove e ripetendo questa procedura ad ogni singola

prova, la congettura iniziale su P(A) diventa sempre meno rilevante. Quando n tende
all’infinito si ottiene il valore dato dal limite (6.1), indipendentemente dalla congettura
fatta all’inizio.
8
Qui ci si avvale di vari elementi che possono presentarsi caso per caso (ragioni di simmetria come
per dadi, palline in un’urna, roulette, ecc.; esperienze statistiche su fenomeni simili; confronti, ecc.),
integrandole in genere con conoscenze, opinioni, ecc. relative al singolo caso in questione.
27
CALCOLO COMBINATORIO E SPAZI

DI PROBABILITÀ FINITI E UNIFORMI
1 Problemi di conteggio
In questo capitolo studiamo nel dettaglio il seguente caso particolare: Ω è finito e gli
esiti sono equiprobabili, ovvero la probabilità P è uniforme. Ricordiamo allora che vale il
seguente risultato.
Teorema 1.1. Consideriamo un esperimento aleatorio descritto da uno spazio

campionario finito:
Ω = {ω1 , . . . , ωN }
con esiti equiprobabili, ovvero con probabilità uniforme:
P({ω1 }) = P({ω2 }) = · · · = P({ωN }).
Allora valgono le proprietà seguenti:
1) dato un qualunque evento elementare {ωi }, vale che

1
P({ωi }) = ;
N
2) dato un qualunque evento A, vale la formula di Laplace

P(A) = = .
N casi possibili
I problemi che rientrano nella situazione qui sopra descritta sono detti problemi di
conteggio, in quanto il calcolo della probabilità di un evento A si riduce al conteggio
del numero di casi favorevoli e del numero di casi possibili. Il calcolo combinatorio è lo
strumento matematico che permette di svolgere questi calcoli anche quando tali numeri
sono particolarmente elevati.
1.1 Cardinalità e corrispondenza biunivoca

Ricordiamo che il simbolo |Ω| (oppure #Ω) indica la cardinalità di un qualunque insieme
Ω, ovvero il numero dei suoi elementi. La formula di Laplace può essere scritta in termini
di cardinalità come segue:
|A|
P(A) = .
|Ω|
Corrispondenza biunivoca. Dati due insiemi A e B, si dice che
A è in corrispondenza biunivoca con B
se, per definizione, esiste una funzione f : A → B biettiva, cioè iniettiva e suriettiva.
Ricordiamo dunque il seguente principio basilare:
|A| = |B| se e solo se A e B sono in corrispondenza biunivoca.
2
Per determinare la cardinalità di un insieme A spesso si ricorre alla corrispondenza biuni-
voca, ovvero si determina un altro insieme B che si sa essere in corrispondenza biunivoca
con A, quindi |A| = |B|, e di cui è più facile calcolare la cardinalità.
1.2 Fattoriale e coefficiente binomiale

Ricordiamo il significato del simbolo fattoriale:
n! = n(n − 1) · · · 1, ∀ n = 1, 2, . . .
Inoltre si pone per convenzione

0! = 1.
Il coefficiente binomiale è invece dato da

n n!
= , ∀ n, k = 0, 1, 2, . . . , con k ≤ n.
k k!(n − k)!
Dalla definizione segue direttamente che

n n n n n
= , = = 1, = n.
k n−k 0 n 1
Inoltre, per k, n ∈ N con k < n, vale la formula di Stifel:

n n−1 n−1
= + .
k k−1 k
Infine, vale la formula del binomio di Newton1 :

n
n
X n k n−k
(a + b) = a b , a, b ∈ R.
k=0
k
1.3 Metodo delle scelte successive

In questa sezione illustriamo un metodo, noto come metodo delle scelte successive (o sche-
ma delle scelte successive o anche principio fondamentale del calcolo combinatorio), che
permette di determinare la cardinalità di un insieme una volta caratterizzati univocamente
i suoi elementi tramite un numero finito di scelte successive. Iniziamo con un esempio.
Esempio 1.1. Quante password di otto caratteri, ognuno dei quali scelto tra trentasei
valori alfanumerici, possono essere generate?
Come cambia la risposta se gli otto caratteri devono essere tra loro distinti?
1
Una dimostrazione di carattere combinatorio della formula di Newton è la seguente: il prodotto
(a + b)(a + b) · · · (a + b) di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk
con 0 ≤ k ≤ n. Resta dunque da determinare il coefficiente di ciascun monomio an−k bk , ossia calcolare
quante volte compare facendo il prodotto (a + b)(a + b) · · · (a + b). Tale monomio si ottiene scegliendo il
valore b da k degli n fattori disponibili e, quindi, scegliendo a dai rimanenti n − k, ovvero in nk modi.

3
Soluzione.
1) Caratteri non necessariamente distinti. Sia Ω l’insieme di tutte le password di otto

caratteri non necessariamente distinti. In tal caso Ω è dato da
Ω = {a, b, c, . . . , 8, 9}8 .
Possiamo determinare ogni password di Ω tramite le seguenti otto scelte successive:
• scelta del primo carattere della password: 36 possibilità

• scelta del secondo carattere: 36 possibilità
• ···
• scelta dell’ottavo carattere: 36 possibilità
Come seguirà dal metodo delle scelte successive, la cardinalità di Ω è data dal prodotto
di questi otto numeri:
|Ω| = 36 × 36 × · · · × 36 = 368 .
Questo risultato è confermato dal fatto che Ω = {a, b, c, . . . , 8, 9}8 .
2) Caratteri distinti. Sia Ω l’insieme di tutte le password di otto caratteri tra loro distinti.
Procedendo come prima possiamo determinare ogni password di Ω tramite le seguenti
scelte successive:
• scelta del primo carattere della password: 36 possibilità

• scelta del secondo carattere: 36 − 1 possibilità
• ···
• scelta dell’ottavo carattere: 36 − 7 possibilità
Come seguirà dal metodo delle scelte successive, la cardinalità di Ω è data da
|Ω| = 36 × (36 − 1) × · · · × (36 − 7) = 36 × 35 × · · · × 29.

Formuliamo dunque il metodo delle scelte successive, che generalizza quanto appena visto
nell’esempio precedente.
Metodo delle scelte successive. Supponiamo che ciascun elemento di un insieme A

possa essere determinato tramite una e una sola sequenza di k scelte successive, in cui
ogni scelta viene effettuata tra un numero fissato di possibilità (tale numero di possibilità,
qui di seguito indicato con n1 , n2 , . . . , nk , non dipende dalle scelte precedenti ma solo da
k):
• la prima scelta viene effettuata tra n1 possibilità
4
• la seconda scelta viene effettuata tra n2 possibilità
• ···
• la k-esima scelta viene effettuata tra nk possibilità
Allora la cardinalità di A è pari a
|A| = n1 × n2 × · · · × nk .
Osservazione 1. Cosı̀ enunciato, il metodo delle scelte successive sembra essere un po’
vago. Una riformulazione matematica precisa (come teorema) è possibile, tuttavia essa
comporta notazioni piuttosto ingombranti e risulta di poco aiuto nelle applicazioni. Per
tale ragione nella pratica si fa tipicamente riferimento all’enunciato riportato qui sopra.
Osservazione 2. Il metodo delle scelte successive dice essenzialmente che l’insieme A
è in corrispondenza biunivoca con le sequenze di k scelte, il cui numero totale è appunto
pari a n1 × n2 × · · · × nk .
Osservazione 3. Gli errori più comuni che si commettono nell’utilizzo di tale metodo
sono:
• non contare tutti gli elementi di A (da qui l’importanza del termine “ciascun”
nell’enunciato del metodo delle scelte successive);
• contare più di una volta lo stesso elemento (da qui l’importanza del termine “una
e una sola” nell’enunciato del metodo delle scelte successive).
Esempio 1.2. Consideriamo un mazzo di carte da poker da 52 carte, identificate dal

seme (cuori ♥, quadri ♦, fiori ♣, picche ♠) e dal tipo (un numero da 2 a 10 oppure J,
Q, K, A). Calcolare la cardinalità dei seguenti insiemi.
1) L’insieme dei full; un full è un sottoinsieme di 5 carte costituito dall’unione di un

tris (un sottoinsieme di 3 carte dello stesso tipo) e di una coppia (un sottoinsieme di
2 carte dello stesso tipo, necessariamente diverso da quel del tris).
2) L’insieme delle doppie coppie; una doppia coppia è un sottoinsieme di 5 carte costi-
tuito da due coppie di tipi diversi, più una quinta carta di tipo diverso dai tipi delle
due coppie.
Soluzione.
1) Sia A l’insieme dei full. Ogni elemento di A può essere determinato tramite quattro
scelte successive:
• scelta del tipo del tris: 13 possibilità
• scelta del tipo della coppia: 12 possibilità (chiaramente il tipo della coppia deve
essere diverso dal tipo del tris perché non esistono cinque carte dello stesso tipo)
5
• scelta dei semi delle carte che compaiono nel tris: 4 possibilità
• scelta dei semi delle carte che compaiono nella coppia: 6 possibilità
Quindi
|A| = 13 × 12 × 4 × 6 = 3744.
2) Sia B l’insieme delle doppie coppie. Per calcolare |B| si potrebbe essere tentati di
procedere analogamente al caso dei full, attraverso sei scelte successive:
• scelta del tipo della prima coppia: 13 possibilità
• scelta del tipo della seconda coppia: 12 possibilità
• scelta del tipo della quinta carta: 11 possibilità
• scelta dei semi delle carte che compaiono nella prima coppia: 6 possibilità
• scelta dei semi delle carte che compaiono nella seconda coppia: 6 possibilità
• scelta del seme della quinta carta: 4 possibilità
Si otterrebbe dunque
|B| = 13 × 12 × 11 × 6 × 6 × 4 = 247104.
Tuttavia questo risultato è errato. Infatti, ogni doppia coppia non viene determinata
da una e una sola sequenza di 6 scelte, ma da esattamente due sequenze distinte.
La ragione è che le prime due scelte sono ambigue, dal momento che non esiste una
“prima” e una “seconda” coppia. Per esempio, la doppia coppia {5♥, 5♦, 6♥, 6♣, 7♠}
viene determinata sia compiendo come prima scelta 5 e come seconda scelta 6, sia
viceversa. Per tale ragione il risultato corretto è
247104
|B| = = 123552.
2
Un modo alternativo di ottenere il risultato corretto è di riunire le prime due scelte
nell’unica scelta seguente:
13×12
• scelta dei tipi delle due coppie: 2
= 78 possibilità.
Si ottiene
|B| = 78 × 11 × 6 × 6 × 4 = 123552.

2 Disposizioni e combinazioni
In questa sezione introduciamo le disposizioni con ripetizione, le disposizioni sempli-
ci (o senza ripetizione) e le combinazioni (semplici o senza ripetizione). Nel seguito
indicheremo con E un insieme di n elementi distinti:
E = {e1 , e2 , . . . , en }.
E sarà ad esempio l’insieme della carte che compongono un mazzo, oppure l’insieme delle
palline contenute in un’urna (in cui l’i-esima pallina ha come etichetta ei ).
6
2.1 Disposizioni con ripetizione
Definizione 2.1 (Disposizioni con ripetizione). Siano E un insieme con |E| = n

e k ∈ N. Indichiamo con DRn,k l’insieme delle disposizioni con ripetizione di k ele-
menti di E, ossia l’insieme di tutte le sequenze ordinate di k elementi di E, non
necessariamente distinti:
DRn,k = {(x1 , . . . , xk ) : xi ∈ E} = E
| ×E×
{z· · · × E} .
k volte
La cardinalità di DRn,k è pari a
|DRn,k | = nk .
Esempio 2.1. Siano E = {a, b, c} e k = 2. Allora |DR3,2 | = 32 e precisamente
DR3,2 = {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.
Osservazione 1. DRn,k esprime i modi in cui possiamo disporre, in maniera ordinata

ed eventualmente ripetuta, un numero k di oggetti scelti da un insieme di n oggetti.
Osservazione 2. Si noti che scriviamo DRn,k senza specificare l’insieme E, dato che
ogni volta sarà chiaro dal contesto a quale insieme di oggetti E ci stiamo riferendo.
Osservazione 3. La cardinalità di DRn,k si trova applicando il metodo delle scelte
successive, procedendo come nel punto 1) dell’Esempio 1.1.
Esempio 2.2. Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en ,

da cui si estraggono con reimmissione k ∈ N palline. Sia E = {e1 , e2 , . . . , en }. Uno
spazio di probabilità (Ω, P) che descrive tale esperimento è
Ω = DRn,k , P probabilità uniforme.
La quantità |DRn,k | = nk è dunque pari al numero di “casi possibili” di questo esperimento

aleatorio.
Esempio 2.3. Determinare un possibile spazio campionario per i seguenti esperimenti

aleatoria :
i) Si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto
italiano.
a
Soluzioni: i) Ω = DR21,8 , quindi |Ω| = 218 ; ii) Ω = DR3,13 , quindi |Ω| = 313 ; iii) Ω = DR6,10 ,
quindi |Ω| = 610 .
7
ii) Si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere
tra 1, 2 o X.
iii) Si lancia 10 volte un dado (non truccato) a sei facce.
2.2 Disposizioni semplici
Definizione 2.2 (Disposizioni semplici). Siano E un insieme con |E| = n e k ≤

n. Indichiamo con Dn,k l’insieme delle disposizioni semplici (o senza ripetizione) di k
elementi di E, ossia l’insieme di tutte le sequenze ordinate di k elementi distinti di
E:
Dn,k = {(x1 , . . . , xk ) : xi ∈ E distinti}.
La cardinalità di Dn,k è pari a
n!
|Dn,k | = n(n − 1) · · · (n − k + 1) = .
(n − k)!
Esempio 2.4. Siano E = {a, b, c} e k = 2. Allora |D3,2 | = 6 e precisamente
D3,2 = {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.
Osservazione 1. Dn,k esprime i modi in cui possiamo disporre, in maniera ordinata e

non ripetuta, un numero k di oggetti scelti da un insieme di n oggetti.
Osservazione 2. La cardinalità di Dn,k si trova applicando il metodo delle scelte suc-
cessive come nel punto 2) della soluzione dell’Esempio 1.1.
Esempio 2.5. Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en , da

cui si estraggono senza reimmissione k ≤ n palline. Sia E = {e1 , e2 , . . . , en }. Uno
spazio di probabilità (Ω, P) che descrive tale esperimento è
Ω = Dn,k , P probabilità uniforme.
La quantità |Dn,k | = n(n − 1) · · · (n − k + 1) è dunque pari al numero di “casi possibili”

di questo esperimento aleatorio.
Esempio 2.6. Supponiamo di giocare un’unica cinquina (ad esempio la sequenza ordinata
13, 5, 45, 21, 34) al gioco del lotto, in cui si estraggono senza reimmissione cinque numeri
dai primi novanta naturali.
8
1) Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione)?
2) Qual è la probabilità di fare una cinquina semplice (per cui non conta l’ordine di
estrazione)?
Soluzione. Come suggerito dall’Esempio 2.5, consideriamo lo spazio di probabilità (Ω, P)

dato da
Ω = D90,5 , P probabilità uniforme.
1) La probabilità di fare una cinquina secca è semplicemente
1
' 1.89 · 10−10 .
|D90,5 |
2) Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti
modi differenti si possono ordinare 5 numeri. Tale numero è pari a |D5,5 | = 5!
Allora la probabilità di una cinquina semplice dopo 5 estrazioni è
|D5,5 |
' 2.27 · 10−8 .
|D90,5 |

Introduciamo infine le permutazioni, che sono un caso particolare di disposizione
semplice.
Definizione 2.3 (Permutazioni). Sia E un insieme con |E| = n. Indichiamo con Pn

l’insieme delle permutazioni degli n elementi di E, ossia l’insieme Dn,n .
La cardinalità di Pn è dunque pari a
|Pn | = |Dn,n | = n!
Osservazione. Pn esprime i modi in cui possiamo disporre, in maniera ordinata e

non ripetuta, n oggetti.
2.3 Combinazioni
Definizione 2.4 (Combinazioni). Siano E un insieme con |E| = n e k ≤ n. Indichiamo

con Cn,k l’insieme delle combinazioni ( semplici o senza ripetizione) di k elementi di E,
ossia la famiglia dei sottoinsiemi di E di cardinalità k:
Cn,k = {A ⊂ E : |A| = k}.
La cardinalità di Cn,k è pari a

n
|Cn,k | = . (2.1)
k
9
Esempio 2.7. Siano E = {a, b, c} e k = 2. Allora |C3,2 | = 3 e precisamente

C3,2 = {a, b}, {a, c}, {b, c} .
Osservazione 1. Cn,k è l’insieme di tutti i gruppi di k oggetti scelti da un insieme di n

oggetti, in maniera ordinata e non ripetuta.
Osservazione 2 (calcolo di |Cn,k |). A differenza del calcolo di |DRn,k | e |Dn,k |, non
è possibile scomporre il calcolo di |Cn,k | in una sequenza di scelte successive. Tuttavia,
dimostrare la (2.1) equivale a dimostrare la seguente uguaglianza:
n!
= |Cn,k | k!
(n − k)!
ossia
|Dn,k | = |Cn,k | |Pk |. (2.2)
Dimostriamo la (2.2) applicando il metodo delle scelte successive all’insieme Dn,k :
• scelta dei k elementi di E da ordinare, ovvero di un sottoinsieme di E di cardinalità
k: |Cn,k | possibilità (per definizione di Cn,k )
• scelta dell’ordine in cui disporre i k elementi, ossia permutazione dei k elementi:
|Pk | possibilità
Dal metodo delle scelte successive si ottiene (2.2) e dunque (2.1).
Esempio 2.8. Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en , da

cui si estraggono simultaneamente k ≤ n palline. Sia E = {e1 , e2 , . . . , en }. Uno spazio
di probabilità (Ω, P) che descrive tale esperimento è
Ω = Cn,k , P probabilità uniforme.
La quantità |Dn,k | = nk è dunque pari al numero di “casi possibili” di questo esperimento

aleatorio.
Esempio 2.9. Si consideri la formula di Stifel:

n n−1 n−1
= + .
k k−1 k
Possiamo interpretare questa formula in termini di combinazioni come segue:

n n−1 n−1
= +
k k−1 k
| {z } | {z } | {z }
no di combinazioni no di combinazioni no di combinazioni
di k elementi di E di k elementi di E in cui di k elementi di E
è presente l’elemento ē senza l’elemento ē
dove ē è un elemento fissato di E scelto in modo arbitrario.
10
3 Tre esperimenti aleatori di riferimento
Estrazioni da un’urna
Quando si utilizza il calcolo combinatorio per lo studio di un esperimento aleatorio, la

scelta dello spazio campionario Ω è importante perché può semplificare il conteggio dei
casi possibili e dei casi favorevoli. La scelta più conveniente dipende dall’esperimento
aleatorio in questione. Tuttavia nella maggior parte dei casi è possibile scegliere come
spazio campionario uno dei tre spazi che ora introduciamo. Questo perché è possibile
ripensare l’esperimento aleatorio che si sta studiando come uno dei tre esperimenti aleatori
di riferimento riportati qui di seguito (che corrispondono agli Esempi 2.2, 2.5, 2.8).
Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en . Si estraggono
k palline dall’urna in uno dei tre modi seguenti:
1) estrazione con reimmissione 2 , con k ∈ N, in cui, per l’estrazione successiva, la

pallina estratta viene reinserita nell’urna (Esempio 2.2);
2) estrazione senza reimmissione, con k ≤ n, in cui la pallina estratta non viene

reinserita nell’urna (Esempio 2.5);
3) estrazione simultanea, con k ≤ n, in cui le k palline vengono estratte simulta-

neamente (Esempio 2.8).
Possiamo descrivere sinteticamente tali esperimenti tramite la seguente tabella, eviden-

ziando i due aspetti caratterizzanti che sono l’ordine e la ripetizione:
aa
aa Ripetizione
aa
aa Senza Con
aa
aa ripetizione ripetizione
Ordine aa
aa
a
Estrazione Estrazione
Si tiene conto dell’ordine senza con
reimmissione reimmissione
Estrazione
Non si tiene conto dell’ordine
simultanea
−
Negli Esempi 2.2, 2.5, 2.8 abbiamo introdotto gli spazi di probabilità che descrivono questi
tre esperimenti aleatori. Possiamo dunque completare la precedente tabella, riportando
anche gli spazi campionari e le loro cardinalità (ossia il numero di “casi possibili”).
2
Invece di “reimmissione” si utilizzano anche i termini “reimbussolamento”, “reinserimento”,
“reintroduzione”, “restituzione”, “rimpiazzo”.
11
aa
aa Ripetizione
aa
aa Senza Con
aa
aa ripetizione ripetizione
Ordine aa
aa
a
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk
Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k | n

|Ω| = k! = k
Osservazione 1. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sa-
rebbe sufficiente considerare solamente i primi due: l’estrazione senza reimmissione e
l’estrazione con reimmissione. Infatti l’estrazione simultanea può essere vista come un’e-
strazione senza reimmissione in cui non si tiene conto dell’ordine, ossia come un caso
particolare dell’estrazione senza reimmissione. Questo significa che, in alternativa a Cn,k ,
è possibile utilizzare Dn,k come spazio campionario. Ciò segue da |Dn,k | = k!|Cn,k | e, più
in generale, dal fatto che ad ogni elemento di Cn,k corrispondono k! elementi di Dn,k .
Più precisamente, vale la catena di uguaglianze:
casi favorevoli in Cn,k k! (casi favorevoli in Cn,k ) casi favorevoli in Dn,k

= = . (3.1)
casi possibili in Cn,k k! (casi possibili in Cn,k ) casi possibili in Dn,k
Osservazione 2. La casella vuota nella tabella sopra riportata corrisponde all’insieme

delle cosiddette combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non or-
dinati ed eventualmente ripetuti, di k oggetti da un insieme di n oggetti. L’esperimento
aleatorio corrispondente è l’estrazione con reimmissione in cui non si tiene conto dell’or-
dine: questo esperimento aleatorio può essere descritto anche dallo spazio di probabilità
(Ω, P) con Ω = DRn,k e P probabilità uniforme. Al contrario, se si sceglie come Ω lo
spazio delle combinazioni con ripetizione, allora la probabilità corrispondente non è più
uniforme. Ciò è dovuto al fatto che non vale più la catena di uguaglianze (3.1) nel caso in
cui ci siano ripetizioni. In altri termini, ad ogni combinazione con ripetizione non corri-
sponde sempre lo stesso numero di elementi di DRn,k (infatti dipende da quante ripetizioni
ci sono all’interno della combinazione).
Esempio 3.1 (Probabilità binomiale). Si consideri un’urna che contiene b palline

bianche ed r palline rosse. Si effettuano n estrazioni con reimmissione. Calcolare la
probabilità dell’evento
Ak = “si estraggono k palline bianche ed n − k palline rosse”
con 0 ≤ k ≤ n.
12
Soluzione. Etichettiamo le b palline bianche con bianca1 , bianca2 , . . . , biancab ; analoga-
mente, le r palline rosse con rossa1 , rossa2 , . . . , rossar . Sia dunque
E = {bianca1 , bianca2 , . . . , biancab , rossa1 , rossa2 , . . . , rossar }.
Si noti che |E| = b + r.

Come spazio di probabilità (Ω, P) è naturale considerare Ω = DRb+r,n (insieme delle
disposizioni con ripetizione di n elementi di E) e P probabilità uniforme.
Determiniamo la cardinalità di Ak tramite le seguenti k scelte successive:
• scelta della sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche
estratte: |DRb,k | possibilità;
• scelta della sequenza (ordinata e con eventuali ripetizioni) delle n − k palline rosse
estratte: |DRr,n−k | possibilità;
• scelta delle k estrazioni in cui sono uscite le palline bianche: |Cn,k | possibilità3 .
In definitiva k n−k
|DRb,k ||DRr,n−k ||Cn,k | n b r
P(Ak ) = = ,
|DRb+r,n | k (b + r)n
o, equivalentemente,

n k
P(Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r
è la probabilità di estrarre una pallina bianca in una singola estrazione.
Osservazione. Consideriamo lo spazio di probabilità (Ω, P) con Ω = {0, 1, 2, . . . , n} e P

data da
n k
P({k}) = p (1 − p)n−k , k = 0, 1, . . . , n.
k
Si noti che P è effettivamente una probabilità. Infatti, per la formula del binomio di
Newton vale che
n n
X X n k n
P({k}) = p (1 − p)n−k = p + (1 − p) = 1.
k=0 k=0
k
P non è una probabilità uniforme. P si chiama probabilità binomiale.
3
Infatti, sia In = {1, 2, . . . , n} e Cn,k l’insieme delle combinazioni di k elementi di In . Allora ogni
combinazione, ossia ogni sottoinsieme di cardinalità k di In , identifica k estrazioni delle n, e viceversa.
Per esempio, se n = 4 e k = 2, il sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a
estrazione, e viceversa.
13
VARIABILI ALEATORIE
INTRODUZIONE GENERALE
1 Introduzione
In questo capitolo studiamo una delle nozioni più importanti del Calcolo delle probabilità,
ossia la nozione di variabile aleatoria. Per introdurla, procediamo come per la nozione di
evento, quindi diamo prima una definizione come affermazione e successivamente fornia-
mo la corrispondente rappresentazione matematica all’interno del modello probabilistico
dell’esperimento aleatorio. È utile richiamare quanto già visto riguardo la nozione di
evento.
Definizione 1.1. Un evento è un’ affermazione riguardante l’ipotetico risultato dell’e-

sperimento aleatorio, di cui è possibile dire con certezza se è vera oppure falsa una volta
noto l’esito dell’esperimento aleatorio.
Gli esiti per cui un evento è vero si chiamano casi favorevoli (per l’evento in questione).
Un evento viene solitamente indicato con una lettera maiuscola dell’alfabeto. Spesso si
utilizzano le prime lettere dell’alfabeto: A, B, C, . . .
Definizione 1.2. Ogni evento (inteso come affermazione) è rappresentato dal sottoin-
sieme di Ω costituito dai casi favorevoli, ovvero dagli esiti per cui l’evento è vero (è
rappresentato dall’insieme vuoto ∅ se è sempre falso).
Un qualunque sottoinsieme di Ω lo chiameremo ancora evento.
Veniamo dunque alla nozione di variabile aleatoria.
Definizione 1.3. Una variabile aleatoria (anche detta numero aleatorio oppure,
in forma abbreviata, v.a.) è un’ affermazione riguardante l’ipotetico risultato dell’esperi-
mento aleatorio. Tale affermazione identifica uno e un solo numero reale una volta noto
l’esito dell’esperimento aleatorio.
Osservazione. In altre parole, mentre per un evento ha senso domandarsi “è vero
oppure no?”, per una variabile aleatoria ha senso chiedersi “quanto vale?”.
Una variabile aleatoria viene solitamente indicata con una lettera maiuscola dell’alfabeto.
Spesso si utilizzano le ultime lettere dell’alfabeto: . . . X, Y , Z.
2
Definizione 1.4. Ogni variabile aleatoria (intesa come affermazione) è rappresentata
dalla funzione da Ω in R il cui valore numerico, in corrispondenza di un qualunque esito
dell’esperimento aleatorio, coincide con quanto fornito dall’affermazione.
Una qualunquea funzione da Ω in R la chiameremo ancora variabile aleatoria.
a
Anche se noi non considereremo questa eventualità, ricordiamo che a volte è necessario definire la
probabilità P solamente su una sotto-famiglia F di sottoinsiemi di Ω (anziché su tutto l’insieme delle
parti P(Ω)). Si veda a tal proposito la nota 9 del primo Capitolo. In questo caso, non tutte le funzioni
da Ω in R sono variabili aleatorie, ma solo le funzioni X : Ω → R che verificano la proprietà che ora
enunciamo. Sia I un intervallo di R, quindi I è uguale ad uno dei seguenti insiemi:
[a, b], [a, b), (a, b], (a, b), (−∞, b], (−∞, b), [a, +∞), (a, +∞).
Allora la funzione X : Ω → R è una variabile aleatoria se vale che

ω ∈ Ω : X(ω) ∈ I ∈ F
per ogni intervallo I di R. Se X verifica questa proprietà si dice che è una funzione F-misurabile. Nel
nostro caso, essendo F = P(Ω), questa proprietà è automaticamente verificata.
Osservazione. Il termine “variabile aleatoria” lo useremo dunque indistintamente per

indicare sia l’ affermazione che la funzione. Questo non crea ambiguità, dato che la funzio-
ne rappresenta appunto l’affermazione. Per tale ragione, nel seguito indicheremo entrambi
con lo stesso simbolo (tipicamente una lettera maiuscola dell’alfabeto), come accade nel-
l’esempio seguente in cui le lettere maiuscole X, Y , Z indicano sia l’affermazione che la
funzione.
Esempio 1.1. Si lanciano due dadi. Consideriamo le variabili aleatorie
X = “somma dei due risultati”,

Y = “prodotto dei due risultati”,
Z = “risultato del lancio del primo dado”.
Uno spazio campionario naturale per questo esperimento aleatorio è l’insieme
Ω = {1, 2, 3, 4, 5, 6}2 = (1, 1), (1, 2), (1, 3), . . . , (4, 6), (5, 6), (6, 6) .

Dunque le variabili aleatorie X, Y , Z sono rappresentate rispettivamente dalle funzioni

X : Ω → R, Y : Ω → R, Z : Ω → R date daa
X(ω1 , ω2 ) = ω1 + ω2 , ∀ (ω1 , ω2 ) ∈ Ω,
Y (ω1 , ω2 ) = ω1 · ω2 , ∀ (ω1 , ω2 ) ∈ Ω,
Z(ω1 , ω2 ) = ω1 , ∀ (ω1 , ω2 ) ∈ Ω.
a
Si noti che in questo caso il generico elemento ω dello spazio campionario Ω è dato da una coppia
ordinata ω = (ω1 , ω2 ).
3
Variabili aleatorie costanti. Una variabile aleatoria X si dice costante se assume
sempre lo stesso valore numerico qualunque sia l’esito dell’esperimento aleatorio. In tal
caso, se indichiamo con a il valore numerico assunto dalla variabile aleatoria, allora X è
la seguente funzione:
X(ω) = a, ∀ ω ∈ Ω.
Nel seguito indicheremo la variabile aleatoria X semplicemente con a, ovvero a denoterà
sia una costante sia una variabile aleatoria (la variabile aleatoria costante uguale ad a
stessa).
Variabili aleatorie indicatrici. Un caso particolarmente interessante di variabile

aleatoria è quello di variabile aleatoria indicatrice. Più precisamente, dato un qualunque
evento A ⊂ Ω possiamo associare ad esso la variabile aleatoria seguente:
X = “vale 1 se A si verifica, vale 0 altrimenti”.
Dunque X è rappresentata dalla funzione X : Ω → R data da

(
1, se ω ∈ A,
X(ω) =
0, se ω ∈
/ A.
Nel seguito indicheremo tale funzione con il simbolo 1A , ovvero
X(ω) = 1A (ω), ∀ ω ∈ Ω.
Osservazione. Dato che 1A contiene tutta l’informazione riguardante l’evento A (infatti

se conosciamo il valore di 1A sappiamo se A si è verificato oppure no), possiamo affermare
che la nozione di variabile aleatoria è una “generalizzazione” della nozione di evento.
2 Distribuzione o legge di una variabile aleatoria

2.1 Eventi associati ad una variabile aleatoria
Abbiamo visto che ad ogni evento A è possibile associare una variabile aleatoria, ovvero
X = 1A , la variabile aleatoria indicatrice relativa all’evento A. Sia ora X una generica
variabile aleatoria. Quali sono gli eventi “associati” ad X? Intuitivamente, gli eventi
associati ad X sono tutti e soli gli eventi di cui è possibile dire con certezza se sono veri
oppure falsi una volta noto il valore che la variabile aleatoria X ha assunto. Vediamo ora
di descriverli in termini matematici. A tal proposito, è utile il seguente esempio.
4
Esempio 2.1. Si lanciano due dadi. Consideriamo la variabile aleatoria
X = “somma dei due risultati”
Intuitivamente, gli eventi associati ad X sono tutti e soli gli eventi riguardanti la somma
dei due risultati. Ad esempio:
E1 = “la somma è uguale a 3”,

E2 = “la somma è ≤ 5”,
E3 = “la somma è un numero pari”.
Notiamo che tali eventi possono essere scritti nel modo seguente:
E1 = {ω ∈ Ω : X(ω) = 3},
E2 = {ω ∈ Ω : X(ω) ≤ 5},
E3 = {ω ∈ Ω : X(ω) ∈ {2, 4, 6, 8, 10, 12}}.
Anche E1 ed E2 possono essere scritti nella stessa forma di E3 , infatti:
E1 = {ω ∈ Ω : X(ω) ∈ {3}},
E2 = {ω ∈ Ω : X(ω) ∈ (−∞, 5]}.
Si noti che E2 può anche essere scritto come segue (se teniamo conto che in questo esempio
specifico la v.a. X assume solo i valori interi 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12):
E2 = {ω ∈ Ω : X(ω) ∈ {2, 3, 4, 5}}.
In conclusione, esistono tre sottoinsiemi B1 , B2 , B3 dell’insieme dei numeri reali R tali

che
E1 = {ω ∈ Ω : X(ω) ∈ B1 },
E2 = {ω ∈ Ω : X(ω) ∈ B2 },
E3 = {ω ∈ Ω : X(ω) ∈ B3 }.
Diamo dunque la definizione di evento associato ad (o generato da) una variabile aleatoria.
5
Definizione 2.1. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleato-
ria. Si dice che E ⊂ Ω è un evento associato ad (o generato da) X se esiste un
sottoinsieme B dell’insieme dei numeri reali R tale che
E = {ω ∈ Ω : X(ω) ∈ B}
= “sottoinsieme di Ω costituito da tutti e soli gli esiti ω per cui X(ω) ∈ B”.
Viceversa, dato un qualunque B ⊂ R, il sottoinsieme di Ω dato da
{ω ∈ Ω : X(ω) ∈ B}
si chiama evento associato ad (o generato da) X.

Per brevità, indicheremo il sottoinsieme
{ω ∈ Ω : X(ω) ∈ B}
nel modo seguente:

{X ∈ B}.
Osservazione 1. Se B = ∅ oppure B = R, otteniamo
{X ∈ ∅} = ∅, {X ∈ R} = Ω.
Osservazione 2. Spesso l’insieme B sarà un intervallo (o, più in un generale, un’unione

di intervalli). Si noti che anche un insieme contenente un unico numero reale è un
intervallo (si chiama intervallo degenere, in cui gli estremi coincidono). In questi casi,
scriveremo:
{X ∈ {x}} = {X = x}
{X ∈ (−∞, x)} = {X < x}
{X ∈ (−∞, x]} = {X ≤ x}
{X ∈ (x, +∞)} = {X > x}
{X ∈ [x, +∞)} = {X ≥ x}
{X ∈ (x, y)} = {x < X < y}
{X ∈ [x, y)} = {x ≤ X < y}
{X ∈ (x, y]} = {x < X ≤ y}
{X ∈ [x, y]} = {x ≤ X ≤ y}
Osservazione 3. La probabilità di un evento generato da X, quindi
P({X ∈ B}),
verrà scritta, per semplicità di notazione,
P(X ∈ B).
6
Esempio 2.2. Siano (Ω, P) uno spazio di probabilità, a un numero reale ed A un evento.
Determinare gli eventi generati dalle seguenti variabili aleatorie:
1) X(ω) = a, ∀ ω ∈ Ω;
2) X = 1A .
Soluzione.
1) Sia B un sottoinsieme di R. Distinguiamo due casi:
• se a ∈ B allora {X ∈ B} = Ω;
• se a ∈
/ B allora {X ∈ B} = ∅.
Quindi (
Ω, se a ∈ B,
{X ∈ B} =
∅, se a ∈
/ B.
2) Sia B un sottoinsieme di R. Distinguiamo quattro casi:
• se 1 ∈ B e 0 ∈
/ B allora {X ∈ B} = A;
/ B e 0 ∈ B allora {X ∈ B} = Ac ;
• se 1 ∈
• se 1 ∈ B e 0 ∈ B allora {X ∈ B} = Ω;
• se 1 ∈
/B e0∈
/ B allora {X ∈ B} = ∅.
Quindi 
A,
 se 1∈B e 0∈/ B,
Ac ,

se 1∈
/B e 0 ∈ B,
{X ∈ B} =


 Ω, se 1∈B e 0 ∈ B,
∅, 1∈ 0∈

se /B e / B.

Esercizio 2.1. Siano (Ω, P) uno spazio di probabilità, X una variabile aleatoria e x un
numero reale. Mostrare che
P(X ≤ x) = P(X < x) + P(X = x).
Soluzione. Notiamo che
{X ≤ x} = {X < x} ∪ {X = x}.
Dato che gli insiemi
{X < x} = {ω ∈ Ω : X(ω) < x}

{X = x} = {ω ∈ Ω : X(ω) = x}
7
sono disgiunti (infatti non esiste alcun ω per cui valgono simultaneamente X(ω) < x e
X(ω) = x), per l’additività della probabilità si ottiene
P(X ≤ x) = P(X < x) + P(X = x).

2.2 Distribuzione o legge di una variabile aleatoria

Ad ogni variabile aleatoria X è associato un oggetto di fondamentale importanza, la
distribuzione o legge di X, che verrà indicata con PX . Essa è una probabilità su R.
Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
Si chiama distribuzione o legge di X la probabilitàa
PX : P(R) → [0, 1]
definita da
PX (B) = P(X ∈ B), ∀ B ⊂ R.
Per dire che X ha distribuzione o legge PX scriveremo
X ∼ PX .
a
Ricordiamo che P(R) è l’insieme delle parti di R.
Osservazione. Si noti che andrebbe verificato che PX è effettivamente una probabilità,

ovvero che PX verifica gli Assiomi I-II-III.
Variabili aleatorie costanti e delta di Dirac. Sia X la variabile aleatoria costante

data da:
X(ω) = a, ∀ ω ∈ Ω,
dove a è un numero reale fissato. Possiamo calcolare esplicitamente la distribuzione di X,
infatti, per ogni B ⊂ R,
( (
P(Ω), se a ∈ B, 1, se a ∈ B,
PX (B) = P(X ∈ B) = =
P(∅), se a ∈/ B, 0, se a ∈/ B.
Notiamo che PX coincide con δa , la delta di Dirac in a.
Variabili aleatorie indicatrici. Siano A un evento e X = 1A , la variabile aleatoria

indicatrice relativa all’evento A. Anche in questo caso possiamo calcolare in maniera
esplicita la distribuzione di X. Infatti, per ogni B ⊂ R,


 A, se 1 ∈ B e 0 ∈ / B,
Ac , se 1 ∈

/ B e 0 ∈ B,
{X ∈ B} =


 Ω, se 1 ∈ B e 0 ∈ B,
∅, se 1 ∈
/B e0∈

/ B.
8
Quindi 

 P(A), se 1∈B e 0∈/ B,
P(Ac ),

se 1∈
/B e 0 ∈ B,
PX (B) = P(X ∈ B) =


 P(Ω), se 1∈B e 0 ∈ B,
1∈ 0∈

P(∅), se /B e / B.
Dato che P(Ac ) = 1 − P(A), P(Ω) = 1 e P(∅) = 0, si ottiene


 P(A), se 1∈B e 0∈/ B,

1 − P(A), se 1∈
/B e 0 ∈ B,
PX (B) =
1,

 se 1∈B e 0 ∈ B,
1∈ 0∈

0, se /B e / B.
In altri termini, si ha che PX coincide con la seguente combinazione convessa di δ0 e δ1 :

(1 − P(A)) δ0 + P(A) δ1 . Quindi
X ∼ (1 − P(A)) δ0 + P(A) δ1 .
Infatti, per ogni B ⊂ R,



 P(A), se 1∈B e 0∈/ B,

1 − P(A), se 1∈
/B e 0 ∈ B,
(1 − P(A)) δ0 (B) + P(A) δ1 (B) =


 1, se 1∈B e 0 ∈ B,
1∈ 0∈

0, se /B e / B.
Questo dimostra che PX = (1−P(A)) δ0 +P(A) δ1 . Tale probabilità si chiama distribuzione

di Bernoulli di parametro P(A).
2.3 Funzione di ripartizione o CDF

La distribuzione di una variabile aleatoria X contiene tutte le informazioni essenziali ri-
guardanti X stessa. Tuttavia PX è un oggetto piuttosto complicato, infatti è una funzione
PX : P(R) → [0, 1]. Ciò nonostante, grazie al fatto che PX è una probabilità sui sottoin-
siemi dell’insieme dei numeri reali R, è possibile caratterizzare PX in modo più semplice.
Infatti si può dimostrare che se si conosce il valore di PX sugli intervalli di R allora si
può ricavare il valore che PX assume in corrispondenza di qualunque altro sottoinsieme
B ⊂ R. Più precisamente, è sufficiente considerare una particolare famiglia di intervalli
di R, ovvero quelli della forma
(−∞, x], per ogni x ∈ R.
In altre parole, si può dimostrare che se si conosce il valore di PX in corrispondenza di

ciascun intervallo1 (−∞, x] allora è possibile ricavare tutti i valori di probabilità PX (B),
1
Tale risultato vale anche se al posto della classe di intervalli (−∞, x] si considera un’altra classe di
intervalli, ad esempio quelli della forma (−∞, x) oppure [x, +∞) oppure (x, +∞) oppure [x, y] e cosı̀ via.
9
per ogni B ⊂ R. In conclusione, conoscere PX (B), per ogni B ⊂ R, è equivalente a
conoscere PX ((−∞, x]), per ogni x ∈ R. Poniamo
FX (x) := PX ((−∞, x]), ∀ x ∈ R.
Possiamo dunque affermare che conoscere la funzione FX è equivalente a conoscere PX .

La funzione FX si chiama funzione di ripartizione o funzione di distribuzione cumulativa
o CDF 2 .
Definizione 2.3. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
Si chiama funzione di ripartizione o funzione di distribuzione cumulativa o
CDF di X la funzione
FX : R → [0, 1]
definita da
FX (x) = P(X ≤ x) = PX ((−∞, x]), ∀ x ∈ R.
Per dire che X ha funzione di ripartizione FX scriveremo
X ∼ FX .
Osservazione. Come già osservato precedentemente, FX determina completamente la

distribuzione di X:
• se conosco PX allora conosco FX (questo segue direttamente dalla definizione di

FX ),
• ma vale anche il viceversa, cioè se conosco FX allora conosco PX (B) per ogni
sottoinsieme B di R (omettiamo la dimostrazione di questo risultato).
Variabili aleatorie costanti. Sia a un numero reale e X la variabile aleatoria costante

uguale ad a. Allora (
0, x < a,
FX (x) =
1, x ≥ a.
Variabili aleatorie indicatrici. Sia A un evento e X = 1A . Allora


0,
 x < 0,
FX (x) = 1 − P(A), 0 ≤ x < 1,

1, x ≥ 1.

Come affermato nel seguente teorema, la funzione di ripartizione verifica certe proprietà
che sono caratterizzanti, ovvero se una funzione verifica queste proprietà allora è neces-
sariamente la funzione di ripartizione di una qualche variabile aleatoria.
2
Dall’inglese cumulative distribution function (funzione di distribuzione cumulativa).
10
Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
La funzione di ripartizione FX di X verifica le seguenti proprietà:
1) FX è monotona crescente (non necessariamente strettamente).
2) FX è continua a destra: limy→x+ FX (y) = FX (x) per ogni x ∈ R.
3) limx→−∞ FX (x) = 0.
4) limx→+∞ FX (x) = 1.
Viceversa, se una funzione G : R → [0, 1] verifica le proprietà 1)-2)-3)-4) allora esistono

uno spazio di probabilità (Ω, P) ed una variabile aleatoria X tale che G = FX .
Dimostrazione. Dimostriamo rigorosamente solo la proprietà 1). Siano x ≤ y, dobbiamo

mostrare che
FX (x) ≤ FX (y).
Si ha che
{X≤x}⊂{X≤y}
FX (x) = P(X ≤ x) ≤ P(X ≤ y) = FX (y).
↑
monotonia di P
Per quanto riguarda la proprietà 2), intuitivamente abbiamo che
lim FX (y) = lim P(X ≤ y) = P(X ≤ x).

y→x+ y→x+
Infine, per quanto riguarda le proprietà 3) e 4), intuitivamente abbiamo che
lim FX (x) = lim P(X ≤ x) = P(X ≤ −∞) = 0

x→−∞ x→−∞
e, analogamente,
lim FX (x) = lim P(X ≤ x) = P(X < +∞) = 1.

x→+∞ x→+∞

N.B. Per la proprietà 2) del Teorema 2.1, per ogni x ∈ R il limite da destra di FX in x
esiste ed è pari a
lim FX (y) = FX (x) = P(X ≤ x).
y→x+
Si può dimostrare che anche il limite da sinistra di FX in x esiste sempre ed è dato da
lim FX (y) = P(X < x).

y→x−
Nel seguito indicheremo limy→x− FX (y) con FX (x−). Quindi
FX (x−) = P(X < x).
Osservazione. La funzione FX è continua in x se e solo se
lim FX (y) = lim FX (y),

y→x− y→x+
11
ovvero
FX (x−) = FX (x).
Poiché FX (x−) = P(X < x) e FX (x) = P(X ≤ x), segue che FX è continua in x se e
solo se
P(X < x) = P(X ≤ x)
ovvero (ricordando la formula P(X ≤ x) = P(X < x) + P(X = x) dell’Esercizio 2.1)
P(X = x) = 0.
Grazie all’osservazione precedente, abbiamo il seguente risultato che permette di esprimere

in termini di FX la probabilità che X appartenga ad un certo intervallo (eventualmente
degenere, quindi dato da un punto).
Teorema 2.2 (Probabilità di intervalli in termini di FX ).

Valgono le seguenti uguaglianze:
P(X = x) = P(X ≤ x) − P(X < x) = FX (x) − FX (x−)

P(x < X ≤ y) = P(X ≤ y) − P(X ≤ x) = FX (y) − FX (x)
P(x ≤ X ≤ y) = P(X ≤ y) − P(X < x) = FX (y) − FX (x−)
P(x ≤ X < y) = P(X < y) − P(X < x) = FX (y−) − FX (x−)
P(x < X < y) = P(X < y) − P(X ≤ x) = FX (y−) − FX (x)
12
VARIABILI ALEATORIE
DISCRETE
1 Introduzione
In questo capitolo studiamo una particolare classe di variabili aleatorie, le variabili alea-
torie discrete. In breve, una variabile aleatoria si dice discreta se assume un numero finito
(o al più un’infinità numerabile) di valori. Prima di dare la definizione vera e propria di
variabile aleatoria discreta, è necessario introdurre la nozione di densità discreta.
Definizione 1.1. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. La
funzione pX : R → [0, 1], data da
pX (x) = P(X = x), ∀ x ∈ R,
si chiama densità discreta o funzione di massa di probabilità o PMFa di X.

a
Dall’inglese probability mass function.
Si noti che pX (x) è la probabilità che la variabile aleatoria X assuma il valore x. Per tale
ragione, pX (x) verifica necessariamente le disuguaglianze
0 ≤ pX (x) ≤ 1, ∀ x ∈ R.
La definizione di variabile aleatoria discreta fa intervenire la funzione pX .
Definizione 1.2. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Si dice
che X è una variabile aleatoria discreta (in breve v.a.d.) se esiste un sottoinsieme
SX di R, finito o al più infinito numerabile, quindi
SX = {x1 , . . . , xn } oppure SX = {x1 , . . . , xi , . . .},
tale chea X
pX (xi ) > 0 e pX (xi ) = 1. (1.1)
i
L’insieme SX si chiama supporto di X.

a
P
i pX (xi ) = 1 è una scrittura abbreviata per
n
X
pX (xi ) = 1 (caso in cui SX è finito)
i=1
+∞
X
pX (xi ) = 1 (caso in cui SX è infinito numerabile)
i=1
Osservazione 1. La (1.1) equivale a dire che la variabile aleatoria X assume con pro-
babilità positiva tutti e soli i valori in SX . In particolare, X assume il valore xi con
probabilità pX (xi ) > 0.
2
Tabella della densità discreta. Nel caso in cui SX sia un insieme finito, quindi
SX = {x1 , . . . , xn },
si riportano i valori di pX in una tabella 1 :
X x1 x2 ··· xn
(1.2)
pX pX (x1 ) pX (x2 ) ··· pX (xn )
Esercizio 1.1. Si lanciano due dadi. Sia
X = “minimo tra i due risultati”
Mostrare che X è discreta e determinare pX .
Osservazione. Quando si chiede di determinare la densità discreta pX , è sufficiente

fornire i valori di pX per x ∈ SX . In particolare, se SX è finito, è sufficiente fornire la
tabella (1.2) della densità discreta.
Soluzione dell’Esercizio 1.1. Sappiamo che uno spazio di probabilità (Ω, P) che
descrive questo esperimento aleatorio è
Ω = (1, 1), (1, 2), (1, 3), . . . , (5, 6), (6, 6) = {1, 2, 3, 4, 5, 6}2

e P probabilità uniforme, quindi

1
P({(ω1 , ω2 )}) = , ∀ (ω1 , ω2 ) ∈ Ω.
36
La variabile aleatoria X è dunque rappresentata dalla funzione X : Ω → R data da
X(ω1 , ω2 ) = min(ω1 , ω2 ), ∀ (ω1 , ω2 ) ∈ Ω,
dove min(ω1 , ω2 ) è il valore minimo tra ω1 e ω2 . Ad esempio
X(1, 1) = min(1, 1) = 1,
X(1, 2) = min(1, 2) = 1,
X(1, 3) = min(1, 3) = 1,
..
.
X(5, 6) = min(5, 6) = 5,
X(6, 6) = min(6, 6) = 6.
Determiniamo la densità discreta di X. Dalla definizione di pX , abbiamo che
pX (x) = P(X = x).

1
In genere nella tabella si riportano solo i valori di pX per x ∈ SX . Tuttavia, come vedremo, ci sono
alcuni casi in cui risulta naturale riportare anche il valore di pX in corrispondenza di qualche x ∈/ SX
(per tali x risulta chiaramente pX (x) = 0).
3
L’evento {X = x} è dato da
{X = x} = {(ω1 , ω2 ) ∈ Ω : X(ω1 , ω2 ) = x} = {(ω1 , ω2 ) ∈ Ω : min(ω1 , ω2 ) = x}.
Quindi, se x ∈
/ {1, 2, 3, 4, 5, 6} è chiaro che
{X = x} = ∅ =⇒ pX (x) = P(∅) = 0.
Al contrario, se x ∈ {1, 2, 3, 4, 5, 6} si ha:

{X = 1} = (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6) ,

{X = 2} = (2, 2), (2, 3), (2, 4), (2, 5), (2, 6) ,

{X = 3} = (3, 3), (3, 4), (3, 5), (3, 6) ,

{X = 4} = (4, 4), (4, 5), (4, 6) ,

{X = 5} = (5, 5), (5, 6) ,

{X = 6} = (6, 6)
Quindi
6 1
pX (1) = = ,
36 6
5
pX (2) = ,
36
4 1
pX (3) = = ,
36 9
3 1
pX (4) = = ,
36 12
2 1
pX (5) = = ,
36 18
1
pX (6) = .
36
In conclusione, X è una variabile aleatoria discreta2 con supporto SX = {1, 2, 3, 4, 5, 6} e
densità discreta data da
X 1 2 3 4 5 6
pX 16 36 5 1
9
1
12
1
18
1
36

Variabili aleatorie costanti. Sia a un numero reale e X la variabile aleatoria costante

uguale ad a. Allora X è una variabile aleatoria discreta con supporto SX = {a} e densità
discreta
X a
pX 1
2
P6
Infatti pX (1) >0, . . ., pX (6) > 0 e i=1 pX (i) = 1.
4
Variabili aleatorie indicatrici. Sia A un evento e X = 1A la variabile aleatoria
indicatrice relativa all’evento A. Allora X è una variabile aleatoria discreta con supporto
SX = {0, 1} e densità discreta
X 0 1
pX 1 − P(A) P(A)
2 Caratterizzazione delle variabili aleatorie discrete

Sia X una variabile aleatoria discreta. Che relazione esiste tra pX e la distribuzione di
X, che abbiamo indicato con PX ? Che relazione c’è invece tra pX e FX , la funzione di
ripartizione di X? Le risposte a queste domande sono fornite dal seguente teorema.
Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Le seguenti
affermazioni sono equivalenti tra loro:
1) X è una variabile aleatoria discreta (con densità discreta pX e supporto SX =

{x1 , x2 , . . .}, finito o al più infinito numerabile).
2) FX è una funzione costante a tratti: FX è una funzione costante tranne nei punti
x1 , x2 , . . . di SX , in cui FX salta (verso l’alto) con ampiezza del salto pari a
FX (xi ) − FX (xi −) = pX (xi ).
Quindi FX è data dalla seguente formula:

X
FX (x) = pX (xi ), ∀ x ∈ R. (2.1)
xi ≤x
3) PX , la distribuzione di X, è concentrata nei punti x1 , x2 , . . . di SX :

X
PX = pX (xi ) δxi ,
i
dove δxi è la delta di Dirac in xi .
Infine, vale la formula

X
P(X ∈ B) = pX (xi ), ∀ B ⊂ R. (2.2)
xi ∈B
Non riportiamo la dimostrazione del Teorema 2.1. Notiamo solamente che la formula (2.1),
la quale fornisce il valore della funzione di ripartizione in x ∈ R, è un caso particolare
della formula (2.2), ricordando che per definizione di FX si ha
FX (x) = P(X ≤ x) = P(X ∈ (−∞, x]), ∀ x ∈ R.
5
Esercizio 2.1. Sia G : R → [0, 1] una
 funzione data da

 0, x < 0,

1/2, 0 ≤ x < 1,



G(x) = 2/3, 1 ≤ x < 2,

11/12, 2 ≤ x < 3,





1, x ≥ 3.
(a) Mostrare che G è una funzione di ripartizione.
Sia dunque X una variabile aleatoria con funzione di ripartizione FX = G.
(b) Mostrare che X è discreta. Determinare supporto e densità discreta di X.
(c) Trovare PX , la distribuzione di X.
(d) Calcolare P(X > 1/2), P(2 < X ≤ 4), P(1 < X < 2), P(X < 3).
(e) Mostrare che Y = (X − 2)2 è una variabile aleatoria discreta. Determinare SY e pY .
Soluzione.
(a) G è una funzione di ripartizione, infatti G verifica le seguenti proprietà:
1) G è monotona crescente.
2) G è continua a destra.
3) limx→−∞ G(x) = 0.
4) limx→+∞ G(x) = 1.
(b) Dato che G è costante a tratti, segue direttamente dal Teorema 2.1 che X è una
variabile aleatoria discreta. Inoltre, dal Teorema 2.1 sappiamo che i punti di salto
di G sono gli elementi del supporto SX di X, mentre l’ampiezza di ogni salto è la
probabilità che X assuma quel valore. Perciò, SX = {0, 1, 2, 3} e
X 0 1 2 3
pX 1/2 1/6 1/4 1/12
(c) Dal Teorema 2.1 si ha che

X 1 1 1 1
PX = pX (xi ) δxi = δ0 + δ1 + δ2 + δ3 .
i
2 6 4 12
(d) Per la formula (2.2) si ha che:

X 1
P(X > 1/2) = pX (xi ) = pX (1) + pX (2) + pX (3) = 1 − pX (0) =
2
xi >1/2
6
X 1
P(2 < X ≤ 4) = pX (xi ) = pX (3) =
2<xi ≤4
12
X
P(1 < X < 2) = pX (xi ) = 0,
1<xi <2
X 11
P(X < 3) = pX (xi ) = pX (0) + pX (1) + pX (2) = 1 − pX (3) = .
xi <3
12
Un modo alternativo per calcolare queste probabilità è tramite la funzione di riparti-

zione:
1
P(X > 1/2) = 1 − P(X ≤ 1/2) = 1 − FX (1/2) = ,
2
1
P(2 < X ≤ 4) = FX (4) − FX (2) = ,
12
P(1 < X < 2) = FX (2−) − FX (1) = 0,
11
P(X < 3) = FX (3−) = .
12
(e) Determiniamo pY . Dato che pY (y) = P(Y = y), iniziamo col determinare l’evento
{Y = y} al variare di y ∈ R:
{Y = y} = {(X − 2)2 = y}.
Dato che SX = {0, 1, 2, 3}, è chiaro che (X − 2)2 può essere uguale solo a 0, 1, 4. In
particolare, si ha che
{Y = 0} = {X = 2},
{Y = 1} = {X = 1} ∪ {X = 3},
{Y = 4} = {X = 0}.
Perciò
1
pY (0) = pX (2) = ,
4
1
pY (1) = pX (1) + pX (3) = ,
4
1
pY (4) = pX (0) =
2
In conclusione, Y è una variabile aleatoria discreta con supporto SY = {0, 1, 4} e
densità discreta data da
Y 0 1 4
pY 1/4 1/4 1/2
7
3 Indici di sintesi di una distribuzione: µ e σ 2
La distribuzione o legge di una variabile aleatoria può essere descritta in maniera sintetica
tramite due quantità numeriche, la media (o valore atteso) e la varianza.
La media è un indice di posizione, ovvero indica qual è il valore “centrale” del-
la distribuzione. Essa è una generalizzazione della media aritmetica di n numeri reali
x1 , . . . , x n :
x1 + · · · + xn
µAritm = .
n
In questa formula tutti i numeri xi hanno lo stesso “peso” pari a n1 , mentre la media che
andremo a definire sarà una media pesata (con le probabilità degli xi ).
La varianza è un indice di dispersione, ossia dice quanto la distribuzione si con-
centra attorno alla media. È una generalizzazione della media aritmetica delle distanze
al quadrato degli xi da µ:
(x1 − µ)2 + · · · + (xn − µ)2
.
n
3.1 Media o valore atteso
Definizione 3.1. Sia X una variabile aleatoria discreta con supporto SX = {x1 , x2 , . . .}.
La media (o valore atteso) di X è data daa
X
E[X] = xi pX (xi ).
i
La media si indica anche con µ oppure µX .

a
Il simbolo E deriva dall’inglese expected value (valore atteso). Segnaliamo inoltre che è ormai di uso
comune l’utilizzo delle parentesi quadre anziché tonde nell’espressione E[X].
Esercizio 3.1.
1) Sia a ∈ R una costante. Mostrare che E[a] = a.
2) Sia A un evento. Mostrare che E[1A ] = P(A).
Soluzione.
1) Ricordiamo che a denota ovviamente una costante, ma anche una variabile aleatoria
(la variabile aleatoria costante uguale ad a stessa). Come variabile aleatoria, sappiamo
che è una variabile aleatoria discreta con supporto Sa = {a} e densità discreta pa che
verifica
pa (a) = 1.
Quindi, dalla definizione di valore atteso, otteniamo
E[a] = a pa (a) = a.
8
2) Ricordiamo che la variabile aleatoria 1A è una variabile aleatoria discreta con supporto
S1A = {0, 1} e densità discreta
1A 0 1
p1 A 1 − P(A) P(A)
Dalla definizione di valore atteso, si ha dunque che
E[1A ] = 0 · p1A (0) + 1 · p1A (1) = p1A (1) = P(A).

Nel seguito capiterà spesso di dover calcolare il valore atteso di una funzione di X:
Y = h(X).
Risulta dunque particolarmente utile il seguente risultato.
Teorema 3.1. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. Inoltre, siano h : R → R e Y = h(X). Allora
X
E[Y ] = E[h(X)] = h(xi ) pX (xi ).
i
Dimostrazione. Supponiamo per semplicità che SX sia finito, quindi SX = {x1 , . . . , xn }.

Segue allora che anche il supporto di Y , indicato con SY , è finito. Si noti infatti che

SY = y ∈ R : y = h(xi ) per qualche xi ∈ SX .
Perciò SY = {y1 , . . . , ym } e, necessariamente, m ≤ n. Per ogni j = 1, . . . , m, poniamo

Syj := x ∈ SX : h(x) = yj .
Si noti che gli insiemi Sy1 , . . . , Sym sono disgiunti e la loro unione è uguale a SX , ossia
Sy1 , . . . , Sym sono una partizione di SX .
Possiamo dunque scrivere E[Y ] come segue, partendo dalla sua definizione, (nelle
tre uguaglianze intermedie sono evidenziate in blu le differenze rispetto alla formula
precedente)
m
X m
X X m
X X
E[Y ] = yj pY (yj ) = yj pX (xi ) = yj pX (xi )
j=1 j=1 i=1,...,n j=1 i=1,...,n
h(xi )=yj xi ∈Syj
m X
X m X
X n
X
= yj pX (xi ) = h(xi ) pX (xi ) = h(xi ) pX (xi ),
j=1 i=1,...,n j=1 i=1,...,n i=1
xi ∈Syj xi ∈Syj
dove l’ultima uguaglianza segue dal fatto che Sy1 , . . . , Sym sono una partizione di SX ,
quindi ogni xi compare in una e una sola sommatoria interna.
9
Un’importante proprietà del valore atteso è la linearità.
Teorema 3.2 (Linearità del valore atteso). Sia X una variabile aleatoria discreta.
Inoltre, siano h : R → R, g : R → R e a, b ∈ R costanti. Allora
E[a X + b] = a E[X] + b (3.1)
e, più in generale,
E[a h(X) + b g(X)] = a E[h(X)] + b E[g(X)]. (3.2)
Dimostrazione. Dimostriamo la formula (3.1), dato che la formula (3.2) si dimostra in

modo analogo. Tale formula si dimostra applicando il Teorema 3.1 con Y = h(X), dove
h(x) = a x + b, ∀ x ∈ R.
Dal Teorema 3.1 si ha che
X X X
E[a X + b] = (a xi + b) pX (xi ) = a xi pX (xi ) + b pX (xi ).
i i i
P P
Dato che i xi pX (xi ) = E[X] e i pX (xi ) = 1, si ottiene la formula (3.1).
3.2 Varianza
Definizione 3.2. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. La varianza di X è data da
X
Var(X) = E[(X − E[X])2 ] = (xi − E[X])2 pX (xi ).
i
La varianza si indica anche con σ 2 oppure σX

2
.
La radice quadrata della varianza si chiama deviazione standard (o scarto
quadratico medio) e si indica con σ oppure σX .
Osservazione 1. Se X è una grandezza fisica espressa in una certa unità di misura,

allora la deviazione standard ha il vantaggio, a differenza della varianza, di essere espressa
nella stessa unità di misura di X (la varianza ha invece come unità di misura il quadrato
dell’unità di misura di X).
Per calcolare la varianza di una variabile aleatoria è utile la seguente formula.
Teorema 3.3. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. Vale che
X
Var(X) = E[X 2 ] − E[X]2 = x2i pX (xi ) − E[X]2 . (3.3)
i
10
Dimostrazione. Dimostriamo la prima uguaglianza, dato che la seconda è una conse-
guenza del Teorema 3.1.
Si ha che
Var(X) = E (X − E[X])2 = E X 2 − 2 X E[X] + E[X]2 .

Dalla linearità del valore atteso, si ottiene (si noti che E[X] è una costante)
Var(X) = E[X 2 ] − 2 E[X]2 + E[X]2 = E[X 2 ] − E[X]2 .

A differenza del valore atteso, la varianza non è lineare. Più precisamente, la varianza
possiede le seguenti proprietà.
Teorema 3.4 (Proprietà della varianza). Siano X una variabile aleatoria discreta e
a, b ∈ R costanti. Allora
1) Var(X) ≥ 0.
2) Var(b) = 0 e viceversa: se Var(X) = 0 allora X è una variabile aleatoria costante.
3) Var(aX + b) = a2 Var(X).
Dimostrazione.
1) Per definizione di varianza, si ha che

X
Var(X) = (xi − E[X])2 pX (xi ).
i
Dato che ogni addendo è maggiore o uguale di zero, segue che la somma (ovvero la
varianza di X) è anch’essa maggiore o uguale di zero.
2) Dalla formula (3.3) si ha che
Var(b) = E[b2 ] − E[b]2 .
Ricordando che il valore atteso di una costante è pari alla costante stessa, otteniamo
E[b2 ] − E[b]2 = b2 − b2 = 0.
Quindi Var(b) = 0.
Viceversa, sia X una generica variabile aleatoria discreta, di cui sappiamo che
X
Var(X) = (xi − E[X])2 pX (xi ) = 0.
i
Dato che ogni addendo è maggiore o uguale di zero, la somma è nulla se e solo se
ciascun addendo è nullo. Quindi
(xi − E[X])2 pX (xi ) = 0, ∀ i.
11
Tale prodotto è nullo se e solo se pX (xi ) = 0 oppure (xi − E[X])2 = 0 (che significa
xi =PE[X]). Non è possibile che pX (xi ) = 0 per ogni i, altrimenti non sarebbe vero
che i pX (xi ) = 1. D’altra parte, essendo i valori xi distinti tra loro, esiste solo un i
per cui vale che xi = E[X] (si noti che E[X] è una costante). Quindi il supporto della
variabile aleatoria X è costituito da un unico valore, SX = {E[X]}, da cui segue che
X è la variabile aleatoria costante uguale a E[X].
3) Ricordiamo che vale la formula Var(X) = E[X 2 ]−E[X]2 , la quale vale per una generica
variabile aleatoria, quindi anche per Y = aX + b. Perciò
Var(aX + b) = E[(aX + b)2 ] − E[aX + b]2

= E[a2 X 2 + 2abX + b2 ] − (aE[X] + b)2
= a2 E[X 2 ] + 2abE[X] + b2 − a2 E[X]2 − 2abE[X] − b2
= a2 (E[X 2 ] − E[X]2 ) = a2 Var(X).
4 Distribuzioni discrete notevoli

In questa sezione vediamo le principali distribuzioni discrete.
Distribuzione uniforme discreta. Sia {x1 , . . . , xn } un sottoinsieme finito di R. Di-

ciamo che X ha distribuzione uniforme discreta sull’insieme {x1 , . . . , xn } se X è
una variabile aleatoria discreta con SX = {x1 , . . . , xn } e densità discreta data da
X x1 x2 ··· xn
1 1 1
pX n n
··· n
In tal caso scriviamo

X ∼ Unif ({x1 , . . . , xn }).
Si noti che
x1 + · · · + xn
E[X] = µAritm = ,
n
(x1 − E[X])2 + · · · + (xn − E[X])2
Var(X) = .
n
Distribuzione di Bernoulli. Sia 0 ≤ p ≤ 1. Diciamo che X ha distribuzione di

Bernoulli (o bernoulliana) di parametro p se X è una variabile aleatoria discreta con
SX = {0, 1} e densità discreta data da
X 0 1
pX 1−p p

X ∼ B(p).
12
Le variabili aleatorie di Bernoulli sono tutte e sole variabili aleatorie indicatrici. Infatti
X = 1A , con A = {X = 1}.
Si noti che
E[X] = p,
Var(X) = p(1 − p).
Distribuzione binomiale. Consideriamo ora una generalizzazione della distribuzione

bernoulliana: la distribuzione binomiale. Come abbiamo visto, una v.a. X ha distribu-
zione di Bernoulli se è una v.a. indicatrice di un qualche evento A. In altre parole, se X
vale solamente 1 o 0 a seconda che l’evento A si verifichi oppure no. Immaginiamo ora
di ripetere n volte l’esperimento aleatorio a cui l’evento A si riferisce, in modo tale che i
vari esperimenti siano tra loro “indipendenti”. Per ciascun esperimento consideriamo la
corrispondente v.a. bernoulliana. Abbiamo dunque n variabili aleatorie bernoulliane:
X1 ∼ B(p), X2 ∼ B(p), ... Xn ∼ B(p).
Consideriamo la seguente variabile aleatoria:
X = “no di successi negli n esperimenti”,
dove successo significa che l’evento A si è verificato, quindi X è il numero di volte che A
si è verificato negli n esperimenti. Notiamo che
X = X1 + · · · + Xn .
Vediamo un esempio in cui si verifica questa situazione. Come si vedrà nell’esempio, X

ha una distribuzione particolare che si chiama distribuzione binomiale di parametri n e p.
Esempio 4.1. Si consideri un’urna contenente b palline bianche ed r palline rosse. Si

effettuano n estrazioni con reimmissione. Siaa
X = “no di palline bianche estratte”.
Mostrare che X è una variabile aleatoria discreta e determinarne supporto e densità

discreta.
a
Si noti che X = X1 + · · · + Xn , dove
Xi = “vale 1 se si estrae una pallina bianca all’i-esima estrazione, 0 altrimenti”,

b
per ogni i = 1, . . . , n. Quindi Xi ∼ B(p), dove p = b+r .
Soluzione. Chiaramente SX = {0, 1, 2, . . . , n}. Resta dunque da calcolare pX (k) per

k = 0, 1, 2, . . . , n. Sia
Ak = {X = k}, per ogni k = 0, 1, 2, . . . , n.
13
Si noti che l’evento Ak ha la seguente interpretazione:
Ak = “si estraggono k palline bianche ed n − k palline rosse”.
Abbiamo già calcolato la probabilità di Ak nel capitolo riguardante il calcolo combinatorio.

Ricordiamo che
n k
P(Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r
è la probabilità di estrarre una pallina bianca in una singola estrazione.
Quindi
n k
pX (k) = p (1 − p)n−k , k = 0, 1, . . . , n.
k
Come seguirà dalla definizione, X ha distribuzione binomiale di parametri n e p, ovvero
X ∼ B(n, p).
Siano n ∈ N e 0 ≤ p ≤ 1. Diciamo che X ha distribuzione binomiale di parametri

n e p se X è una variabile aleatoria discreta con SX = {0, 1, 2, . . . , n} e densità discreta
data da

n k
pX (k) = P(X = k) = p (1 − p)n−k , per ogni k = 0, . . . , n,
k
cioè
X 0 1 ··· n−1 n
n n n n
n
n−1
n−1

pX 0 (1 − p) 1 p (1 − p) ··· n−1 p (1 − p) n pn

X ∼ B(n, p).
Si noti che quando n = 1, X ha distribuzione di Bernoulli, ovvero B(1, p) = B(p).
Notiamo inoltre che, per la formula del binomio di Newton, vale che
n n
X X n k
pX (k) = p (1 − p)n−k = 1, ∀ 0 ≤ p ≤ 1, n ∈ N. (4.1)
k=0 k=0
k
Questo dimostra che pX è effettivamente una densità discreta.
Proposizione 4.1. Siano 0 ≤ p ≤ 1, n ∈ N e X ∼ B(n, p). Allora
E[X] = np,
Var(X) = np(1 − p).
Dimostrazione.
n n n
X X n k n−k
X n!
E[X] = k pX (k) = k p (1 − p) = k pk (1 − p)n−k
k=0 k=1
k k=1
k! (n − k)!
n n
X n! k n−k
X (n − 1)!
= p (1 − p) = np pk−1 (1 − p)n−k
k=1
(k − 1)! (n − k)! k=1
(k − 1)! (n − k)!
14
n−1
X (n − 1)! h
= np p (1 − p)n−h = n p.
↑
h=0
h! (n − h)! ↑
h=k−1 (4.1)
Per quanto riguarda la varianza, dato che Var(X) = E[X 2 ] − E[X]2 = E[X 2 ] − n2 p2 , resta
da calcolare E[X 2 ]. Inoltre, E[X 2 ] = E[X(X − 1)] + E[X] = E[X(X − 1)] + np, quindi
dobbiamo calcolare E[X(X − 1)]. Si ha che
n n
X X n k
E[X(X − 1)] = k (k − 1) pX (k) = k (k − 1) p (1 − p)n−k
k=0 k=2
k
n n
X n! k n−k
X n!
= k (k − 1) p (1 − p) = pk (1 − p)n−k
k=2
k! (n − k)! k=2
(k − 2)! (n − k)!
n
2
X (n − 2)!
= n (n − 1) p pk−2 (1 − p)n−k
k=2
(k − 2)! (n − k)!
n−2
X
2 (n − 2)! h
= n (n − 1) p p (1 − p)n−h = n (n − 1) p2 .
↑
h=0
h! (n − h)! ↑
h=k−2 (4.1)
Quindi E[X 2 ] = E[X(X − 1)] + np = n(n − 1)p2 + np, perciò Var(X) = E[X 2 ] − n2 p2 =
np(1 − p).
Distribuzione di Poisson. La distribuzione di Poisson che ora introduciamo è un

“caso limite” della distribuzione binomiale, che si ottiene a partire dalla distribuzione
binomiale quando
n → +∞, p → 0, np → λ,
dove λ > 0 è una costante fissata. Anche se in modo impreciso, possiamo dire più
semplicemente che se X ∼ B(n, p), n è “molto grande” e p è “molto piccolo”, allora X ha
approssimativamente distribuzione di Poisson di parametro λ = np. Questa osservazione
può essere d’aiuto in certi casi, dato che risulta più facile fare i conti con la distribuzione
di Poisson rispetto alla distribuzione binomiale.
Diciamo che X ha distribuzione di Poisson di parametro λ se X è una variabile
aleatoria discreta con SX = {0, 1, 2, . . .} e densità discreta data da
λk
pX (k) = P(X = k) = e−λ , per ogni k = 0, 1, 2, . . .
k!
X ∼ Poisson(λ).
Si ricordi che
+∞ k
X x
= ex , ∀ x ∈ R. (4.2)
k=0
k!
Quindi si verifica che
+∞ +∞
X X λk
pX (k) = e−λ = 1.
k=0 k=0
k!
15
Proposizione 4.2. Siano λ > 0 e X ∼ Poisson(λ). Allora
E[X] = λ,
Var(X) = λ.
Dimostrazione.
+∞ k +∞ +∞ +∞
X
−λ λ −λ
X λk −λ
X λk −λ
X λk−1
E[X] = ke = e k = e = λe
k=0
k! k=1
k! k=1
(k − 1)! k=1
(k − 1)!
+∞ h
−λ
X λ
= λe = λ.
↑
h=0
h! ↑
h=k−1 (4.2)
Per quanto riguarda la varianza, ricordiamo la formula

Var(X) = E[X 2 ] − E[X]2 = E[X 2 ] − λ2 .
Resta dunque da calcolare E[X 2 ]. Per la linearità del valore atteso (si usa in particolare
la formula (3.2) con h(X) = X(X − 1), g(X) = X, a = 1 e b = 1), abbiamo che
E[X 2 ] = E[X(X − 1) + X] = E[X(X − 1)] + E[X] = E[X(X − 1)] + λ,
Perciò, è sufficiente calcolare E[X(X − 1)]. Si ha che
+∞ +∞ +∞
X
−λ λk −λ
X λk −λ
X λk
E[X(X − 1)] = k (k − 1) e = e k (k − 1) = e
k=0
k! k=2
k! k=2
(k − 2)!
+∞ +∞ h
2 −λ
X λk−2 2 −λ
X λ
= λ e = λ e = λ2 .
k=2
(k − 2)! ↑
h=0
h! ↑
h=k−2 (4.2)
Quindi E[X 2 ] = E[X(X − 1)] + λ = λ2 + λ, perciò Var(X) = E[X 2 ] − λ2 = λ.
5 Il problema del giornalaio

Consideriamo il seguente problema del giornalaio, che è un problema di economia riguar-
dante la gestione delle scorte.
Problema 5.1. Un giornalaio vende quotidiani a e 1.50/copia. Il suo guadagno è di

e 0.25/copiaa . Quante copie conviene al giornalaio avere in edicola?
• Il numero di copie richieste al giorno non è costante ma è soggetto ad oscillazioni

non prevedibili.
• Se il numero di copie è insufficiente, il giornalaio ha un mancato guadagno pari a

e 0.25 per ogni copia richiesta dopo che ha esaurito quelle ritirate.
• Ad ogni copia ritirata ma non venduta corrisponde invece una perdita di e 1.25.
a
Le copie non vendute giorno per giorno non possono essere rese, perdono dunque ogni valore.
16
Per risolvere questo problema il giornalaio dovrà innanzitutto valutare quali probabilità
attribuisce al fatto di poter vendere un numero di copie pari a 0, 1, 2, 3, ecc. A tal propo-
sito, potrebbe essere conveniente raccogliere informazioni o effettuare sperimentazioni per
avere una migliore base di giudizio. Per semplicità, supponiamo che il giornalaio decida
solamente di osservare cosa accade nei primi 50 giorni. Riportiamo nella tabella che segue
i dati riguardanti questo periodo di prova:
no copie richieste no giorni frequenza relativa

1
0 1 50
1
1 1 50
3
2 3 50
6
3 6 50
10
4 10 50
11
5 11 50
9
6 9 50
3
7 3 50
3
8 3 50
2
9 2 50
1
10 1 50
La colonna centrale riporta il numero di giorni (su un totale di cinquanta) in cui il numero
totale di copie richieste è stato pari a quanto riportato sulla stessa riga della prima colonna.
Si noti che in nessun giorno sono state vendute più di 10 copie. L’ultima colonna riporta
la frequenza relativa, ovvero la frazione (o percentuale) di giorni in cui è stato venduto un
numero di copie pari a 0, 1, 2, 3, ecc.
Come abbiamo già detto, supponiamo per semplicità che il giornalaio abbia ragione di
credere che questi dati siano significativi, ovvero che in futuro l’andamento delle richieste
non se ne scosterà significativamente. Introduciamo dunque la variabile aleatoria
X = “no di copie richieste”.
Allora X è una variabile aleatoria discreta con supporto
SX = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
e densità discreta data da

X 0 1 2 3 4 5 6 7 8 9 10
1 1 3 6 10 11 9 3 3 2 1
pX 50 50 50 50 50 50 50 50 50 50 50
Supponiamo ora che il giornalaio decida di acquistare k copie, per qualche k = 1, . . . , 10.
Consideriamo dunque la variabile aleatoria
Yk = “guadagno avendo acquistato k copie”.
17
L’obiettivo del giornalaio è trovare il numero k che massimizza il “guadagno atteso”,
ovvero
trovare k = 1, . . . , 10 tale che E[Yk ], il “guadagno atteso”, sia massimo.
Mostriamo come si calcola E[Yk ] nel caso k = 3. Consideriamo dunque la variabile

aleatoria
Y3 = “guadagno avendo acquistato 3 copie”.
Si ha che 

 −3 · 1.25 X = 0

−3 · 1.25 + 1.50 X = 1
Y3 =


 −3 · 1.25 + 2 · 1.50 X = 2
−3 · 1.25 + 3 · 1.50 ≥

X 3
Quindi Y3 è una variabile aleatoria discreta con densità
Y3 −3.75 −2.25 −0.75 0.75

1 1 3 45
p Y3 P(X = 0) = 50 P(X = 1) = 50 P(X = 2) = 50 P(X ≥ 3) = 50
Perciò
guadagno atteso avendo acquistato 3 copie = E[Y3 ] = 0.51.
Ripetendo il ragionamento fatto nel caso k = 3 anche per gli altri valori di k, si ottiene
la seguente tabella:
k E[Yk ]
1 0.22
2 0.41
3 0.51
4 0.43
5 0.05
6 −0.66
7 −1.64
8 −2.71
9 −3.87
10 −5.09
In conclusione, il guadagno atteso è massimo per k = 3. Questo è dunque il numero di

copie che al giornalaio conviene avere in edicola.
18
VARIABILI ALEATORIE
CONTINUE
1 Introduzione
Le variabili aleatorie discrete descrivono quantità che possono assumere un numero finito
o al più un’infinità numerabile di valori. Ci sono però quantità che assumono un’infinità
continua di valori.
Esempio 1.1. Si consideri un componente elettronico. Sia
X = “tempo di vita del componente”.
In tal caso è naturale supporre che X possa assumere qualsiasi valore maggiore o uguale
a zero, quindi “SX = [0, +∞)”.
Per descrivere tali quantità introduciamo le variabili aleatorie continue. Prima di for-
nire la definizione precisa di variabile aleatoria continua, premettiamo alcune osservazioni
facendo riferimento alla variabile aleatoria X dell’Esempio 1.1.
Innanzitutto, poiché X può assumere un’infinità continua di valori, l’eventualità che ne
assuma esattamente uno in particolare (ad esempio il numero x = 3.45362) è praticamente
impossibile. Quindi, si dovrà avere che
pX (x) = P(X = x) = 0, ∀ x ∈ R.
In altri termini, la densità discreta pX per una variabile aleatoria continua è sempre
identicamente uguale a zero, non gioca dunque alcun ruolo.
Tuttavia, se invece di considerare un singolo valore x si considera un intervallo di valori
[a, b] ⊂ R, con a < b, allora ci aspettiamo che
P(a ≤ X ≤ b) > 0, se [a, b] ⊂ [0, +∞),
dove la richiesta [a, b] ⊂ [0, +∞) deriva dal fatto che nell’Esempio 1.1 la v.a. X è un
“tempo”, quindi “SX = [0, +∞)”.
In conclusione, facendo sempre riferimento alla v.a. X dell’Esempio 1.1, ci troviamo
di fronte al problema di conciliare queste due ragionevoli richieste:
(i) pX (x) = P(X = x) = 0, per ogni x ∈ R;
(ii) P(a ≤ X ≤ b) > 0, per ogni [a, b] ⊂ [0, +∞), con a < b.
Tale problema è risolto introducendo il concetto di variabile aleatoria continua. Infatti, se

X è una variabile aleatoria continua allora esiste una funzione fX ≥ 0, chiamata densità
continua di X, tale che Z b
P(a ≤ X ≤ b) = fX (x) dx.
a
Nel caso dell’Esempio 1.1 una possibile scelta di fX è la seguente:
(
0, x < 0,
fX (x) = −x
e , x ≥ 0.
2
È allora chiaro che le proprietà (i) e (ii) sono verificate. Infatti, ad esempio, per quanto
riguarda la proprietà (i) si ha che
Z x
pX (x) = P(X = x) = fX (y) dy = 0, ∀ x ∈ R.
↑ x
P(X=x)=P(x≤X≤x)
2 Definizioni di densità continua e v.a. continua
Definizione 2.1. Una funzione f : R → R si dice densità (continua) o funzione di

densità di probabilità o PDFa se:
• f (x) ≥ 0, per ogni x ∈ R;

R +∞
• −∞ f (x) dx = 1.
a
Dall’inglese probability density function.
Osservazione. Al contrario della densità discreta pX , che deve necessariamente verifi-

care le disuguaglianze
0 ≤ pX (x) ≤ 1, ∀ x ∈ R,
la densità continua verifica in generale solo la prima disuguaglianza:
0 ≤ f (x), ∀ x ∈ R.
Al contrario, si può benissimo avere f (x) > 1 per qualche x ∈ R. L’importante è che
R +∞
−∞
f (x) dx = 1.
La definizione di variabile aleatoria continua fa intervenire la densità continua.
Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Si
dice che X è una variabile aleatoria continua (in breve v.a.c.) se esiste una densità
continua, indicata con fX , tale che
Z b
P(a ≤ X ≤ b) = fX (x) dx, ∀ [a, b] ⊂ R
a
e, più in generale, Z
P(X ∈ B) = fX (x) dx, ∀ B ⊂ R. (2.1)
B
Osservazione 1. Esempi di utilizzo della formula (2.1) sono i seguenti:

Z b

P(a < X < b) = fX (x) dx, B = (a, b) ,
a
Z b

P(a ≤ X < b) = fX (x) dx, B = [a, b) ,
a
3
Z b
P(a < X ≤ b) = fX (x) dx, B = (a, b] ,
Za x

P(X < x) = fX (x) dx, B = (−∞, x) ,
Z−∞
x
P(X ≤ x) = fX (x) dx, B = (−∞, x] ,
−∞
Z +∞
P(X > x) = fX (x) dx, B = (x, +∞) ,
Zx +∞

P(X ≥ x) = fX (x) dx, B = [x, +∞) .
x
Altri casi in cui utilizzeremo la formula (2.1) sono quelli in cui B è unione di più intervalli.
Ad esempio, se B = [−1, 0] ∪ (2, 3] ∪ [5, +∞) allora
Z 0 Z 3 Z +∞
P(X ∈ B) = fX dx + fX dx + fX dx.
−1 2 5
Notiamo in particolare che la probabilità che una variabile aleatoria continua

X assuma valori in un intervallo non dipende dal fatto che gli estremi del-
l’intervallo siano inclusi o esclusi, contrariamente a quanto accade per le variabile
aleatorie discrete.
Osservazione 2. È importante sottolineare che, se X è una variabile aleatoria continua,
la sua densità fX non è unica. Infatti, se fX è una densità di X, allora ogni funzione
g per cui Z b Z b
g(x) dx = fX (x) dx, ∀ [a, b] ⊂ R, (2.2)
a a
è una densità di X. Ad esempio, se g è ottenuta da fX modificandone il valore in un
numero finito (o infinito numerabile) di punti, allora (2.2) vale e dunque g è una densità
di X.
Questa ambiguità nella nozione di densità di una variabile aleatoria continua non costi-
tuisce di norma un problema. Come vedremo, in molti casi esiste una versione “canonica”
della densità che è regolare, ad esempio continua. Spesso diremo, impropriamente, che
una certa funzione f è la densità di X.
Osservazione 3. Al contrario di quanto visto con le variabili aleatorie discrete, non
definiremo il supporto di una variabile aleatoria continua. Infatti il supporto dovrebbe
essere definito in termini della densità, ma la densità non è unica (si veda l’osservazione
precedente). Più precisamente, la definizione di supporto dovrebbe essere la seguente:

SX = x ∈ R : fX (x) > 0 . (2.3)
Nonostante la non unicità di fX , in molti casi esiste una versione “canonica” della den-
sità (si veda l’osservazione precedente) e dunque esiste anche una versione “canonica” di
supporto, definito come in (2.3) scegliendo come fX la versione canonica. In questi casi
diremo, impropriamente, che l’insieme SX è il supporto di X.
Dalla definizione di variabile aleatoria continua seguono le seguenti proprietà.
4
Teorema 2.1. Sia X una variabile aleatoria continua con densità fX .
1) La densità discreta di X è identicamente uguale a zero:
pX (x) = 0, ∀ x ∈ R.
2) La funzione di ripartizione di X è data da

Z x
FX (x) = fX (y) dy, ∀ x ∈ R.
−∞
Quindi FX è continua (e non solo continua a destra).
Dimostrazione.
1) Dalla definizione di pX , abbiamo che
Z x
pX (x) = P(X = x) = fX (y) dy = 0, ∀ x ∈ R,
x
che dimostra il punto 1).

2) Dalla definizione di FX , si ha che
Z x
FX (x) = P (X ≤ x) = fX (y) dy, ∀ x ∈ R.
−∞
Resta da dimostrare che FX è continua e non solo continua a destra. Quindi resta da
dimostrare che
FX (x) = FX (x−), ∀ x ∈ R.
Ricordando che FX (x−) = P(X < x), si ha
Z x
FX (x−) = P(X < x) = fX (y) dy = FX (x), ∀ x ∈ R.
−∞

Osservazione 1. Dal Teorema 2.1 segue che la funzione di ripartizione di una variabile
aleatoria continua è una funzione integrale. Le funzioni integrali costituiscono una
particolare sotto-famiglia delle funzioni continue. Esse sono anche dette funzioni asso-
lutamente continue. Per tale ragione le variabili aleatorie continue sono anche dette
variabili aleatorie assolutamente continue.
Osservazione 2. Grazie alla continuità della funzione di ripartizione FX , notiamo che
le probabilità
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b),
che come abbiamo già visto sono tutte uguali, sono in particolare date da
Z b
FX (b) − FX (a) = fX (x) dx.
a
5
Analogamente
Z a
P(X < a) = P(X ≤ a) = fX (x) dx = FX (a)
−∞
e Z +∞
P(X > a) = P(X ≥ a) = fX (x) dx = 1 − FX (a).
a
Possiamo dunque riassumere nel seguente schema le differenze principali tra variabili
aleatorie discrete e continue:
Variabili aleatorie discrete Variabili aleatorie continue

densità discreta densità continua
pX fX
X Z
P(X ∈ B) = pX (xi ) P(X ∈ B) = fX (x) dx
xi ∈B B
FX è una funzione integrale

FX è costante a tratti: o, equivalentemente,
X è una funzione assolutamente continua:
FX (x) = pX (xi ) Z x
xi ≤x
FX (x) = fX (y) dy
−∞
Si noti infine che queste due classi di variabili aleatorie non esauriscono tutte le possi-
bilità, infatti ci sono ad esempio le variabili aleatorie miste. Quest’ultime hanno come
“supporto” un insieme infinito più che numerabile, ad esempio un intervallo [a, b], ma
all’interno del supporto esistono un numero finito (o al più infinito numerabile) di valori
con probabilità strettamente positiva. Per descrivere la legge di una variabile aleatoria
mista è necessario utilizzare sia la densità discreta che la densità continua. Un esempio
di variabile aleatoria mista è il seguente.
Esempio 2.1. Si consideri un componente elettronico. Sia
X = “tempo di vita del componente”.
In tal caso può essere ragionevole supporre chea
P(X = 0) ∈ (0, 1)
mentre
P(X = x) = 0, ∀ x 6= 0.
a
Probabilità che il componente sia rotto, a causa di un difetto di fabbricazione.
6
Si noti che:
• X non è una v.a. discreta, infatti

(
P(X = 0), x = 0,
pX (x) =
0, x 6= 0.
P P
Quindi non vale che i pX (xi ) = 1, dato che i pX (xi ) = P(X = 0) < 1;
• X non è una v.a. continua, infatti P(X = 0) > 0, in contraddizione con quanto
affermato nel Teorema 2.1.
2.1 Dalla funzione di ripartizione alla densità continua

Nella sezione precedente abbiamo visto come si passa dalla densità continua alla funzione
di ripartizione. In particolare, ricordiamo dal Teorema 2.1 che vale la formula seguente:
Z x
FX (x) = fX (y) dy, ∀ x ∈ R.
−∞
Supponiamo ora di conoscere la funzione di ripartizione FX di una variabile aleatoria X.
1) Che proprietà1 deve verificare FX affinché X sia una variabile aleatoria continua?
2) Una volta stabilito che X è una variabile aleatoria continua, come si trova fX a partire
da FX ?
Per quanto riguarda il punto 1), come abbiamo visto nella sezione precedente, si ha che
FX è una funzione integrale

X è una v.a. continua ⇐⇒
(o, equivalentemente, assolutamente continua)
Nella pratica, non è semplice verificare2 che FX è una funzione integrale. Per tale ragione,
nel seguito studieremo solo casi in cui sarà già noto che X è una v.a. continua. Per quanto
riguarda invece il punto 2), vale il seguente risultato.
1
Ricordiamo che, per quanto riguarda le variabili aleatorie discrete, vale il seguente risultato:
X è una v.a. discreta ⇐⇒ FX è una funzione costante a tratti
2
Segnaliamo però che una condizione sufficiente affinché FX sia una funzione integrale è la seguente
condizione di facile verifica: FX è C 1 a tratti , cioè
• FX è continua in ogni punto x ∈ R;
• esiste un sottoinsieme finito D ⊂ R tale che FX è derivabile in ogni punto x ∈ R\D;
0
• la derivata FX è una funzione continua in ogni punto x ∈ R\D.
7
Proposizione 2.1. Sia X una variabile aleatoria e indichiamo con FX la sua funzione
di ripartizione. Supponiamo di sapere già che X è una variabile aleatoria continua
(quindi sappiamo già che FX è una funzione integrale). Allora la sua densità fX è
data da
fX (x) = FX0 (x), ∀ x in cui FX è derivabile.
Nei punti in cui FX non è derivabile, fX è definita in modo arbitrario.
Esercizio 2.1. Sia X una variabile aleatoria continuaa con funzione di ripartizione
(
0, x ≤ 0,
FX (x) = −x 2
(1 − e ) , x ≥ 0.
Determinare:
(a) la densità di X,
(b) P(X > 1),
(c) P(1 < X < 2).

a
Si noti che il testo dell’esercizio specifica già che X è continua, non serve dimostrarlo. Non serve
quindi mostrare che FX è una funzione integrale. Notiamo anche che in tutti i casi che considereremo
FX sarà sempre una funzione C 1 a tratti, quindi, automaticamente, una funzione integrale (si veda a tal
proposito la nota 2 ).
Soluzione.
(a) Poiché la variabile aleatoria X è continua, possiamo applicare la Proposizione 2.1, da

cui si ha che
fX (x) = FX0 (x), ∀ x in cui FX è derivabile,
altrimenti fX è definita in modo arbitrario dove FX non è derivabile. Dall’espressione
di FX si vede che FX è derivabile ovunque tranne al più nel punto x = 0. Quindi
(
0, x < 0,
fX (x) = −x −x
2 (1 − e ) e , x > 0.
Abbiamo dunque specificato fX per ogni x ∈ R\{0}. Nel punto x = 0 non è neces-
sario verificare se FX è derivabile, infatti possiamo comunque definire fX in modo
arbitrario, ad esempio ponendo fX (0) = 0. Ciò è una conseguenza dell’osservazione
in cui compare l’uguaglianza (2.2). In tale osservazione si dice infatti che è possi-
bile modificare il valore di fX in un numero finito (o infinito numerabile) di punti.
Assegnando dunque il valore arbitrario fX (0) = 0, otteniamo
(
0, x ≤ 0,
fX (x) = −x −x
2 (1 − e ) e , x > 0.
8
(b)
P(X > 1) = 1 − FX (1) = 1 − (1 − e−1 )2 ' 0.6.
(c)
P(1 < X < 2) = FX (2) − FX (1) = (1 − e−2 )2 − (1 − e−1 )2 ' 0.348.
Esercizio 2.2. Sia X una variabile aleatoria continua con funzione di ripartizione


 0, x ≤ 0,
0 ≤ x ≤ 41 ,

x,
FX (x) = 2
x − 14 + 14 , 1



 4
≤ x ≤ 1,
3 −(x−1)
13
16
1−e + 16 , x ≥ 1.
Determinare la densità di X.
Soluzione. Per la Proposizione 2.1 si ha che



 0, x < 0,
0 < x < 14 ,

1,
fX (x) = 1
1


 2 x − 4
, 4
< x < 1,
 3 −(x−1)
16
e , x > 1.
Abbiamo dunque specificato fX per ogni x ∈ R\ 0, 14 , 1 . Nei punti x = 0, x = 1

4
ex=1
possiamo invece definire fX in modo arbitrario, ad esempio ponendo:


 0, x ≤ 0,
0 < x ≤ 14 ,

1,
fX (x) =
2 x − 41 , 1



 4
< x ≤ 1,
 3 −(x−1)
16
e , x > 1.
2.2 Funzioni di variabili aleatorie continue

Siano h : R → R una qualunque funzione e X una variabile aleatoria continua. Poniamo
Y = h(X).
Ricordiamo che quando X è discreta, Y è necessariamente anch’essa una variabile aleatoria

discreta. Al contrario, quando X è continua, non possiamo dire nulla su Y . In particolare,
Y potrebbe essere discreta, continua, mista.
9
La situazione più semplice si ha quando la variabile aleatoria Y è discreta. Si è in tale
situazione quando Y assume un numero finito o al più infinito numerabile di valori. Ad
esempio, se h(x) = 1{x>10} allora
(
1, se X > 10,
Y = 1{X>10} =
0, se X ≤ 0.
In tal caso Y è discreta in quanto assume solo due valori: 0 e 1. In particolare, Y ha

distribuzione di Bernoulli di parametro p = P(X > 10):
Y ∼ B(p).
Supponiamo invece che Y non assuma un numero finito o al più numerabile di valori.
Supponiamo inoltre di sapere già3 che Y è una variabile aleatoria continua. Come si
trovano funzione di ripartizione e/o densità di Y ?
Per risolvere questo problema, si procede determinando innanzitutto la funzione di
ripartizione di Y . Nel caso in cui siamo interessati alla densità di Y , la otteniamo suc-
cessivamente derivando la funzione di ripartizione FY , applicando dunque la Proposizione
2.1.
Per trovare la funzione di ripartizione di Y , i primi passaggi che si fanno sono sempre
i seguenti:
FY (y) = P(Y ≤ y) = P(h(X) ≤ y).
Si cerca dunque di esprimere P(h(X) ≤ y) in termini della funzione di ripartizione di X.
Per fare questo è necessario risolvere la disuguaglianza h(X) ≤ y. Vediamo un esempio.
Esempio 2.2. Sia X una variabile aleatoria continua con funzione di ripartizione
(
0, x ≤ 0,
FX (x) = −x
1−e , x ≥ 0.
Qual è la densità della variabile aleatoria continuaa Y = eX ?

a
Si noti che il testo dell’esercizio specifica già che Y è continua, non serve dimostrarlo.
Soluzione. Iniziamo col determinare la funzione di ripartizione di Y :
FY (y) = P(Y ≤ y) = P(eX ≤ y).
Dobbiamo risolvere la disuguaglianza eX ≤ y. Distinguiamo due casi: y ≤ 0 e y > 0.

Primo caso: y ≤ 0. Se y ≤ 0, la disuguaglianza eX ≤ y non è mai verificata. Questo
significa che X
e ≤ y = ∅.
3
Se invece non sapessimo ancora se Y è continua, per stabilirlo dovremmo prima determinare FY e
poi mostrare che FY è una funzione integrale, ad esempio mostrando che è C 1 a tratti.
10
Quindi P(eX ≤ y) = P(∅) = 0. Perciò
FY (y) = 0 ∀ y ≤ 0.
Secondo caso: y > 0. Se y > 0, allora la disuguaglianza eX ≤ y è verificata se e solo se

X ≤ log y, cioè
eX ≤ y ⇐⇒ X ≤ log y.
Quindi
FY (y) = P(X ≤ log y) = P(X ≤ log y) = FX (log y)
Utilizzando l’espressione di FX , si ottiene dunque:
• se log y ≤ 0, cioè 0 < y ≤ 1, allora FY (y) = FX (log y) = 0;
• se log y > 0 (cioè y > 1), allora FY (y) = FX (log y) = 1 − elog y = 1 − y1 .

In conclusione, mettendo insieme primo e secondo caso, otteniamo
(
0, y ≤ 1,
FY (y) = 1
1 − y, y > 1.
Applicando la Proposizione 2.1, si ricava la densità di Y derivando FY :

(
0, y ≤ 1,
fY (y) = 1
y2
, y > 1,
dove abbiamo posto, in modo arbitrario, fY (1) = 0.
3 Indici di sintesi di una distribuzione: µ e σ 2

Come per le variabili aleatorie discrete, definiamo valore atteso e varianza per variabili
aleatorie continue.
3.1 Media o valore atteso
Definizione 3.1. Sia X una variabile aleatoria continua. La media (o valore atteso)
di X è data da Z +∞
E[X] = x fX (x) dx.
−∞
La media si indica anche con µ oppure µX .
Nel seguito capiterà spesso di dover calcolare il valore atteso di una funzione di X:
Y = h(X).
11
Teorema 3.1. Sia X una variabile aleatoria continua. Inoltre, siano h : R → R e Y =
h(X). Allora Z +∞
E[Y ] = E[h(X)] = h(x) fX (x) dx.
−∞
Ricordiamo infine la proprietà di linearità del valore atteso, già dimostrata nel caso
discreto (la dimostrazione segue dalla formula del Teorema 3.1).
Teorema 3.2 (Linearità del valore atteso). Sia X una variabile aleatoria continua.
Inoltre, siano h : R → R, g : R → R e a, b ∈ R costanti. Allora
E[a X + b] = a E[X] + b
e, più in generale,
E[a h(X) + b g(X)] = a E[h(X)] + b E[g(X)].
3.2 Varianza
Definizione 3.2. Sia X una variabile aleatoria continua. La varianza di X è data da

Z +∞
2
(x − E[X])2 fX (x) dx.

Var(X) = E (X − E[X]) =
−∞
La varianza si indica anche con σ 2 oppure σX

2
.
La radice quadrata della varianza si chiama deviazione standard (o scarto
quadratico medio) e si indica con σ oppure σX .
Per calcolare la varianza di una variabile aleatoria è utile, come nel caso discreto, la
seguente formula.
Teorema 3.3. Sia X una variabile aleatoria continua. Vale che

Z +∞
2 2
Var(X) = E[X ] − E[X] = x2 fX (x) dx − E[X]2 .
−∞
Ricordiamo infine le seguenti proprietà, già dimostrate nel caso discreto.
12
Teorema 3.4 (Proprietà della varianza). Siano X una variabile aleatoria continua e
a, b ∈ R costanti. Allora
1) Var(X) ≥ 0.
2) Var(aX + b) = a2 Var(X).
4 Distribuzioni continue notevoli

In questa sezione vediamo le principali distribuzioni continue.
Distribuzione uniforme (continua). Diciamo che X ha distribuzione uniforme

(continua) su4 (a, b) se X è una variabile aleatoria continua con densità
(
1
b−a
, a < x < b,
fX (x) =
0, altrimenti.

X ∼ Unif (a, b).
Si noti che 
0,
 x ≤ a,
x−a
FX (x) = b−a
, a ≤ x ≤ b,

1, x ≥ b.

Inoltre
Z b
x a+b
E[X] = dx = ,
a b−a 2
Z b 2 2
(b − a)2

2 2 x a+b
Var(X) = E[X ] − E[X] = dx − = .
a b−a 2 12
Distribuzione esponenziale. Sia λ > 0. Diciamo che X ha distribuzione espo-

nenziale di parametro λ se X è una variabile aleatoria continua con densità
(
0, x < 0,
fX (x) = −λx
λe , x ≥ 0.

X ∼ Exp (λ).
4
Essendo X una variabile aleatoria continua, non fa alcuna differenza includere o escludere gli estremi
dell’intervallo. Più precisamente, sono identiche le distribuzioni (e dunque le v.a.) uniformi su (a, b)
oppure [a, b) oppure (a, b] oppure [a, b]. Quindi scriveremo semplicemente X ∼ Unif (a, b).
13
Si noti che (
0, x ≤ 0,
FX (x) =
1 − e−λx , x ≥ 0.
Inoltre
Z +∞
1
E[X] = x e−λx dx = ,
0 λ
Z +∞
1 1
Var(X) = E[X 2 ] − E[X]2 = x2 e−λx dx − 2
= 2.
0 λ λ
La distribuzione esponenziale si usa ad esempio per descrivere il tempo di vita di un
macchinario oppure di un componente elettronico (si veda l’Esempio 1.1).
Distribuzione normale (o gaussiana). Siano µ ∈ R e σ > 0. Diciamo che X ha

distribuzione normale (o gaussiana) di media µ e varianza σ 2 se X è una variabile
aleatoria continua con densità
1 1 (x−µ)
2
fX (x) = √ e− 2 σ 2 , per ogni x ∈ R.
σ 2π
X ∼ N (µ, σ 2 ).
Diciamo inoltre che X ha distribuzione normale standard se
X ∼ N (0, 1),
ovvero X ha distribuzione normale di media µ = 0 e varianza σ 2 = 1. In tal caso, la

densità di X è data da
1 1 2
fX (x) = √ e− 2 x , per ogni x ∈ R.
2π
La distribuzione normale ha un ruolo fondamentale in Probabilità e Statistica, come
conseguenza del Teorema centrale del limite che vedremo in seguito.
Notazione. Una variabile aleatoria con distribuzione normale standard viene general-
mente indicata con la lettera Z anziché X. Inoltre densità e funzione di ripartizione di Z
si indicano con ϕ e Φ anziché fZ e FZ .
Osservazione. Si noti che non esiste un’espressione esplicita della funzione di ripar-
tizione della distribuzione normale. Ad esempio, nel caso della distribuzione normale
standard, Φ è data da
Z x
1 1 2
Φ(x) = √ e− 2 y dy, per ogni x ∈ R.
−∞ 2π
Tale integrale non ammette un’espressione esplicita in termini di funzioni note. Di
conseguenza, i valori di Φ vengono calcolati per via numerica, approssimando il valore
dell’integrale.
14
Rx 1 2
Anche se non è possibile calcolare esplicitamente l’integrale −∞ √12π e− 2 y dy per un
generico valore x, è possibile farlo in alcuni casi particolari. Ad esempio, quando x = +∞,
come affermato nel seguente lemma.
Lemma 4.1 (Integrale di Gauss). Vale che

Z +∞
2 √
e−x dx = π. (4.1)
−∞
Osservazione. Come conseguenza del Lemma 4.1 segue che la funzione

1 1 (x−µ)
2
fX (x) = √ e− 2 σ2 , per ogni x ∈ R,
σ 2π
è effettivamente una densità, ovvero5

Z +∞
fX (x) dx = 1.
−∞
Infatti, con un cambio di variabili, si ha che

Z +∞ Z +∞ Z +∞
1 1 (x−µ)
2
1 2
fX (x) dx = √ e− 2 σ2 dx = √ e−z dz = 1.
−∞ −∞ σ 2π ↑ −∞ π
z= x−µ
√
σ 2
Dimostrazione del Lemma 4.1. Indichiamo con I il valore dell’integrale di Gauss,

quindi Z +∞
2
I = e−x dx.
−∞
2
Poiché la funzione x 7→ e−x è pari, si ha che
Z +∞
2
I = 2 e−x dx.
0
√
Dimostrare che I = π è equivalente a mostrare che I 2 = π. Dimostriamo dunque che
I 2 = π. Si ha che
Z +∞ Z +∞ Z +∞ Z +∞
2 −x2 −x2 −x2 −y 2
I = 4 e dx e dx = 4 e dx e dy ,
0 0 0 0
dove la seconda uguaglianza discende dal fatto che, essendo la variabile d’integrazione
muta, possiamo indicarla con un’altra lettera, ad esempio y, anziché x. Il prodotto dei
due ultimi integrali è in effetti uguale all’integrale doppio
Z +∞ Z +∞ Z +∞ Z +∞
−x2 −y 2 2 2
e dx e dy = e−(x +y ) dx dy.
0 0 0 0
5
È chiaro che fX (x) ≥ 0 per ogni x ∈ R.
15
Quindi Z +∞ Z +∞
2 +y 2 )
I 2
= 4 e−(x dx dy.
0 0
Integrando prima rispetto a y e poi rispetto a x, possiamo riscrivere I 2 come segue:

Z +∞ Z +∞
2 −(x2 +y 2 )
I = 4 e dy dx.
0 0
Nell’integrale interno (in cui x compare come un parametro fissato maggiore di zero),
Z +∞
2 2
e−(x +y ) dy,
0
eseguiamo il cambio di variabile y = xz, con x > 0 fissato. Quindi dy = x dz, perciò
Z +∞ Z +∞
−(x2 +y 2 ) 2 2
e dy = e−x (1+z ) x dz.
0 0
Di conseguenza, I 2 diventa
Z +∞ Z +∞
2 −x2 (1+z 2 )
I = 4 e x dz dx.
0 0
Scambiando l’ordine di integrazione

Z +∞ Z +∞
2 −x2 (1+z 2 )
I = 4 e x dx dz.
0 0
Si noti che ora è possibile calcolare esplicitamente l’integrale interno, infatti

Z +∞
2 2 1 −x2 (1+z2 ) +∞ 1 1
e−x (1+z ) x dx = −

2
e 0
= − 2
0−1 = .
0 2(1 + z ) 2(1 + z ) 2(1 + z 2 )
In conclusione, si ottiene
Z +∞
2 1 +∞
I = 4 dz = 2 arctan z 0
= π.
0 2(1 + z 2 )
Proposizione 4.1. Siano µ ∈ R, σ > 0 e X ∈ N (µ, σ 2 ).
1) E[X] = µ.
2) Var(X) = σ 2 .
16
Dimostrazione.
1) Dalla definizione di valore atteso, abbiamo che
Z +∞ Z +∞
1 1 (x−µ)
2
E[X] = x fX (x) dx = x √ e− 2 σ2 dx
−∞ −∞ σ 2π
Z +∞ √ 1 −z2
= µ + zσ 2 √ e dz
↑
x−µ
−∞ π
z= √
σ 2
1 −z2
Z +∞√ Z +∞ 1 −z2
= µ √ e dz + σ 2 z √ e dz
−∞ π −∞ π
√ Z +∞
1 2
= µ+σ 2 z √ e−z dz,
R +∞
↑
2
−∞ π
√1 e−z dz=1
−∞ π
2
dove nell’ultima uguaglianza abbiamo usato (4.1). Infine, essendo z 7→ z √1π e−z una
funzione dispari, si ha che
Z +∞
1 2
z √ e−z dz = 0.
−∞ π
Quindi E[X] = µ.
2) Dalla definizione di varianza, abbiamo che
Z +∞ Z +∞
1 1 (x−µ)
2
Var(X) = 2
(x − µ) fX (x) dx = (x − µ)2 √ e− 2 σ2 dx
−∞ −∞ σ 2π
Z +∞
2 2
= σ2 z 2 √ e−z dz.
↑
x−µ
−∞ π
z= √
σ 2
Integrando per parti, si ottiene

+∞ Z +∞
2 1 −z2 1 −z2
Var(X) = σ −z √ e + 2
√ e dz = σ [0 − 0] + 1 = σ 2 ,
π −∞ −∞ π
dove nella seconda uguaglianza abbiamo usato (4.1).

La distribuzione normale standard ha un ruolo fondamentale nello studio della distribu-

zione normale. Ciò deriva dal fatto che qualunque variabile aleatoria normale diventa, ese-
guendo un riscalamento e una traslazione (in una parola, standardizzando), una variabile
aleatoria normale standard.
Proposizione 4.2 (Standardizzazione). Siano µ ∈ R, σ > 0 e X ∈ N (µ, σ 2 ). Allora
X −µ
Z =
σ
è una variabile aleatoria normale standard, quindi Z ∼ N (0, 1).
17
Dimostrazione. Mostriamo che Z ammette densità continua data da (ricordiamo che
generalmente la densità della variabile aleatoria normale standard si indica con ϕ anziché
fZ )
1 1 2
ϕ(x) = √ e− 2 x , ∀ x ∈ R.
2π
Iniziamo col determinare la funzione di ripartizione di Z:

X −µ
FZ (x) = P(Z ≤ x) = P ≤ x = P(X ≤ µ + σ x) = FX (µ + σ x).
σ
Derivando, si ottiene
fZ (x) = σ fX (µ + σ x).
Sapendo che X ∼ N (µ, σ 2 ), si ha che
1 1 (µ+σ x−µ)
2
1 1 2
σ fX (µ + σ x) = √ e− 2 σ2 = √ e− 2 x .
2π 2π
Quindi abbiamo dimostrato che Z ha densità ϕ, ovvero Z ∼ N (0, 1).
La funzione di ripartizione di una variabile aleatoria normale standard Z, indicata gene-

ralmente con Φ anziché FZ , è data per definizione da
Z x
1 1 2
Φ(x) = √ e− 2 y dy, ∀ x ∈ R.
−∞ 2π
Come abbiamo già notato, non esiste una formula esplicita per Φ. Tuttavia Φ possiede le
seguenti utili proprietà.
Proposizione 4.3 (Proprietà di Φ). Sia

Z x
1 1 2
Φ(x) = √ e− 2 y dy, ∀x ∈ R
−∞ 2π
la funzione di ripartizione di una variabile aleatoria normale standard. Φ verifica le
seguenti proprietà:
1) Φ(0) = 21 .
2) Φ(−x) = 1 − Φ(x), per ogni x ≥ 0.
Osservazione. La proprietà 2) è particolarmente utile in quanto permette di calcolare

Φ per valori negativi una volta nota Φ per valori positivi.
Dimostrazione della Proposizione 4.3.
1) Si noti che la proprietà 1) segue dalla 2) scegliendo x = 0. Infatti si ottiene
Φ(0) = 1 − Φ(0),
che ha come soluzione Φ(0) = 12 . Resta dunque da dimostrare la proprietà 2).
18
1 2
2) Dato che y 7→ √1 e− 2 y è una funzione pari, si ha che
2π
Z −x Z +∞
1 1 2 1 1 2
√ e− 2 y dy = √ e− 2 y dy, ∀ x > 0.
−∞ 2π x 2π
Questo fornisce l’uguaglianza voluta, infatti il primo integrale è Φ(−x), mentre il
secondo integrale è pari a 1 − Φ(x).
Esercizio 4.1. Un apparecchio dosatore riempie delle provette da 10 cl. Assumiamo che
la quantità di liquido versata in una provetta (misurata in cl), indicata con X, abbia una
distribuzione N (9.99, (0.012)2 ), ovvero X è una variabile aleatoria continua con densità
1 (x−9.99)2
−1
fX (x) = √ e 2 (0.012)2 , ∀ x ∈ R.
0.012 2π
(a) Trovare la percentuale di provette fatte traboccare dal dosatore. [Si esprima il risultato
nella formaa 1 − Φ(x), per qualche x > 0]
(b) Determinare ` in modo tale che la percentuale di provette che contengono una quantità
di liquido inferiore a ` sia pari al 10% delle provette. [Si usib che Φ−1 (0.1) ' −1.282,
dove Φ−1 denota la funzione inversa di Φ]
a
Un’approssimazione di Φ(x) può essere ottenuta utilizzando WolframAlpha, si veda
www.wolframalpha.com, tramite il comando CDF[NormalDistribution[0,1],x].
b
Il valore di Φ−1 (0.1) è stato ottenuto con WolframAlpha tramite il comando
InverseCDF[NormalDistribution[0,1],0.1].
Soluzione.
(a) Si noti che l’evento “il dosatore fa traboccare la provetta” è dato da
{X > 10}.
Si noti inoltre che la v.a.

X − 9.99
Z =
0.012
ha legge normale standard. Quindi

X − 9.99 10 − 9.99
P(X > 10) = P >
↑ 0.012 0.012
standardizzazione
' P(Z > 0.833) = 1 − P(Z ≤ 0.833) = 1 − Φ(0.833) ' 20.24%.
(b) Dobbiamo trovare ` tale che

P(X < `) = 10%.
Standardizzando, possiamo riscrivere questa uguaglianza in termini di Z:

` − 9.99
P Z< = 0.1.
0.012
19
Quest’ultima uguaglianza può essere riscritta in termini di Φ, la funzione di riparti-
zione di Z:

` − 9.99 ` − 9.99 ` − 9.99
Φ = P Z≤ = P Z< = 0.1,
0.012 0.012 0.012
dove la seconda uguaglianza deriva dal fatto che Z è una variabile aleatoria continua.
Quindi
` − 9.99
= Φ−1 (0.1) ' −1.282,
0.012
da cui si ottiene ` ' 9.9746.
5 Generatori aleatori
In diverse aree della matematica applicata, ad esempio nell’ambito della simulazione nu-
merica o in crittografia, si richiede a un computer di produrre una sequenza di numeri
casuali con distribuzione assegnata. La maggior parte dei software di calcolo scientifico
(come ad esempio MATLAB oppure R) possiede comandi (o, meglio, generatori alea-
tori, anche detti generatori di numeri casuali) che forniscono tali sequenze di numeri
casuali, almeno per le distribuzioni più comuni. In C, ad esempio, si trova un gene-
ratore aleatorio che fornisce una sequenza di numeri casuali con distribuzione uniforme
su [0, RAND MAX], dove RAND MAX è una costante che, secondo gli standard di C,
deve essere maggiore o uguale di 32767. In questa sezione affronteremo le due seguenti
questioni.
1) Come si genera una variabile aleatoria con distribuzione uniforme?
2) Come si genera una variabile aleatoria con distribuzione non necessariamente uniforme?
5.1 Simulare la distribuzione uniforme

Possiamo suddividere i generatori aleatori di numeri casuali con distribuzione uniforme
in due categorie.
• Generatori fisici. I generatori fisici non sempre generano direttamente un numero

con distribuzione uniforme. Tale numero va dunque trasformato opportunamente
(procedendo in modo simile a come si fa per affrontare il problema 2 riportato
sopra) per ottenere un numero con distribuzione uniforme. Un esempio famoso di
generatore fisico era stato progettato dalla RAND Corporation alla fine degli anni
‘40 del Novecento. Il risultato di questo esperimento è riportato nel libro “A Million
Random Digits with 100000 Normal Deviates”, pubblicato dalla RAND Corporation
nel 1955. Tale libro contiene appunto un milione di numeri generati casualmente da
una simulazione elettronica di una roulette con numeri da 00000 a 99999.
20
• Generatori algoritmici. Un generatore algoritmico consiste in un algoritmo (com-
pletamente deterministico) in grado di produrre lunghe sequenze di numeri appa-
rentemente casuali. Tali numeri si chiamano pseudo-casuali. Fornendo all’algoritmo
lo stesso valore iniziale (seme) si ottiene dunque la medesima sequenza.
Tra i generatori algoritmici più conosciuti troviamo i generatori lineari congruen-
ziali (LCG). In tal caso, la sequenza di numeri pseudo-casuali è in generale data
da un’espressione del tipo seguente:
xn = (a xn−1 + c) mod m,
dove a, c, m sono dei parametri da fissare. Dunque xn è un numero intero compreso

tra 0 ed m − 1. Ad esempio, una nota combinazione di parametri è a = 75 = 16807,
c = 0, m = 231 − 1.
5.2 Simulare una distribuzione non necessariamente uniforme

Consideriamo una distribuzione non necessariamente uniforme, di cui si conosce la fun-
zione di ripartizione F . Supponiamo che U ∼ Unif (0, 1). Come si genera un numero
aleatorio X con funzione di ripartizione F a partire da U ?
Per rispondere a questa domanda, conviene studiare separatamente il caso in cui X
sia una v.a. continua oppure discreta. Prima però ricordiamo che U ∼ Unif (0, 1) significa
che U è una variabile aleatoria continua con densità
(
1, 0 < x < 1,
fU (x) =
0, altrimenti
e funzione di ripartizione

0,
 x ≤ 0,
FU (x) = x, 0 ≤ x ≤ 1,

1, x ≥ 1.

Distribuzione continua (ed F invertibile). Supponiamo che F sia la funzione di

ripartizione di una v.a. continua e inoltre che F sia invertibile 6 . Si noti che F è invertibile
se e solo se F è strettamente crescente. Dato che F è invertibile, esiste la sua inversa
F −1 : (0, 1) → R. Poniamo
X = F −1 (U ).
Allora X è la variabile aleatoria che cerchiamo, ossia X è una v.a. continua con funzione
di ripartizione data proprio da F :
X ∼ F.
Per dimostrarlo, notiamo innanzitutto che vale la seguente proprietà:
u ≤ F (x) ⇐⇒ F −1 (u) ≤ x. (5.1)

6
F è invertibile ad esempio quando X è una variabile aleatoria normale.
21
Allora
FX (x) = P(X ≤ x) = P(F −1 (U ) ≤ x)

= P(U ≤ F (x)) = FU (F (x)) = F (x).
↑ ↑
(5.1) 0≤F (x)≤1
Distribuzione discreta. Ricordiamo che F è la funzione di ripartizione di una v.a.

discreta se e solo se F è costante a tratti. Quindi, a differenza del caso precedente, F non
è strettamente crescente, dunque non è invertibile. Nonostante ciò, in tal caso ci sono vari
modi per definire X a partire da U . Generalmente si definisce X tramite la cosiddetta
inversa generalizzata di F . Vediamo con un esempio come si procede.
Esempio 5.1. Si consideri la funzione di ripartizione



 0, x < 2,

1/5, 2 ≤ x < 3,
F (x) =


 1/2, 3 ≤ x < 5,
x ≥ 5.

1,
Trovare una funzione G : (0, 1) → R tale che la variabile aleatoria
X = G(U )
ha funzione di ripartizione data proprio da F .
Soluzione. Una possibile scelta di G è la seguente:


2,

 0 < u ≤ 15 ,
1
G(u) = 3, 5
< u ≤ 21 ,

1

5,
2
< u < 1.
Infatti, sia
X = G(U ).
Allora SX = {2, 3, 5} e
X 2 3 5
1 3 1
pX P(G(U ) = 2) = 5 P(G(U ) = 3) = 10 P(G(U ) = 5) = 2
Dunque FX coincide con la funzione F .
22
In generale, sia pX la densità discreta associata alla funzione di ripartizione F . Allora, F
è data da 


 0, x < x1 ,
x1 ≤ x < x2 ,



 pX (x1 ),

pX (x1 ) + pX (x2 ), x2 ≤ x < x3 ,



F (x) = pX (x1 ) + pX (x2 ) + pX (x3 ), x3 ≤ x < x4 ,

· · ·







 pX (x1 ) + · · · + pX (xn−1 ), xn−1 ≤ x < xn ,

1, x ≥ xn .
In tal caso, una possibile scelta per la funzione G : (0, 1) → R è la seguente:



 x1 , 0 < u ≤ pX (x1 ),
pX (x1 ) < u ≤ pX (x2 ),

x 2 ,



x 3 , pX (x2 ) < u ≤ pX (x3 ),



G(u) = x4 , pX (x3 ) < u ≤ pX (x4 ),

···





xn−1 ,


 pX (xn−1 ) < u ≤ pX (xn ),

x ,
n pX (xn ) < u < 1.
23
VETTORI ALEATORI
INTRODUZIONE GENERALE
e
CASO DISCRETO
1 Introduzione
In questo capitolo studiamo i vettori aleatori. Essi intervengono ogni volta che si è interes-
sati a due o più variabili aleatorie che riguardano lo stesso esperimento aleatorio oppure
quando la quantità d’interesse è essa stessa vettoriale.
In termini matematici, ciò significa che sullo stesso spazio di probabilità (Ω, P) sono
definite due (o più) variabili aleatorie X : Ω → R e Y : Ω → R. Risulta allora naturale
considerare la coppia (X, Y ), che è una variabile aleatoria definita su Ω a valori nello
spazio prodotto R × R = R2 . Chiameremo (X, Y ) vettore aleatorio (bidimensionale).
Definizione 1.1. Sia (Ω, P) uno spazio di probabilità.

Una qualunque funzione
(X, Y ) : Ω → R2
si chiama vettore aleatorio (bidimensionale).
Più in generale, una qualunque funzione
(X1 , X2 , . . . , Xn ) : Ω → Rn
si chiama vettore aleatorio (n-dimensionale).
1.1 Distribuzione o legge di un vettore aleatorio

Come per le variabili aleatorie, possiamo associare ad ogni vettore aleatorio la sua distri-
buzione o legge. Diamo la definizione solo per il caso bidimensionale.
Definizione 1.2. Sia (Ω, P) uno spazio di probabilità e (X, Y ) : Ω → R un vettore

aleatorio. Si chiama distribuzione o legge di (X, Y ) la probabilitàa
P(X,Y ) : P(R2 ) → [0, 1]
definita da
P(X,Y ) (B) = P((X, Y ) ∈ B), ∀ B ⊂ R2 .
Per dire che (X, Y ) ha distribuzione o legge P(X,Y ) scriveremo
(X, Y ) ∼ P(X,Y ) .
a
Ricordiamo che P(R2 ) è l’insieme delle parti di R2 .
Osservazione 1. Si noti che andrebbe verificato che P(X,Y ) è effettivamente una proba-
bilità, ovvero che P(X,Y ) verifica gli Assiomi I-II-III.
Osservazione 2. Se B ⊂ R2 è il prodotto cartesiano di due sottoinsiemi di R, quindi
B = B1 × B2 ,
2
per qualche B1 , B2 ∈ R, allora
P((X, Y ) ∈ B1 × B2 ) = P({X ∈ B1 } ∩ {Y ∈ B2 }).
Infatti l’evento {(X, Y ) ∈ B1 × B2 } è dato da
{(X, Y ) ∈ B1 × B2 } = {X ∈ B1 } ∩ {Y ∈ B2 }.
Notazione 1. Nel seguito spesso dovremo calcolare la probabilità di un evento della

forma {X ∈ B1 } ∩ {Y ∈ B2 }, ovvero
P({X ∈ B1 } ∩ {Y ∈ B2 }).
Per semplificare la notazione, invece di P({X ∈ B1 } ∩ {Y ∈ B2 }) spesso scriveremo
P(X ∈ B1 , Y ∈ B2 ) oppure P(X ∈ B1 e Y ∈ B2 ).
In altre parole, la virgola (oppure la congiunzione e) sta per intersezione.

Notazione 2. P(X,Y ) si chiama distribuzione di (X, Y ) oppure anche distribuzione
congiunta di X e Y . Inoltre le distribuzioni di X e Y , ovvero PX e PY , si chiamano
distribuzioni marginali.
Funzione di ripartizione congiunta. È possibile estendere al caso multidimensionale

il concetto di funzione di ripartizione. Si può infatti definire la funzione di ripartizione
congiunta di X e Y :
F(X,Y ) (x, y) = P({X ≤ x}∩{Y ≤ y}) = P((X, Y ) ∈ (−∞, x]×(−∞, y]), ∀ (x, y) ∈ R2 ,
dove la seconda uguaglianza discende dall’Osservazione 2 riportata sopra. Equivalente-

mente, possiamo definire F(X,Y ) in termini della distribuzione di (X, Y ):
F(X,Y ) (x, y) = P(X,Y ) ((−∞, x] × (−∞, y]), ∀ (x, y) ∈ R2 .
Nel caso multidimensionale, tuttavia, la funzione di ripartizione non è praticamente

utilizzata. Infatti conviene lavorare direttamente con la densità (discreta o continua).
1.2 Indipendenza di variabili aleatorie

Grazie al concetto di vettore aleatorio è possibile estendere la nozione di indipendenza,
già definita per gli eventi, alle variabili aleatorie.
Il significato intuitivo della nozione d’indipendenza di variabili aleatorie è il seguente:
più variabili aleatorie si dicono indipendenti se la conoscenza dei valori assunti da alcune
di esse non fornisce alcuna informazione sul valore che assumeranno le altre.
Matematicamente, n variabili aleatorie X1 , . . . , Xn si dicono indipendenti se gli eventi
da esse generati, ovvero
{X1 ∈ B1 } ... {Xn ∈ Bn }, al variare di tutti i sottoinsiemi B1 , . . . , Bn di R,
3
sono indipendenti. Riportiamo prima la definizione per due variabili aleatorie, poi per n
variabili aleatorie.
Definizione 1.3. Sia (Ω, P) uno spazio di probabilità. Due variabili aleatorie X e Y si
dicono indipendenti se
P(X ∈ B1 , Y ∈ B2 ) = P(X ∈ B1 ) P(Y ∈ B2 ),
per ogni B1 , B2 ⊂ R, o, equivalentemente,
P(X,Y ) (B1 × B2 ) = PX (B1 ) PY (B2 ).
In tal caso, scriviamo

X Y.
|=
Osservazione. Si dice anche che due variabili aleatorie sono indipendenti se la distri-
buzione congiunta si fattorizza nel prodotto delle marginali.
Definizione 1.4. Sia (Ω, P) uno spazio di probabilità. n variabili aleatorie X1 , . . . , Xn si

dicono indipendenti se
n
Y
P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = P(Xi ∈ Bi ),
i=1
per ogni B1 , . . . , Bn ⊂ R.
Concludiamo questa sezione con il seguente risultato, in cui si afferma che funzioni di
variabili aleatorie indipendenti sono indipendenti.
Proposizione 1.1. Siano X e Y variabili aleatorie indipendenti. Siano inoltre f : R → R

e g : R → R funzioni arbitrarie. Allora anche le variabili aleatorie
f (X) e g(Y )
sono indipendenti.
Dimostrazione. Siano B1 , B2 ⊂ R. Dobbiamo mostrare che

P(f (X) ∈ B1 , g(Y ) ∈ B2 ) = P(f (X) ∈ B1 ) P(g(Y ) ∈ B2 ).
Siano
f −1 (B1 ) =

x ∈ R : f (x) ∈ B1 ,
g −1 (B2 ) = y ∈ R : g(y) ∈ B2

le controimmagini di B1 e B2 tramite f e g, rispettivamente. Si noti che f −1 (B1 ) e g −1 (B2 )

sono sottoinsiemi di R. Allora
{f (X) ∈ B1 } = {X ∈ f −1 (B1 )} e {g(Y ) ∈ B2 } = {Y ∈ g −1 (B2 )}. (1.1)
4
Quindi
P(f (X) ∈ B1 , g(Y ) ∈ B2 ) = P(X ∈ f −1 (B1 ), Y ∈ g −1 (B2 ))

= P(X ∈ f −1 (B1 )) P(Y ∈ g −1 (B2 )),
↑
|=
X Y
dove nella seconda uguaglianza abbiamo usato l’indipendenza di X e Y . Utilizzando

nuovamente le uguaglianze (1.1), si ottiene
P(X ∈ f −1 (B1 )) P(Y ∈ g −1 (B2 )) = P(f (X) ∈ B1 ) P(g(Y ) ∈ B2 ),
che conclude la dimostrazione.
Osservazione. Come conseguenza della Proposizione 1.1 si deduce che se X e Y sono

indipendenti allora non può esistere alcuna dipendenza funzionale tra X e Y , tranne
nel caso in cui almeno una tra X e Y sia una costante1 .
In altri termini, non può esistere alcuna funzione f : R → R tale che
Y = f (X).
Infatti, supponiamo per assurdo che una tale funzione esista. Allora, applicando la Pro-
posizione 1.1 con questa funzione f e g : R → R funzione identità, quindi
g(y) = y, ∀ y ∈ R,
si ottiene che le variabili aleatorie
f (X) e g(Y ) = Y = f (X)
sono indipendenti. Quindi, per ogni B ⊂ R (scegliendo B1 = B2 = B nella definizione di

indipendenza),
P({f (X) ∈ B} ∩ {f (X) ∈ B}) = P(f (X) ∈ B) P(f (X) ∈ B).
Notando che {f (X) ∈ B} ∩ {f (X) ∈ B} = {f (X) ∈ B}, possiamo riscrivere questa

uguaglianza come segue:
P(f (X) ∈ B) = P(f (X) ∈ B)2 . (1.2)
Quest’ultima uguaglianza è verificata se e solo se P(f (X) ∈ B) è uguale a 0 oppure 1,

quindi se e solo se f (X) è costante, ossia Y è costante. Se invece Y non è costante, esiste
sicuramente un sottoinsieme B di R tale per cui
P(f (X) ∈ B) 6= 0 e P(f (X) ∈ B) 6= 1,
da cui si ottiene una contraddizione con (1.2).

1
Infatti, se ad esempio Y è costante (quindi Y = c) allora Y = f (X) scegliendo come funzione
f : R → R la funzione costante: f (x) = c, per ogni x ∈ R.
5
2 Vettori aleatori discreti
In questa sezione studiamo una particolare classe di vettori aleatori, i vettori aleatori
discreti (bidimensionali).
Definizione 2.1. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio. Si
dice che (X, Y ) è un vettore aleatorio discreto se sia X che Y sono variabili aleatorie
discrete.
Dalla definizione di vettore aleatorio discreto si intuisce che il vettore (X, Y ) assume solo
un numero finito (o al più infinito numerabile) di valori, dati al più da tutte le coppie
dell’insieme SX × SY . In altre parole, il2 “supporto” di (X, Y ) è un sottoinsieme di
SX × SY .
Come abbiamo visto per le variabili aleatorie discrete, anche nello studio dei vettori
aleatori discreti risulta particolarmente utile la densità discreta, che ora introduciamo.
Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio. La
funzione p(X,Y ) : R2 → [0, 1], data da
p(X,Y ) (x, y) = P(X = x, Y = y) = P((X, Y ) = (x, y)), ∀ (x, y) ∈ R2 ,
si chiama densità discreta congiunta di X e Y .

Infine, pX e pY si chiamano densità discrete marginali di X e Y , rispettivamente.
Si noti che p(X,Y ) (x, y) è la probabilità che il vettore aleatorio (X, Y ) assuma il valore
(x, y). Per tale ragione, p(X,Y ) (x, y) verifica necessariamente le disuguaglianze
0 ≤ p(X,Y ) (x, y) ≤ 1, ∀ (x, y) ∈ R2 .
Osservazione. In certi casi, come vedremo, è utile calcolare p(X,Y ) (x, y) tramite la regola
della catena:
p(X,Y ) (x, y) = P(X = x | Y = y) P(Y = y)
oppure
p(X,Y ) (x, y) = P(Y = y | X = x) P(X = x).
Le principali proprietà della densità discreta congiunta di X e Y sono riportate nel

seguente teorema.
2
Il supporto di (X, Y ) è l’insieme dei punti di R2 tali per cui p(X,Y ) (x, y) > 0, dove p(X,Y ) è la densità
discreta congiunta di X e Y definita nella Definizione 2.2. Tuttavia, nel caso bidimensionale invece di
introdurre un’ulteriore notazione si preferisce lavorare direttamente con l’insieme SX × SY , si veda a tal
proposito il Teorema 2.1.
6
Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio discreto.
Siano inoltre SX e SY i supporti di X e Y , rispettivamente. Valgono le seguenti proprietà.
1) p(X,Y ) (x, y) = 0, per ogni (x, y) ∈ / SX × SY .

P P
2) xi ∈SX yj ∈SY p(X,Y ) (xi , yj ) = 1.
3) Vale la formula
X
P((X, Y ) ∈ B) = p(X,Y ) (xi , yj ), ∀ B ⊂ R2 . (2.1)
(xi ,yj )∈B
P P
Notazione. La notazione xi ∈SX yj ∈SY p(X,Y ) (xi , yj ) indica una doppia sommatoria,
in cui prima si somma rispetto a yj , tenendo xi fissato, dopodiché si somma il risultato
cosı̀ ottenuto rispetto a xi .
Il risultato finale non cambia se si scambia l’ordine delle sommatorie, come conseguenza
della proprietà commutativa dell’addizione:
X X X X
p(X,Y ) (xi , yj ) = p(X,Y ) (xi , yj ).
xi ∈SX yj ∈SY yj ∈SY xi ∈SX
Come conseguenza di tale invarianza, questa doppia sommatoria è anche indicata come
segue: X
p(X,Y ) (xi , yj ).
(xi ,yj )∈SX ×SY
Infine, se è chiaro dal testo quale sia l’insieme SX × SY a cui appartengono le coppie
(xi , yj ), allora si scrive semplicemente
X
p(X,Y ) (xi , yj ),
i,j
sottintendendo che si esegue la somma su tutte le coppie (xi , yj ) ∈ SX × SY . Se invece

si esegue la somma solo sulle coppie di SX × SY che appartengono ad un determinato
sottoinsieme B di R2 , allora si scrive
X
p(X,Y ) (xi , yj ),
(xi ,yj )∈B
come accade nella formula (2.1).

Osservazione. Le proprietà 1) e 2) del Teorema 2.1 sono in effetti tra loro equivalenti.
Esse equivalgono a dire che il vettore aleatorio (X, Y ) assume con probabilità positiva al
più tutti e soli i valori in SX × SY .
2.1 Densità discreta congiunta e densità discrete marginali

Che relazione c’è tra la densità discreta congiunta p(X,Y ) e le marginali pX e pY ? Ricor-
diamo che
pX (xi ) = P(X = xi ),
7
pY (yj ) = P(Y = yj ),
p(X,Y ) (xi , yj ) = P(X = xi , Y = yj ).
Dalla formula delle probabilità totali otteniamo il seguente risultato.
Teorema 2.2. Sia (X, Y ) un vettore aleatorio discreto. Allora

X
pX (xi ) = p(X,Y ) (xi , yj ), ∀ xi ∈ SX ,
j
X
pY (yj ) = p(X,Y ) (xi , yj ), ∀ yj ∈ SY .
i
Dimostrazione. Dimostriamo solo la prima formula nel caso in cui SY è un insieme

finito: SY = {y1 , . . . , ym }. Quindi dobbiamo dimostrare che, per ogni xi ∈ SX fissato,
vale m
X
pX (xi ) = p(X,Y ) (xi , yj ).
j=i
Riscritta in termini di P diventa
m
X
P(X = xi ) = P(X = xi , Y = yj ). (2.2)
j=i
Poniamo
A = {X = xi }, Bj = {Y = yj }, ∀ j = 1, . . . , m.
Gli eventi B1 , . . . , Bm sono una partizione di Ω. Quindi, dalla formula delle probabilità
totali abbiamo che m
X
P(A) = P(A ∩ Bj ),
j=i
che corrisponde all’uguaglianza (2.2).
Tabella della densità discreta congiunta. Nel caso in cui sia SX che SY sono
insiemi finiti, quindi
SX = {x1 , . . . , xn },
SY = {y1 , . . . , ym },
possiamo riportare i valori di p(X,Y ) in una tabella:
aa
Y
X aaa y1 y2 ··· ym pX
a
x1 p(X,Y ) (x1 , y1 ) p(X,Y ) (x1 , y2 ) ··· p(X,Y ) (x1 , ym ) pX (x1 )
x2 p(X,Y ) (x2 , y1 ) p(X,Y ) (x2 , y2 ) ··· p(X,Y ) (x2 , ym ) pX (x2 )
.. .. .. .. .. ..
. . . . . .
xn p(X,Y ) (xn , y1 ) p(X,Y ) (xn , y2 ) ··· p(X,Y ) (xn , ym ) pX (xn )
pY pY (y1 ) pY (y2 ) ··· pY (ym ) 1
8
Ai margini della tabella compaiono appunto le densità discrete marginali. Per il Teorema
2.2 si ha che i valori di pX si ottengono sommando i valori di p(X,Y ) che compaiono sulla
stessa riga. Analogamente, i valori di pY si ottengono sommando i valori di p(X,Y ) che
compaiono sulla stessa colonna. Infine, sommando i valori dell’ultima colonna (quindi i
valori di pX ) si ottiene 1. Analogamente, sommando i valori dell’ultima riga (quindi i
valori di pY ) si ottiene ancora 1. Questo spiega la presenza del numero 1 nell’angolo in
basso a destra della tabella.
2.2 Indipendenza e densità discreta congiunta

Come abbiamo visto con il Teorema 2.2, e come segue anche dalla tabella della densità
discreta congiunta, se si conosce p(X,Y ) allora è possibile ricostruire pX e pY . In altri
termini, se è nota la distribuzione congiunta di (X, Y ) allora è possibile determinare le
distribuzioni marginali di X e Y . Non è invece possibile, in generale, ricostruire la densità
discreta congiunta a partire dalle marginali. Infatti, esistono densità discrete congiunte
tra loro diverse ma con le stesse marginali. Un esempio è dato dalle seguenti tabelle:
aa aa
Y
X aaa y1 y2 pX Y
X aaa y1 y2 pX
a a
1 1 1 1 1
x1 2 0 2 x1 4 4 2
(2.3)
1 1 1 1 1
x2 0 2 2 x2 4 4 2
1 1 1 1
pY 2 2 1 pY 2 2 1
Tuttavia, se X e Y sono indipendenti allora esiste un’unica densità discreta congiunta

avente come marginali proprio quelle di X e Y , come affermato nel seguente teorema.
Teorema 2.3. Siano X e Y variabili aleatorie discrete. Allora X e Y sono indipendenti

se e solo se
p(X,Y ) (xi , yj ) = pX (xi ) pY (yj ), ∀ (xi , yj ) ∈ SX × SY . (2.4)
Osservazione. Si dice anche che due variabili aleatorie discrete sono indipendenti se
la densità discreta congiunta si fattorizza nel prodotto delle marginali. Ad
esempio, se si considerano le due tabelle in (2.3), in quella di sinistra X e Y non sono
indipendenti, mentre in quella di destra sono indipendenti. Dunque, la tabella di destra è
l’unica possibile affinché X e Y abbiamo quelle marginali e siano anche indipendenti.
Dimostrazione del Teorema 2.3. Dividiamo la dimostrazione in due passi.
1) Se vale (2.4) allora X e Y sono indipendenti. Siano B1 e B2 sottoinsiemi di R.
Dobbiamo mostrare che
P(X ∈ B1 , Y ∈ B2 ) = P(X ∈ B1 ) P(Y ∈ B2 ).
Poiché P(X ∈ B1 , Y ∈ B2 ) = P((X, Y ) ∈ B1 × B2 ), applicando la formula (2.1) otteniamo

X X X
P(X ∈ B1 , Y ∈ B2 ) = p(X,Y ) (xi , yj ) = p(X,Y ) (xi , yj ),
(xi ,yj )∈B1 ×B2 xi ∈B1 yj ∈B2
9
dove l’ultima uguaglianza segue dal fatto che essendo B1 × B2 un prodotto cartesiano,
possiamo prima sommare rispetto a yj e poi rispetto a xi , e viceversa.
Dalla (2.4) segue che
X X
P(X ∈ B1 , Y ∈ B2 ) = pX (xi ) pY (yj ).
xi ∈B1 yj ∈B2
La somma interna, in cui si somma rispetto a yj tenendo xi fissato, diventa

X X
pX (xi ) pY (yj ) = pX (xi ) pY (yj ) = pX (xi ) P (Y ∈ B2 ).
yj ∈B2 yj ∈B2
Quindi
X
P(X ∈ B1 , Y ∈ B2 ) = P (Y ∈ B2 ) pX (xi ) = P(X ∈ B1 ) P(Y ∈ B2 ).
xi ∈B1
2) Se X e Y sono indipendenti allora vale (2.4). Se sappiamo già che X e Y sono

indipendenti, allora applicando la definizione di indipendenza con B1 = {xi } e B2 = {yj }
si ottiene proprio l’uguaglianza (2.4).
Esercizio 2.1. Siano X e Y variabili aleatorie discrete con densità discreta congiunta
parzialmente data da
X aYa −1
aa
5 10 pX
0 0.12 0.4
5
pY 0.3 1
(a) Completare la tabella in modo che X e Y siano indipendenti.
(b) Calcolare P(X < Y ).
(c) Calcolare P(|XY | ≥ 5) e P(X + Y > 5).
(d) Siano U = |XY | e V = X + Y . Trovare la densità discreta congiunta di U e V e le

densità marginali.
Soluzione.
(a) Sappiamo che l’ultima colonna deve avere come somma 1, quindi si ottiene
X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 1
Dal Teorema 2.3 sappiamo che affinché X e Y siano indipendenti la densità discreta
congiunta deve essere il prodotto delle marginali. In particolare, si ha che
p(X,Y ) (0, 5) 0.12
p(X,Y ) (0, 5) = pX (0) pY (5) =⇒ pY (5) = = = 0.3.
pX (0) 0.4
10
Quindi
X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 0.3 1
Poiché l’ultima riga deve avere come somma 1, otteniamo
X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 0.3 0.4 1
Adesso che abbiamo completamente determinato le densità marginali, per l’indipendenza

la densità discreta congiunta si ottiene facendo il prodotto. Quindi la tabella comple-
tata è data da aa Y
X aa −1 5 10 pX
0 0.12 0.12 0.16 0.4
5 0.18 0.18 0.24 0.6
pY 0.3 0.3 0.4 1
(b) Per la formula (2.1), si ha che

X
P(X < Y ) = p(X,Y ) (xi , yj ).
(xi ,yj ) : xi <yj
Le coppie (xi , yj ) che verificano la condizione xi < yj sono: (0, 5), (0, 10), (5, 10).
Quindi
P(X < Y ) = p(X,Y ) (0, 5) + p(X,Y ) (0, 10) + p(X,Y ) (5, 10) = 0.52.
(c) Procedendo come al punto precedendo, si ottiene
P(|XY | ≥ 5) = p(X,Y ) (5, −1) + p(X,Y ) (5, 5) + p(X,Y ) (5, 10) = pX (5) = 0.6,
P(X + Y > 5) = p(X,Y ) (0, 10) + p(X,Y ) (5, 5) + p(X,Y ) (5, 10) = 0.58.
(d) Iniziamo col determinare i valori di (U, V ) per ciascuna coppia di valori di (X, Y ). Si
ha che
se (X, Y ) = (0, −1) allora (U, V ) = (0, −1),

se (X, Y ) = (0, 5) allora (U, V ) = (0, 5),
se (X, Y ) = (0, 10) allora (U, V ) = (0, 10),
se (X, Y ) = (5, −1) allora (U, V ) = (5, 4),
se (X, Y ) = (5, 5) allora (U, V ) = (25, 10),
se (X, Y ) = (5, 10) allora (U, V ) = (50, 15).
11
Quindi SU = {0, 5, 25, 50} e SV = {−1, 4, 5, 10, 15}. Determiniamo ora p(U,V ) . Per
quanto visto qui sopra, abbiamo che
p(U,V ) (0, −1) = p(X,Y ) (0, −1),

p(U,V ) (0, 5) = p(X,Y ) (0, 5),
p(U,V ) (0, 10) = p(X,Y ) (0, 10),
p(U,V ) (5, 4) = p(X,Y ) (5, −1),
p(U,V ) (25, 10) = p(X,Y ) (5, 5),
p(U,V ) (50, 15) = p(X,Y ) (5, 10).
La tabella della densità discreta congiunta di U e V è dunque la seguente:

V
aa
U aaa −1 4 5 10 15 pU
0 0.12 0 0.12 0.16 0 0.4
5 0 0.18 0 0 0 0.18
25 0 0 0 0.18 0 0.18
50 0 0 0 0 0.24 0.24
pV 0.12 0.18 0.12 0.34 0.24 1
Le densità marginali di U e V si ottengono sommando rispettivamente lungo le righe

e lungo le colonne.

2.3 Valore atteso e varianza di una funzione di (X, Y )

Nel seguito capiterà spesso di dover calcolare valore atteso e varianza di una funzione di
(X, Y ):
h(X, Y ).
Teorema 2.4. Siano (X, Y ) un vettore aleatorio discreto e h : R2 → R. Allora

X
E[h(X, Y )] = h(xi , yj ) p(X,Y ) (xi , yj )
i,j
e
2 X
Var(h(X, Y )) = E h(X, Y ) − E[h(X, Y )] = h(xi , yj ) − E[h(X, Y )] p(X,Y ) (xi , yj ).
i,j
Vale inoltre la formula

2 X
Var(h(X, Y )) = E h(X, Y ) −E[h(X, Y )]2 = (h(xi , yj ))2 p(X,Y ) (xi , yj )−E[h(X, Y )]2 .

i,j
12
Dalla formula del valore atteso di h(X, Y ) discendono i seguenti due risultati, riguardanti
il valore atteso della somma e del prodotto di (X, Y ), che corrispondono dunque ai casi
in cui h(x, y) = x + y e h(x, y) = xy. Il primo risultato, che riguarda appunto la somma
di X e Y , esprime la proprietà di linearità del valore atteso.
Corollario 2.1. Siano X e Y variabili aleatorie discrete. Siano inoltre a e b due numeri
reali fissati. Allora
E[aX + bY ] = aE[X] + bE[Y ].
Dimostrazione. Applicando il Teorema 2.4 con h(x, y) = ax + by, si ottiene

X
E[aX + bY ] = (axi + byj ) p(X,Y ) (xi , yj )
i,j
X X
= a xi p(X,Y ) (xi , yj ) + b yj p(X,Y ) (xi , yj )
i,j i,j
X X X X
= a xi p(X,Y ) (xi , yj ) +b yj p(X,Y ) (xi , yj )
i j j
| {z } |i {z }
pX (xi ) pY (yj )
X X
=a xi pX (xi ) + b yj pY (yj ) = aE[X] + bE[Y ].
i j
Corollario 2.2. Siano X e Y variabili aleatorie discrete. Se X e Y sono indipendenti

allora
E[XY ] = E[X] E[Y ].
Osservazione. Si noti che, in generale, non vale il viceversa: se E[XY ] = E[X]E[Y ]

non si può concludere che X e Y sono indipendenti.
Dimostrazione. Applicando il Teorema 2.4 con h(x, y) = xy, si ottiene
X
E[XY ] = xi yj p(X,Y ) (xi , yj )
i,j
X
= xi yj pX (xi ) pY (yj )
↑
indipendenza i,j
X X
= xi pX (xi ) yj pY (yj ) = E[X] E[Y ].
i j
13
2.4 Indici di sintesi della distribuzione di un vettore aleatorio
discreto
La distribuzione o legge di un vettore aleatorio bidimensionale (X, Y ) può essere descritta
in maniera sintetica tramite le seguenti quantità:
E[X], E[Y ], Var(X), Var(Y ), Cov(X, Y ),
dove Cov(X, Y ) è la covarianza di X e Y , che ora definiamo. Come vedremo la covarianza

è una misura della “dipendenza” tra X e Y .
Definizione 2.3. Siano X e Y variabili aleatorie discrete. La covarianza di X e Y è

data da
X
Cov(X, Y ) = E (X − E[X]) (Y − E[Y ]) = (xi − E[X]) (yj − E[Y ]) p(X,Y ) (xi , yj ).
i,j
Se Cov(X, Y ) = 0, le variabili aleatorie X e Y si dicono scorrelate.
Osservazione 1. Si noti che la covarianza di X e Y è definita come il valore atteso

della variabile aleatoria h(X, Y ), dove
h(x, y) = (x − E[X]) (y − E[Y ]).
Quindi la seconda uguaglianza nella Definizione 2.3 di covarianza è una conseguenza del
Teorema 2.4.
Osservazione 2. Si noti che
Cov(X, X) = Var(X).
Osservazione 3. Si noti che la covarianza è simmetrica
Cov(X, Y ) = Cov(Y, X).
Per calcolare la covarianza di X e Y è utile la seguente formula.
Teorema 2.5. Siano X e Y variabili aleatorie discrete. Vale che

X
Cov(X, Y ) = E[XY ] − E[X] E[Y ] = xi yj p(X,Y ) (xi , yj ) − E[X] E[Y ].
i,j
Quindi se le variabili aleatorie X e Y sono indipendenti allora sono scorrelate.
Dimostrazione. Dimostriamo la prima uguaglianza, dato che la seconda è una conse-

guenza del Teorema 2.4.
Per definizione, si ha che

Cov(X, Y ) = E (X − E[X]) (Y − E[Y ]) = E XY − X E[Y ] − E[X] Y + E[X] E[Y ] .
14
Dalla linearità del valore atteso, si ottiene (si noti che E[X] e E[Y ] sono costanti)
Cov(X, Y ) = E[XY ] − E[X] E[Y ] − E[X] E[Y ] + E[X] E[Y ] = E[XY ] − E[X] E[Y ].
Infine se le variabili aleatorie X e Y sono indipendenti allora dal Corollario 2.2 si ha che
E[XY ] = E[X] E[Y ],
quindi Cov(X, Y ) = 0, ovvero X e Y sono scorrelate.
La covarianza interviene nella formula della varianza di X + Y .
Teorema 2.6. Siano X e Y variabili aleatorie discrete. Vale che
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ).
Quindi se X e Y sono scorrelate vale che
Var(X + Y ) = Var(X) + Var(Y ).
Dimostrazione. Applicando il Teorema 2.4 con h(x, y) = x + y, si ottiene

2 2
Var(X + Y ) = E X + Y − E[X + Y ] = E X + Y − E[X] − E[Y ]
2 2
= E X − E[X] + Y − E[Y ] + 2 X − E[X] Y − E[Y ]
= Var(X) + Var(Y ) + 2 Cov(X, Y ).
Osservazione. La covarianza è un indicatore di dipendenza tra due variabili aleatorie

X e Y . Più precisamente, supponiamo3 che Var(X) > 0 e Var(Y ) > 0. In tal caso, ha
senso definire il coefficiente di correlazione
Cov(X, Y )
ρX,Y = p p .
Var(X) Var(Y )
Si può dimostrare che

−1 ≤ ρX,Y ≤ 1.
Ricordiamo che se Cov(X, Y ) = 0 allora X e Y si dicono scorrelate. Si noti che
Cov(X, Y ) = 0 equivale a ρX,Y = 0. Al contrario, quando la correlazione è massima
in valore assoluto (quindi ρX,Y = −1 oppure ρX,Y = 1), si ha che
ρX,Y = ±1 ⇐⇒ Y = a X + b.
Più precisamente, ρX,Y = ±1 se e solo se esistono due costanti a 6= 0 e b ∈ R tali che

Y = a X + b. La correlazione misura dunque se esiste tra X e Y una dipendenza di
tipo lineare. Quindi quando X e Y sono scorrelate (Cov(X, Y ) = 0) significa solamente
3
Ricordiamo che Var(X) > 0 se e solo se X non è costante.
15
che non esiste una dipendenza lineare tra X e Y . Ricordiamo invece che se X e Y sono
indipendenti allora non esiste alcuna dipendenza funzionale tra X e Y (non solo di tipo
lineare). Perciò se sappiamo solamente che Cov(X, Y ) = 0 non possiamo dire che X e Y
sono indipendenti. Riassumendo:
X Y =⇒ Cov(X, Y ) = 0,
|=
invece
X Y ⇐=
6 Cov(X, Y ) = 0.
|=
Esercizio 2.2. Siano X ed Y variabili aleatorie discrete indipendenti entrambe con
distribuzione di Bernoulli di parametro p = 12 , quindi
X ∼ B 12 , Y ∼ B 21 ,

X Y.
|=
Siano U = X + Y e V = |X − Y |.
(a) Determinare la densità discreta congiunta di U e V e le densità marginali.
(b) Calcolare la probabilità che V sia minore di U .
(c) Calcolare la varianza di U , la varianza di V e la covarianza di U e V .
(d) U e V sono indipendenti?
Soluzione.
(a) Notiamo che

aa
Y
X aaa 0 1 pX
a
1 1 1
0 4 4 2
1 1 1
1 4 4 2
1 1
pY 2 2 1
Per quanto riguarda U e V , si ha SU = {0, 1, 2} e SV = {0, 1}. Inoltre
1
p(U,V ) (0, 0) = p(X,Y ) (0, 0) = ,
4
p(U,V ) (0, 1) = 0,
p(U,V ) (1, 0) = 0,
1
p(U,V ) (1, 1) = p(X,Y ) (0, 1) + p(X,Y ) (1, 0) = ,
2
1
p(U,V ) (2, 0) = p(X,Y ) (1, 1) = ,
4
p(U,V ) (2, 1) = 0.
16
Quindi
V
aa
U aaa 0 1 pU
1 1
0 4 0 4
1 1
1 0 2 2
1 1
2 4 0 4
1 1
pV 2 2 1
Le densità marginali di U e V si ottengono sommando rispettivamente lungo le righe
e lungo le colonne.
(b) Per la formula (2.1), si ha che

X
P(V < U ) = p(U,V ) (ui , vj ).
vj <ui
Le coppie (ui , vj ) che verificano la condizione vj < ui sono: (1, 0), (2, 0), (2, 1). Quindi
1
P(V < U ) = p(U,V ) (1, 0) + p(U,V ) (2, 0) + p(U,V ) (2, 1) = p(U,V ) (2, 0) = .
4
(c) Iniziamo col calcolare E[U ] e E[U 2 ]:

1 1 1
E[U ] = 0 × +1× +2× = 1
4 2 4
1 1 1 3
E[U 2 ] = 02 × + 12 × + 22 × = .
4 2 4 2
Quindi
1
Var(U ) = E[U 2 ] − E[U ]2 = .
2
Per quanto riguarda V , si può procedere come per U , oppure notare che V ∼ B(1/2),
quindi
1
Var(V ) = .
4
Resta da determinare Cov(U, V ). Iniziamo col calcolare E[U V ]:
X
E[U V ] = ui vj p(U,V ) (ui , vj )
i,j
1 1 1
= 0×0× +0×1×0+1×0×0+1×1× +2×0× +2×1×0
4 2 4
1
= .
2
Quindi (si noti che E[V ] = 1/2)
Cov(U, V ) = E[U V ] − E[U ] E[V ] = 0.
Quindi le variabili aleatorie U e V sono scorrelate.
17
(d) No, infatti, ad esempio, p(U,V ) (0, 1) 6= pU (0) pV (1). Quindi U e V non possono
essere indipendenti per il Teorema 2.3. (A conferma della non indipendenza di U e
V , notiamo che esiste una dipendenza funzionale tra queste due variabili aleatorie,
infatti: V = U mod 2)
18
TEOREMI LIMITE
1 Introduzione
L’argomento di questo capitolo ha come principale motivazione le applicazioni alla Sta-
tistica. Più precisamente, supponiamo di essere interessati ad un esperimento aleatorio
e, in particolare, ad una variabile aleatoria ad esso collegata. Indichiamo tale variabile
aleatoria con X. Come possiamo determinare, o meglio “stimare”, la distribuzione di X?
Per stimare la distribuzione di X, un buon punto di partenza consiste nello stimare la
media di tale distribuzione, cioè E[X]. In questo capitolo forniremo le basi teoriche per
lo studio del seguente problema: data una qualunque variabile aleatoria X, come si stima
E[X]?
Si noti che saper stimare il valore atteso di una qualunque variabile aleatoria X, signi-
fica non solo saper stimare E[X] ma anche E[f (X)] con f : R → R funzione arbitraria. Si
può dimostrare che la conoscenza di tutti i valori attesi E[f (X)], con f funzione arbitraria,
sono equivalenti alla conoscenza della distribuzione di X. In altre parole, saper stimare
E[X], con X arbitraria, permette di risolvere, per lo meno a livello teorico, il problema
che abbiamo posto all’inizio: data una qualunque variabile aleatoria X, come si stima la
distribuzione di X?
Notiamo che saper stimare il valore atteso di una qualunque variabile aleatoria X
significa anche saper stimare la probabilità di un qualunque evento A. Infatti, è sufficiente
scegliere X = 1A , la variabile aleatoria indicatrice relativa all’evento A, e ricordare che
P(A) = E[1A ].
Sia dunque X una generica variabile aleatoria di cui si vuole stimare il valore atteso.
Per ottenere una “stima” si segue questo classico procedimento della Statistica: si ripete
un numero “elevato” di volte l’esperimento aleatorio, ogni volta registrando quale valore
ha assunto la variabile aleatoria X. Si ottiene dunque una sequenza di valori numerici1 :
x1 x2 x3 ··· xn
Una sequenza ottenuta in questo modo si chiama un campione di dati. Come otteniamo
a partire da x1 , x2 , x3 , . . . , xn una stima di E[X]? Come vedremo in questo capitolo, una
scelta naturale è quella di considerare la media aritmetica di x1 , x2 , x3 , . . . , xn :
x1 + x2 + x3 + · · · + xn
E[X] ' . (1.1)
n
La media aritmetica del campione x1 , x2 , x3 , . . . , xn si chiama anche media campionaria e
si indica con il simbolo x̄n , quindi
x1 + x2 + x3 + · · · + xn
x̄n = .
n
Come motivazione della stima (1.1) è utile ricordare quanto visto nel problema del gior-
nalaio (si veda il capitolo riguardante le variabili aleatorie discrete). Nella risoluzione di
tale problema si introduce la variabile aleatoria
X = “no di copie richieste”.

1
Indichiamo i valori assunti da X nei vari esperimenti con lettere minuscole dato che non sono aleatori,
infatti stiamo supponendo che gli esperimenti si siano già svolti e noi ne conosciamo l’esito.
2
Per determinare la distribuzione di X si “ripete l’esperimento aleatorio 50 volte”, ovvero
si osserva cosa accade in cinquanta giorni. Supponiamo ad esempio che questi siano i dati
ottenuti (qui xi indica il no di copie richieste l’i-esimo giorno):
x1 = 6, x2 = 3, x3 = 5, x4 = 8, x5 = 4, x6 = 7, x7 = 3, x8 = 5,
x9 = 2, x10 = 1, x11 = 9, x12 = 3, x13 = 5, x14 = 6, x15 = 6, x16 = 4,
x17 = 5, x18 = 5, x19 = 7, x20 = 2, x21 = 8, x22 = 4, x23 = 0, x24 = 3,
x25 = 3, x26 = 9, x27 = 8, x28 = 4, x29 = 4, x30 = 6, x31 = 5, x32 = 10,
x33 = 6, x34 = 5, x35 = 4, x36 = 7, x37 = 6, x38 = 4, x39 = 5, x40 = 6,
x41 = 5, x42 = 4, x43 = 3, x44 = 2, x45 = 4, x46 = 6, x47 = 4, x48 = 5,
x49 = 6, x50 = 5.
Riportiamo tali dati in forma aggregata nella seguente tabella:
no copie richieste no giorni frequenza relativa
1
0 1 50
1
1 1 50
3
2 3 50
6
3 6 50
10
4 10 50
11
5 11 50
9
6 9 50
3
7 3 50
3
8 3 50
2
9 2 50
1
10 1 50
Supponendo che tali dati siano significativi (ovvero che in futuro l’andamento delle richie-
ste non si scosterà significativamente da quanto riportato in tabella), risulta ragionevole
supporre che X sia una variabile aleatoria discreta con supporto
SX = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
e densità discreta data da
X 0 1 2 3 4 5 6 7 8 9 10
1 1 3 6 10 11 9 3 3 2 1
pX 50 50 50 50 50 50 50 50 50 50 50
Abbiamo dunque “determinato”, o meglio stimato, direttamente la distribuzione di X,
quindi in particolare anche la sua media E[X]. Infatti
1 1 3 6 10 11 9 3 3 2 1
E[X] = 0 · +1· +2· +3· +4· +5· +6· +7· +8· +9· + 10 ·
50 50 50 50 50 50 50 50 50 50 50
x1 + x2 + x3 + · · · + x50
= .
50
In conclusione, come si vede da questo esempio, la formula (1.1) coincide con quanto si
ottiene stimando direttamente la distribuzione di X tramite le frequenze relative.
3
2 Successioni di variabili aleatorie i.i.d.
Iniziamo a formalizzare il problema presentato nella sezione precedente, ovvero data una
qualunque variabile aleatoria X, come si stima E[X]? Immaginiamo dunque di ripete-
re l’esperimento aleatorio a cui siamo interessati infinite 2 volte. Prima di eseguire tali
esperimenti, il valore assunto dalla variabile aleatoria di interesse è da ritenersi aleatorio.
Quindi è naturale considerare una successione di variabili aleatorie che rappresenta gli
ipotetici valori assunti dalla variabile aleatoria di interesse nei vari esperimenti:
X1 X2 X3 ··· Xn ···
La lettera maiuscola sta dunque ad indicare che gli esperimenti devono ancora essere svolti
e le quantità sono quindi aleatorie. Solo dopo aver eseguito gli esperimenti conosceremo
i valori da esse assunti, che saranno indicati con le lettere minuscole x1 , x2 , x3 , . . . , xn , . . .
La successione X1 , X2 , X3 , . . . , Xn , . . . verrà indicata anche con il simbolo
(Xn )n .
Per quanto detto finora è chiaro che le variabili aleatorie X1 , X2 , X3 , . . . , Xn , . . . verificano

la seguente proprietà.
1) Le variabili aleatorie X1 , X2 , X3 , . . . , Xn , . . . hanno tutte la stessa distribuzione.
Infatti sono repliche della variabile aleatoria X, quindi hanno tutte la stessa distribuzione
di X. In particolare, hanno lo stesso valore atteso pari a E[X] (ma anche ad esempio la
stessa varianza).
Un’altra richiesta naturale è la seguente.
2) Le variabili aleatorie X1 , X2 , X3 , . . . , Xn , . . . sono indipendenti.
Tale proprietà equivale a dire che le varie ripetizioni dell’esperimento aleatorio sono ese-
guite in modo tale che non ci siano influenze tra di loro. La prossima definizione chiarisce
il significato di successione di variabili aleatorie indipendenti.
Definizione 2.1. (Xn )n è una successione di variabili aleatorie indipendenti se

sono indipendenti tutte le sottofamiglie finite
Xi1 , Xi2 , . . . , Xik
al variare di k = 2, . . . , n, . . . e degli indici i1 , . . . , ik , tutti distinti tra loro.
Nel seguito considereremo sempre successioni di variabili aleatorie che verificano le pro-
prietà 1) e 2). Risulta quindi utile la seguente definizione.
2
Chiaramente nella realtà potremo fare solo un numero finito, anche se “elevato”, di ripetizioni.
4
Definizione 2.2. (Xn )n è una successione di variabili aleatorie i.i.d.a se valgono
le seguenti due proprietà:
1) X1 , X2 , . . . , Xn , . . . hanno tutte la stessa distribuzione;
2) (Xn )n è una successione di variabili aleatorie indipendenti.

a
i.i.d. sta per indipendenti e identicamente distribuite.
3 Legge dei grandi numeri (LGN)

Iniziamo con un risultato preliminare, particolarmente importante.
Teorema 3.1 (Disuguaglianza di Chebyshev). Sia Y una variabile aleatoria con

media µ. Per ogni ε > 0, vale che
Var(Y )
P |Y − µ| > ε ≤ .
ε2
Dimostrazione. Sia
(
1, se |Y − µ| > ε,
Z = 1{|Y −µ|>ε} =
0, altrimenti.
In altre parole, Z è la variabile aleatoria indicatrice relativa all’evento {|Y − µ| > ε}.
Quindi, in particolare, Z ∼ B(p) con

p = P |Y − µ| > ε .
Si noti che
Var(Y ) = E (Y − µ)2

≥ E (Y − µ)2 1{|Y −µ|>ε}

≥ E ε2 1{|Y −µ|>ε} = ε2 E 1{|Y −µ|>ε} = ε2 E[Z].

Dato che Z ∼ B(p), si ha che E[Z] = p = P(|Y − µ| > ε), quindi
Var(Y ) ≥ ε2 P |Y − µ| > ε .

Passiamo ora alla Legge dei grandi numeri. Consideriamo dunque una successione di
variabili aleatorie i.i.d.
X1 X2 X3 ··· Xn ···
5
o, più sinteticamente, (Xn )n . Indichiamo con µ e σ 2 rispettivamente la loro media e la
loro varianza. Per ogni n fissato, definiamo la media campionaria delle prime n variabili
aleatorie come segue:
X1 + · · · + Xn
X̄n = .
n
Si noti che X̄n è anch’essa una variabile aleatoria, infatti il suo valore non è ancora noto.
Sarà noto solo dopo aver svolto i primi n esperimenti. A quel punto indicheremo il suo
valore con la lettera minuscola x̄n .
Come abbiamo sottolineato all’inizio, la media campionaria si usa in Statistica per
stimare la vera media µ delle variabili aleatorie X1 , . . . , Xn , . . .. Questa è una conseguenza
della Legge dei grandi numeri, la quale stabilisce che X̄n “converge” verso µ quando n
tende all’infinito.
Teorema 3.2 (Legge dei grandi numeri). Sia (Xn )n una successione di variabili
aleatorie i.i.d. con media µ e varianza σ 2 . Allora, posto
X1 + · · · + Xn
X̄n = ,
n
si ha
∀ ε > 0, lim P |X̄n − µ| > ε = 0. (3.1)
n→+∞
Inoltre, vale che

σ2
P |X̄n − µ| > ε ≤ . (3.2)
ε2 n
Notazione. Se vale che

∀ ε > 0, lim P |X̄n − µ| > ε = 0,
n→+∞
si dice che X̄n converge in probabilità a µ quando n tende all’infinito. In tal caso, si
scrive
P
X̄n −→ µ.
n→+∞
Osservazione. La (3.2) fornisce una stima della velocità di convergenza in probabilità.

Dimostrazione della Legge dei grandi numeri. La dimostrazione consiste nell’appli-
cazione della disuguaglianza di Chebyshev alla variabile aleatoria X̄n . Per applicare tale
disuguaglianza, dobbiamo prima calcolare media e varianza di X̄n .
La media di X̄n si calcola usando la linearità del valore atteso:

X1 + · · · + X n 1
E[X̄n ] = E = E[X1 + · · · + Xn ]
n n
1
= E[X1 ] + · · · + E[Xn ]
↑ n
linearità di E[·]
1
= n µ = µ.
↑ n
ident. distr.
6
Quindi anche X̄n ha media µ.
Per quanto riguarda la varianza, grazie all’indipendenza di X1 , . . . , Xn si ha che

X1 + · · · + Xn 1
Var(X̄n ) = Var = 2 Var(X1 + · · · + Xn )
n n
1
= Var(X 1 ) + · · · + Var(X n )
↑ n2
indipendenza
1 2 σ2
= n σ = .
↑ n2 n
ident. distr.
Adesso, per ogni ε > 0 fissato, applicando la disuguaglianza di Chebyshev alla variabile
aleatoria X̄n , otteniamo
Var(X̄n ) σ2
P(|X̄n − µ| > ε) ≤ = ,
ε2 ε2 n
che dimostra la formula (3.2). Dimostriamo infine la formula (3.1). Poiché
σ2
0 ≤ P(|X̄n − µ| > ε) ≤ −→ 0,
ε2 n n→+∞
concludiamo che
lim P |X̄n − µ| > ε = 0.
n→+∞
7
3.1 Metodo Monte Carlo
La Legge dei grandi numeri è alla base di un metodo numerico probabilistico molto
importante, noto come metodo Monte Carlo 3 . Consideriamo il seguente problema.
Z b
Come si può approssimare f (x) dx, con f funzione integrabile?
a
R1
Per semplicità, consideriamo il caso a = 0 e b = 1, quindi l’integrale diventa 0
f (x) dx.
Possiamo riscrivere questo integrale come valore atteso:
Z 1
f (x) dx = E[f (U )],
0
dove U ∼ Unif (0, 1). Ci siamo dunque ricondotti al problema di stimare il valore atteso
della variabile aleatoria X = f (U ). Il metodo Monte Carlo consiste nell’approssima-
re numericamente il valore atteso E[f (U )] facendo uso della Legge dei grandi numeri.
Più precisamente, sia (Un )n una successione di variabili aleatorie i.i.d. con la medesima
distribuzione di U , quindi uniforme su (0, 1). Definiamo
Xn = f (Un ), ∀ n.
Allora (Xn )n è ancora una successione di variabili aleatorie i.i.d., con la medesima distri-
buzione di f (U ). Quindi, per la Legge dei grandi numeri,
Z 1
f (U1 ) + · · · + f (Un ) P
−→ E[f (U )] = f (x) dx.
n n→+∞ 0
L’implementazione del metodo Monte Carlo si basa sull’utilizzo dei generatori aleatori.
Nell’esempio qui considerato, per approssimare E[f (U )] si genera una sequenza di numeri
3
Il metodo Monte Carlo è stato sviluppato nell’ambito della ricerca nucleare. La sua nascita si at-
tribuisce in particolare al matematico polacco Stanislaw Ulam, che lavorava nell’ambito del progetto
Manhattan. Anche il fisico italiano Enrico Fermi e il matematico ungherese John von Neumann hanno
contribuito alla nascita di questo metodo. Il nome è stato coniato successivamente dal matematico statu-
nitense Nicholas Metropolis (anch’egli all’interno del progetto Manhattan), facendo proprio riferimento
alla città di Monte Carlo e al suo casinò. Nella sua autobiografia Ulam descrive come l’idea gli sia venuta
cercando di calcolare la probabilità di vincere al solitario. Più precisamente, si consideri un mazzo di 52
carte. La riuscita o meno del solitario dipende solamente da come sono ordinate le carte nel mazzo. In
totale ci sono 52! ordinamenti. Quindi
numero di solitari riusciti
P(“vincere”) = .
52!
Come racconta egli stesso: “L’idea del metodo Monte Carlo mi è venuta giocando a carte un solitario
durante un periodo di convalescenza, nel 1946. Avevo sprecato un mucchio di tempo per calcolare, senza
successo, con tecniche combinatorie, la probabilità di riuscita del solitario. Pensai allora che, giocando
un centinaio di volte il solitario, avrei potuto stimare questa probabilità con la frequenza delle volte con
cui era riuscito, aggirando cosı̀ con la pratica il pensiero astratto. Questo metodo era ormai possibile,
visto l’avvento dei calcolatori veloci. Era ovvio pensare anche a soluzioni simili per problemi legati alla
diffusione dei neutroni o di fisica matematica e, più in generale, a come scambiare processi descritti
da certe equazioni differenziali con un modello equivalente interpretabile come successione di operazioni
aleatorie. In seguito descrissi l’idea a John von Neumann e cominciammo a realizzare veri e propri calcoli
matematici al riguardo.”
8
casuali con distribuzione uniforme su (0, 1), quindi
u1 u2 ··· un
Tali numeri sono scritti con la lettera minuscola in quanto sono noti, infatti sono i numeri
forniti dal generatore aleatorio. Dopodiché, si calcola la quantità
f (u1 ) + · · · + f (un )
.
n
R1
Se n è “elevato” si ottiene una buona approssimazione dell’integrale 0 f (x) dx.
I principali vantaggi rispetto ai metodi deterministici di integrazione numerica sono i
seguenti:
• non si richiedono ipotesi di regolarità sulla funzione integranda f ;
• l’ordine di convergenza del metodo, che è √1n come seguirà dal Teorema centra-
le del limite, è indipendente dalla dimensione e l’implementazione del metodo in
dimensione maggiore di uno non comporta alcuna difficoltà aggiuntiva.
3.2 Metodo del gradiente stocastico

In questa sezione presentiamo un altro metodo numerico, noto come metodo del gra-
diente stocastico, particolarmente importante nell’ambito delle reti neurali. Iniziamo col
descrivere il metodo del gradiente, che è un metodo completamente deterministico.
Metodo del gradiente. Sia f : Rd → R e consideriamo il seguente problema4 di

ottimizzazione:
Trovare x∗ ∈ Rd punto di minimo di f : f (x∗ ) = min f (x). (3.3)

x
Quando f verifica opportune ipotesi di regolarità, il metodo del gradiente permette di

determinare in modo approssimato un tale punto x∗ . Alla base di questo metodo vi è
una proprietà del gradente che ora richiamiamo. Innanzitutto, ricordiamo che il gradiente
di f calcolato nel punto x = (x1 , . . . , xd ), indicato con ∇f (x), è il vettore delle derivati
parziali prime:  ∂f 
∂x1
(x)
∇f (x) =  ..
.
 
.
∂f
∂xd
(x)
Il vettore ∇f (x) rappresenta l’incremento infinitesimo della funzione f nel punto x, si
deduce dunque la seguente fondamentale proprietà: se a partire da x ci muoviamo lungo il
grafico di f , allora le direzioni di massima crescita e massima decrescita sono individuate
rispettivamente dai vettori ∇f (x) e −∇f (x).
Veniamo dunque alla descrizione del metodo del gradiente. Per determinare x∗ si
procede in modo iterativo:
4
Se invece che al minimo siamo interessati al massimo basta notare che un punto di massimo di f è
un punto di minimo di −f . Si applica dunque il metodo del gradiente alla funzione −f .
9
• al passo 0, si sceglie in modo arbitrario un punto di partenza x0 ∈ Rd ;
• al generico passo k = 1, 2, 3, . . ., in cui sono già stati determinati i valori x0 , x1 , . . . , xk ,

si determina xk+1 come segue:
xk+1 = xk + αk v k , (3.4)
dove:
– v k è un vettore di lunghezza unitaria (detto anche versore), che individua la

direzione in Rd lungo cui muoversi;
– αk è un numero reale strettamente positivo che rappresenta la distanza da
compiere lungo la direzione v k .
La direzione ottimale lungo cui muoversi ad ogni passo k è quella che congiunge xk a x∗ ,
che tuttavia non è ovviamente nota a priori. Dato che x∗ è un punto di minimo, l’idea
più naturale è prendere come direzione quella di massima decrescita, data da −∇f (xk ).
Per tale ragione, il metodo del gradiente corrisponde al seguente schema iterativo:
xk+1 = xk − βk ∇f (xk ).
La quantità che qui abbiamo chiamato βk non corrisponde in generale al parametro

αk che compare in (3.4), infatti ∇f (xk ) non ha generalmente lunghezza unitaria. Più
precisamente, vale la relazione
∇f (xk )
α k = βk .
lunghezza di ∇f (xk )
Quando f verifica opportune ipotesi di regolarità, vale che
lim f (xk ) = f (x∗ ).

k→+∞
Metodo del gradiente stocastico. Nell’ambito delle reti neurali si è interessati

al problema di ottimizzazione (3.3) per una particolare funzione f , avente la seguente
espressione:
n
1X
f (x) = fi (x), ∀ x ∈ Rd .
n i=1
In altre parole, f è la media aritmetica di n funzioni qui indicate con f1 , . . . , fn . Il metodo
del gradiente applicato ad una tale funzione corrisponde al seguente schema iterativo:
n
1X
xk+1 = x k − βk ∇fi (xk ).
n i=1
Se n è molto elevato può essere particolarmente oneroso determinare xk+1 . Il metodo del
gradiente stocastico consiste dunque nell’individuare, ad ogni passo k, un sottoinsieme di
addendi in modo casuale; sono tali addendi i soli che vengono utilizzati al passo k per
determinare xk+1 .
10
4 Teorema centrale del limite (TCL)
Come nel caso della Legge dei grandi numeri, consideriamo una successione (Xn )n di
variabili aleatorie i.i.d. e indichiamo con µ e σ 2 media e varianza di ciascuna variabile
aleatoria Xn . Sia inoltre
X1 + · · · + Xn
X̄n = .
n
Grazie alla Legge dei grandi numeri sappiamo che vale la convergenza
P
X̄n −→ µ.
n→+∞
Il Teorema centrale del limite5 descrive come avviene questa convergenza, o più precisa-
mente, ci dice qual è approssimativamente la distribuzione di X̄n per n grande.
Prima di enunciare il Teorema centrale del limite, è utile introdurre la variabile aleatoria
Z̄n data da
X̄n − µ
Z̄n = σ .
√
n
Si noti che
E[Z̄n ] = 0, Var(Z̄n ) = 1.
La variabile aleatoria Z̄n si chiama media campionaria standardizzata.
Teorema 4.1 (Teorema centrale del limite). Sia (Xn )n una successione di variabili
aleatorie i.i.d. con media µ e varianza σ 2 . Supponiamo che σ > 0. Allora, posto
X̄n − µ
Z̄n = ,
√σ
n
si ha
lim P(Z̄n ≤ x) = lim FZ̄n (x) = Φ(x), ∀ x ∈ R,
n→+∞ n→+∞
Rx 1 2
dove Φ(x) = −∞
√1
2π
e− 2 y dy è la funzione di ripartizione della distribuzione normale
standard.
Osservazione 1. Se σ = 0, il Teorema centrale del limite non vale. Tuttavia, in tal caso
possiamo dire molto di più sulla successione X̄n . Infatti, se σ = 0 allora ciascuna variabile
aleatoria Xn è costante e inoltre Xn = µ. Di conseguenza, anche X̄n = µ, mentre Z̄n = 0,
per ogni n.
Osservazione 2. Se vale che
lim FZ̄n (x) = Φ(x), ∀ x ∈ R,

n→+∞
5
Il nome “Teorema centrale del limite” (o “Teorema limite centrale”) è stato dato dal matematico
ungherese George Pólya per sottolineare come tale teorema abbia un ruolo centrale in Probabilità e
Statistica.
11
si dice che Z̄n converge in legge (o in distribuzione) ad una variabile aleatoria
normale standard quando n tende all’infinito. In tal caso, si scrive
L
Z̄n −→ Z ∼ N (0, 1).
n→+∞
Osservazione 3. Sulla base dell’esperienza empirica, generalmente si applica il valore

n = 30 come soglia di applicabilità del Teorema centrale del limite. Tuttavia questa soglia
funziona bene solo per distribuzioni simmetriche. Se la distribuzione è particolarmente
asimmetrica, bisogna considerare valori più grandi di n.
Osservazione 4. Se n è “elevato”, dal Teorema centrale del limite si ha che
FZ̄n (x) ' Φ(x), per ogni x ∈ R.
Questo significa che

Z̄n ≈ Z,
con Z variabile aleatoria normale standard. Il simbolo ≈ indica che Z̄n e Z hanno
approssimativamente la stessa distribuzione. Dato che
σ
X̄n = µ + √ Z̄n ,
n
si ha
σ σ
X̄n = µ + √ Z̄n ≈ µ + √ Z.
n n
2
Poiché µ + √σn Z ∼ N µ, σn , si deduce che X̄n ha approssimativamente distribuzione

normale di media µ e varianza σ 2 /n. Inoltre, l’approssimazione

σ
X̄n ≈ µ + √ Z
n
precisa ed esplicita il risultato di convergenza della Legge dei grandi numeri. In particolare,
fornisce l’ordine di convergenza √1n . Infatti, l’errore (aleatorio) di approssimazione è dato
da
σ
|X̄n − µ| ≈ √ |Z|.
n
Quindi l’errore medio è pari a
r
σ σ 2
E[|X̄n − µ|] ' √ E[|Z|] = √ ,
n n π
dove l’ultima uguaglianza segue dall’integrale

Z +∞ Z +∞
r
1 1 2 1 − 1 x2 2 h − 1 x2 i+∞ 2
E[|Z|] = |x| √ e− 2 x dx = 2 x √ e 2 dx = − √ e 2 = .
−∞ 2π 0 2π 2π 0 π
12
Esercizio 4.1. Supponiamo di lanciare un milione di volte una moneta non truccata.
Qual è la probabilità di ottenere un numero di teste compreso fra 499500 e 501000? Si
calcoli tale probabilità in modo approssimato, facendo uso del Teorema centrale del limite.
[Si esprima il risultato nella forma Φ(x) − Φ(−y), con x, y > 0 da determinarsi]
Soluzione. Il risultato è Φ(2) − Φ(−1) ' 0.9773 − 0.1587 = 0.8186. Infatti, sia
Xn = “vale 1 se all’n-esimo lancio esce testa, zero altrimenti”.
Allora Xn ∼ B(p) di parametro p = 1/2, quindi

1 1
µ = E[Xn ] = p = , σ 2 = Var(Xn ) = p (1 − p) = .
2 4
Inoltre (Xn )n è una successione di variabili aleatorie i.i.d., tutte aventi legge B(1/2).
L’esercizio chiede di calcolare (in modo approssimato) la seguente probabilità:

P 499500 ≤ X1 + · · · + X1000000 ≤ 501000 .
Siano
X1 + · · · + X n
X̄n = ,
n
X̄n − µ
Z̄n = √ .
σ/ n
Dal Teorema centrale del limite sappiamo che Z̄n ha approssimativamente distribuzione
normale standard (cioè X̄n ha approssimativamente distribuzione normale di media µ =
1/2 e varianza σ 2 /n = 1/(4n)). Quindi

499500 501000
P 499500 ≤ X1 + · · · + X1000000 ≤ 501000 = P ≤ X̄1000000 ≤
1000000 1000000

= P 0.4995 ≤ X̄1000000 ≤ 0.5010

0.4995 − µ 0.5010 − µ
= P √ ≤ Z̄1000000 ≤ √
↑ σ/ 1000000 σ/ 1000000
standardizzazione

0.4995 − 0.5 0.5010 − 0.5
= P √ ≤ Z̄1000000 ≤ √
0.5/ 1000000 0.5/ 1000000

' P − 1 ≤ Z̄1000000 ≤ 2 = Φ(2) − Φ(−1) ' 0.9773 − 0.1587 = 0.8186.
13
CATENE DI MARKOV
A TEMPO DISCRETO
1 Processi stocastici
Iniziamo con l’introdurre una generalizzazione del concetto di variabile aleatoria, che si
chiama processo stocastico 1 (o anche processo casuale o processo aleatorio).
Supponiamo di voler descrivere matematicamente una quantità numerica incerta il
cui valore evolve nel tempo. Questo corrisponde ad una famiglia di variabili aleatorie
indicizzate mediante un parametro che è appunto il “tempo”. Vediamo due esempi, a
seconda che il tempo sia “discreto” o “continuo”.
Esempio 1.1. Un’urna contiene 90 palline numerate da 1 a 90. Si estrae una pallina dal-
l’urna, si registra il suo numero e la si reintroduce nell’urna. Quindi si itera la procedura.
Poniamo
Xn = “numero della pallina estratta all’ n-esima estrazione”.
La quantità numerica (numero della pallina) che varia nel “tempo” (dato dall’ordine di
estrazione) è rappresentata dalla famiglia (in tal caso, successione) di variabili aleatorie
(Xn )n , indicizzate dal parametro n ∈ N.
Esempio 1.2. Consideriamo un componente elettronico e sia
Xt = “temperatura del componente elettronico all’istante t”,
per ogni numero reale t ≥ 0. In tal caso la quantità numerica (temperatura) che varia nel
tempo è rappresentata dalla famiglia di variabili aleatorie (Xt )t , indicizzate dal parametro
t ≥ 0.
Diamo quindi la definizione generale di processo stocastico, distinguendo a seconda

della natura del parametro temporale.
Definizione 1.1. Sia (Ω, P) uno spazio di probabilità.
• Si chiama processo stocastico a tempo discreto una successione di variabili

aleatorie (Xn )n , con n ∈ N, tutte definite su Ω.
• Si chiama processo stocastico a tempo continuo una famiglia di variabili

aleatorie (Xt )t , con t ∈ [0, +∞), tutte definite su Ω.
Osservazione. Si noti che è possibile considerare processi stocastici su intervalli di

tempo finiti. Ad esempio, un processo stocastico a tempo continuo sull’intervallo di tempo
[0, 10] è una famiglia di variabili aleatorie (Xt )t , con t ∈ [0, 10].
Nel seguito considereremo solo processi stocastici a tempo discreto, in cui inoltre le
variabili aleatorie X1 , . . . , Xn , . . . saranno tutte discrete e, in particolare, con supporto
1
Il termine stocastico deriva dal greco ed è sinonimo di casuale e aleatorio.
2
finito. Un esempio importante di processo stocastico a tempo discreto, che abbiamo già
incontrato nello studio dei teoremi limite, è il seguente.
Esempio 1.3. Sia (Xn )n una successione di variabili aleatorie indipendenti e

identicamente distribuite (i.i.d.). Allora (Xn )n è un processo stocastico a tempo discreto.
Il nostro obiettivo è studiare successioni (Xn )n più generali delle successioni i.i.d., in
cui le due ipotesi (“indipendenti” e “identicamente distribuite”) verranno indebolite. In
particolare, per quanto riguarda la prima ipotesi (“indipendenti”), considereremo succes-
sioni (Xn )n in cui ci potrà essere una dipendenza tra le variabili aleatorie, anche se tale
dipendenza dovrà avere una struttura particolare detta “a catena”: la variabile aleatoria
Xn+1 sarà influenzata direttamente solo da quella che la precede, ovvero Xn , e tramite
essa sarà influenzata da tutte le variabili aleatorie precedenti. Più precisamente, una vol-
ta nota Xn , la conoscenza supplementare dei valori di X1 , X2 , . . . , Xn−1 non darà alcuna
ulteriore informazione riguardo il valore di Xn+1 .
2 Catene di Markov a tempo discreto

I processi stocastici a tempo discreto che studieremo si chiamano catene di Markov 2 a
tempo discreto, dove il termine “catene” fa proprio riferimento alla particolare struttura
di dipendenza tra le variabili aleatorie del processo.
Definizione 2.1. Si chiama catena di Markov (a tempo discreto)a una successione

di variabili aleatorie (Xn )n (ovvero, un processo stocastico a tempo discreto) che verifica
le seguenti proprietà.
1) Le variabili aleatorie X1 , . . . , Xn , . . . sono discrete e il loro supporto è contenuto

nello stesso insieme S discreto (cioè finito o al più infinito numerabile), ovvero
SX1 ⊂ S, ··· SXn ⊂ S, ···
S si chiama lo spazio degli stati della catena di Markov.
2) (Proprietà di Markov: dipendenza a “catena”) Per ogni scelta di

i1 , . . . , in−1 , i, j ∈ S (non necessariamente distinti) vale l’uguaglianza
P(Xn+1 = j|X1 = i1 , . . . , Xn−1 = in−1 , Xn = i) = P(Xn+1 = j|Xn = i).

a
Dato che ci occuperemo solo di catene di Markov a tempo discreto, nel seguito parleremo solo di
catene di Markov.
2
Andrej Andreevic Markov (1856-1922) è stato un matematico russo, allievo di Chebyshev. Markov
è noto soprattutto per essere stato uno dei primi matematici ad indagare a fondo i processi stocastici,
introducendo in particolare i processi che oggi portano il suo nome.
3
La quantità
πij (n) = P(Xn+1 = j|Xn = i)
si chiama probabilità di transizione all’istante n dallo stato i allo stato j.
Osservazione 1. Per semplicità nel seguito utilizzeremo sempre e solo S invece dei sup-
porti delle singole variabili aleatorie X1 , . . . , Xn , . . ., anche se ciascuna variabile aleatoria
non assumerà necessariamente tutti i valori contenuti in S.
Osservazione 2. La proprietà di Markov afferma che le variabili aleatorie X1 , . . . , Xn , . . .
non sono necessariamente indipendenti (come accade nel caso i.i.d.), tuttavia la struttura
di dipendenza è abbastanza semplice dato che è appunto a “catena”.
Per comprendere meglio la proprietà di Markov, supponiamo di essere all’istante n,
quindi di conoscere il valore che è stato assunto dalle variabili aleatorie X1 , . . . , Xn−1 , Xn .
Indichiamo tali valori con i1 , . . . , in−1 , i, quindi
X1 = i 1 , X2 = i2 , ··· Xn−1 = in−1 , Xn = i.
I valori i1 , . . . , in−1 , i rappresentano la storia del processo fino all’istante n; inoltre i1 , . . . , in−1
sono i valori passati, mentre i è il valore presente; infine Xn+1 è il valore futuro. Utilizzando
questa terminologia, possiamo riscrivere la proprietà di Markov come segue:
P(“il valore futuro è j”|“il valore presente è i e i valori passati sono i1 , . . . , in−1 ”)
= P(“il valore futuro è j”|“il valore presente è i”)
o, in modo ancora più sintetico,
P(“futuro”|“presente e passato”) = P(“futuro”|“presente”).
In altri termini, nelle catene di Markov la dipendenza dal passato dei valori futuri viene
riassunta dal valore presente. Chiaramente è possibile considerare processi stocastici con
strutture di dipendenza più complesse di quella delle catene di Markov, ma noi non ce ne
occuperemo.
3 Catene di Markov omogenee e a stati finiti

Nel seguito ci occuperemo solamente di una classe particolare e molto importante di catene
di Markov, ovvero le catene di Markov omogenee e a stati finiti, che ora definiamo.
Definizione 3.1. Sia (Xn )n una catena di Markov.
• Si dice che (Xn )n è omogenea (nel tempo) se la probabilità di transizione non di-
pende da n. In tal caso, si scrive πij invece di πij (n) e si dice che πij è la probabilità
di transizione dallo stato i allo stato j.
• Si dice che (Xn )n è a stati finiti se lo spazio di stato S è un insieme finito. In tal
caso indicheremo con N la cardinalità di S. Spesso supporremo che S sia dato da
S = {1, 2, . . . , N } oppure S = {0, 1, . . . , N − 1}.
4
Notazione. Nel seguito, anche se non esplicitamente indicato, quando scriveremo catena
di Markov intenderemo sempre catena di Markov omogenea e a stati finiti.
La struttura di dipendenza a catena di (Xn )n , nel caso omogeneo e a stati fini-
ti, è completamente descritta da una matrice quadrata di ordine N , detta matrice di
transizione.
Definizione 3.2. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Si chiama
matrice di transizione la matrice N × N (dove N è la cardinalità di S), indicata con
Π, le cui componenti sono le probabilità di transizione:
πij = P(Xn+1 = j|Xn = i), per ogni i, j ∈ S,
con n qualunque, dato che la catena è omogenea. In altri termini, la probabilità di

transizione πij corrisponde all’elemento nella riga i e colonna j della matrice Π.
Osservazione. Se lo spazio degli stati S non è l’insieme {1, . . . , N }, per scrivere una
matrice di transizione Π bisogna prima fissare un ordinamento degli stati in S (ossia
decidere quale stato corrisponde alla prima riga, quale alla seconda, e cosı̀ via).
Si noti che ogni riga di Π corrisponde alle probabilità (si pensi ad esempio alla riga i):
P(Xn+1 = 1|Xn = i), ··· P(Xn+1 = j|Xn = i), ··· P(Xn+1 = N |Xn = i).
La riga i di Π corrisponde quindi alla “densità discreta di Xn+1 sapendo che Xn = i”.
Questo implica che ogni elemento di Π deve essere un numero appartenente all’intervallo
[0, 1] (in quanto corrisponde ad una probabilità condizionale), inoltre la somma degli
elementi di una qualsiasi riga deve essere uguale a 1. In altri termini, Π deve verificare le
proprietà riportate nel seguente teorema.
Teorema 3.1. Sia Π una matrice di transizione di una catena di Markov (Xn )n . Allora
Π è tale che:
1) 0 ≤ πij ≤ 1, per ogni i, j;

2) la somma degli elementi di ogni riga vale 1, ovvero
N
X
πij = 1, per ogni riga i.
j=1
Dimostrazione. La proprietà 1) segue direttamente dalla definizione di πij , in quanto

ciascun πij è una probabilità (condizionale). Per quanto riguarda 2), essa è una conse-
guenza della formula delle probabilità totali. Infatti, sia i una riga qualsiasi. Poniamo
(scegliendo un istante n qualsiasi, dato che la catena di Markov è omogenea)
A = {Xn = i}, Bj = {Xn+1 = j}, per ogni j ∈ S = {1, . . . , N }.
5
Allora gli eventi B1 , . . . , BN costituiscono una partizione di Ω. Quindi, per la formula
delle probabilità totali, si ha
N
X
P(A) = P(A ∩ Bj ),
j=1
che possiamo riscrivere come segue

N
X
P(Xn = i) = P(Xn = i, Xn+1 = j). (∗)
j=1
Utilizziamo quest’ultima uguaglianza, indicata con (∗), per dimostrare la proprietà 2).
Abbiamo che
N N N
X X X P(Xn+1 = j, Xn = i)
πij = P(Xn+1 = j|Xn = i) =
j=1 j=1 j=1
P(Xn = i)
N
1 X
= P(Xn+1 = j, Xn = i)
P(Xn = i) j=1
P(Xn = i)
= = 1.
↑ P(Xn = i)
(∗)
Rappresentazione grafica di una catena di Markov. Una catena di Markov può

essere rappresentata graficamente tramite un grafo orientato costruito nel modo seguente:
• ogni stato i ∈ S corrisponde ad un nodo del grafo;
• ogni probabilità di transizione πij , se strettamente positiva, corrisponde ad un ar-

co orientato (una freccia) dal nodo i al nodo j (non si disegnano invece le frecce
corrispondenti a probabilità di transizione nulle);
• si riporta il valore di πij sull’arco corrispondente.
In tal caso si dice che la successione di variabili aleatorie (Xn )n è una passeggiata aleatoria
(in inglese random walk ) sul grafo. Vediamo due esempi.
Esempio 3.1. Si consideri una catena di Markov (Xn )n con spazio degli stati S = {1, 2}
e matrice di transizione
1−α α
Π =
β 1−β
dove 0 ≤ α ≤ 1 e 0 ≤ β ≤ 1 sono due parametri fissati. Questa è la matrice di transizione
più generale possibile per una catena di Markov a due stati.
6
Il grafo ad essa associato è il seguente:
α
1−α 1 2 1−β
Esempio 3.2. Si consideri una catena di Markov (Xn )n con spazio degli stati S = {1, 2, 3}
e matrice di transizione  
0 1 0
Π =  0 1/2 1/2  .
1/2 0 1/2
Il grafo ad essa associato è il seguente:
1/2 1
1/2 3 2 1/2
1/2
3.1 Probabilità di transizione in più passi

Sia (Xn )n una catena di Markov (omogenea e a stati finiti) con matrice di transizione Π.
Dalla definizione di (Xn )n , sappiamo quanto vale la probabilità condizionale
P(Xn+1 = j|Xn = i),
infatti è data da πij . Quanto vale invece la probabilità condizionale
P(Xn+2 = j|Xn = i) ?
Più in generale, quanto vale

P(Xn+m = j|Xn = i) ?
(m)
Tale probabilità (che nel caso omogeneo non dipende da n) si indica con πij e si chiama
probabilità di transizione dallo stato i allo stato j in m passi.
7
Definizione 3.3. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Per ogni
intero m ≥ 0, poniamo (con n qualsiasi)
(m)
πij = P(Xn+m = j|Xn = i), per ogni i, j ∈ S.
(m)
πij si chiama probabilità di transizione dallo stato i allo stato j in m passi.
Quando m = 0 oppure m = 1, la probabilità di transizione ha un’espressione partico-

lare, come descritto nella seguente proposizione.
Proposizione 3.1. Sia (Xn )n una catena di Markov omogenea e a stati finiti.
(0)
• Per m = 0, πij è data da:

1, se i = j,
(0)
πij =
0, se i 6= j.
(0)
Quindi la matrice di componenti πij corrisponde alla matrice identità N × N ,
indicata con IN .
(1)
• Per m = 1, πij è data da:
(1)
πij = πij .
(1)
Quindi la matrice di componenti πij corrisponde alla matrice di transizione Π.
Dimostrazione.
• Sia m = 0, allora
(0)
πij = P(Xn = j|Xn = i),
dove n è un istante qualsiasi, dato che la catena di Markov è omogenea. Per
definizione di probabilità condizionale, abbiamo che
P({Xn = j} ∩ {Xn = i})

P(Xn = j|Xn = i) = .
P(Xn = i)
Si noti che 
{Xn = i}, se i = j,
{Xn = j} ∩ {Xn = i} =
∅, se i 6= j.
Quindi
P(Xn = i)

, se i = j,
 
P({Xn = j} ∩ {Xn = i})

 P(Xn = i) 1, se i = j,
= =
P(Xn = i)  P(∅) 0, se i 6= j.

 , se i 6= j,
P(Xn = i)
8
(1)
• Sia m = 1. Segue direttamente dalle definizioni di πij e πij che tali probabilità
(condizionali) coincidono.

(m)
Il seguente teorema fornisce una formula per il calcolo di πij .
Teorema 3.2. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Per ogni intero
(m)
m, la matrice di componenti πij è data da
· · Π} = Πm .
| ·{z
Π
m volte
Osservazione. Si noti che, in particolare, il Teorema 3.2 vale anche per m = 1, dato
che Π1 = Π, e per m = 0, dato che Π0 = IN .
(2)
Dimostrazione del Teorema 3.2 nel caso m = 2. Dobbiamo dimostrare che πij
coincide con l’elemento nella i-esima riga e j-esima colonna della matrice Π2 , quindi
N
X
(2)
πij = πik πkj .
k=1
Per mostrare la validità di questa formula, consideriamo tutti i cammini che portano da
i a j in due passi. Ci sono esattamente N cammini di questo tipo, che sono dati da:
i → 1 → j; i → 2 → j; ··· i → N → j.
Consideriamo uno qualunque di questi cammini, ad esempio quello passante per lo stato
k, ovvero i → k → j. La probabilità di percorrerlo è pari al prodotto delle probabilità
πik πkj . Infatti
P(“passare per k e poi per j”|“partire da i”) = P({Xn+2 = j} ∩ {Xn+1 = k}|Xn = i)

↑
n qualunque, per omog.
P({Xn+2 = j} ∩ {Xn+1 = k} ∩ {Xn = i})
=
P(Xn = i)
P({Xn+1 = k} ∩ {Xn = i}) P({Xn+2 = j} ∩ {Xn+1 = k} ∩ {Xn = i})
=
P(Xn = i) P({Xn+1 = k} ∩ {Xn = i})
= P(Xn+1 = k|Xn = i) P(Xn+2 = j|{Xn+1 = k} ∩ {Xn = i})
= P(Xn+1 = k|Xn = i) P(Xn+2 = j|Xn+1 = k) = πik πkj .
↑
propr. Markov
(2)
Infine, πij è dato dalla somma delle probabilità dei cammini che portano da i a j in due
passi. Quindi
XN
(2)
πij = πik πkj .
k=1
9
(m) (m)
Calcolo diretto di πij . Dal Teorema 3.2 sappiamo che per calcolare πij dobbiamo
(m)
prima trovare la matrice Πm , dopodiché πij è l’elemento nella riga i e colonna j di questa
(m)
matrice. Vediamo ora invece un modo alternativo per il calcolo di πij , più diretto, che
si basa sull’utilizzo del grafo orientato associato a (Xn )n . Vediamolo nel caso m = 2.
(2)
Sappiamo che πij è dato dalla formula
N
X
(2)
πij = πik πkj .
k=1
Il prodotto πik πkj corrisponde alla probabilità di andare da i a j in due passi passando
per il nodo k, cioè di percorrere il cammino che indichiamo brevemente con i → k → j.
Generalmente, solo alcuni di questi cammini hanno probabilità positiva (cioè solo per
alcuni si ha che πik πkj > 0). Per individuarli, il modo più facile è utilizzare il grafo
associato alla catena di Markov, sfruttando il fatto che sul grafo non sono riportate le
frecce corrispondenti a probabilità nulle. Se ad esempio vediamo dal grafo che esistono
solo due cammini possibili, dati da i → k1 → j e i → k2 → j, allora
(2)
πij = πik1 πk1 j + πik2 πk2 j .
(m)
In generale, per calcolare πij , con m qualunque, si procede come segue:
• a partire dal grafo, si trovano tutti i cammini che portano da i a j in m passi;
• la probabilità di ogni cammino è il prodotto delle probabilità lungo gli archi del
cammino stesso;
(m)
• πij è la somma delle probabilità dei cammini che portano da i a j in m passi.
3.2 Classi comunicanti

Data una catena di Markov (Xn )n (omogenea e a stati finiti), è possibile classificare gli
stati in modo tale da partizionare lo spazio degli stati S in sottoinsiemi chiamati classi
comunicanti.
Definizione 3.4. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Fissiamo
due stati i, j ∈ S (non necessariamente i 6= j).
Si dice che j è accessibile da i se esiste m ≥ 0 tale che
(m)
πij > 0.

i j.
(0)
Osservazione. Dato che, per definizione, πii = 1, è sempre vero che i è accessibile da
i stesso. Infatti è banalmente vero che se parto dalla stato i allora accedo allo stato i in
m = 0 passi. Quindi vale sempre che i i.
10
Nel caso i 6= j, come chiarito nel teorema che segue, si ha che i j se e solo se
esiste un cammino di probabilità positiva (che dunque può essere determinato a partire
dal grafo) che conduce da i a j.
Teorema 3.3. Le due affermazioni seguenti sono equivalenti se i 6= j:
a) i j;
b) esiste un intero m ≥ 1 ed esiste un cammino i1 → i2 → i3 → · · · → im+1 in m passi

tale che i1 = i, im+1 = j e
πi1 i2 πi2 i3 · · · πim im+1 > 0.
Dimostrazione del Teorema 3.3 nel caso m = 2. Dobbiamo dimostrare che le

seguenti affermazioni sono equivalenti se i 6= j:
(2)
a) i j, ovvero πij > 0;
b) esiste un cammino i → k → j, che porta da i a j in due passi, tale che
πik πkj > 0.
Sappiamo dal Teorema 3.2 che

N
X
(2)
πij = πik πkj
k=1
(2)
Concludiamo dunque che πij > 0 se e solo se almeno un addendo della sommatoria è
positivo, ovvero se e solo se esiste un k tale che πik πkj > 0.
Definizione 3.5. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Fissiamo
due stati i, j ∈ S (non necessariamente i 6= j).
Gli stati i e j si dicono comunicanti se i j ej i. In tal caso scriviamo
i ! j.
Si chiama classe comunicante un sottoinsieme di S costituito da stati tra loro

comunicanti.
Osservazione 1. Dall’osservazione precedente sappiamo che i i per qualunque stato

i. Dunque è chiaro che ogni stato i ∈ S è comunicante con se stesso, ovvero
i ! i. Ciò implica che ogni stato i ∈ S appartiene ad una classe comunicante (tale
classe potrebbe eventualmente contenere solo lo stato i stesso).
Osservazione 2. Dal Teorema 3.3 segue che le due affermazioni seguenti sono equiva-
lenti se i 6= j:
a) i ! j;
11
b) esiste un cammino chiuso che passa per i e j (per cammino chiuso si intende un
cammino in cui stato di partenza e stato di arrivo coincidono).
Osservazione 3. La relazione “comunicante con” è una relazione di equivalenza

sullo spazio degli stati S, ovvero verifica le seguenti proprietà:
• riflessività: i ! i, per ogni stato i ∈ S;
• simmetria: se i ! j allora j ! i;
• transitività: se i ! j e j ! k allora i ! k.
Infatti, è riflessiva per l’ Osservazione 1 riportata qui sopra. Inoltre, utilizzando quanto
affermato nell’ Osservazione 2, è facile verificare che è anche simmetrica e transitiva.
Dunque l’insieme S può essere partizionato nelle corrispondenti classi di equivalenza, che
sono appunto le classi comunicanti. Da ciò segue che ogni stato i ∈ S appartiene
ad una e una sola classe comunicante (non è in particolare possibile che uno stesso
stato appartenga contemporaneamente a due classi distinte).
Definizione 3.6. Sia (Xn )n una catena di Markov omogenea e a stati finiti.
Si dice che (Xn )n è irriducibile se esiste un’unica classe comunicante, che è quindi data
dall’insieme S stesso.
3.3 Legge di Xn
Sia (Xn )n una catena di Markov (omogenea e a stati finiti) con matrice di transizione Π.
Ci poniamo ora il seguente problema.
Qual è la legge della variabile aleatoria Xn ?
Sappiamo che Xn è una variabile aleatoria discreta, quindi è sufficiente determinare sup-
porto e densità discreta di Xn . Come abbiamo detto in precedenza, come supporto pren-
diamo S (anche se, in generale, S contiene più valori di quelli che effettivamente Xn
assume). Resta da determinare la densità discreta pXn . Supponiamo che lo spazio degli
stati S sia dato dall’insieme {1, 2, . . . , N }. Allora determinare la densità discreta pXn
significa conoscere la tabella
Xn 1 2 ··· N
pXn pXn (1) pXn (2) ··· pXn (N )
Più precisamente, determinare la densità discreta pXn significa conoscere il vettore riga
#» dato da
p Xn
#»
p Xn = pXn (1) pXn (2) · · · pXn (N ) = P(Xn = 1) P(Xn = 2) · · · P(Xn = N ) .
Notazione. Nel seguito, anche se non esplicitamente detto, quando parleremo di distri-
#» , che come abbiamo visto
buzione (o legge) di Xn ci riferiremo sempre al vettore riga p Xn
descrive completamente la densità discreta di Xn , e quindi anche la sua distribuzione.
12
Torniamo al problema che ci siamo posti inizialmente, ovvero determinare la distri-
buzione di Xn (quindi p #» ). Per trovare tale distribuzione non è sufficiente conoscere
Xn
la matrice di transizione Π, dobbiamo anche sapere qual è la distribuzione iniziale della
#» ).
catena di Markov, cioè la distribuzione di X1 (quindi p X1
Teorema 3.4. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Allora la
distribuzione di Xn è data dalla seguente formula:
#»
p #» n−1
Xn = pX1 Π , per ogni n = 1, 2, . . .
Si noti in particolare che

N
X (n−1)
pXn (j) = P(Xn = j) = pX1 (i) πij ,
i=1
per ogni j ∈ S.
Dimostrazione. Dobbiamo dimostrare che, per ogni j ∈ S, vale la seguente formula:

N
X (n−1)
P(Xn = j) = pX1 (i) πij .
i=1
Tale formula è vera in quanto è una diretta conseguenza della formula delle probabilità
totali. Infatti
XN
P(Xn = j) = P(X = j|X = i) P(X1 = i) .
| n {z 1 } | {z }
i=1
π
(n−1) pX1 (i)
ij
3.4 Distribuzione invariante

Sia X una variabile aleatoria discreta con supporto (contenuto in) S. Sappiamo che la
distribuzione (o legge) di X è completamente descritta dal vettore riga p #» , che contiene i
X
valori assunti dalla densità discreta di X. Per semplificare la notazione, indichiamo questo
#» Si noti che il vettore π
vettore con π. #» verifica le seguenti proprietà:
1) ogni sua componente è compresa tra 0 e 1;
2) la somma delle sue componenti è uguale a 1.
Definizione 3.7. Siano Π una matrice di transizione e π #» un vettore che verifica le

proprietà 1) e 2) qui sopra riportate.
Si dice che π#» è una distribuzione invariante o stazionaria o di equilibrio (per Π)
se
#» = π
π #» Π.
Osservazione. Si noti che π #» è una distribuzione invariante per Π se e solo se π

#» è un
autovettore (che verifica le proprietà 1) e 2)) per Π relativo all’autovalore 1.
13
Il termine “invariante” deriva dal seguente teorema, in cui si dimostra che se la distribu-
zione iniziale della catena di Markov è invariante allora le variabili aleatorie X1 , . . . , Xn , . . .
sono identicamente distribuite.
Teorema 3.5. Sia (Xn )n una catena di Markov omogenea e a stati finiti con matrice di
transizione Π.
Supponiamo che la distribuzione di X1 sia invariante, ovvero
#»
p #»
X1 = pX1 Π.
#» .
Allora la distribuzione di Xn (qualunque sia n) è ancora data da p X1
Dimostrazione. Dal Teorema 3.4, sappiamo che la distribuzione (intesa come densità
discreta) di Xn è data da
#»
p #» n−1 #» Πn−2 = · · · = p
#» Π Πn−2 = p #» .
Xn = pX1 Π = p
| X{z1 } X1 X1
#»
=p
X1
Come vedremo nella prossima sezione, il concetto di distribuzione invariante di una

catena di Markov gioca un ruolo importante in quanto è legato al comportamento della
catena stessa per tempi lunghi.
4 Algoritmo PageRank
In questa sezione finale vogliamo descrivere come funziona il motore di ricerca Google
(nella sua prima versione del 1997), o meglio come funziona l’algoritmo PageRank. Prima
però abbiamo bisogno di introdurre ancora alcuni strumenti della teoria delle catene di
Markov.
4.1 Interpretazione della distribuzione invariante

Iniziamo col dare la seguente definizione.
Definizione 4.1. Sia (Xn )n una catena di Markov omogenea e a stati finiti con matrice
di transizione Π.
Si dice che (Xn )n è regolare se esiste n0 tale che
(n )
πij 0 > 0, ∀ i, j ∈ S
ovvero se la matrice
· · Π} = Πn0
| ·{z
Π
n0 volte
ha tutte le componenti strettamente positive.
Osservazione. Si noti che se una catena di Markov è regolare allora si può andare da
(n )
un qualunque stato i ad un qualunque altro stato j in al più n0 passi (dato che πij 0 > 0
14
per ogni i, j ∈ S). Dunque, in tal caso, (Xn )n ha un’unica classe comunicante (che è
quindi S). In altri termini, se una catena di Markov è regolare allora è irriducibile.
Se una catena di Markov è regolare vale il seguente risultato fondamentale.
Teorema 4.1 (di convergenza all’equilibrio o ergodico). Sia (Xn )n una catena di Markov
omogenea e a stati finiti con matrice di transizione Π.
#» tale che, qualunque
Se (Xn )n è regolare allora esiste un’unica distribuzione invariante π
sia i ∈ S,
(n)
lim πij = πj , ∀ j ∈ S.
n→+∞
Inoltre, la velocità di convergenza è esponenziale:

(n)
|πij − πj | ≤ C q n ,
con 0 ≤ q < 1 e C costante positiva.
(n)
Il Teorema 4.1 fornisce un collegamento tra πj e la probabilità di transizione πij
(che corrisponde alla probabilità condizionale P(Xn+1 = j|X1 = i) o, più in generale, a
P(Xn+k = j|Xk = i)).
(n)
Più precisamente, il Teorema 4.1 ci dice che πj è approssimativamente uguale a πij
per n >> 1, qualunque sia i. Ciò fornisce la seguente interpretazione di πj : la probabilità
πj rappresenta, approssimativamente, la probabilità (condizionale) P(Xn+1 = j|X1 = i)
di essere nello stato j al passo n, indipendentemente da quale sia lo stato di partenza i.
Di conseguenza, gli stati j per cui la probabilità πj è elevata sono quelli più facilmente
raggiungibili dagli altri stati. In altri termini, sono gli stati che vengono più spesso
“visitati” se si immagina di partire da un qualunque stato i e di percorrere una passeggiata
aleatoria lungo il grafo orientato associato alla catena di Markov.
Ordinando gli stati in modo crescente in base ai valori contenuti in π, #» si ottiene quindi
un ordinamento degli stati in base a quanto sono più o meno facilmente “visitabili”.
4.2 Google e l’algoritmo PageRank

Vediamo ora un’applicazione delle catene di Markov di grande successo: l’algoritmo Page-
Rank utilizzato dal motore di ricerca Google, ideato nel 1997 da Sergey Brin e Lawrence
“Larry” Page. Quanto segue si basa sul seguente articolo di ricerca:
S. Brin, L. Page. The anatomy of a large-scale hypertextual web searching engine.

Computer networks and ISDN Systems, 33, 107-117, 1998.
Come spiegato in questo articolo, il nome Google è stato scelto da Brin e Page in
quanto rimanda al nome googol, che è il termine matematico con cui si indica il numero
10100 : il motivo è che questo numero rende l’idea della scala dei problemi che un motore
di ricerca deve affrontare.
Google, e in particolare l’algoritmo PageRank, si basa sulla struttura “topologica” del
web, intesa come grafo orientato in cui ogni nodo corrisponde ad una pagina e ogni freccia
15
rappresenta un link. Tale struttura permette di ordinare le pagine, ovvero creare un ran-
king delle pagine che è appunto il compito dell’algoritmo PageRank. Questo ordinamento
viene utilizzato per rispondere in maniera rapida e soddisfacente a ciascuna singola query.
L’algoritmo PageRank nella sua forma attuale non è chiaramente noto (essendo ov-
viamente tutelato da copyright), però l’idea originale del metodo è chiara. L’ordinamento
delle pagine web fornito dall’algoritmo PageRank si basa sull’assegnazione di un indice di
significatività a ciascuna pagina. Per una generica pagina web A, denotiamo tale indice
con PR(A). La procedura di assegnazione dell’indice di significatività prescinde dall’ef-
fettivo contenuto della pagina, mentre tiene conto di quanto e da chi è citata (ovvero, di
quanti e quali link conducono a quella pagina). In particolare, l’indice di significatività
deve soddisfare i due requisiti seguenti:
1) risultare elevato se una pagina è citata da molte altre pagine;
2) risultare elevato se riferito ad una pagina citata da (eventualmente poche) pagine molto
significative.
Dunque il solo conteggio dei link ad una pagina non può essere un buon indice di signi-
ficatività (in quanto non soddisfa il secondo requisito). L’indice di significatività di una
pagina A deve essere invece proporzionale agli indici di significatività delle pagine che
conducono ad A.
4.3 Descrizione dell’algoritmo PageRank

Rappresentiamo graficamente il web come un grafo orientato in cui ogni nodo corrispon-
de ad una pagina e ogni freccia ad un link. Immaginiamo di effettuare una passeggiata
aleatoria nel web, scegliendo ad ogni passo un link a caso dalla pagina in cui ci trovia-
mo (più precisamente, supponiamo che i link uscenti da una data pagina siano tra loro
equiprobabili). Indichiamo infine con (Xn )n la catena di Markov che descrive tale passeg-
giata aleatoria e con Π la sua matrice di transizione. Vediamo a tal proposito il seguente
esercizio.
Esercizio 4.1. Si consideri una versione semplificata del web, descritta dal seguente grafo
orientato, in cui ogni nodo corrisponde ad una pagina, mentre le frecce rappresentano i
link tra le pagine:
3 2 1
16
Supponiamo di partire dalla pagina numero 1 e di effettuare una passeggiata aleatoria
nel web, scegliendo ad ogni passo un link a caso dalla pagina in cui ci troviamo (più
precisamente, si suppongano equiprobabili tra loro i link uscenti da una data pagina). Sia
(Xn )n la catena di Markov che descrive tale passeggiata aleatoria.
(a) Qual è la distribuzione iniziale della catena di Markov, ovvero qual è la densità discreta
di X1 ?
(b) Si rappresenti graficamente la catena di Markov tramite un grafo orientato.
(c) Qual è la matrice di transizione di (Xn )n ?
Nella realtà, la dimensione della matrice Π è gigantesca; si pensi che già nel 1997 si
stimava la presenza di circa 100 milioni di pagine web.
Si noti che gli elementi non nulli della i-esima riga di Π corrispondono alle pagine che
hanno un link che conduce alla pagina i; se tali elementi sono in numero pari a mi , il loro
valore è dato da 1/mi (per l’ipotesi di equiprobabilità, tutti hanno lo stesso valore). Si
noti inoltre che gli elementi non nulli della j-esima colonna sono le pagine a cui si può
accedere partendo dalla pagina j.
L’idea fondamentale su cui si basa l’algoritmo PageRank è quella di considerare la

#» della catena di Markov, ordinando gli stati utilizzando proprio
distribuzione invariante π
l’ordinamento suggerito da π,#» quindi ponendo
PR(j) = πj .
per ogni pagina web j. Vediamo con un esempio perché πj è un buon indice di significati-
vità (ovvero verifica i due requisiti precedentemente riportati sopra). Per farlo riprendiamo
l’Esercizio 4.1 e determiniamo in tal caso la distribuzione invariante π. #»
#» Dato che
Esercizio 4.1 (continuazione). Dobbiamo determinare π.
#» = π
π #» Π
e  
0 1/2 0 1/2
 1/3 0 1/3 1/3 
Π = 
 0
,
0 0 1 
0 1 0 0
si ottiene il sistema di equazioni seguente:
π1 = 13 π2 ,



π = 1 π + π ,

2 2 1 4
1


 π3 = 3 π2 ,
π4 = 12 π1 + 13 π2 + π3 .

17
#» è un vettore densità discreta, quindi deve verificare anche le due proprietà
Si noti che π
seguenti:
1) 0 ≤ πj ≤ 1, per ogni j = 1, 2, 3, 4;
P4
2) j=1 πj = 1.
Si ottiene dunque un’unica soluzione al sistema precedente, che è data da:



 π1 = 0.133333,

π
2 = 0.399999,
π 3
 = 0.133333,


π4 = 0.333333.
L’ordinamento delle pagine ottenuto in tal modo è: Pag2 > Pag4 > Pag1 = Pag3 .
Osservazione. Dal sistema di equazioni dell’esempio precedente si deduce che l’indice

di significatività di una pagina web A, a cui si accede dalle pagine T1 , . . . , Tn , è dato da
1 1
PR(A) = PR(T1 ) + · · · + PR(Tn ),
C(T1 ) C(Tn )
dove C(Ti ) è il numero di link che partono dalla pagina Ti . In conclusione, come richiesto,
l’indice di significatività di A è proporzionale agli indici di significatività delle pagine che
conducono ad A.
Concludiamo infine osservando che quanto detto finora si basa sul Teorema 4.1, che
però vale solo quando (Xn )n è regolare. In generale, non è assolutamente garantito che
questa ipotesi valga. Per tale ragione vanno presi degli accorgimenti, modificando op-
portunamente la matrice di transizione Π del web. Vediamo come si affronta questo
problema.
Nel web ci sono pagine da cui non si può accedere ad alcuna altra pagina. Una pagina
web di questo tipo si chiama pagina dangling e la riga corrispondente sulla matrice di
transizione è costituita solo da zeri, dunque Π in tal caso non è neppure una vera matrice
di transizione dato che la somma degli elementi di una riga dovrebbe sempre essere uguale
a 1.
Per risolvere questo problema una possibilità è quella di ipotizzare che ciascuna pagina
dangling punti ad ogni altra pagina del web (ciò è giustificato dal fatto che si passa da
una pagina all’altra non solo tramite i link, ma anche con la barra degli indirizzi): questo
equivale a sostituire alla riga di una pagina dangling, formata da tutti zeri, il vettore riga
1 1
· · · N1 .

N N
Indichiamo con Πe la nuova matrice cosı̀ ottenuta a partire da Π. Si noti che N è talmente
grande che 1/N è pressoché zero, quindi Πe ' Π. Tuttavia, con questa modifica la nuova
matrice Π
e è una vera matrice di transizione.
18
Nonostante questa modifica la catena di Markov associata a Π e non è ancora regolare
(quindi non è ancora possibile applicare il Teorema ergodico). Per ottenere tale proprietà
è sufficiente perturbare la matrice Π
e come segue:
1
ΠPR = (1 − d) 1N + d Π,
e
N
dove:
• 1N è la matrice N × N le cui componenti sono tutte uguali a 1;
• d ∈ (0, 1) è un parametro fissato (che va scelto in modo “ottimale”).
Si noti che N1 1N è una matrice di transizione come Π,

e quindi è facile mostrare che anche
ΠPR lo è. Inoltre, dato che tutti gli elementi di ΠPR sono strettamente positivi, la catena
di Markov associata a ΠPR è regolare. Possiamo dunque applicare il Teorema 4.1.
19

Dispense PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Dispense PDF

Caricato da

Copyright:

Formati disponibili

Calcolo delle Probabilità e Statistica 2019/2020

A = “domani a Bologna piove”,

La probabilità è una quantificazione o misura dell’incertezza: in logica matematica si

• P(A) = 0 significa che con certezza assoluta l’affermazione è falsa;

• P(A) = 1 significa che con certezza assoluta l’affermazione è vera;

In sintesi, possiamo dunque descrivere la probabilità come una

“misura dell’avverabilità di un evento” 2 .

Concludiamo questa sezione introduttiva accennando alle tre questioni fondamentali

• Che cos’è la probabilità?

• Quali regole/assiomi3 verifica la probabilità?

• il Calcolo delle probabilità ha come obiettivi formulare e studiare modelli matematici

• la Statistica permette di passare da una situazione d’incertezza reale al corrispon-

– la Statistica descrittiva si occupa di descrivere e, in particolare, sintetizzare

2 Richiami di teoria degli insiemi

A∪B = {ω ∈ Ω: ω appartiene ad almeno uno tra A e B},

Ricordiamo inoltre che il simbolo B\A ha il seguente significato:

B\A = {ω ∈ B : ω non appartiene ad A}.

Quindi, in particolare, Ac = Ω\A. Ricordiamo infine le leggi di De Morgan:

Unioni e intersezioni infinite. Nel seguito considereremo anche unioni e intersezioni

Le leggi di De Morgan valgono anche per unioni e intersezioni infinite:

Esercizio 2.1. Per le seguenti successioni di insiemi, determinare ∪∞ ∞

2) An = [0, 1/n]. Risposta: ∪∞ ∞

Cardinalità. Indicheremo con |Ω| oppure #Ω la cardinalità di un qualunque insieme

Esercizio 2.3. Si determini P(Ω) e se ne calcoli la cardinalità nei seguenti casi:

1) Ω = {a}. Risposta: P(Ω) = {∅, {a}} e |P(Ω)| = 2.

3 Modello matematico di un esperimento aleatorio

Un esperimento aleatorio (detto anche fenomeno aleatorio o situazione

Esempi classici di esperimenti aleatori sono i seguenti:

Definizione 3.1. Un evento è un’ affermazione riguardante l’ipotetico risultato dell’e-

A = “esce un numero pari”

3.2 Modello matematico di un esperimento aleatorio

Spazio campionario ed eventi. Diamo le seguenti definizioni.

Definizione 3.2. Si chiama spazio campionario un insieme i cui elementi rap-

Osservazione. Il termine “evento” lo useremo dunque indistintamente per indicare sia

Esempio 3.2. Si lancia un dado. Consideriamo l’evento

A = “esce un numero pari”.

Uno spazio campionario naturale per questo esperimento aleatorio è l’insieme

Dunque l’evento A è rappresentato dal sottoinsieme

Alcuni eventi hanno nomi specifici.

Esempio 3.3. Si lancia un dado. Consideriamo gli eventi:

A = “esce un numero naturale compreso tra 1 e 6”,

A è un evento certo, B è un evento impossibile, C è un evento elementare.

gli eventi A, B e C sono rappresentati dai seguenti sottoinsiemi:

Connettivi logici Operazioni/Relazioni insiemistiche

Assiomi della probabilità. L’ultimo elemento del modello matematico di un esperi-

Assioma I. A ciascun sottoinsieme (o evento) A di Ω è assegnato un numero P(A) che

Osservazione. La probabilità P è dunque una funzione che ad ogni sottoinsieme A di Ω

A ∈ P(Ω) 7→ P(A) ∈ [0, 1],

P : P(Ω) −→ [0, 1].

Definizione 3.4. La coppia (Ω, P) si dice spazio di probabilità o modello

δx0 : P(R) −→ [0, 1]

Esempio 3.5. Siano Ω = R, x1 , . . . , xn e p1 , . . . , pn numeri reali, con

V) Additività finita: se A e B sono disgiunti allora

P(A ∪ B) = P(A) + P(B).

Più in generale, se A1 , . . . , An sono tra loro disgiunti allora

VI) P(Ac ) = 1 − P(A).

VII) Monotonia: se A ⊂ B, allora P(A) ≤ P(B).

si ha che A = ∅. Segue allora dall’additività numerabile (Assioma III)

ovvero (ricordando che p = P(∅) = P(A) = P(An ))

Tali insiemi sono tra loro disgiunti, inoltre

Si noti che A e Ac sono disgiunti. Inoltre

Per l’additività finita abbiamo che

P(Ω) = P(A) + P(Ac ).