Sei sulla pagina 1di 159

Calcolo delle Probabilità e Statistica 2019/2020

INTRODUZIONE
1 L’incertezza e la probabilità
Il concetto di probabilità è strettamente collegato al concetto di incertezza. A tal proposito,
si considerino le seguenti affermazioni:

A = “domani a Bologna piove”,


B = “domani a Bologna la temperatura è superiore a 25 ◦ C”,
C = A e B = “domani a Bologna piove e la temperatura è superiore a 25 ◦ C”.

Esse riguardano il verificarsi di un evento futuro, per tale ragione non è possibile dire
con certezza assoluta se sono vere oppure false, è possibile però dire che sono probabili.
Mentre in logica matematica (anche detta logica del certo) si studiano solo affermazioni
vere oppure false, nella realtà si ha a che fare con affermazioni di cui in genere è possibile
solamente dire che sono probabili. Tali affermazioni riguardano infatti eventi (non solo
futuri come nel caso di A, B, C, ma anche presenti o passati) di cui non si hanno tutte
le informazioni a disposizione per dire con certezza assoluta se sono veri oppure falsi. A
questo proposito, riportiamo la seguente citazione:

“. . . il caso della certezza, intesa come certezza assoluta, è, se non un’astrazione
illusoria, per lo meno un caso limite, mentre sarebbe da considerarsi normale il caso
dell’incertezza.” 1

La probabilità è una quantificazione o misura dell’incertezza: in logica matematica si


attribuisce il valore numerico 1 ad un’affermazione vera e 0 ad un’affermazione falsa; la
probabilità permette di andare oltre questi due casi limite, assegnando ad un’affermazio-
ne un qualunque valore numerico nell’intervallo [0, 1]. Gli estremi dell’intervallo, 0 e 1,
corrispondono ai valori di verità “falso” e “vero” utilizzati in logica matematica.
Si consideri ad esempio l’affermazione A = “domani a Bologna piove”. La probabilità
di tale affermazione, indicata con P(A), è un numero appartenente all’intervallo [0, 1] tale
che:

• P(A) = 0 significa che con certezza assoluta l’affermazione è falsa;

• P(A) = 1 significa che con certezza assoluta l’affermazione è vera;

• P(A) ∈ (0, 1) significa che l’affermazione è probabile, in particolare più P(A) è vicino
ad 1 più è probabile che l’evento “domani a Bologna piove” si verifichi.

In sintesi, possiamo dunque descrivere la probabilità come una

“misura dell’avverabilità di un evento” 2 .

Concludiamo questa sezione introduttiva accennando alle tre questioni fondamentali


che ruotano attorno al concetto di probabilità.

• Che cos’è la probabilità?


1
Bruno de Finetti, “Vero, falso, oppure probabile?”, 1982.
2
Italo Scardovi, “Il tempo e il caso”, 1999.

2
• Come si assegna/stima la probabilità?

• Quali regole/assiomi3 verifica la probabilità?

La prima questione (a cui abbiamo già fornito una possibile risposta affermando che la
probabilità è una “misura dell’avverabilità di un evento”) è di pertinenza della Filosofia.
La seconda è invece di competenza della Statistica e può essere affrontata a due livelli:
ingenuo o formale. Infine, la terza questione può essere risolta servendosi unicamente
di argomentazioni assiomatico-deduttive ed è dunque di pertinenza della Matematica: la
disciplina che se ne occupa è il Calcolo delle probabilità o, semplicemente, Probabilità (in
particolare, almeno nella prima parte riguardante gli eventi, può essere vista come un
nuovo capitolo della logica matematica, la logica dell’incerto).
Infine, possiamo affermare che:

• il Calcolo delle probabilità ha come obiettivi formulare e studiare modelli matematici


(anche detti modelli probabilistici) per descrivere “situazioni d’incertezza”;

• la Statistica permette di passare da una situazione d’incertezza reale al corrispon-


dente modello probabilistico. Essa si divide in descrittiva e inferenziale:

– la Statistica descrittiva si occupa di descrivere e, in particolare, sintetizzare


tramite indici e grafici i dati a disposizione riguardanti la situazione d’incertezza
in esame;
– la Statistica inferenziale 4 si occupa di determinare (inferire) il modello proba-
bilistico “più fedele possibile” ai dati e alle informazioni a disposizione.

2 Richiami di teoria degli insiemi


Come vedremo in seguito, un “evento” sarà descritto matematicamente da un insieme.
Per questo motivo, è utile fare qualche richiamo di teoria degli insiemi.
Indichiamo con la lettera greca maiuscola omega, simbolo Ω, un insieme qualunque.
Un generico elemento di Ω verrà indicato con la lettera greca minuscola omega: ω. Scri-
veremo ω ∈ Ω per dire che ω appartiene ad Ω o, equivalentemente, che ω è un elemento
di Ω.
Sottoinsiemi. Per indicare che A è un sottoinsieme di Ω, scriveremo

A ⊂ Ω.

Si noti che tra tutti i sottoinsiemi di Ω ci sono anche5 l’insieme vuoto (indicato con il
simbolo ∅) e l’insieme Ω stesso, ovvero ∅ ⊂ Ω e Ω ⊂ Ω. Indicheremo con P(Ω) l’insieme
delle parti di Ω, ovvero l’insieme i cui elementi sono tutti i sottoinsiemi di Ω, compresi
l’insieme vuoto ∅ e Ω stesso.
3
Ad esempio, nota la probabilità degli eventi A e B, cosa possiamo dire della probabilità dell’evento
C = A e B?
4
Anche detta Statistica induttiva o Statistica matematica.
5
L’insieme vuoto e Ω sono anche detti sottoinsiemi impropri di Ω, mentre tutti gli altri si chiamano
sottoinsiemi propri.

3
Operazioni insiemistiche. Ricordiamo la definizione di unione, intersezione e com-
plementazione.

A∪B = {ω ∈ Ω: ω appartiene ad almeno uno tra A e B},


A1 ∪ A2 ∪ · · · ∪ An = {ω ∈ Ω: ω appartiene ad almeno un insieme tra A1 , A2 , . . . , An },
A∩B = {ω ∈ Ω: ω appartiene sia ad A che a B},
A1 ∩ A2 ∩ · · · ∩ An = {ω ∈ Ω: ω appartiene a tutti gli insiemi A1 , A2 , . . . , An },
Ac = {ω ∈ Ω: ω non appartiene ad A}.

Ricordiamo inoltre che il simbolo B\A ha il seguente significato:

B\A = {ω ∈ B : ω non appartiene ad A}.

Quindi, in particolare, Ac = Ω\A. Ricordiamo infine le leggi di De Morgan:


• per due insiemi

(A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c ,

• per n insiemi

(A1 ∪A2 ∪· · ·∪An )c = Ac1 ∩Ac2 ∩· · ·∩Acn , (A1 ∩A2 ∩· · ·∩An )c = Ac1 ∪Ac2 ∪· · ·∪Acn .

Unioni e intersezioni infinite. Nel seguito considereremo anche unioni e intersezioni


di una famiglia numerabile di sottoinsiemi di Ω, che ora definiamo. Siano A1 , A2 , . . . , An , . . .
sottoinsiemi di Ω. Si dice che A1 , A2 , . . . , An , . . . costituiscono una famiglia numerabile o
successione di sottoinsiemi di Ω. Definiamo

[
An = {ω ∈ Ω : ω ∈ An per almeno un n},
n=1
\∞
An = {ω ∈ Ω : ω ∈ An per ogni n}.
n=1

Le leggi di De Morgan valgono anche per unioni e intersezioni infinite:


[ ∞ c \∞ \ ∞ c [∞
c
An = An , An = Acn .
n=1 n=1 n=1 n=1

Esercizio 2.1. Per le seguenti successioni di insiemi, determinare ∪∞ ∞


n=1 An e ∩n=1 An .

1) An = {n}. Risposta: ∪∞ ∞
n=1 An = N e ∩n=1 An = ∅.

2) An = [0, 1/n]. Risposta: ∪∞ ∞


n=1 An = [0, 1] e ∩n=1 An = {0}.

Cardinalità. Indicheremo con |Ω| oppure #Ω la cardinalità di un qualunque insieme


Ω, ovvero il numero dei suoi elementi.

4
Esercizio 2.2. Siano A1 , A2 , . . . , An , . . . tutti uguali all’insieme vuoto. Mostrare che tali
insiemi sono tra loro disgiuntia e la loro unione è uguale all’insieme vuoto.
a
Ai ∩ Aj = ∅, per ogni i 6= j.

Esercizio 2.3. Si determini P(Ω) e se ne calcoli la cardinalità nei seguenti casi:

1) Ω = {a}. Risposta: P(Ω) = {∅, {a}} e |P(Ω)| = 2.

2) Ω = {a, b}. Risposta: P(Ω) = {∅, {a}, {b}, {a, b}} e |P(Ω)| = 4.

3) Ω = {a, b, c}. Risposta: P(Ω) = {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}} e |P(Ω)| = 8.

Sulla base di quanto ottenuto nei tre casi appena studiati, qual è la cardinalità di P(Ω)
quando Ω ha n elementi? Risposta: |P(Ω)| = 2n .

3 Modello matematico di un esperimento aleatorio


3.1 Esperimento aleatorio
Iniziamo con l’introdurre alcuni concetti fondamentali 6 .

Un esperimento aleatorio (detto anche fenomeno aleatorio o situazione


d’incertezza) è un esperimento di cui non conosciamo con certezza il risultato.
Un esito (o evento elementare) è un ipotetico risultato dell’esperimento aleatorio.

Esempi classici di esperimenti aleatori sono i seguenti:

• lancio di una moneta, i cui esiti sono generalmente indicati con “testa” e “croce”;

• lancio di un dado, i cui esiti sono generalmente indicati con i numeri naturali da 1
a 6.

Definizione 3.1. Un evento è un’ affermazione riguardante l’ipotetico risultato dell’e-


sperimento aleatorio, di cui è possibile dire con certezza se è vera oppure falsa una volta
noto l’esito dell’esperimento aleatorio.
Gli esiti per cui un evento è vero si chiamano casi favorevoli (per l’evento in questione).

Un evento viene solitamente indicato con una lettera maiuscola dell’alfabeto. Spesso si
utilizzano le prime lettere dell’alfabeto: A, B, C, . . .
6
Le definizioni di esperimento aleatorio ed esito qui riportate, come anche quella di probabilità a cui
abbiamo precedentemente accennato, non sono vere e proprie definizioni matematiche. Tali concetti sono,
più precisamente, enti primitivi (come punto, retta, piano in geometria). Possono quindi essere definiti
solo intuitivamente e a partire da essi vengono formulate tutte le altre (vere) definizioni.

5
Esempio 3.1. Si lancia un dado. L’affermazione

A = “esce un numero pari”

è un evento.

3.2 Modello matematico di un esperimento aleatorio


Il modello matematico di un esperimento aleatorio è una descrizione sintetica dell’esperi-
mento stesso che fa uso della teoria degli insiemi.

Spazio campionario ed eventi. Diamo le seguenti definizioni.

Definizione 3.2. Si chiama spazio campionario un insieme i cui elementi rap-


presentano (secondo un opportuno codice) tutti gli ipotetici risultati dell’esperimento
aleatorio.
Lo spazio campionario si indica generalmente con la lettera greca maiuscola omega: Ω.
Un generico elemento di Ω verrà chiamato esito e sarà indicato con la lettera greca
minuscola omega: ω.

Definizione 3.3. Ogni evento, inteso come affermazione, è rappresentato dal sottoin-
sieme di Ω costituito dai casi favorevoli, ovvero dagli esiti per cui l’evento è vero (è
rappresentato dall’insieme vuoto ∅ se è sempre falso).
Un qualunque sottoinsieme di Ω lo chiameremo ancora evento.

Osservazione. Il termine “evento” lo useremo dunque indistintamente per indicare sia


l’ affermazione che il sottoinsieme. Per tale ragione, nel seguito indicheremo entram-
bi con lo stesso simbolo (tipicamente una lettera maiuscola dell’alfabeto), come acca-
de nell’esempio seguente in cui la lettera maiuscola A indica sia l’affermazione che il
sottoinsieme.

Esempio 3.2. Si lancia un dado. Consideriamo l’evento

A = “esce un numero pari”.

Uno spazio campionario naturale per questo esperimento aleatorio è l’insieme

Ω = {1, 2, 3, 4, 5, 6}.

Dunque l’evento A è rappresentato dal sottoinsieme

A = {2, 4, 6}.

Alcuni eventi hanno nomi specifici.

6
• L’evento certo è un’affermazione che è sempre vera, qualunque sia l’esito dell’e-
sperimento aleatorio. Essa è rappresentata dall’insieme Ω stesso. Per tale ragione
si dice che l’insieme Ω è l’evento certo.
• L’evento impossibile è un’affermazione che è sempre falsa, qualunque sia l’esito
dell’esperimento aleatorio. Essa è rappresentata dall’insieme vuoto ∅. Per tale
ragione si dice che l’insieme ∅ è l’evento impossibile.
• Un evento elementare è un’affermazione che è vera per un solo esito, quindi
è rappresentata da un sottoinsieme di Ω che contiene un solo elemento. Per tale
ragione tutti i sottoinsiemi di Ω che contengono un solo elemento sono chiamati
eventi elementari.

Esempio 3.3. Si lancia un dado. Consideriamo gli eventi:

A = “esce un numero naturale compreso tra 1 e 6”,


B = “esce un numero maggiore o uguale a 7”,
C = “esce il numero 2”,

A è un evento certo, B è un evento impossibile, C è un evento elementare.


Se si considera lo spazio campionario

Ω = {1, 2, 3, 4, 5, 6},

gli eventi A, B e C sono rappresentati dai seguenti sottoinsiemi:

A = Ω, B = ∅, C = {2}.

Operazioni tra eventi. Come abbiamo visto gli eventi sono descritti sia da affer-
mazioni che da insiemi. Sulle affermazioni possiamo eseguire certe operazioni tramite
i connettivi logici, che corrispondono ad opportune operazioni/relazioni 7 insiemistiche,
come riportato nella tabella seguente:

Connettivi logici Operazioni/Relazioni insiemistiche


Disgiunzione Unione
AoB A∪B
Congiunzione Intersezione
AeB A∩B
Negazione Complementazione
non A Ac
Implicazione Inclusione
A =⇒ B A⊂B
Doppia implicazione Uguaglianza
A ⇐⇒ B A=B

7
“ ⊂ ” e “ = ” sono relazioni (anziché operazioni) insiemistiche.

7
Esercizio 3.1. A cosa corrisponde “A ma non B”?

Assiomi della probabilità. L’ultimo elemento del modello matematico di un esperi-


mento aleatorio è la probabilità e, in particolare, gli assiomi8 che essa verifica.

Assioma I. A ciascun sottoinsieme (o evento) A di Ω è assegnato un numero P(A) che


verifica:
0 ≤ P(A) ≤ 1.
Tale numero P(A) si chiama probabilità dell’evento A.
Assioma II. P(Ω) = 1.
Assioma III. Vale la proprietà di additività numerabilea : sia A1 , A2 , . . . , An , . . . una
successione di sottoinsiemi di Ω tra loro disgiuntib e sia

[
A = An .
n=1

Allora ∞
X
P(A) = P(An ).
n=1

a
Anche detta σ-additività.
b
In formule: Ai ∩ Aj = ∅, per ogni i 6= j. In altri termini, non hanno elementi in comune.

Osservazione. La probabilità P è dunque una funzione che ad ogni sottoinsieme A di Ω


fa corrispondere un numero in [0, 1]:

A ∈ P(Ω) 7→ P(A) ∈ [0, 1],

dove P(Ω) è l’insieme delle parti di Ω e rappresenta il dominio9 della funzione P, mentre
il codominio è l’intervallo [0, 1]. In simboli:

P : P(Ω) −→ [0, 1].

Definizione 3.4. La coppia (Ω, P) si dice spazio di probabilità o modello


matematico dell’esperimento aleatorio.
8
Tali assiomi sono stati formulati dal matematico sovietico Kolmogorov nel 1933.
9
Quando Ω ha cardinalità non numerabile, come accade nel caso in cui Ω = R, risulta necessario
definire la probabilità P su un dominio più piccolo, ossia su una famiglia F di sottoinsiemi di R tale che
F è strettamente contenuta in P(R) e, in particolare, non contiene certi sottoinsiemi “anomali” di R
(come ad esempio l’insieme di Vitali). Per semplicità, supporremo che P possa sempre essere definita su
tutto P(Ω).

8
Esempio 3.4. Siano Ω = R e x0 un numero reale fissato. Si consideri la funzione

δx0 : P(R) −→ [0, 1]

data da (
1, se x0 ∈ A,
δx0 (A) = ∀ A ⊂ R.
0, se x0 ∈
/ A,
δx0 si chiama delta di Dirac in x0 . Si verifica che δx0 soddisfa gli Assiomi I-II-III,
quindi δx0 è una probabilità e (R, δx0 ) è uno spazio di probabilità.

Esempio 3.5. Siano Ω = R, x1 , . . . , xn e p1 , . . . , pn numeri reali, con


n
X
0 ≤ pi ≤ 1, pi = 1. (3.1)
i=1

Si consideri la funzione
P : P(R) −→ [0, 1]
data da n
X
P(A) = pi δxi (A), ∀ A ⊂ R.
i=1

P è dunque una combinazione linearea di delta di Dirac. Si verifica che P soddisfa gli
Assiomi I-II-III, quindi P è una probabilità e (R, P) è uno spazio di probabilità.
a
Si tratta in particolare di una combinazione convessa, ovvero di una combinazione lineare con
coefficienti che verificano (3.1).

9
4 Conseguenze degli assiomi
Teorema 4.1. Sia (Ω, P) uno spazio di probabilità. Le seguenti proprietà della probabilità
P discendono dagli Assiomi I-II-III:

IV) P(∅) = 0.

V) Additività finita: se A e B sono disgiunti allora

P(A ∪ B) = P(A) + P(B).

Più in generale, se A1 , . . . , An sono tra loro disgiunti allora


n
X
P(A1 ∪ · · · ∪ An ) = P(Ai ).
i=1

VI) P(Ac ) = 1 − P(A).

VII) Monotonia: se A ⊂ B, allora P(A) ≤ P(B).

Dimostrazione.

IV) Sappiamo dall’Assioma I che P(∅) è un numero che verifica 0 ≤ P(∅) ≤ 1. Per
semplificare la notazione, poniamo p := P(∅). Dobbiamo mostrare che p = 0.
A tale scopo utilizziamo l’additività numerabile (Assioma III) prendendo come
successione A1 , A2 , . . . , An , . . . gli insiemi

A1 = ∅, A2 = ∅, ··· An = ∅, ···

Tali insiemi sono evidentemente disgiunti tra loro (cioè non hanno elementi in co-
mune; questo è evidente dato che sono tutti uguali all’insieme vuoto, quindi ciascun
insieme non contiene alcun elemento). Inoltre, posto

[
A = An
n=1

si ha che A = ∅. Segue allora dall’additività numerabile (Assioma III)


+∞
X
P(A) = P(An ),
n=1

ovvero (ricordando che p = P(∅) = P(A) = P(An ))


+∞
X
p = p.
n=1

10
Questa è un’equazione nell’incognita p, che è verificata solo per p = 0. Infatti il
primo termine è uguale a p (quindi è uguale a zero se p = 0), mentre il secondo è
dato da 
+∞
X 0, se p = 0,
p =
n=1
+∞, se 0 < p ≤ 1.

V) Dimostriamo il caso con due insiemi A e B (il caso con n insiemi si dimostra in
modo analogo). Utilizziamo l’additività numerabile (Assioma III) prendendo come
successione A1 , A2 , . . . , An , . . . gli insiemi

A1 = A, A2 = B, An = ∅, per ogni n ≥ 3.

Tali insiemi sono tra loro disgiunti, inoltre



[
A∪B = An .
n=1

Segue allora dall’additività numerabile (Assioma III) e dal fatto che P(An ) = 0
quando n ≥ 3

X
P(A ∪ B) = P(An ) = P(A) + P(B).

n=1 P(An )=0, n≥3

VI) Utilizziamo l’additività finita dimostrata al punto precedente prendendo gli insiemi

A e Ac .

Si noti che A e Ac sono disgiunti. Inoltre

Ω = A ∪ Ac .

Per l’additività finita abbiamo che

P(Ω) = P(A) + P(Ac ).

Per l’Assioma II si ha che P(Ω) = 1. Quindi

P(Ac ) = 1 − P(A).

VII) Se A ⊂ B allora esiste C tale che B = A ∪ C e A ∩ C = ∅. Quindi, per l’additività


finita,
P(B) = P(A ∪ C) = P(A) + P(C) ≥ P(A).

P(C)≥0

11
Esercizio 4.1. Lanciamo un dado perfettamente bilanciatoa a sei facce.
Qual è la probabilità che esca un numero maggiore o uguale a 3?
a
equilibrato, regolare, non truccato, . . ., oppure, equivalentemente, se il testo non dice nulla è
sottinteso che sia perfettamente bilanciato (ciò è una conseguenza del cosiddetto “principio di ragione
non sufficiente” di Laplace: se non si ha alcuna informazione a riguardo, si suppone che tutti i risultati
dell’esperimento siano tra loro equiprobabibili, dato che, non avendo alcuna informazione più precisa,
non c’è alcuna ragione per cui uno debba essere più probabile degli altri).

Soluzione. Nel testo dell’esercizio si fa riferimento all’evento

A = “esce un numero maggiore o uguale a 3”.

Per risolvere l’esercizio dobbiamo innanzitutto trovare uno spazio campionario per l’espe-
rimento aleatorio in questione. In tal caso, è naturale scegliere come spazio campionario
l’insieme
Ω = {1, 2, 3, 4, 5, 6}.
Dunque l’evento A è rappresentato dal sottoinsieme

A = {3, 4, 5, 6}.

Resta da determinare P(A). Dal testo dell’esercizio sappiamo che il dado è perfettamente
bilanciato, ovvero che gli eventi elementari

{1}, {2}, {3}, {4}, {5}, {6}

sono equiprobabili :

P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}). (4.1)

Dato che gli eventi {1}, . . . , {6} sono tra loro disgiunti e la loro unione è pari a

Ω = {1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6},

utilizzando l’additività finita e la proprietà P(Ω) = 1 (Assioma II), otteniamo

P({1}) + P({2}) + P({3}) + P({4}) + P({5}) + P({6}) = 1.

Quest’ultima equazione, insieme alle cinque equazioni (4.1), fornisce un sistema di sei
equazioni in sei incognite:


 P({1}) = P({2}),

P({2}) = P({3}),





P({3}) = P({4}),


 P({4}) = P({5}),



 P({5}) = P({6}),

P({1}) + P({2}) + P({3}) + P({4}) + P({5}) + P({6}) = 1.

12
Tale sistema si risolve facilmente, ponendo x = P({1}) = · · · = P({6}) e sostituendo
nell’ultima equazione, che diventa 6 x = 1. Si conclude che l’unica soluzione del sistema
è data da
1
P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) = .
6
Ricordando che A = {3, 4, 5, 6}, dall’additività finita si ottiene
4
P(A) = P({3}) + P({4}) + P({5}) + P({6}) = .
6

Nell’esercizio appena svolto, dato un qualunque evento A vale la formula
no di eventi elementari che compongono A casi favorevoli
P(A) = = .
6 casi possibili
Questa proprietà vale ogni volta che l’esperimento aleatorio può essere descritto da uno
spazio campionario Ω finito con esiti equiprobabili , come affermato nel seguente Teo-
rema.

Teorema 4.2. Consideriamo un esperimento aleatorio descritto da uno spazio


campionario finito:
Ω = {ω1 , . . . , ωN }
con esiti equiprobabili:

P({ω1 }) = P({ω2 }) = · · · = P({ωN }).

In tal caso diciamo che P è la probabilità uniforme e valgono le seguenti proprietà:

1) dato un qualunque evento elementare {ωi }, vale che


1
P({ωi }) = ;
N

2) dato un qualunque evento A, vale la formula di Laplace

no di eventi elementari che compongono A casi favorevoli


P(A) = = .
N casi possibili

Dimostrazione. Si ragiona come nell’Esercizio 4.1. Più precisamente, sappiamo che


P({ω1 }) = P({ω2 }) = · · · = P({ωN }). (4.2)
Dato che gli eventi {ω1 }, . . . , {ωN } sono tra loro disgiunti e la loro unione è pari a
Ω = {ω1 } ∪ {ω2 } ∪ · · · ∪ {ωN },
utilizzando l’additività finita e la proprietà P(Ω) = 1 (Assioma II), otteniamo
P({ω1 }) + P({ω2 }) + · · · + P({ωN }) = 1.

13
Quest’ultima equazione, insieme alle N − 1 equazioni (4.2), fornisce un sistema di N
equazioni in N incognite:


 P({ω1 }) = P({ω2 }),

P({ω2 }) = P({ω3 }),



P({ω3 }) = P({ω4 }),

 .
..,



P({ω1 }) + P({ω2 }) + · · · + P({ωN }) = 1.

Tale sistema ammette un’unica soluzione data da


1
P({ω1 }) = P({ω2 }) = · · · = P({ωN }) = .
N
Quindi la proprietà 1) enunciata nel Teorema vale. Infine, per quanto riguarda la proprietà
2), essa segue direttamente dall’additività finita. 

Nell’ambito degli spazi di probabilità con spazio campionario finito, il caso di esiti equi-
probabili è estremamente particolare. Tuttavia, se guardiamo ai libri di testo di Calcolo
delle probabilità, la stragrande maggioranza degli esercizi ha esiti equiprobabili. Questo
perché, se gli esiti non sono equiprobabili, il testo dell’esercizio deve in aggiunta specifi-
care esattamente in che modo non lo sono, dato che ci sono infinite10 possibilità. A tal
proposito, si veda l’esercizio seguente.

Esercizio 4.2. Si dispone di un dado non bilanciato a forma di tetraedro regolare con
le facce numerate da 1 a 4. Lanciando il dado, la probabilità che esca 1 è il doppio della
probabilità che esca 2, che a sua volta è il doppio della probabilità che esca 3, che a sua
volta è il doppio della probabilità che esca 4.
Se si lancia il dado, qual è la probabilità che esca un numero pari?

Soluzione. Nel testo dell’esercizio si fa riferimento all’evento

A = “esce un numero pari”.

In tal caso, è naturale scegliere come spazio campionario l’insieme

Ω = {1, 2, 3, 4},

dunque
A = {2, 4}.
Resta da determinare P(A). Dal testo dell’esercizio sappiamo che il dado non è bilanciato,
è più precisamente che
10
Infatti, se gli esiti sono equiprobabili, dal Teorema 4.2 sappiamo che necessariamente P({ω1 }) = · · · =
P({ωN }) = N1 . Se invece non sono equiprobabili, sappiamo solo (dagli Assiomi I e II) che

0 ≤ P({ωi }) ≤ 1, P({ω1 }) + · · · + P({ωN }) = 1. (4.3)

Possiamo dunque scegliere come vogliamo P({ω1 }), . . . , P({ωN }), purché i vincoli (4.3) siano verificati.

14
“. . . la probabilità che esca 1 è il doppio della probabilità che esca 2,
che a sua volta è il doppio della probabilità che esca 3,
che a sua volta è il doppio della probabilità che esca 4.”

Abbiamo dunque delle informazioni riguardo la probabilità degli eventi elementari

{1}, {2}, {3}, {4}.

Sappiamo infatti che

P({1}) = 2 P({2}), P({2}) = 2 P({3}), P({3}) = 2 P({4}). (4.4)

Dagli assiomi della probabilità, sappiamo inoltre che

P({1}) + P({2}) + P({3}) + P({4}) = 1.

Quest’ultima equazione, insieme alle tre equazioni (4.4), fornisce un sistema di quattro
equazioni in quattro incognite:


 P({1}) = 2 P({2}),

P({2}) = 2 P({3}),


 P({3}) = 2 P({4}),

P({1}) + P({2}) + P({3}) + P({4}) = 1.

Tale sistema si risolve facilmente, ponendo x = P({4}), da cui si ottiene P({3}) = 2 x,


P({2}) = 4 x e P({1}) = 8 x. Sostituendo nell’ultima equazione, si ottiene 15 x = 1. Si
conclude che l’unica soluzione del sistema è data da

8
P({1}) = 15 ,


P({2}) = 4 ,

15
P({3}) = 152 ,



P({4}) = 1 .
15

Ricordando che A = {2, 4}, dall’additività finita si ottiene


1
P(A) = P({2}) + P({4}) = .
3


Concludiamo questa sezione enunciando un’ultima proprietà della probabilità. Abbiamo


visto che se A e B sono eventi disgiunti, allora

P(A ∪ B) = P(A) + P(B).

Cosa possiamo dire se A e B non sono disgiunti ?

15
Teorema 4.3 (Formula dell’unione di due eventi ). Siano A e B due eventi
qualunque (non necessariamente disgiunti), allora

P(A ∪ B) = P(A) + P(B) − P(A ∩ B). (4.5)

Osservazione 1. Si noti che nel caso in cui A e B sono disgiunti, si ha che A ∩ B = ∅,


quindi P(A ∩ B) = 0. Applicando la formula (4.5) del Teorema 4.3 ritroviamo dunque la
formula dell’ additività finita

P(A ∪ B) = P(A) + P(B).

Osservazione 2. Per convincersi della validità della formula (4.5), basta osservare che
la somma P(A) + P(B) conta due volte l’intersezione, per tale ragione dobbiamo sottrarre
P(A ∩ B).
Dimostrazione. Consideriamo gli insiemi

C1 = A\B, C2 = B\A.

È facile convincersi (utilizzando ad esempio un diagramma di Eulero-Venn) che gli insiemi


C1 , C2 , A ∩ B sono disgiunti e la loro unione è A ∪ B. Quindi, dall’additività finita si ha
che
P(A ∪ B) = P(C1 ) + P(C2 ) + P(A ∩ B).
A secondo membro, aggiungiamo e sottraiamo la quantità P(A ∩ B), trovando

P(A ∪ B) = P(C1 ) + P(A ∩ B) + P(C2 ) + P(A ∩ B) − P(A ∩ B). (4.6)

Ora, notiamo che

P(A) = P(C1 ) + P(A ∩ B),


P(B) = P(C2 ) + P(A ∩ B).

Utilizzando queste ultime due uguaglianze in (4.6), otteniamo la formula (4.5). 

Infine, è interessante osservare come la formula dell’unione divenga “ingombrante” quando


si passa alla probabilità dell’unione di tre o più eventi (non necessariamente disgiunti).
Ad esempio, nel caso di tre eventi, vale che

P(A ∪ B ∪ C) = P(A) + P(B) + P(C)


− P(A ∩ B) − P(A ∩ C) − P(B ∩ C)
+ P(A ∩ B ∩ C).

16
Calcolo delle Probabilità e Statistica 2019/2020

PROBABILITÀ CONDIZIONALE
E INDIPENDENZA
1 Probabilità condizionale
1.1 Definizione e proprietà
Consideriamo un evento A riguardante l’esito di un qualche esperimento aleatorio, e in-
dichiamo con P(A) la sua probabilità. Se veniamo a conoscenza del fatto che un altro
evento B si è verificato, come è sensato aggiornare il valore di P(A) per tenere conto di
questa nuova informazione?
Introduciamo un simbolo per indicare la probabilità dell’evento A sapendo che l’evento B
si è verificato:
P(A|B).
Chiameremo P(A|B) la probabilità condizionale (o condizionata) di A dato B. Quanto
vale P(A|B)? Prima di rispondere vediamo due esempi.

Esempio 1.1. Lanciamo un dado (a sei facce).


Qual è la probabilità che esca un numero maggiore o uguale a 3 sapendo che è uscito un
numero pari?

Soluzione. In primo luogo, introduciamo uno spazio di probabilità (Ω, P) che descriva
l’esperimento aleatorio: Ω = {1, 2, 3, 4, 5, 6} e P probabilità uniforme 1 .
Nel testo dell’esercizio si fa riferimento ai due eventi seguenti:

A = “esce un numero maggiore o uguale a 3”,


B = “esce un numero pari”.

Essi sono rappresentati dai seguenti sottoinsiemi di Ω:

A = {3, 4, 5, 6},
B = {2, 4, 6}.

La probabilità richiesta dall’esercizio è la probabilità condizionale di A dato B:

P(A|B).

Poiché non abbiamo ancora detto come si calcola tale probabilità, possiamo solo provare
a indovinare quanto dovrebbe valere: dato che si è verificato B, cioè è uscito un numero
pari, i “veri” casi possibili sono 2, 4, 6; dunque i “veri” casi favorevoli sono 4 e 6;
supponendo che sia lecito utilizzare la formula “veri” casi favorevoli/ “veri” casi possibili,
otteniamo
2
P(A|B) = .
3
1 1
Quindi P({1}) = · · · = P({6}) = 6 e vale la formula di Laplace:

no di eventi elementari che compongono A casi favorevoli


P(A) = = .
6 casi possibili

2
In effetti questa è la risposta corretta, come si potrà verificare utilizzando la formula per
la probabilità condizionale. 

Vediamo ora un secondo esempio in cui la probabilità non è uniforme.

Esempio 1.2. Lanciamo un dado truccato a quattro facce, per cui la probabilità che
esca 1 è il doppio della probabilità che esca 2, che a sua volta è il doppio della probabilità
che esca 3, che a sua volta è il doppio della probabilità che esca 4.
Qual è la probabilità che esca un numero maggiore o uguale a 3 sapendo che è uscito un
numero pari?

Soluzione. Abbiamo già studiato questo esperimento aleatorio e sappiamo che uno spazio
di probabilità (Ω, P) che lo descrive è Ω = {1, 2, 3, 4} e P tale che
8 4 2 1
P({1}) = , P({2}) = , P({3}) = , P({4}) = .
15 15 15 15
I due eventi

A = “esce un numero maggiore o uguale a 3”,


B = “esce un numero pari”,

sono rappresentati dai seguenti sottoinsiemi di Ω:

A = {3, 4},
B = {2, 4}.

Resta da trovare P(A|B). Come nell’esempio precedente, non avendo ancora a disposizione
la formula di P(A|B), possiamo solo provare a indovinare quanto dovrebbe valere. Il
ragionamento è lo stesso di prima: dato che si è verificato B, i “veri” casi possibili sono
2 e 4; dunque c’è un solo “vero” caso favorevole che è 4. Come seguirà dalla formula,
P(A|B) è pari al rapporto tra la probabilità dei “veri” casi favorevoli e la probabilità dei
“veri” casi possibili:
P({4}) 1
P(A|B) = = .
P({2}) + P({4}) 5


Definizione 1.1. Siano A e B due eventi cona P(B) > 0. La probabilità condizionale
di A dato B è
P(A ∩ B)
P(A|B) = .
P(B)
a
Si richiede che P(B) > 0 solo perché P(B) compare a denominatore.

Osservazione 1. Possiamo esprimere a parole la formula che definisce P(A|B) dicendo


che la probabilità condizionale di A dato da B è pari al rapporto tra la probabilità dei

3
“veri” casi favorevoli e la probabilità dei “veri” casi possibili:
probabilità dei “veri” casi favorevoli
P(A|B) = .
probabilità dei “veri” casi possibili
Nel caso in cui Ω sia finito e gli esiti siano equiprobabili, dunque P è uniforme, allora
P(A|B) è pari al rapporto tra i “veri” casi favorevoli e i “veri” casi possibili:

no dei “veri” casi favorevoli


P(A|B) = .
no dei “veri” casi possibili

Osservazione 2. In generale, non2 vale l’uguaglianza P(A|B) = P(B|A).


È interessante studiare due casi particolari.

• Se B = Ω, allora dalla definizione segue che

P(A ∩ Ω)
P(A|Ω) = = P(A).
P(Ω)

Questo è naturale, infatti se l’evento che sappiamo essersi verificato è Ω, non pos-
sediamo alcuna informazione aggiuntiva (i casi possibili non sono cambiati). Infatti
Ω è l’evento certo e sappiamo già che si verificherà sicuramente.

• Se scegliamo A = Ω (in altri termini, ci chiediamo quale sia la probabilità di Ω


sapendo che B si è verificato), allora P(Ω|B) è uguale a 1, infatti

P(Ω ∩ B) P(B)
P(Ω|B) = = = 1.
P(B) ↑ P(B)
Ω∩B=B

Più in generale, se B ⊂ A, si ottiene P(A|B) = 1. I due casi limite sono A = Ω (che


abbiamo appena visto) e A = B. Anche in quest’ultimo caso vale che P(B|B) = 1,
infatti
P(B ∩ B) P(B)
P(B|B) = = = 1.
P(B) P(B)

La probabilità condizionale è anch’essa una probabilità (la “vera” probabilità se sappiamo


che l’evento B si è verificato) definita per tutti i sottoinsiemi dello spazio campionario
Ω. Ciò significa innanzitutto che essa è una funzione che ha come dominio l’insieme delle
parti di Ω, ovvero P(Ω), e come codominio l’intervallo [0, 1]. In simboli:

P( · |B) : P(Ω) −→ [0, 1].

Inoltre, essa possiede tutte le proprietà di una probabilità, come affermato nel seguente
teorema.
2
Vedremo in seguito che relazione esiste tra P(A|B) e P(B|A) (formula di Bayes).

4
Teorema 1.1. Sia B un evento tale che P(B) > 0. Valgono le seguenti proprietà:

I) Per ciascun sottoinsieme (o evento) A di Ω, la probabilità condizionale verifica

0 ≤ P(A|B) ≤ 1.

II) P(Ω|B) = 1.

III) Vale la proprietà di additività numerabile (o σ-additività): sia


A1 , A2 , . . . , An , . . . una successione di sottoinsiemi di Ω tra loro disgiunti e
sia ∞
[
A = An .
n=1

Allora ∞
X
P(A|B) = P(An |B).
n=1

IV) P(∅|B) = 0.

V) Additività finita: se A1 e A2 sono disgiunti allora

P(A1 ∪ A2 |B) = P(A1 |B) + P(A2 |B).

Più in generale, se A1 , . . . , An sono tra loro disgiunti allora


n
X
P(A1 ∪ · · · ∪ An |B) = P(Ai |B).
i=1

VI) P(Ac |B) = 1 − P(A|B).

VII) Monotonia: se A1 ⊂ A2 , allora P(A1 |B) ≤ P(A2 |B).

Dimostrazione. Notiamo innanzitutto che è sufficiente dimostrare le proprietà I-II-III,


in quanto le altre proprietà si dimostrano a partire da I-II-III come è stato fatto nel caso
della probabilità P.
Per quanto riguarda I-II-III, riportiamo, a titolo di esempio, solo la dimostrazione
della proprietà I.
I) Dato che A ∩ B è un sottoinsieme di B, cioè A ∩ B ⊂ B, per la monotonia della
probabilità non condizionale P si ha che
P(A ∩ B) ≤ P(B).
Perciò
P(A ∩ B)
P(A|B) = ≤ 1.
P(B)
Inoltre P(A|B) ≥ 0. Quindi 0 ≤ P(A|B) ≤ 1.


5
1.2 Utilizzo della probabilità condizionale
Quando si studiano esperimenti aleatori reali, spesso molte probabilità condizionali sono
note. Analogamente, negli esercizi, la probabilità condizionale è spesso data dal testo
dell’esercizio (anche se non esplicitamente, come vedremo), mentre sarà nostro compito
determinare la probabilità dell’intersezione P(A∩B), che nella formula di P(A|B) compare
a numeratore:
P(A ∩ B)
P(A|B) = .
P(B)
In altri termini, spesso (anche se non sempre) utilizzeremo tale formula riscritta come
segue:
P(A ∩ B) = P(A|B) P(B), (1.1)
dove P(B) e P(A|B) saranno note, mentre P(A ∩ B) sarà l’incognita. Data l’importanza
della formula (1.1) (che chiameremo regola della catena), è utile riportarla come teorema.

Teorema 1.2. Siano A e B due eventi con P(B) > 0. Vale la regola della catena:

P(A ∩ B) = P(A|B) P(B).

Più in generale, dati n eventi A1 , A2 , . . . , An , con P(A1 ∩ · · · ∩ An−1 ) > 0, vale la regola
della catena:

P(A1 ∩ A2 ∩ · · · ∩ An ) = P(An |A1 ∩ A2 ∩ · · · ∩ An−1 ) · · · P(A2 |A1 ) P(A1 ).

Osservazione. Nella regola della catena per n insiemi, la richiesta P(A1 ∩· · ·∩An−1 ) > 0
garantisce che tutte le probabilità condizionali che compaiono siano definite. Infatti, dato
che
A1 ∩ · · · ∩ An−1 ⊂ A1 ∩ · · · ∩ An−2 ⊂ · · · ⊂ A1 ,
dalla monotonia della probabilità segue che anche le probabilità P(A1 ∩· · ·∩An−2 ), . . . , P(A1 )
sono strettamente maggiori di zero.
Dimostrazione. La dimostrazione della regola della catena nel caso di due insiemi A
e B è riportata appena prima dell’enunciato del teorema e segue immediatamente dalla
definizione di P(A|B) (è infatti un modo di riscrivere la definizione di P(A|B)).
La regola della catena per n insiemi segue anch’essa dalla definizione di P(An |A1 ∩
A2 ∩ · · · ∩ An−1 ), . . ., P(A2 |A1 ), infatti

P(An |A1 ∩ A2 ∩ · · · ∩ An−1 ) P(An−1 |A1 ∩ A2 ∩ · · · ∩ An−2 ) · · · P(A2 |A1 ) P(A1 )


P(A1 ∩ A2 ∩ · · · ∩ An ) P(A1 ∩ A2 ∩ · · · ∩ An−1 ) P(A1 ∩ A2 )
= ··· P(A1 ).
P(A1 ∩ A2 ∩ · · · ∩ An−1 ) P(A1 ∩ A2 ∩ · · · ∩ An−2 ) P(A1 )

Elidendo i termini uguali tra loro, si ottiene P(A1 ∩ A2 ∩ · · · ∩ An ). 

La regola della catena è particolarmente utile quando si studiano esperimenti aleatori


costituiti da più sotto-esperimenti aleatori, come accade nell’esercizio seguente.

6
Esercizio 1.1. Un’urna contiene tre palline bianche, due palline nere e una pallina rossa.
Si eseguono tre estrazioni senza reimmissione.
Qual è la probabilità di estrarre nell’ordine una bianca, una rossa e una nera?

Soluzione. Si noti che l’esperimento aleatorio è costituito da tre sotto-esperimenti alea-


tori che corrispondono alle tre estrazioni dall’urna. L’evento di cui dobbiamo calcolare la
probabilità è

A = “si estraggono nell’ordine una bianca, una rossa e una nera”.

Per risolvere questo esercizio non è necessario introdurre uno spazio campionario Ω, elen-
cando dunque tutti gli esiti dell’esperimento aleatorio. Esiste infatti un’altra via, più
semplice e veloce, per risolvere l’esercizio, la quale utilizza solo gli eventi e le proprietà
della probabilità (in particolare, la regola della catena). Vediamone i dettagli nel risolve-
re questo esercizio. Invece di elencare gli esiti dell’esperimento aleatorio, elenchiamo gli
eventi di cui conosciamo la probabilità (condizionale oppure non condizionale). Essi sono
in generale eventi che si riferiscono ai singoli sotto-esperimenti aleatori. Nell’esercizio in
questione, sono gli eventi che si riferiscono alle singole estrazioni:

Bi = “si estrae una pallina bianca alla i-esima estrazione”,


Ni = “si estrae una pallina nera alla i-esima estrazione”,
Ri = “si estrae una pallina rossa alla i-esima estrazione”,

con i = 1, 2, 3. Dato che il testo dell’esercizio non dice nulla a riguardo, si suppone
che le palline all’interno dell’urna abbiano tutte la stessa probabilità di essere estratte.
Dunque, nota la composizione dell’urna, vale l’equiprobabilità, ovvero vale la formula casi
favorevoli /casi possibili. Ad esempio
3 1
P(B1 ) = =

6 2
è l’urna iniziale

oppure
2
P(B2 |B1 ) =

5
nell’urna ci sono
2 b, 2 n e 1 r

oppure
1
P(B3 |B1 ∩ B2 ) = .

4
nell’urna ci sono
1 b, 2 n e 1 r

Queste tre probabilità sono date (anche se non esplicitamente) dal testo dell’esercizio,
infatti seguono dalla sola ipotesi secondo cui ad ogni estrazione le palline hanno tutte

7
la stessa probabilità di essere estratte3 . In conclusione, le seguenti probabilità sono note
(non sono riportate tutte quelle relative agli eventi B3 , N3 , R3 ):
3 1
P(B1 ) = = ,
6 2
2 1
P(N1 ) = = ,
6 3
1
P(R1 ) = ,
6
2
P(B2 |B1 ) = ,
5
3
P(B2 |N1 ) = ,
5
3
P(B2 |R1 ) = ,
5
2
P(N2 |B1 ) = ,
5
1
P(N2 |N1 ) = ,
5
2
P(N2 |R1 ) = ,
5
1
P(R2 |B1 ) = ,
5
1
P(R2 |N1 ) = ,
5
P(R2 |R1 ) = 0,
1
P(B3 |B1 ∩ B2 ) = ,
4
2 1
P(B3 |B1 ∩ N2 ) = = ,
4 2
2 1
P(B3 |B1 ∩ R2 ) = = ,
4 2
e cosı̀ via . . .
L’evento A di cui è richiesta la probabilità può essere espresso in termini degli eventi che
abbiamo introdotto come segue:
A = B1 ∩ R2 ∩ N3 .
Dunque, per la regola della catena,
2 1 3 1
P(A) = P(N3 |B1 ∩ R2 ) P(R2 |B1 ) P(B1 ) = · · = . 
4 5 6 20
↑ ↑ ↑
nell’urna ci sono nell’urna ci sono è l’urna iniziale
2 b, 2 n e 0 r 2 b, 2 n e 1 r

3
Come abbiamo detto, l’ipotesi secondo cui le palline hanno tutte la stessa probabilità di essere estratte
è assunta seppur tacitamente. Se infatti non fosse assunta, il testo dell’esercizio dovrebbe segnalarlo e
dovrebbe spiegare come cambiano le probabilità (come accade nell’esercizio riguardante il dado truccato).

8
Nello studio di un esperimento aleatorio costituito da più sotto-esperimenti aleatori, in cui
come abbiamo visto nel precedente esercizio sono note alcune probabilità condizionali e
altre non condizionali, è utile servirsi del diagramma ad albero. Ad esempio, il diagramma
ad albero relativo all’Esercizio 1.1 è il seguente:
1
P(B3 |B1 ∩ B2 ) = 4
B3
1
P(N3 |B1 ∩ B2 ) = 2
B2 N3
2
P(B2 |B1 ) = 5
1
P(R3 |B1 ∩ B2 ) = 4 R3
1
P(B3 |B1 ∩ N2 ) = 2
B3
2
P(N2 |B1 ) = 5 P(N3 |B1 ∩ N2 ) = 1
4
B1 N2 N3

1
P(R3 |B1 ∩ N2 ) = 4 R3
1
P(B3 |B1 ∩ R2 ) = 2
B3
1
P(R2 |B1 ) = 5
1
P(N3 |B1 ∩ R2 ) = 2
R2 N3

1
P(B1 ) = 2 P(R3 |B1 ∩ R2 ) = 0 R3
1
P(B3 |N1 ∩ B2 ) = 2
B3
1
P(N3 |N1 ∩ B2 ) = 4
B2 N3
3
P(B2 |N1 ) = 5
1
P(R3 |N1 ∩ B2 ) = 4 R3
3
P(B3 |N1 ∩ N2 ) = 4
B3
1
P(N2 |N1 ) = 5 P(N3 |N1 ∩ N2 ) = 0
Ω N1 N2 N3
1
P(N1 ) = 3
1
P(R3 |N1 ∩ N2 ) = 4 R3
3
P(B3 |N1 ∩ R2 ) = 4
B3
1
P(R2 |N1 ) = 5
1
P(N3 |N1 ∩ R2 ) = 4
R2 N3

P(R3 |N1 ∩ R2 ) = 0 R3
1
P(R1 ) = 6

1
P(B3 |R1 ∩ B2 ) = 2
B3
1
P(N3 |R1 ∩ B2 ) = 2
P(B2 |R1 ) = 3 B2 N3
5

P(R3 |R1 ∩ N2 ) = 0 R3
R1 3
P(B3 |R1 ∩ N2 ) = 4
B3
1
P(N2 |R1 ) = 2 P(N3 |R1 ∩ N2 ) = 4
5 N2 N3

P(R3 |R1 ∩ N2 ) = 0 R3

Le caratteristiche di un diagramma ad albero sono le seguenti:

• ogni nodo corrisponde ad un evento4 (il primo nodo, la radice, corrisponde sempre
all’evento certo Ω);

• ogni ramo corrisponde ad una probabilità: nella prima ramificazione ci sono pro-
babilità non condizionali; dalla seconda ramificazione in poi ci sono probabilità
condizionali;
4
Tipicamente, la prima ramificazione descrive il primo sotto-esperimento aleatorio, la seconda il
secondo sotto-esperimento aleatorio e cosı̀ via.

9
• i rami che escono da un medesimo nodo conducono ad eventi tra loro disgiunti la
cui unione è Ω; per tale ragione, le probabilità dei rami che escono da un medesimo
nodo sommano a uno;

• scelto un cammino che collega la radice ad un evento, ad esempio Ω → R1 → B2 →


N3 , moltiplicando le probabilità lungo i rami del cammino, cioè

P(N3 |R1 ∩ B2 ) P(B2 |R1 ) P(R1 ),

sappiamo dalla regola della catena che si ottiene la probabilità dell’intersezione degli
eventi, infatti

P(R1 ∩ B2 ∩ N3 ) = P(N3 |R1 ∩ B2 ) P(B2 |R1 ) P(R1 ).

La probabilità P(R1 ∩ B2 ∩ N3 ) si chiama probabilità del cammino Ω → R1 → B2 →


N3 .

La terza proprietà di un diagramma ad albero riportata qui sopra, ovvero che i rami che
escono da un medesimo nodo conducono ad eventi tra loro disgiunti la cui unione è Ω,
può essere abbreviata dicendo che i rami che escono da un medesimo nodo conducono ad
una partizione di Ω. La definizione di partizione di Ω è la seguente.

Definizione 1.2. Si dice che n eventi (o sottoinsiemi) B1 , . . . , Bn di Ω sono una


partizione (anche detta schema di alternative) di Ω se:

1) gli insiemi B1 , . . . , Bn sono tra loro disgiunti;

2) l’unione degli insiemi B1 , . . . , Bn è Ω:


n
[
Ω = Bn .
i=1

3) per ogni i = 1, . . . , n si ha chea P(Bi ) > 0.


a
La richiesta P(Bi ) > 0 serve solo affinché la probabilità condizionale “dato Bi ” sia definita e, per tale
ragione, in alcuni testi è omessa.

Osservazione. Se una partizione è costituita solamente da due insiemi B1 e B2 , allora


B1 e B2 sono necessariamente uno il complementare dell’altro.

Esercizio 1.2. Ci sono due urne: la prima contiene due palline rosse e una bianca; la
seconda contiene tre palline rosse e due bianche. Si lancia una moneta: se esce testa si
estrae una pallina dalla prima urna, se esce croce si estrae una pallina dalla seconda urna.
Qual è la probabilità che l’esito del lancio della moneta sia testa e la pallina estratta sia
bianca?

10
Soluzione. L’esperimento aleatorio è costituito da due sotto-esperimenti aleatori: il
lancio della moneta seguito dall’estrazione dall’urna che è stata scelta. L’evento di cui
dobbiamo calcolare la probabilità è
A = “l’esito del lancio della moneta è testa e la pallina estratta è bianca”.
Elenchiamo gli eventi riguardanti i due sotto-esperimenti aleatori:
T = “l’esito del lancio della moneta è testa”,
C = “l’esito del lancio della moneta è croce” = T c ,
B = “la pallina estratta è bianca”,
R = “la pallina estratta è rossa” = B c .
Si noti che per ogni sotto-esperimento aleatorio abbiamo considerato una partizione 5 o
schema di alternative. Infatti, gli insiemi T e C sono una partizione di Ω, come anche gli
insiemi B ed R. Le probabilità note sono le seguenti:
1
P(T ) = ,
2
1
P(C) = ,
2
1
P(B|T ) = ,

3
1a urna
2
P(R|T ) = ,

3
1a urna
3
P(B|C) = ,

5
2a urna
2
P(R|C) = ,

5
2a urna

Il diagramma ad albero associato all’esperimento aleatorio è dunque il seguente:


2
P(R|T ) = 3 R
1
P(T ) = 2 T
P(B|T ) = 1 B
3
Ω 3
P(R|C) = 5 R
1 C
P(C) = 2
P(B|C) = 2 B
5

5
Se non fosse cosı̀ per qualche sotto-esperimento aleatorio, vorrebbe dire che gli eventi considerati non
tengono conto di tutti i possibili risultati del sotto-esperimento in questione.

11
L’evento A di cui è richiesta la probabilità può essere espresso in termini degli eventi che
abbiamo introdotto come segue:
A = T ∩ B.
Quindi, per la regola della catena,
1 1 1
P(A) = P(B|T ) P(T ) = · = .
3 2 6


2 Eventi indipendenti
La probabilità condizionale P(A|B) rappresenta la probabilità dell’evento A sapendo che
l’evento B si è verificato. Può succedere che l’informazione che l’evento B si è verificato
non alteri la probabilità di A, cioè P(A|B) = P(A)? Quando questo accade, diremo che A
e B sono eventi “indipendenti”, nel senso che verificano quanto affermato nella definizione
seguente (si noti che nella Definizione 2.1 non compare la probabilità condizionale; questo
punto sarà chiarito dal Teorema 2.1).

Definizione 2.1. Due eventi A e B si dicono indipendenti se

P(A ∩ B) = P(A) P(B). (2.1)

Notazione. Se A e B sono eventi indipendenti scriviamo

A B.
|=

Si noti che la proprietà di essere indipendenti è simmetrica, ovvero se il fatto di sapere


che un evento si è verificato “non influenza” la probabilità di un altro evento, vale anche
il viceversa, come enunciato nel teorema seguente.

Teorema 2.1.

1) Se P(B) > 0 allora

A B ⇐⇒ P(A|B) = P(A).
|=

2) Se P(A) > 0 allora

A B ⇐⇒ P(B|A) = P(B).
|=

Osservazione. In altri termini, se P(A) > 0 e P(B) > 0, le tre uguaglianze seguenti
sono equivalenti:

P(A ∩ B) = P(A) P(B), P(A|B) = P(A), P(B|A) = P(B).

12
Viene adottata come definizione di indipendenza la (2.1) in quanto è simmetrica rispetto
ad A e B, inoltre non necessita di assunzioni su P(A) o P(B).
Dimostrazione (del Teorema 2.1). Dimostriamo solo l’affermazione 1), dato che la 2)
si dimostra allo stesso modo.
La 1) è una conseguenza della seguente catene di equivalenze:

P(A ∩ B) P(A) P(B)


A B ⇐⇒ P(A ∩ B) = P(A) P(B) ⇐⇒ =
|=

P(B) P(B)
⇐⇒ P(A|B) = P(A).


Osservazione. La nozione di indipendenza non è da confondersi con quella di insie-
mi disgiunti. Due eventi A e B sono contemporaneamente disgiunti e indipendenti solo
quando P(A) = 0 oppure P(B) = 0. Infatti

0 = P(∅) = P(A ∩ B) = P(A) P(B).


↑ ↑
A e B disgiunti A e B indip.

L’uguaglianza P(A) P(B) = 0 è verificata solo quando P(A) = 0 oppure P(B) = 0.

Teorema 2.2. Siano A e B due eventi indipendenti. Allora anche Ac e B, oppure A e


B c , oppure Ac e B c sono coppie di eventi indipendenti.

Dimostrazione. Dimostriamo ad esempio che Ac , B è una coppia di eventi indipendenti.


Dobbiamo mostrare che vale l’uguaglianza seguente:

P(Ac ∩ B) = P(Ac ) P(B).

Dato che
B = Ω ∩ B = (A ∪ Ac ) ∩ B = (A ∩ B) ∪ (Ac ∩ B)
e gli eventi A ∩ B e Ac ∩ B sono disgiunti, per l’additività finita abbiamo che

P(B) = P(A ∩ B) + P(Ac ∩ B) = P(A) P(B) + P(Ac ∩ B).



A e B indip.

Quindi

P(Ac ∩ B) = P(B) − P(A) P(B) = (1 − P(A)) P(B) = P(Ac ) P(B).

La seguente definizione generalizza la nozione di indipendenza ad una famiglia di tre o


più eventi.

13
Definizione 2.2. Tre eventi A, B, C si dicono indipendenti se valgono
simultaneamente le quattro uguaglianze seguenti:

P(A ∩ B) = P(A) P(B),


P(A ∩ C) = P(A) P(C),
P(B ∩ C) = P(B) P(C),
P(A ∩ B ∩ C) = P(A) P(B) P(C).

Più in generale, n eventi A1 , A2 , . . . , An si dicono indipendenti se valgono


simultaneamente le uguaglianze seguenti:

P(Ai1 ∩ · · · ∩ Aik ) = P(Ai1 ) · · · P(Aik ),

per ogni k = 2, . . . , n e per ogni scelta di indici i1 , . . . , ik , tutti distinti tra loro e compresi
tra 1 e n.

Concludiamo questa sezione con alcuni esercizi.

Esercizio 2.1. Si lancia un dado regolare a sei facce. Siano

A = “esce un numero maggiore di 4”,


B = “esce un numero pari”.

Quanto valgono P(A) e P(A|B)?

Soluzione. Consideriamo (Ω, P) con Ω = {1, 2, 3, 4, 5, 6} e P probabilità uniforme. Allora

A = {5, 6},
B = {2, 4, 6}.

Quindi
1
P(A) = ,
3
P(A ∩ B) P({6}) 1
P(A|B) = = = .
P(B) P(B) 3

Perciò P(A) = P(A|B), quindi A e B sono indipendenti. 


Osservazione. Detto in modo poco preciso, due eventi sono indipendenti se e solo se
“si intersecano nelle giuste proporzioni”. Come abbiamo appena visto nell’Esercizio 2.1,
questo può accadere anche per eventi riferiti allo stesso sotto-esperimento aleatorio.
Un’altra situazione particolarmente importante in cui ci possono essere eventi indipen-
denti si verifica quando tali eventi riguardano sotto-esperimenti aleatori distinti che “non
si influenzano tra loro” (come avviene nell’esempio che segue). Si noti che il testo dell’e-
sercizio generalmente non dice in maniera esplicita che l’indipendenza vale; tuttavia, se

14
non valesse, dovrebbe spiegare in che modo i sotto-esperimenti aleatori si influenzano tra
loro (come accade ad esempio negli Esercizi 1.1 e 1.2).

Esercizio 2.2. Lanciamoa una moneta e un dado a quattro facce, entrambi non truccati.
Determinare uno spazio di probabilità che descriva l’esperimento aleatorio.
a
Dato che i due sotto-esperimenti aleatori “non si influenzano tra loro”, non ha alcuna importanza
quale si effettua per primo (possono anche svolgersi contemporaneamente).

Soluzione. Uno spazio campionario naturale è il seguente:

Ω = {t, c} × {1, 2, 3, 4}

= (t, 1), (t, 2), (t, 3), (t, 4), (c, 1), (c, 2), (c, 3), (c, 4) .

Resta da determinare P, che significa assegnare la probabilità di tutti gli eventi elementari
P({(t, 1)}), P({(t, 2)}), . . . , P({(c, 4)}). Intuitivamente è naturale aspettarsi che gli eventi
elementari (che sono otto) siano equiprobabili:
1
P({(t, 1)}) = P({(t, 2)}) = · · · = P({(c, 4)}) = . (2.2)
8
Ciò significa che P è la probabilità uniforme, quindi vale la formula casi favorevoli /casi
possibili:
no di eventi elementari che compongono A
P(A) = ,
8
per ogni sottoinsieme A di Ω.
Dimostriamo dunque la validità di (2.2). Ciò che sappiamo è solamente che dado e moneta
non sono truccati, e inoltre che i due sotto-esperimenti aleatori “non si influenzano tra
loro” (sono indipendenti), infatti diversamente sarebbe descritto nel testo dell’esercizio il
modo in cui si influenzano. Esprimiamo tutto questo in formule introducendo gli eventi
che riguardano i singoli sotto-esperimenti aleatori:

T = “l’esito del lancio della moneta è testa”,


C = “l’esito del lancio della moneta è croce” = T c ,
Ei = “l’esito del lancio del dado è i”, i = 1, 2, 3, 4.

Dato che dado e moneta non sono truccati, abbiamo che


1
P(T ) = P(C) =
2
e
1
P(E1 ) = P(E2 ) = P(E3 ) = P(E4 ) = .
4
Dire che i due sotto-esprimenti aleatori “non si influenzano tra loro” significa dire, in
termini matematici, che gli eventi ad essi riferiti sono tra loro indipendenti. Quindi vale
che
1
P(T ∩ E1 ) = P(T ) P(E1 ) = ,
8
15
1
P(T ∩ E2 ) = P(T ) P(E2 ) = ,
8
1
P(T ∩ E3 ) = P(T ) P(E3 ) = ,
8
1
P(T ∩ E4 ) = P(T ) P(E4 ) = ,
8
1
P(C ∩ E1 ) = P(C) P(E1 ) = ,
8
1
P(C ∩ E2 ) = P(C) P(E2 ) = ,
8
1
P(C ∩ E3 ) = P(C) P(E3 ) = ,
8
1
P(C ∩ E4 ) = P(C) P(E4 ) = .
8
Poiché  
T ∩ Ei = (testa, i) e C ∩ Ei = (croce, i)
per ogni i = 1, 2, 3, 4, abbiamo dimostrato che tutti gli eventi elementari hanno la stessa
probabilità pari a 81 , ovvero che vale (2.2). 
Osservazione. Il risultato ottenuto nell’Esercizio 2.2 vale in generale: se un esperimento
aleatorio si compone di più sotto-esperimenti aleatori tra loro “indipendenti”, ognuno
dei quali ha esiti equiprobabili, anche l’esperimento aleatorio nel suo complesso ha esiti
equiprobabili.
Vediamo infine un esercizio in cui si utilizza anche quanto visto nella prima sezione.

Esercizio 2.3. Nel gioco del lotto si estraggono senza reimmissione cinque numeri da
un’urna che contiene 90 palline numerate da 1 a 90.

1) Determinare uno spazio di probabilità che descriva l’esperimento aleatorio.

2) Come cambia la risposta al punto precedente se le estrazioni avvengono con


reimmissione?

Soluzione.
1) Uno spazio campionario naturale è l’insieme di tutte le cinquine ordinate di numeri
distinti da 1 a 90:

Ω = (x1 , x2 , x3 , x4 , x5 ) : xi è un numero naturale da 1 a 90, con xi 6= xj se i 6= j .

Si noti che
|Ω| = 90 · 89 · 88 · 87 · 86.
Resta da determinare P. Intuitivamente, ci aspettiamo che P sia la probabilità uniforme,
ovvero
1
P({(x1 , x2 , x3 , x4 , x5 )}) = , ∀ (x1 , x2 , x3 , x4 , x5 ) ∈ Ω. (2.3)
90 · 89 · 88 · 87 · 86

16
Dimostriamo questo risultato. Introduciamo gli eventi che riguardano i singoli sotto-
esperimenti aleatori, ovvero le singole estrazioni:

Ei,n = “all’i-esima estrazione esce il numero n”, i = 1, 2, 3, 4, 5, n = 1, . . . , 90.

Consideriamo ad esempio la cinquina (17, 54, 2, 76, 45). Allora possiamo esprimere l’evento
elementare {(17, 54, 12, 76, 45)} in termini degli eventi Ei,n come segue:

(17, 54, 2, 76, 45) = E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ∩ E5,45 .

Per determinare la probabilità di {(17, 54, 12, 76, 45)} (e dimostrare la validità di (2.3))
possiamo usare la regola della catena:

P({(17, 54, 2, 76, 45)}) = P(E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ∩ E5,45 )


= P(E5,45 |E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ) P(E4,76 |E1,17 ∩ E2,54 ∩ E3,12 ) ×
× P(E3,12 |E1,17 ∩ E2,54 ) P(E2,54 |E1,17 ) P(E1,17 ).

Tutte queste probabilità sono note, poiché ad ogni estrazione conosciamo la composizione
dell’urna. In particolare, si ha che
1
P(E1,17 ) = ,
90
1
P(E2,54 |E1,17 ) = ,
89
1
P(E3,12 |E1,17 ∩ E2,54 ) = ,
88
1
P(E4,76 |E1,17 ∩ E2,54 ∩ E3,12 ) = ,
87
1
P(E5,45 |E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ) = .
86
Quindi
1
P({(17, 54, 2, 76, 45)}) = .
90 · 89 · 88 · 87 · 86
È chiaro che questo ragionamento vale per qualunque cinquina, non solo per (17, 54, 2, 76, 45).
Possiamo dunque concludere che (2.3) è valida, quindi che P è la probabilità uniforme.
2) Se le estrazioni avvengono con reimmissione, uno spazio campionario naturale è l’in-
sieme di tutte le cinquine ordinate di numeri da 1 a 90, non necessariamente distinti:

Ω = (x1 , x2 , x3 , x4 , x5 ) : xi è un numero naturale da 1 a 90 .

Si noti che in tal caso Ω può anche essere scritto come segue:

Ω = {1, 2, 3, 4, . . . , 88, 89, 90}5


= {1, 2, 3, 4, . . . , 88, 89, 90} × · · · × {1, 2, 3, 4, . . . , 88, 89, 90} .
| {z }
5 volte

Notiamo inoltre che


|Ω| = 905 .

17
Resta da determinare P. Dato che in questo caso le estrazioni non si influenzano tra
di loro, sono dunque indipendenti, inoltre ogni estrazione ha esiti equiprobabili, possia-
mo concludere senza fare conti (come già osservato alla fine dell’Esercizio 2.2) che la
probabilità P è uniforme, ovvero
1
P({(x1 , x2 , x3 , x4 , x5 )}) =, ∀ (x1 , x2 , x3 , x4 , x5 ) ∈ Ω. (2.4)
905
Tuttavia, per maggiore chiarezza, possiamo comunque procedere come prima e dimostrar-
lo. Utilizziamo le stesse notazioni introdotte al punto precedente, quindi
Ei,n = “all’i-esima estrazione esce il numero n”, i = 1, 2, 3, 4, 5, n = 1, . . . , 90.
Consideriamo ad esempio la cinquina (52, 34, 65, 34, 52). Allora

(52, 34, 65, 34, 52) = E1,52 ∩ E2,34 ∩ E3,65 ∩ E4,34 ∩ E5,52 .
A differenza del punto precedente, nel caso con reimmissione gli eventi che si riferiscono
ad estrazioni differenti sono tra loro indipendenti, quindi vale che
P({(52, 34, 65, 34, 52)}) = P(E1,52 ∩ E2,34 ∩ E3,65 ∩ E4,34 ∩ E5,52 )
1
= P(E1,52 ) P(E2,34 ) P(E3,65 ) P(E4,34 ) P(E5,52 ) = .
905
Abbiamo dunque dimostrato la validità di (2.4). 

3 Formula delle probabilità totali


Abbiamo già introdotto il concetto di partizione (o schema di alternative), si veda la
Definizione 1.2. Possiamo dunque enunciare la formula delle probabilità totali.

Teorema 3.1 (Formula delle probabilità totali). Sia B1 , . . . , Bn una partizione di Ω.


Allora per ogni evento A vale la formula:
n
X n
X
P(A) = P(A ∩ Bi ) = P(A|Bi ) P(Bi ).
| {z } | {z }
i=1 i=1
prob. totale di A prob. parziale di A

Dimostrazione. Si noti che


n
[  n
[
A = A∩Ω = A∩ Bi = (A ∩ Bi ),
i=1 i=1

dove l’ultima uguaglianza segue dalla proprietà distributiva dell’intersezione rispetto all’u-
nione. Inoltre, dato che gli eventi B1 , . . . , Bn sono disgiunti (ovvero, non hanno elementi
in comune), segue che anche gli eventi A ∩ B1 , . . . , A ∩ Bn sono disgiunti. Quindi, per la
proprietà di additività finita della probabilità,
n
X
P(A) = P(A ∩ Bi ).
i=1

18
Infine, dalla regola della catena,

P(A ∩ Bi ) = P(A|Bi ) P(Bi ), ∀ i = 1, . . . , n.

Quindi
n n
regola catena
X X
P(A) = P(A ∩ Bi ) = P(A|Bi ) P(Bi ).
i=1 i=1

Osservazione. Grazie alla formula delle probabilità totali, possiamo dire qualcosa di più
sul diagramma ad albero di un esperimento aleatorio. Infatti, segue dalla formula delle
probabilità totali la seguente importante proprietà di un diagramma ad albero:
• la probabilità di un qualunque evento che compare nel diagramma ad albero (in
altri termini, un evento che corrisponde ad un nodo dell’albero) è la somma delle
probabilità di tutti i cammini che dalla radice Ω conducono ad esso.
Il modo migliore per rendersi conto della validità di questa proprietà è con un esercizio,
come quello che segue.

Esercizio 3.1. Un’urna contiene 10 palline di cui 6 bianche e 4 rosse. Si estraggono due
palline senza reimmissione. Calcolare la probabilità dell’evento

B2 = “la seconda estratta è bianca”.

Soluzione. Introduciamo gli eventi riguardanti le due estrazioni:

B1 = “la prima estratta è bianca”,


R1 = “la prima estratta è rossa” = B1c ,
B2 = “la seconda estratta è bianca”,
R2 = “la seconda estratta è rossa” = B2c .

Le probabilità note sono le seguenti (in realtà, per trovare la probabilità di B2 , come
richiesto dall’esercizio, non serve riportare tutte queste probabilità):
6 3
P(B1 ) = = ,
10 5
2
P(R1 ) = 1 − P(B1 ) = ,
5
5
P(B2 |B1 ) = ,
9
4
P(R2 |B1 ) = 1 − P(B2 |B1 ) = ,
9
6 2
P(B2 |R1 ) = = ,
9 3
3 1
P(R2 |R1 ) = 1 − P(B2 |R1 ) = = .
9 3

19
Allora, dalla formula delle probabilità totali otteniamo
5 3 2 2 3
P(B2 ) = P(B2 |B1 ) P(B1 ) + P(B2 |R1 ) P(R1 ) = · + · = .
9 5 3 5 5
A tale risultato si può arrivare utilizzando il diagramma ad albero:
5
P(B2 |B1 ) = 9 B2
3
P(B1 ) = 5 B1
P(R2 |B1 ) = 4 R2
9
Ω 2
P(B2 |R1 ) = 3 B2
2 R1
P(R1 ) = 5
P(R2 |R1 ) = 1 R2
3

Infatti, sappiamo che la probabilità dell’evento B2 è la somma delle probabilità di tutti


i cammini che dalla radice Ω conducono a B2 stesso. Ci sono solo due cammini: Ω →
B1 → B2 e Ω → R1 → B2 . Quindi

P(B2 ) = P(cammino Ω → B1 → B2 ) + P(cammino Ω → R1 → B2 ).

Ricordando che la probabilità di un cammino è il prodotto delle probabilità dei suoi rami,
otteniamo
P(B2 ) = P(B2 |B1 ) P(B1 ) + P(B2 |R1 ) P(R1 ),
che corrisponde alla formula delle probabilità totali. 

4 Formula di Bayes
Le formule che seguono dalla definizione di probabilità condizionale sono tre: la regola
della catena, la formula delle probabilità totali e la formula di Bayes, che ora presentia-
mo. Sono molto importanti in quanto permettono di risolvere problemi di Calcolo delle
probabilità utilizzando solo gli eventi, senza dover introdurre esplicitamente lo spazio
campionario. Sono inoltre strettamente collegate al diagramma ad albero.
Veniamo dunque alla formula di Bayes, che stabilisce la relazione tra le probabilità
condizionali P(A|B) e P(B|A).

Teorema 4.1 (Formula di Bayes). Siano A e B due eventi tali che P(A) > 0 e P(B) >
0, allora vale la formula
P(A|B) P(B)
P(B|A) = .
P(A)

Dimostrazione. Per definizione di P(B|A) si ha che

P(A ∩ B)
P(B|A) = .
P(A)

20
Utilizzando la regola della catena, possiamo riscrivere il numeratore come segue

P(A ∩ B) = P(A|B) P(B).

Quindi
P(A ∩ B) P(A|B)P(B)
P(B|A) = = ,
↑ P(A) ↑ P(A)
defn. di P(B|A) reg. catena

che conclude la dimostrazione. 

Osservazione (utilizzo della formula di Bayes). Come già detto, in un proble-


ma di Calcolo delle probabilità molte probabilità condizionali sono note. Questo accade
ad esempio quando in P(A|B) l’evento B riguarda il primo (in ordine di tempo) sotto-
esperimento aleatorio, mentre l’evento A riguarda il secondo sotto-esperimento aleatorio.
Se ora consideriamo la probabilità condizionale P(B|A), in essa gli eventi B ed A non so-
no disposti nell’ordine temporale naturale6 . Per questo motivo la probabilità P(B|A) non
è in generale nota (a meno che i due sotto-esperimenti aleatori non siano indipendenti,
nel qual caso P(B|A) = P(B)). È in situazioni del genere che è utile utilizzare la formula
di Bayes per calcolare P(B|A).

Esercizio 4.1. Ci sono due urne: la prima urna contiene una pallina bianca e due palline
rosse, mentre la seconda contiene due palline bianche e cinque palline rosse. Si lancia una
moneta: se esce testa si estrae una pallina dalla prima urna, se esce croce si estrae una
pallina dalla seconda.
Sapendo che è stata estratta una pallina bianca, calcolare la probabilità che l’esito del
lancio della moneta sia stato testa.

Soluzione. Introduciamo gli eventi riguardanti i due sotto-esperimenti aleatori:

T = “l’esito del lancio della moneta è testa” = “si sceglie la prima urna”,
C = “l’esito del lancio della moneta è croce” = “si sceglie la seconda urna” = T c ,
B = “si estrae una pallina bianca”,
R = “si estrae una pallina rossa” = B c .

Il diagramma ad albero dell’esperimento aleatorio è il seguente:


1
P(B|T ) = 3 B
1
P(T ) = 2 T
P(R|T ) = 2 R
3
Ω 2
P(B|C) = 7 B
1 C
P(C) = 2
P(R|C) = 5 R
7

6
Con riferimento al diagramma ad albero, il nodo A è un “figlio” del nodo B.

21
La probabilità richiesta è la seguente probabilità condizionale

P(T |B),

che si calcola con la formula di Bayes:

P(B|T ) P(T )
P(T |B) = .
P(B)

Le due probabilità a numeratore sono note, mentre (come accade spesso quando si usa la
formula di Bayes) il denominatore va calcolato con la formula delle probabilità totali:

P(B) = P(B|T ) P(T ) + P(B|C) P(C).

Quindi
1 1
P(B|T ) P(T ) ·
3 2 7
P(T |B) = = 1 1 = .
P(B|T ) P(T ) + P(B|C) P(C) 3
· 2
+ 27 · 1
2
13


5 Esercizi e paradossi

Esercizio 5.1. In un’urna ci sono due palline che possono essere rosse (R) o bianche
(B). La composizione esatta non è nota, quindi le composizioni possibili sono:

RR, RB, BB.

Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale
probabilità pari a 1/3 alle tre composizioni (ipotesi) possibili, che denotiamo H0 , H1 e H2 .

1) Se si estrae una pallina dall’urna, qual è la probabilità che sia bianca?

2) Si effettuano tre estrazioni con reimmissione: sapendo che le prime due palline
estratte sono bianche, qual è la probabilità che anche la terza pallina estratta sia
bianca?

Soluzione. Introduciamo i seguenti eventi:

H0 = “nell’urna ci sono due palline rosse”,


H1 = “nell’urna ci sono una pallina rossa e una pallina bianca”,
H2 = “nell’urna ci sono due palline bianche”,
Ri = “all’i-esima estrazione esce una pallina rossa”, i = 1, 2, 3,
c
Bi = “all’i-esima estrazione esce una pallina bianca” = Ri , i = 1, 2, 3.

Il diagramma ad albero dell’esperimento aleatorio fino alla seconda estrazione è il seguente:

22
P(R2 |H0 ∩ R1 ) = 1 R2
P(R1 |H0 ) = 1 R1
P(B2 |H0 ∩ R1 ) = 0 B2
H0
1
P(H0 ) = 3
P(B1 |H0 ) = 0 B1 1
P(R2 |H1 ∩ R1 ) = 2 R2
1
P(R1 |H1 ) = 2
R1
P(H1 ) = 1
P(B2 |H1 ∩ R1 ) = 1 B2
3 2
Ω H1 1
P(R2 |H1 ∩ B1 ) = 2 R2
1
P(B1 |H1 ) = 2 B1
P(B2 |H1 ∩ B1 ) = 1 B2
2
P(R1 |H2 ) = 0 R1
1
P(H2 ) = 3
H2
P(R2 |H2 ∩ B1 ) = 0 R2
P(B1 |H2 ) = 1 B1
P(B2 |H2 ∩ B1 ) = 1 B2

1) La probabilità richiesta è P(B1 ). Dalla formula delle probabilità totali (o, equivalente-
mente, dal diagramma ad albero), si ottiene
1
P(B1 ) = P(B1 |H0 ) P(H0 ) + P(B1 |H1 ) P(H1 ) + P(B1 |H2 ) P(H2 ) = .
2

2) La probabilità richiesta è P(B3 |B1 ∩ B2 ). Dalla definizione di probabilità condizionale,


si ha che
P(B1 ∩ B2 ∩ B3 )
P(B3 |B1 ∩ B2 ) =
P(B1 ∩ B2 )
Calcoliamo denominatore e numeratore con la formula delle probabilità totali:

P(B1 ∩ B2 ) = P(B1 ∩ B2 ∩ H0 ) + P(B1 ∩ B2 ∩ H1 ) + P(B1 ∩ B2 ∩ H2 )

P(B1 ∩ B2 ∩ B3 ) = P(B1 ∩ B2 ∩ B3 ∩ H0 ) + P(B1 ∩ B2 ∩ B3 ∩ H1 )


+ P(B1 ∩ B2 ∩ B3 ∩ H2 ).

Le probabilità a destra del segno di uguaglianza si calcolano con la regola della catena.
Si ottiene

P(B1 ∩ B2 ) = P(B1 ∩ B2 ∩ H0 ) + P(B1 ∩ B2 ∩ H1 ) + P(B1 ∩ B2 ∩ H2 )


1 1 1 1 5
= 0+ · · + =
2 2 3 3 12

23
e

P(B1 ∩ B2 ∩ B3 ) = P(B1 ∩ B2 ∩ B3 ∩ H0 ) + P(B1 ∩ B2 ∩ B3 ∩ H1 )


+ P(B1 ∩ B2 ∩ B3 ∩ H2 )
1 1 1 1 1 3
= 0+ · · · + = .
2 2 2 3 3 8
Quindi
3
P(B1 ∩ B2 ∩ B3 ) 8 9
P(B3 |B1 ∩ B2 ) = = 5 = .
P(B1 ∩ B2 ) 12
10

Esercizio 5.2 (Paradosso delle tre carte). Giochiamo con tre carte. Una è bianca su
entrambi i lati, una è rossa su entrambi i lati e una è bianca da un lato e rossa dall’altro.
Ogni carta è nascosta in una scatoletta nera. Il giocatore sceglie una delle tre scatolette,
estrae la carta e la posa sul tavolo in modo che sia visibile un solo lato.
Sapendo che il lato superiore della carta è bianco, qual è la probabilità che l’altro lato sia
rosso?

Soluzione. Possiamo utilizzare gli stessi eventi introdotti nell’Esercizio 5.1 per descrivere
questo esperimento aleatorio:

H0 = “la carta scelta dal giocatore ha entrambi i lati rossi”,


H1 = “la carta scelta dal giocatore ha un lato rosso e l’altro bianco”,
H2 = “la carta scelta dal giocatore ha entrambi i lati bianchi”,
R1 = “il lato superiore è rosso”,
B1 = “il lato superiore è bianco” = R1c ,
R2 = “il lato inferiore è rosso”,
B2 = “il lato inferiore è bianco” = R2c .

Il diagramma ad albero dell’esperimento aleatorio è il seguente (si noti che nella terza
ramificazione le probabilità sui rami sono diverse rispetto all’albero dell’Esercizio 5.1;
sarebbero state le stesse se nell’Esercizio 5.1 l’estrazione fosse stata senza reimmissione):

24
P(R2 |H0 ∩ R1 ) = 1 R2
P(R1 |H0 ) = 1 R1
P(B2 |H0 ∩ R1 ) = 0 B2
H0
1
P(H0 ) = 3
P(B1 |H0 ) = 0 B1
P(R2 |H1 ∩ R1 ) = 0 R2
1
P(R1 |H1 ) = 2
R1
P(H1 ) = 1 P(B2 |H1 ∩ R1 ) = 1 B2
3
Ω H1
P(R2 |H1 ∩ B1 ) = 1 R2
1
P(B1 |H1 ) = 2 B1
P(B2 |H1 ∩ B1 ) = 0 B2
P(R1 |H2 ) = 0 R1
1
P(H2 ) = 3
H2
P(R2 |H2 ∩ B1 ) = 0 R2
P(B1 |H2 ) = 1 B1
P(B2 |H2 ∩ B1 ) = 1 B2

La probabilità richiesta è P(R2 |B1 ). Si procede dunque come al punto 2 dell’Esercizio 5.1.
Si ottiene quindi
P(B1 ∩ R2 )
P(R2 |B1 ) =
P(B1 )
P(B1 ∩ R2 ∩ H0 ) + P(B1 ∩ R2 ∩ H1 ) + P(B1 ∩ R2 ∩ H2 )
=
P(B1 )
1 1
0+1· 2 · 3 +0 1
= 1 = .
2
3

Esercizio 5.3 (Dilemma di Monty-Hall). Sei a un gioco a premi, e devi scegliere fra
tre porte. Dietro a una porta c’è un’automobile, mentre dietro alle altre troverai solo delle
capre. Tu scegli, diciamo, la porta no 1, e il presentatore, che sa dov’è l’automobile, ne
apre un’altra, dietro a cui c’è una capra. A questo punto, ti dà la possibilità di scegliere
tra il restare fedele alla porta no 1 o il passare all’altra.
Che cosa ti conviene fare?

(a) Restare fedele alla porta no 1.

(b) Passare all’altra porta.

Soluzione. Introduciamo i due eventi seguenti:

B = “vinci restando fedele alla porta no 1”,

25
C = “vinci passando all’altra porta non ancora aperta dal presentatore” = B c .

La strategia migliore è quella che ha probabilità maggiore. Dobbiamo dunque calcolare


P(B) e P(C). Si noti che C = B c , ossia C si verifica se e solo se l’automobile si trova
dietro la porta no 2 oppure dietro la porta no 3. È dunque sufficiente calcolare P(B). A tal
proposito, notiamo innanzitutto che l’automobile potrebbe essere, con uguale probabilità,
dietro alla porta no 1, no 2 oppure no 3. Infatti il testo dell’esercizio non dice nulla a
riguardo, non c’è dunque alcuna ragione per assegnare probabilità differenti a questi tre
casi distinti. Allora si ha che
1 2
P(B) = , P(C) = 1 − P(B) = .
3 3
In conclusione P(B) < P(C), quindi conviene passare all’altra porta. 

6 Come si stima la probabilità?


Come accennato all’inizio del primo Capitolo, la stima della probabilità è un problema
della Statistica, che può essere affrontato in modo ingenuo oppure formale. Vediamo in
questa sezione due possibili modi ingenui, la cui formalizzazione conduce alla Statistica in-
ferenziale frequentista e bayesiana, rispettivamente, ovvero ai due approcci più importanti
alla Statistica inferenziale.
Consideriamo un esperimento aleatorio. Supponiamo di aver determinato lo spazio
campionario Ω. Resta dunque il problema di assegnare la probabilità P. In particolare,
fissato un generico evento A, quanto dovrebbe valere approssimativamente P(A)?
Nell’approccio frequentista si ripete “infinite” volte l’esperimento aleatorio e si calcola
P(A) come segue:
no di volte che si è verificato A nelle prime n prove
P(A) = lim . (6.1)
n→+∞ n
La (6.1) vale solo sotto certe ipotesi. Come vedremo è una conseguenza della Legge dei
grandi numeri.
Nonostante l’approccio frequentista sia ancora oggi il più utilizzato, esso presenta
alcuni difetti. In particolare, dato che è impossibile nella realtà eseguire infinite prove,
non è chiaro quante prove siano necessarie per avere una “buona” stima di P(A). A tal
proposito, citiamo Bruno de Finetti7 :
. . . Ma ciò non toglie il difetto d’origine, cioè la distinzione, concettualmente posta come
fondamentale, tra “effetto di massa” e “effetto dei singoli elementi”. Conoscere l’esito
di un certo numero di prove, grande o piccolo che sia, conduce dall’opinione iniziale
all’opinione finale esattamente nello stesso modo che si otterrebbe pensando di venire a
conoscere l’esito delle singole prove, una per volta, e di modificare ogni volta l’opinione
conformemente al (piccolo in genere) influsso di una singola informazione.
Una possibile soluzione al problema delle infinite prove, è fornito dall’approccio bayesiano,
a cui si fa riferimento nella citazione riportata qui sopra. In tale approccio, si formula
7
Teoria delle probabilità, Einaudi, Torino, 1970.

26
innanzitutto una congettura su P(A), a partire dalle informazioni in nostro possesso8 , poi
si esegue una singola prova e sulla base dell’esito ottenuto si “aggiorna” il valore di P(A)
tramite la formula di Bayes:

P(esito ottenuto | A)
P(A) dopo aver eseguito la prova := P(A | esito ottenuto) = P(A)
↑ P(esito ottenuto)
Bayes

in cui anche le probabilità P(esito ottenuto | A) e P(esito ottenuto) devono essere conget-
turate. Il rapporto
P(esito ottenuto | A)
P(esito ottenuto)
rappresenta l’impatto che quel particolare esito ha sulla probabilità dell’evento A.
Possiamo riassumere con il seguente schema l’approccio bayesiano:

Eseguo una volta Aggiorno il valore di P(A)


Congettura su P(A) −→ l’esperimento aleatorio
−→ tramite la formula di Bayes

Eseguendo un numero elevato di prove e ripetendo questa procedura ad ogni singola


prova, la congettura iniziale su P(A) diventa sempre meno rilevante. Quando n tende
all’infinito si ottiene il valore dato dal limite (6.1), indipendentemente dalla congettura
fatta all’inizio.

8
Qui ci si avvale di vari elementi che possono presentarsi caso per caso (ragioni di simmetria come
per dadi, palline in un’urna, roulette, ecc.; esperienze statistiche su fenomeni simili; confronti, ecc.),
integrandole in genere con conoscenze, opinioni, ecc. relative al singolo caso in questione.

27
Calcolo delle Probabilità e Statistica 2019/2020

CALCOLO COMBINATORIO E SPAZI


DI PROBABILITÀ FINITI E UNIFORMI
1 Problemi di conteggio
In questo capitolo studiamo nel dettaglio il seguente caso particolare: Ω è finito e gli
esiti sono equiprobabili, ovvero la probabilità P è uniforme. Ricordiamo allora che vale il
seguente risultato.

Teorema 1.1. Consideriamo un esperimento aleatorio descritto da uno spazio


campionario finito:
Ω = {ω1 , . . . , ωN }
con esiti equiprobabili, ovvero con probabilità uniforme:

P({ω1 }) = P({ω2 }) = · · · = P({ωN }).

Allora valgono le proprietà seguenti:

1) dato un qualunque evento elementare {ωi }, vale che


1
P({ωi }) = ;
N

2) dato un qualunque evento A, vale la formula di Laplace

no di eventi elementari che compongono A casi favorevoli


P(A) = = .
N casi possibili

I problemi che rientrano nella situazione qui sopra descritta sono detti problemi di
conteggio, in quanto il calcolo della probabilità di un evento A si riduce al conteggio
del numero di casi favorevoli e del numero di casi possibili. Il calcolo combinatorio è lo
strumento matematico che permette di svolgere questi calcoli anche quando tali numeri
sono particolarmente elevati.

1.1 Cardinalità e corrispondenza biunivoca


Ricordiamo che il simbolo |Ω| (oppure #Ω) indica la cardinalità di un qualunque insieme
Ω, ovvero il numero dei suoi elementi. La formula di Laplace può essere scritta in termini
di cardinalità come segue:
|A|
P(A) = .
|Ω|

Corrispondenza biunivoca. Dati due insiemi A e B, si dice che

A è in corrispondenza biunivoca con B

se, per definizione, esiste una funzione f : A → B biettiva, cioè iniettiva e suriettiva.
Ricordiamo dunque il seguente principio basilare:

|A| = |B| se e solo se A e B sono in corrispondenza biunivoca.

2
Per determinare la cardinalità di un insieme A spesso si ricorre alla corrispondenza biuni-
voca, ovvero si determina un altro insieme B che si sa essere in corrispondenza biunivoca
con A, quindi |A| = |B|, e di cui è più facile calcolare la cardinalità.

1.2 Fattoriale e coefficiente binomiale


Ricordiamo il significato del simbolo fattoriale:

n! = n(n − 1) · · · 1, ∀ n = 1, 2, . . .

Inoltre si pone per convenzione


0! = 1.
Il coefficiente binomiale è invece dato da
 
n n!
= , ∀ n, k = 0, 1, 2, . . . , con k ≤ n.
k k!(n − k)!
Dalla definizione segue direttamente che
         
n n n n n
= , = = 1, = n.
k n−k 0 n 1
Inoltre, per k, n ∈ N con k < n, vale la formula di Stifel:
     
n n−1 n−1
= + .
k k−1 k

Infine, vale la formula del binomio di Newton1 :


n  
n
X n k n−k
(a + b) = a b , a, b ∈ R.
k=0
k

1.3 Metodo delle scelte successive


In questa sezione illustriamo un metodo, noto come metodo delle scelte successive (o sche-
ma delle scelte successive o anche principio fondamentale del calcolo combinatorio), che
permette di determinare la cardinalità di un insieme una volta caratterizzati univocamente
i suoi elementi tramite un numero finito di scelte successive. Iniziamo con un esempio.

Esempio 1.1. Quante password di otto caratteri, ognuno dei quali scelto tra trentasei
valori alfanumerici, possono essere generate?
Come cambia la risposta se gli otto caratteri devono essere tra loro distinti?

1
Una dimostrazione di carattere combinatorio della formula di Newton è la seguente: il prodotto
(a + b)(a + b) · · · (a + b) di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk
con 0 ≤ k ≤ n. Resta dunque da determinare il coefficiente di ciascun monomio an−k bk , ossia calcolare
quante volte compare facendo il prodotto (a + b)(a + b) · · · (a + b). Tale monomio si ottiene scegliendo il
valore b da k degli n fattori disponibili e, quindi, scegliendo a dai rimanenti n − k, ovvero in nk modi.


3
Soluzione.

1) Caratteri non necessariamente distinti. Sia Ω l’insieme di tutte le password di otto


caratteri non necessariamente distinti. In tal caso Ω è dato da

Ω = {a, b, c, . . . , 8, 9}8 .

Possiamo determinare ogni password di Ω tramite le seguenti otto scelte successive:

• scelta del primo carattere della password: 36 possibilità


• scelta del secondo carattere: 36 possibilità
• ···
• scelta dell’ottavo carattere: 36 possibilità

Come seguirà dal metodo delle scelte successive, la cardinalità di Ω è data dal prodotto
di questi otto numeri:

|Ω| = 36 × 36 × · · · × 36 = 368 .

Questo risultato è confermato dal fatto che Ω = {a, b, c, . . . , 8, 9}8 .

2) Caratteri distinti. Sia Ω l’insieme di tutte le password di otto caratteri tra loro distinti.
Procedendo come prima possiamo determinare ogni password di Ω tramite le seguenti
scelte successive:

• scelta del primo carattere della password: 36 possibilità


• scelta del secondo carattere: 36 − 1 possibilità
• ···
• scelta dell’ottavo carattere: 36 − 7 possibilità

Come seguirà dal metodo delle scelte successive, la cardinalità di Ω è data da

|Ω| = 36 × (36 − 1) × · · · × (36 − 7) = 36 × 35 × · · · × 29.


Formuliamo dunque il metodo delle scelte successive, che generalizza quanto appena visto
nell’esempio precedente.

Metodo delle scelte successive. Supponiamo che ciascun elemento di un insieme A


possa essere determinato tramite una e una sola sequenza di k scelte successive, in cui
ogni scelta viene effettuata tra un numero fissato di possibilità (tale numero di possibilità,
qui di seguito indicato con n1 , n2 , . . . , nk , non dipende dalle scelte precedenti ma solo da
k):

• la prima scelta viene effettuata tra n1 possibilità

4
• la seconda scelta viene effettuata tra n2 possibilità

• ···

• la k-esima scelta viene effettuata tra nk possibilità

Allora la cardinalità di A è pari a

|A| = n1 × n2 × · · · × nk .

Osservazione 1. Cosı̀ enunciato, il metodo delle scelte successive sembra essere un po’
vago. Una riformulazione matematica precisa (come teorema) è possibile, tuttavia essa
comporta notazioni piuttosto ingombranti e risulta di poco aiuto nelle applicazioni. Per
tale ragione nella pratica si fa tipicamente riferimento all’enunciato riportato qui sopra.
Osservazione 2. Il metodo delle scelte successive dice essenzialmente che l’insieme A
è in corrispondenza biunivoca con le sequenze di k scelte, il cui numero totale è appunto
pari a n1 × n2 × · · · × nk .
Osservazione 3. Gli errori più comuni che si commettono nell’utilizzo di tale metodo
sono:
• non contare tutti gli elementi di A (da qui l’importanza del termine “ciascun”
nell’enunciato del metodo delle scelte successive);
• contare più di una volta lo stesso elemento (da qui l’importanza del termine “una
e una sola” nell’enunciato del metodo delle scelte successive).

Esempio 1.2. Consideriamo un mazzo di carte da poker da 52 carte, identificate dal


seme (cuori ♥, quadri ♦, fiori ♣, picche ♠) e dal tipo (un numero da 2 a 10 oppure J,
Q, K, A). Calcolare la cardinalità dei seguenti insiemi.

1) L’insieme dei full; un full è un sottoinsieme di 5 carte costituito dall’unione di un


tris (un sottoinsieme di 3 carte dello stesso tipo) e di una coppia (un sottoinsieme di
2 carte dello stesso tipo, necessariamente diverso da quel del tris).

2) L’insieme delle doppie coppie; una doppia coppia è un sottoinsieme di 5 carte costi-
tuito da due coppie di tipi diversi, più una quinta carta di tipo diverso dai tipi delle
due coppie.

Soluzione.
1) Sia A l’insieme dei full. Ogni elemento di A può essere determinato tramite quattro
scelte successive:
• scelta del tipo del tris: 13 possibilità
• scelta del tipo della coppia: 12 possibilità (chiaramente il tipo della coppia deve
essere diverso dal tipo del tris perché non esistono cinque carte dello stesso tipo)

5
• scelta dei semi delle carte che compaiono nel tris: 4 possibilità
• scelta dei semi delle carte che compaiono nella coppia: 6 possibilità
Quindi
|A| = 13 × 12 × 4 × 6 = 3744.
2) Sia B l’insieme delle doppie coppie. Per calcolare |B| si potrebbe essere tentati di
procedere analogamente al caso dei full, attraverso sei scelte successive:
• scelta del tipo della prima coppia: 13 possibilità
• scelta del tipo della seconda coppia: 12 possibilità
• scelta del tipo della quinta carta: 11 possibilità
• scelta dei semi delle carte che compaiono nella prima coppia: 6 possibilità
• scelta dei semi delle carte che compaiono nella seconda coppia: 6 possibilità
• scelta del seme della quinta carta: 4 possibilità
Si otterrebbe dunque
|B| = 13 × 12 × 11 × 6 × 6 × 4 = 247104.
Tuttavia questo risultato è errato. Infatti, ogni doppia coppia non viene determinata
da una e una sola sequenza di 6 scelte, ma da esattamente due sequenze distinte.
La ragione è che le prime due scelte sono ambigue, dal momento che non esiste una
“prima” e una “seconda” coppia. Per esempio, la doppia coppia {5♥, 5♦, 6♥, 6♣, 7♠}
viene determinata sia compiendo come prima scelta 5 e come seconda scelta 6, sia
viceversa. Per tale ragione il risultato corretto è
247104
|B| = = 123552.
2
Un modo alternativo di ottenere il risultato corretto è di riunire le prime due scelte
nell’unica scelta seguente:
13×12
• scelta dei tipi delle due coppie: 2
= 78 possibilità.
Si ottiene
|B| = 78 × 11 × 6 × 6 × 4 = 123552.


2 Disposizioni e combinazioni
In questa sezione introduciamo le disposizioni con ripetizione, le disposizioni sempli-
ci (o senza ripetizione) e le combinazioni (semplici o senza ripetizione). Nel seguito
indicheremo con E un insieme di n elementi distinti:
E = {e1 , e2 , . . . , en }.
E sarà ad esempio l’insieme della carte che compongono un mazzo, oppure l’insieme delle
palline contenute in un’urna (in cui l’i-esima pallina ha come etichetta ei ).

6
2.1 Disposizioni con ripetizione

Definizione 2.1 (Disposizioni con ripetizione). Siano E un insieme con |E| = n


e k ∈ N. Indichiamo con DRn,k l’insieme delle disposizioni con ripetizione di k ele-
menti di E, ossia l’insieme di tutte le sequenze ordinate di k elementi di E, non
necessariamente distinti:

DRn,k = {(x1 , . . . , xk ) : xi ∈ E} = E
| ×E×
{z· · · × E} .
k volte

La cardinalità di DRn,k è pari a

|DRn,k | = nk .

Esempio 2.1. Siano E = {a, b, c} e k = 2. Allora |DR3,2 | = 32 e precisamente

DR3,2 = {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.

Osservazione 1. DRn,k esprime i modi in cui possiamo disporre, in maniera ordinata


ed eventualmente ripetuta, un numero k di oggetti scelti da un insieme di n oggetti.
Osservazione 2. Si noti che scriviamo DRn,k senza specificare l’insieme E, dato che
ogni volta sarà chiaro dal contesto a quale insieme di oggetti E ci stiamo riferendo.
Osservazione 3. La cardinalità di DRn,k si trova applicando il metodo delle scelte
successive, procedendo come nel punto 1) dell’Esempio 1.1.

Esempio 2.2. Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en ,


da cui si estraggono con reimmissione k ∈ N palline. Sia E = {e1 , e2 , . . . , en }. Uno
spazio di probabilità (Ω, P) che descrive tale esperimento è

Ω = DRn,k , P probabilità uniforme.

La quantità |DRn,k | = nk è dunque pari al numero di “casi possibili” di questo esperimento


aleatorio.

Esempio 2.3. Determinare un possibile spazio campionario per i seguenti esperimenti


aleatoria :

i) Si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto
italiano.
a
Soluzioni: i) Ω = DR21,8 , quindi |Ω| = 218 ; ii) Ω = DR3,13 , quindi |Ω| = 313 ; iii) Ω = DR6,10 ,
quindi |Ω| = 610 .

7
ii) Si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere
tra 1, 2 o X.

iii) Si lancia 10 volte un dado (non truccato) a sei facce.

2.2 Disposizioni semplici

Definizione 2.2 (Disposizioni semplici). Siano E un insieme con |E| = n e k ≤


n. Indichiamo con Dn,k l’insieme delle disposizioni semplici (o senza ripetizione) di k
elementi di E, ossia l’insieme di tutte le sequenze ordinate di k elementi distinti di
E:
Dn,k = {(x1 , . . . , xk ) : xi ∈ E distinti}.
La cardinalità di Dn,k è pari a

n!
|Dn,k | = n(n − 1) · · · (n − k + 1) = .
(n − k)!

Esempio 2.4. Siano E = {a, b, c} e k = 2. Allora |D3,2 | = 6 e precisamente

D3,2 = {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.

Osservazione 1. Dn,k esprime i modi in cui possiamo disporre, in maniera ordinata e


non ripetuta, un numero k di oggetti scelti da un insieme di n oggetti.
Osservazione 2. La cardinalità di Dn,k si trova applicando il metodo delle scelte suc-
cessive come nel punto 2) della soluzione dell’Esempio 1.1.

Esempio 2.5. Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en , da


cui si estraggono senza reimmissione k ≤ n palline. Sia E = {e1 , e2 , . . . , en }. Uno
spazio di probabilità (Ω, P) che descrive tale esperimento è

Ω = Dn,k , P probabilità uniforme.

La quantità |Dn,k | = n(n − 1) · · · (n − k + 1) è dunque pari al numero di “casi possibili”


di questo esperimento aleatorio.

Esempio 2.6. Supponiamo di giocare un’unica cinquina (ad esempio la sequenza ordinata
13, 5, 45, 21, 34) al gioco del lotto, in cui si estraggono senza reimmissione cinque numeri
dai primi novanta naturali.

8
1) Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione)?

2) Qual è la probabilità di fare una cinquina semplice (per cui non conta l’ordine di
estrazione)?

Soluzione. Come suggerito dall’Esempio 2.5, consideriamo lo spazio di probabilità (Ω, P)


dato da
Ω = D90,5 , P probabilità uniforme.
1) La probabilità di fare una cinquina secca è semplicemente
1
' 1.89 · 10−10 .
|D90,5 |
2) Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti
modi differenti si possono ordinare 5 numeri. Tale numero è pari a |D5,5 | = 5!
Allora la probabilità di una cinquina semplice dopo 5 estrazioni è
|D5,5 |
' 2.27 · 10−8 .
|D90,5 |

Introduciamo infine le permutazioni, che sono un caso particolare di disposizione
semplice.

Definizione 2.3 (Permutazioni). Sia E un insieme con |E| = n. Indichiamo con Pn


l’insieme delle permutazioni degli n elementi di E, ossia l’insieme Dn,n .
La cardinalità di Pn è dunque pari a

|Pn | = |Dn,n | = n!

Osservazione. Pn esprime i modi in cui possiamo disporre, in maniera ordinata e


non ripetuta, n oggetti.

2.3 Combinazioni

Definizione 2.4 (Combinazioni). Siano E un insieme con |E| = n e k ≤ n. Indichiamo


con Cn,k l’insieme delle combinazioni ( semplici o senza ripetizione) di k elementi di E,
ossia la famiglia dei sottoinsiemi di E di cardinalità k:

Cn,k = {A ⊂ E : |A| = k}.

La cardinalità di Cn,k è pari a  


n
|Cn,k | = . (2.1)
k

9
Esempio 2.7. Siano E = {a, b, c} e k = 2. Allora |C3,2 | = 3 e precisamente

C3,2 = {a, b}, {a, c}, {b, c} .

Osservazione 1. Cn,k è l’insieme di tutti i gruppi di k oggetti scelti da un insieme di n


oggetti, in maniera ordinata e non ripetuta.
Osservazione 2 (calcolo di |Cn,k |). A differenza del calcolo di |DRn,k | e |Dn,k |, non
è possibile scomporre il calcolo di |Cn,k | in una sequenza di scelte successive. Tuttavia,
dimostrare la (2.1) equivale a dimostrare la seguente uguaglianza:
n!
= |Cn,k | k!
(n − k)!
ossia
|Dn,k | = |Cn,k | |Pk |. (2.2)
Dimostriamo la (2.2) applicando il metodo delle scelte successive all’insieme Dn,k :
• scelta dei k elementi di E da ordinare, ovvero di un sottoinsieme di E di cardinalità
k: |Cn,k | possibilità (per definizione di Cn,k )
• scelta dell’ordine in cui disporre i k elementi, ossia permutazione dei k elementi:
|Pk | possibilità
Dal metodo delle scelte successive si ottiene (2.2) e dunque (2.1).

Esempio 2.8. Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en , da


cui si estraggono simultaneamente k ≤ n palline. Sia E = {e1 , e2 , . . . , en }. Uno spazio
di probabilità (Ω, P) che descrive tale esperimento è

Ω = Cn,k , P probabilità uniforme.

La quantità |Dn,k | = nk è dunque pari al numero di “casi possibili” di questo esperimento




aleatorio.

Esempio 2.9. Si consideri la formula di Stifel:


     
n n−1 n−1
= + .
k k−1 k

Possiamo interpretare questa formula in termini di combinazioni come segue:


     
n n−1 n−1
= +
k k−1 k
| {z } | {z } | {z }
no di combinazioni no di combinazioni no di combinazioni
di k elementi di E di k elementi di E in cui di k elementi di E
è presente l’elemento ē senza l’elemento ē

dove ē è un elemento fissato di E scelto in modo arbitrario.

10
3 Tre esperimenti aleatori di riferimento
Estrazioni da un’urna

Quando si utilizza il calcolo combinatorio per lo studio di un esperimento aleatorio, la


scelta dello spazio campionario Ω è importante perché può semplificare il conteggio dei
casi possibili e dei casi favorevoli. La scelta più conveniente dipende dall’esperimento
aleatorio in questione. Tuttavia nella maggior parte dei casi è possibile scegliere come
spazio campionario uno dei tre spazi che ora introduciamo. Questo perché è possibile
ripensare l’esperimento aleatorio che si sta studiando come uno dei tre esperimenti aleatori
di riferimento riportati qui di seguito (che corrispondono agli Esempi 2.2, 2.5, 2.8).
Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en . Si estraggono
k palline dall’urna in uno dei tre modi seguenti:

1) estrazione con reimmissione 2 , con k ∈ N, in cui, per l’estrazione successiva, la


pallina estratta viene reinserita nell’urna (Esempio 2.2);

2) estrazione senza reimmissione, con k ≤ n, in cui la pallina estratta non viene


reinserita nell’urna (Esempio 2.5);

3) estrazione simultanea, con k ≤ n, in cui le k palline vengono estratte simulta-


neamente (Esempio 2.8).

Possiamo descrivere sinteticamente tali esperimenti tramite la seguente tabella, eviden-


ziando i due aspetti caratterizzanti che sono l’ordine e la ripetizione:
aa
aa Ripetizione
aa
aa Senza Con
aa
aa ripetizione ripetizione
Ordine aa
aa
a
Estrazione Estrazione
Si tiene conto dell’ordine senza con
reimmissione reimmissione
Estrazione
Non si tiene conto dell’ordine
simultanea

Negli Esempi 2.2, 2.5, 2.8 abbiamo introdotto gli spazi di probabilità che descrivono questi
tre esperimenti aleatori. Possiamo dunque completare la precedente tabella, riportando
anche gli spazi campionari e le loro cardinalità (ossia il numero di “casi possibili”).
2
Invece di “reimmissione” si utilizzano anche i termini “reimbussolamento”, “reinserimento”,
“reintroduzione”, “restituzione”, “rimpiazzo”.

11
aa
aa Ripetizione
aa
aa Senza Con
aa
aa ripetizione ripetizione
Ordine aa
aa
a
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk
Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k | n

|Ω| = k! = k

Osservazione 1. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sa-
rebbe sufficiente considerare solamente i primi due: l’estrazione senza reimmissione e
l’estrazione con reimmissione. Infatti l’estrazione simultanea può essere vista come un’e-
strazione senza reimmissione in cui non si tiene conto dell’ordine, ossia come un caso
particolare dell’estrazione senza reimmissione. Questo significa che, in alternativa a Cn,k ,
è possibile utilizzare Dn,k come spazio campionario. Ciò segue da |Dn,k | = k!|Cn,k | e, più
in generale, dal fatto che ad ogni elemento di Cn,k corrispondono k! elementi di Dn,k .
Più precisamente, vale la catena di uguaglianze:

casi favorevoli in Cn,k k! (casi favorevoli in Cn,k ) casi favorevoli in Dn,k


= = . (3.1)
casi possibili in Cn,k k! (casi possibili in Cn,k ) casi possibili in Dn,k

Osservazione 2. La casella vuota nella tabella sopra riportata corrisponde all’insieme


delle cosiddette combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non or-
dinati ed eventualmente ripetuti, di k oggetti da un insieme di n oggetti. L’esperimento
aleatorio corrispondente è l’estrazione con reimmissione in cui non si tiene conto dell’or-
dine: questo esperimento aleatorio può essere descritto anche dallo spazio di probabilità
(Ω, P) con Ω = DRn,k e P probabilità uniforme. Al contrario, se si sceglie come Ω lo
spazio delle combinazioni con ripetizione, allora la probabilità corrispondente non è più
uniforme. Ciò è dovuto al fatto che non vale più la catena di uguaglianze (3.1) nel caso in
cui ci siano ripetizioni. In altri termini, ad ogni combinazione con ripetizione non corri-
sponde sempre lo stesso numero di elementi di DRn,k (infatti dipende da quante ripetizioni
ci sono all’interno della combinazione).

Esempio 3.1 (Probabilità binomiale). Si consideri un’urna che contiene b palline


bianche ed r palline rosse. Si effettuano n estrazioni con reimmissione. Calcolare la
probabilità dell’evento

Ak = “si estraggono k palline bianche ed n − k palline rosse”

con 0 ≤ k ≤ n.

12
Soluzione. Etichettiamo le b palline bianche con bianca1 , bianca2 , . . . , biancab ; analoga-
mente, le r palline rosse con rossa1 , rossa2 , . . . , rossar . Sia dunque

E = {bianca1 , bianca2 , . . . , biancab , rossa1 , rossa2 , . . . , rossar }.

Si noti che |E| = b + r.


Come spazio di probabilità (Ω, P) è naturale considerare Ω = DRb+r,n (insieme delle
disposizioni con ripetizione di n elementi di E) e P probabilità uniforme.
Determiniamo la cardinalità di Ak tramite le seguenti k scelte successive:

• scelta della sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche
estratte: |DRb,k | possibilità;

• scelta della sequenza (ordinata e con eventuali ripetizioni) delle n − k palline rosse
estratte: |DRr,n−k | possibilità;

• scelta delle k estrazioni in cui sono uscite le palline bianche: |Cn,k | possibilità3 .

In definitiva   k n−k
|DRb,k ||DRr,n−k ||Cn,k | n b r
P(Ak ) = = ,
|DRb+r,n | k (b + r)n
o, equivalentemente,
 
n k
P(Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r
è la probabilità di estrarre una pallina bianca in una singola estrazione. 

Osservazione. Consideriamo lo spazio di probabilità (Ω, P) con Ω = {0, 1, 2, . . . , n} e P


data da  
n k
P({k}) = p (1 − p)n−k , k = 0, 1, . . . , n.
k
Si noti che P è effettivamente una probabilità. Infatti, per la formula del binomio di
Newton vale che
n n  
X X n k n
P({k}) = p (1 − p)n−k = p + (1 − p) = 1.
k=0 k=0
k

P non è una probabilità uniforme. P si chiama probabilità binomiale.

3
Infatti, sia In = {1, 2, . . . , n} e Cn,k l’insieme delle combinazioni di k elementi di In . Allora ogni
combinazione, ossia ogni sottoinsieme di cardinalità k di In , identifica k estrazioni delle n, e viceversa.
Per esempio, se n = 4 e k = 2, il sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a
estrazione, e viceversa.

13
Calcolo delle Probabilità e Statistica 2019/2020

VARIABILI ALEATORIE
INTRODUZIONE GENERALE
1 Introduzione
In questo capitolo studiamo una delle nozioni più importanti del Calcolo delle probabilità,
ossia la nozione di variabile aleatoria. Per introdurla, procediamo come per la nozione di
evento, quindi diamo prima una definizione come affermazione e successivamente fornia-
mo la corrispondente rappresentazione matematica all’interno del modello probabilistico
dell’esperimento aleatorio. È utile richiamare quanto già visto riguardo la nozione di
evento.

Definizione 1.1. Un evento è un’ affermazione riguardante l’ipotetico risultato dell’e-


sperimento aleatorio, di cui è possibile dire con certezza se è vera oppure falsa una volta
noto l’esito dell’esperimento aleatorio.
Gli esiti per cui un evento è vero si chiamano casi favorevoli (per l’evento in questione).

Un evento viene solitamente indicato con una lettera maiuscola dell’alfabeto. Spesso si
utilizzano le prime lettere dell’alfabeto: A, B, C, . . .

Definizione 1.2. Ogni evento (inteso come affermazione) è rappresentato dal sottoin-
sieme di Ω costituito dai casi favorevoli, ovvero dagli esiti per cui l’evento è vero (è
rappresentato dall’insieme vuoto ∅ se è sempre falso).
Un qualunque sottoinsieme di Ω lo chiameremo ancora evento.

Veniamo dunque alla nozione di variabile aleatoria.

Definizione 1.3. Una variabile aleatoria (anche detta numero aleatorio oppure,
in forma abbreviata, v.a.) è un’ affermazione riguardante l’ipotetico risultato dell’esperi-
mento aleatorio. Tale affermazione identifica uno e un solo numero reale una volta noto
l’esito dell’esperimento aleatorio.

Osservazione. In altre parole, mentre per un evento ha senso domandarsi “è vero
oppure no?”, per una variabile aleatoria ha senso chiedersi “quanto vale?”.
Una variabile aleatoria viene solitamente indicata con una lettera maiuscola dell’alfabeto.
Spesso si utilizzano le ultime lettere dell’alfabeto: . . . X, Y , Z.

2
Definizione 1.4. Ogni variabile aleatoria (intesa come affermazione) è rappresentata
dalla funzione da Ω in R il cui valore numerico, in corrispondenza di un qualunque esito
dell’esperimento aleatorio, coincide con quanto fornito dall’affermazione.
Una qualunquea funzione da Ω in R la chiameremo ancora variabile aleatoria.
a
Anche se noi non considereremo questa eventualità, ricordiamo che a volte è necessario definire la
probabilità P solamente su una sotto-famiglia F di sottoinsiemi di Ω (anziché su tutto l’insieme delle
parti P(Ω)). Si veda a tal proposito la nota 9 del primo Capitolo. In questo caso, non tutte le funzioni
da Ω in R sono variabili aleatorie, ma solo le funzioni X : Ω → R che verificano la proprietà che ora
enunciamo. Sia I un intervallo di R, quindi I è uguale ad uno dei seguenti insiemi:

[a, b], [a, b), (a, b], (a, b), (−∞, b], (−∞, b), [a, +∞), (a, +∞).

Allora la funzione X : Ω → R è una variabile aleatoria se vale che



ω ∈ Ω : X(ω) ∈ I ∈ F

per ogni intervallo I di R. Se X verifica questa proprietà si dice che è una funzione F-misurabile. Nel
nostro caso, essendo F = P(Ω), questa proprietà è automaticamente verificata.

Osservazione. Il termine “variabile aleatoria” lo useremo dunque indistintamente per


indicare sia l’ affermazione che la funzione. Questo non crea ambiguità, dato che la funzio-
ne rappresenta appunto l’affermazione. Per tale ragione, nel seguito indicheremo entrambi
con lo stesso simbolo (tipicamente una lettera maiuscola dell’alfabeto), come accade nel-
l’esempio seguente in cui le lettere maiuscole X, Y , Z indicano sia l’affermazione che la
funzione.

Esempio 1.1. Si lanciano due dadi. Consideriamo le variabili aleatorie

X = “somma dei due risultati”,


Y = “prodotto dei due risultati”,
Z = “risultato del lancio del primo dado”.

Uno spazio campionario naturale per questo esperimento aleatorio è l’insieme

Ω = {1, 2, 3, 4, 5, 6}2 = (1, 1), (1, 2), (1, 3), . . . , (4, 6), (5, 6), (6, 6) .


Dunque le variabili aleatorie X, Y , Z sono rappresentate rispettivamente dalle funzioni


X : Ω → R, Y : Ω → R, Z : Ω → R date daa

X(ω1 , ω2 ) = ω1 + ω2 , ∀ (ω1 , ω2 ) ∈ Ω,
Y (ω1 , ω2 ) = ω1 · ω2 , ∀ (ω1 , ω2 ) ∈ Ω,
Z(ω1 , ω2 ) = ω1 , ∀ (ω1 , ω2 ) ∈ Ω.
a
Si noti che in questo caso il generico elemento ω dello spazio campionario Ω è dato da una coppia
ordinata ω = (ω1 , ω2 ).

3
Variabili aleatorie costanti. Una variabile aleatoria X si dice costante se assume
sempre lo stesso valore numerico qualunque sia l’esito dell’esperimento aleatorio. In tal
caso, se indichiamo con a il valore numerico assunto dalla variabile aleatoria, allora X è
la seguente funzione:
X(ω) = a, ∀ ω ∈ Ω.
Nel seguito indicheremo la variabile aleatoria X semplicemente con a, ovvero a denoterà
sia una costante sia una variabile aleatoria (la variabile aleatoria costante uguale ad a
stessa).

Variabili aleatorie indicatrici. Un caso particolarmente interessante di variabile


aleatoria è quello di variabile aleatoria indicatrice. Più precisamente, dato un qualunque
evento A ⊂ Ω possiamo associare ad esso la variabile aleatoria seguente:

X = “vale 1 se A si verifica, vale 0 altrimenti”.

Dunque X è rappresentata dalla funzione X : Ω → R data da


(
1, se ω ∈ A,
X(ω) =
0, se ω ∈
/ A.

Nel seguito indicheremo tale funzione con il simbolo 1A , ovvero

X(ω) = 1A (ω), ∀ ω ∈ Ω.

Osservazione. Dato che 1A contiene tutta l’informazione riguardante l’evento A (infatti


se conosciamo il valore di 1A sappiamo se A si è verificato oppure no), possiamo affermare
che la nozione di variabile aleatoria è una “generalizzazione” della nozione di evento.

2 Distribuzione o legge di una variabile aleatoria


2.1 Eventi associati ad una variabile aleatoria
Abbiamo visto che ad ogni evento A è possibile associare una variabile aleatoria, ovvero
X = 1A , la variabile aleatoria indicatrice relativa all’evento A. Sia ora X una generica
variabile aleatoria. Quali sono gli eventi “associati” ad X? Intuitivamente, gli eventi
associati ad X sono tutti e soli gli eventi di cui è possibile dire con certezza se sono veri
oppure falsi una volta noto il valore che la variabile aleatoria X ha assunto. Vediamo ora
di descriverli in termini matematici. A tal proposito, è utile il seguente esempio.

4
Esempio 2.1. Si lanciano due dadi. Consideriamo la variabile aleatoria

X = “somma dei due risultati”

Intuitivamente, gli eventi associati ad X sono tutti e soli gli eventi riguardanti la somma
dei due risultati. Ad esempio:

E1 = “la somma è uguale a 3”,


E2 = “la somma è ≤ 5”,
E3 = “la somma è un numero pari”.

Notiamo che tali eventi possono essere scritti nel modo seguente:

E1 = {ω ∈ Ω : X(ω) = 3},
E2 = {ω ∈ Ω : X(ω) ≤ 5},
E3 = {ω ∈ Ω : X(ω) ∈ {2, 4, 6, 8, 10, 12}}.

Anche E1 ed E2 possono essere scritti nella stessa forma di E3 , infatti:

E1 = {ω ∈ Ω : X(ω) ∈ {3}},
E2 = {ω ∈ Ω : X(ω) ∈ (−∞, 5]}.

Si noti che E2 può anche essere scritto come segue (se teniamo conto che in questo esempio
specifico la v.a. X assume solo i valori interi 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12):

E2 = {ω ∈ Ω : X(ω) ∈ {2, 3, 4, 5}}.

In conclusione, esistono tre sottoinsiemi B1 , B2 , B3 dell’insieme dei numeri reali R tali


che

E1 = {ω ∈ Ω : X(ω) ∈ B1 },
E2 = {ω ∈ Ω : X(ω) ∈ B2 },
E3 = {ω ∈ Ω : X(ω) ∈ B3 }.

Diamo dunque la definizione di evento associato ad (o generato da) una variabile aleatoria.

5
Definizione 2.1. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleato-
ria. Si dice che E ⊂ Ω è un evento associato ad (o generato da) X se esiste un
sottoinsieme B dell’insieme dei numeri reali R tale che

E = {ω ∈ Ω : X(ω) ∈ B}
= “sottoinsieme di Ω costituito da tutti e soli gli esiti ω per cui X(ω) ∈ B”.

Viceversa, dato un qualunque B ⊂ R, il sottoinsieme di Ω dato da

{ω ∈ Ω : X(ω) ∈ B}

si chiama evento associato ad (o generato da) X.


Per brevità, indicheremo il sottoinsieme

{ω ∈ Ω : X(ω) ∈ B}

nel modo seguente:


{X ∈ B}.

Osservazione 1. Se B = ∅ oppure B = R, otteniamo

{X ∈ ∅} = ∅, {X ∈ R} = Ω.

Osservazione 2. Spesso l’insieme B sarà un intervallo (o, più in un generale, un’unione


di intervalli). Si noti che anche un insieme contenente un unico numero reale è un
intervallo (si chiama intervallo degenere, in cui gli estremi coincidono). In questi casi,
scriveremo:

{X ∈ {x}} = {X = x}
{X ∈ (−∞, x)} = {X < x}
{X ∈ (−∞, x]} = {X ≤ x}
{X ∈ (x, +∞)} = {X > x}
{X ∈ [x, +∞)} = {X ≥ x}
{X ∈ (x, y)} = {x < X < y}
{X ∈ [x, y)} = {x ≤ X < y}
{X ∈ (x, y]} = {x < X ≤ y}
{X ∈ [x, y]} = {x ≤ X ≤ y}

Osservazione 3. La probabilità di un evento generato da X, quindi

P({X ∈ B}),

verrà scritta, per semplicità di notazione,

P(X ∈ B).

6
Esempio 2.2. Siano (Ω, P) uno spazio di probabilità, a un numero reale ed A un evento.
Determinare gli eventi generati dalle seguenti variabili aleatorie:

1) X(ω) = a, ∀ ω ∈ Ω;

2) X = 1A .

Soluzione.
1) Sia B un sottoinsieme di R. Distinguiamo due casi:

• se a ∈ B allora {X ∈ B} = Ω;
• se a ∈
/ B allora {X ∈ B} = ∅.

Quindi (
Ω, se a ∈ B,
{X ∈ B} =
∅, se a ∈
/ B.

2) Sia B un sottoinsieme di R. Distinguiamo quattro casi:

• se 1 ∈ B e 0 ∈
/ B allora {X ∈ B} = A;
/ B e 0 ∈ B allora {X ∈ B} = Ac ;
• se 1 ∈
• se 1 ∈ B e 0 ∈ B allora {X ∈ B} = Ω;
• se 1 ∈
/B e0∈
/ B allora {X ∈ B} = ∅.

Quindi 
A,
 se 1∈B e 0∈/ B,
Ac ,

se 1∈
/B e 0 ∈ B,
{X ∈ B} =


 Ω, se 1∈B e 0 ∈ B,
∅, 1∈ 0∈

se /B e / B.


Esercizio 2.1. Siano (Ω, P) uno spazio di probabilità, X una variabile aleatoria e x un
numero reale. Mostrare che

P(X ≤ x) = P(X < x) + P(X = x).

Soluzione. Notiamo che

{X ≤ x} = {X < x} ∪ {X = x}.

Dato che gli insiemi

{X < x} = {ω ∈ Ω : X(ω) < x}


{X = x} = {ω ∈ Ω : X(ω) = x}

7
sono disgiunti (infatti non esiste alcun ω per cui valgono simultaneamente X(ω) < x e
X(ω) = x), per l’additività della probabilità si ottiene
P(X ≤ x) = P(X < x) + P(X = x).


2.2 Distribuzione o legge di una variabile aleatoria


Ad ogni variabile aleatoria X è associato un oggetto di fondamentale importanza, la
distribuzione o legge di X, che verrà indicata con PX . Essa è una probabilità su R.

Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
Si chiama distribuzione o legge di X la probabilitàa

PX : P(R) → [0, 1]

definita da
PX (B) = P(X ∈ B), ∀ B ⊂ R.
Per dire che X ha distribuzione o legge PX scriveremo

X ∼ PX .
a
Ricordiamo che P(R) è l’insieme delle parti di R.

Osservazione. Si noti che andrebbe verificato che PX è effettivamente una probabilità,


ovvero che PX verifica gli Assiomi I-II-III.

Variabili aleatorie costanti e delta di Dirac. Sia X la variabile aleatoria costante


data da:
X(ω) = a, ∀ ω ∈ Ω,
dove a è un numero reale fissato. Possiamo calcolare esplicitamente la distribuzione di X,
infatti, per ogni B ⊂ R,
( (
P(Ω), se a ∈ B, 1, se a ∈ B,
PX (B) = P(X ∈ B) = =
P(∅), se a ∈/ B, 0, se a ∈/ B.
Notiamo che PX coincide con δa , la delta di Dirac in a.

Variabili aleatorie indicatrici. Siano A un evento e X = 1A , la variabile aleatoria


indicatrice relativa all’evento A. Anche in questo caso possiamo calcolare in maniera
esplicita la distribuzione di X. Infatti, per ogni B ⊂ R,


 A, se 1 ∈ B e 0 ∈ / B,
Ac , se 1 ∈

/ B e 0 ∈ B,
{X ∈ B} =


 Ω, se 1 ∈ B e 0 ∈ B,
∅, se 1 ∈
/B e0∈

/ B.

8
Quindi 

 P(A), se 1∈B e 0∈/ B,
P(Ac ),

se 1∈
/B e 0 ∈ B,
PX (B) = P(X ∈ B) =


 P(Ω), se 1∈B e 0 ∈ B,
1∈ 0∈

P(∅), se /B e / B.
Dato che P(Ac ) = 1 − P(A), P(Ω) = 1 e P(∅) = 0, si ottiene


 P(A), se 1∈B e 0∈/ B,

1 − P(A), se 1∈
/B e 0 ∈ B,
PX (B) =
1,

 se 1∈B e 0 ∈ B,
1∈ 0∈

0, se /B e / B.

In altri termini, si ha che PX coincide con la seguente combinazione convessa di δ0 e δ1 :


(1 − P(A)) δ0 + P(A) δ1 . Quindi

X ∼ (1 − P(A)) δ0 + P(A) δ1 .

Infatti, per ogni B ⊂ R,




 P(A), se 1∈B e 0∈/ B,

1 − P(A), se 1∈
/B e 0 ∈ B,
(1 − P(A)) δ0 (B) + P(A) δ1 (B) =


 1, se 1∈B e 0 ∈ B,
1∈ 0∈

0, se /B e / B.

Questo dimostra che PX = (1−P(A)) δ0 +P(A) δ1 . Tale probabilità si chiama distribuzione


di Bernoulli di parametro P(A).

2.3 Funzione di ripartizione o CDF


La distribuzione di una variabile aleatoria X contiene tutte le informazioni essenziali ri-
guardanti X stessa. Tuttavia PX è un oggetto piuttosto complicato, infatti è una funzione
PX : P(R) → [0, 1]. Ciò nonostante, grazie al fatto che PX è una probabilità sui sottoin-
siemi dell’insieme dei numeri reali R, è possibile caratterizzare PX in modo più semplice.
Infatti si può dimostrare che se si conosce il valore di PX sugli intervalli di R allora si
può ricavare il valore che PX assume in corrispondenza di qualunque altro sottoinsieme
B ⊂ R. Più precisamente, è sufficiente considerare una particolare famiglia di intervalli
di R, ovvero quelli della forma

(−∞, x], per ogni x ∈ R.

In altre parole, si può dimostrare che se si conosce il valore di PX in corrispondenza di


ciascun intervallo1 (−∞, x] allora è possibile ricavare tutti i valori di probabilità PX (B),
1
Tale risultato vale anche se al posto della classe di intervalli (−∞, x] si considera un’altra classe di
intervalli, ad esempio quelli della forma (−∞, x) oppure [x, +∞) oppure (x, +∞) oppure [x, y] e cosı̀ via.

9
per ogni B ⊂ R. In conclusione, conoscere PX (B), per ogni B ⊂ R, è equivalente a
conoscere PX ((−∞, x]), per ogni x ∈ R. Poniamo

FX (x) := PX ((−∞, x]), ∀ x ∈ R.

Possiamo dunque affermare che conoscere la funzione FX è equivalente a conoscere PX .


La funzione FX si chiama funzione di ripartizione o funzione di distribuzione cumulativa
o CDF 2 .

Definizione 2.3. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
Si chiama funzione di ripartizione o funzione di distribuzione cumulativa o
CDF di X la funzione
FX : R → [0, 1]
definita da
FX (x) = P(X ≤ x) = PX ((−∞, x]), ∀ x ∈ R.
Per dire che X ha funzione di ripartizione FX scriveremo

X ∼ FX .

Osservazione. Come già osservato precedentemente, FX determina completamente la


distribuzione di X:

• se conosco PX allora conosco FX (questo segue direttamente dalla definizione di


FX ),

• ma vale anche il viceversa, cioè se conosco FX allora conosco PX (B) per ogni
sottoinsieme B di R (omettiamo la dimostrazione di questo risultato).

Variabili aleatorie costanti. Sia a un numero reale e X la variabile aleatoria costante


uguale ad a. Allora (
0, x < a,
FX (x) =
1, x ≥ a.

Variabili aleatorie indicatrici. Sia A un evento e X = 1A . Allora



0,
 x < 0,
FX (x) = 1 − P(A), 0 ≤ x < 1,

1, x ≥ 1.

Come affermato nel seguente teorema, la funzione di ripartizione verifica certe proprietà
che sono caratterizzanti, ovvero se una funzione verifica queste proprietà allora è neces-
sariamente la funzione di ripartizione di una qualche variabile aleatoria.
2
Dall’inglese cumulative distribution function (funzione di distribuzione cumulativa).

10
Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
La funzione di ripartizione FX di X verifica le seguenti proprietà:

1) FX è monotona crescente (non necessariamente strettamente).

2) FX è continua a destra: limy→x+ FX (y) = FX (x) per ogni x ∈ R.

3) limx→−∞ FX (x) = 0.

4) limx→+∞ FX (x) = 1.

Viceversa, se una funzione G : R → [0, 1] verifica le proprietà 1)-2)-3)-4) allora esistono


uno spazio di probabilità (Ω, P) ed una variabile aleatoria X tale che G = FX .

Dimostrazione. Dimostriamo rigorosamente solo la proprietà 1). Siano x ≤ y, dobbiamo


mostrare che
FX (x) ≤ FX (y).
Si ha che
{X≤x}⊂{X≤y}
FX (x) = P(X ≤ x) ≤ P(X ≤ y) = FX (y).

monotonia di P

Per quanto riguarda la proprietà 2), intuitivamente abbiamo che

lim FX (y) = lim P(X ≤ y) = P(X ≤ x).


y→x+ y→x+

Infine, per quanto riguarda le proprietà 3) e 4), intuitivamente abbiamo che

lim FX (x) = lim P(X ≤ x) = P(X ≤ −∞) = 0


x→−∞ x→−∞

e, analogamente,

lim FX (x) = lim P(X ≤ x) = P(X < +∞) = 1.


x→+∞ x→+∞


N.B. Per la proprietà 2) del Teorema 2.1, per ogni x ∈ R il limite da destra di FX in x
esiste ed è pari a
lim FX (y) = FX (x) = P(X ≤ x).
y→x+

Si può dimostrare che anche il limite da sinistra di FX in x esiste sempre ed è dato da

lim FX (y) = P(X < x).


y→x−

Nel seguito indicheremo limy→x− FX (y) con FX (x−). Quindi

FX (x−) = P(X < x).

Osservazione. La funzione FX è continua in x se e solo se

lim FX (y) = lim FX (y),


y→x− y→x+

11
ovvero
FX (x−) = FX (x).
Poiché FX (x−) = P(X < x) e FX (x) = P(X ≤ x), segue che FX è continua in x se e
solo se
P(X < x) = P(X ≤ x)
ovvero (ricordando la formula P(X ≤ x) = P(X < x) + P(X = x) dell’Esercizio 2.1)

P(X = x) = 0.

Grazie all’osservazione precedente, abbiamo il seguente risultato che permette di esprimere


in termini di FX la probabilità che X appartenga ad un certo intervallo (eventualmente
degenere, quindi dato da un punto).

Teorema 2.2 (Probabilità di intervalli in termini di FX ).


Valgono le seguenti uguaglianze:

P(X = x) = P(X ≤ x) − P(X < x) = FX (x) − FX (x−)


P(x < X ≤ y) = P(X ≤ y) − P(X ≤ x) = FX (y) − FX (x)
P(x ≤ X ≤ y) = P(X ≤ y) − P(X < x) = FX (y) − FX (x−)
P(x ≤ X < y) = P(X < y) − P(X < x) = FX (y−) − FX (x−)
P(x < X < y) = P(X < y) − P(X ≤ x) = FX (y−) − FX (x)

12
Calcolo delle Probabilità e Statistica 2019/2020

VARIABILI ALEATORIE
DISCRETE
1 Introduzione
In questo capitolo studiamo una particolare classe di variabili aleatorie, le variabili alea-
torie discrete. In breve, una variabile aleatoria si dice discreta se assume un numero finito
(o al più un’infinità numerabile) di valori. Prima di dare la definizione vera e propria di
variabile aleatoria discreta, è necessario introdurre la nozione di densità discreta.

Definizione 1.1. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. La
funzione pX : R → [0, 1], data da

pX (x) = P(X = x), ∀ x ∈ R,

si chiama densità discreta o funzione di massa di probabilità o PMFa di X.


a
Dall’inglese probability mass function.

Si noti che pX (x) è la probabilità che la variabile aleatoria X assuma il valore x. Per tale
ragione, pX (x) verifica necessariamente le disuguaglianze

0 ≤ pX (x) ≤ 1, ∀ x ∈ R.

La definizione di variabile aleatoria discreta fa intervenire la funzione pX .

Definizione 1.2. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Si dice
che X è una variabile aleatoria discreta (in breve v.a.d.) se esiste un sottoinsieme
SX di R, finito o al più infinito numerabile, quindi

SX = {x1 , . . . , xn } oppure SX = {x1 , . . . , xi , . . .},

tale chea X
pX (xi ) > 0 e pX (xi ) = 1. (1.1)
i

L’insieme SX si chiama supporto di X.


a
P
i pX (xi ) = 1 è una scrittura abbreviata per
n
X
pX (xi ) = 1 (caso in cui SX è finito)
i=1
+∞
X
pX (xi ) = 1 (caso in cui SX è infinito numerabile)
i=1

Osservazione 1. La (1.1) equivale a dire che la variabile aleatoria X assume con pro-
babilità positiva tutti e soli i valori in SX . In particolare, X assume il valore xi con
probabilità pX (xi ) > 0.

2
Tabella della densità discreta. Nel caso in cui SX sia un insieme finito, quindi

SX = {x1 , . . . , xn },

si riportano i valori di pX in una tabella 1 :

X x1 x2 ··· xn
(1.2)
pX pX (x1 ) pX (x2 ) ··· pX (xn )

Esercizio 1.1. Si lanciano due dadi. Sia

X = “minimo tra i due risultati”

Mostrare che X è discreta e determinare pX .

Osservazione. Quando si chiede di determinare la densità discreta pX , è sufficiente


fornire i valori di pX per x ∈ SX . In particolare, se SX è finito, è sufficiente fornire la
tabella (1.2) della densità discreta.
Soluzione dell’Esercizio 1.1. Sappiamo che uno spazio di probabilità (Ω, P) che
descrive questo esperimento aleatorio è

Ω = (1, 1), (1, 2), (1, 3), . . . , (5, 6), (6, 6) = {1, 2, 3, 4, 5, 6}2


e P probabilità uniforme, quindi


1
P({(ω1 , ω2 )}) = , ∀ (ω1 , ω2 ) ∈ Ω.
36
La variabile aleatoria X è dunque rappresentata dalla funzione X : Ω → R data da

X(ω1 , ω2 ) = min(ω1 , ω2 ), ∀ (ω1 , ω2 ) ∈ Ω,

dove min(ω1 , ω2 ) è il valore minimo tra ω1 e ω2 . Ad esempio

X(1, 1) = min(1, 1) = 1,
X(1, 2) = min(1, 2) = 1,
X(1, 3) = min(1, 3) = 1,
..
.
X(5, 6) = min(5, 6) = 5,
X(6, 6) = min(6, 6) = 6.

Determiniamo la densità discreta di X. Dalla definizione di pX , abbiamo che

pX (x) = P(X = x).


1
In genere nella tabella si riportano solo i valori di pX per x ∈ SX . Tuttavia, come vedremo, ci sono
alcuni casi in cui risulta naturale riportare anche il valore di pX in corrispondenza di qualche x ∈/ SX
(per tali x risulta chiaramente pX (x) = 0).

3
L’evento {X = x} è dato da

{X = x} = {(ω1 , ω2 ) ∈ Ω : X(ω1 , ω2 ) = x} = {(ω1 , ω2 ) ∈ Ω : min(ω1 , ω2 ) = x}.

Quindi, se x ∈
/ {1, 2, 3, 4, 5, 6} è chiaro che

{X = x} = ∅ =⇒ pX (x) = P(∅) = 0.

Al contrario, se x ∈ {1, 2, 3, 4, 5, 6} si ha:



{X = 1} = (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6) ,

{X = 2} = (2, 2), (2, 3), (2, 4), (2, 5), (2, 6) ,

{X = 3} = (3, 3), (3, 4), (3, 5), (3, 6) ,

{X = 4} = (4, 4), (4, 5), (4, 6) ,

{X = 5} = (5, 5), (5, 6) ,

{X = 6} = (6, 6)

Quindi
6 1
pX (1) = = ,
36 6
5
pX (2) = ,
36
4 1
pX (3) = = ,
36 9
3 1
pX (4) = = ,
36 12
2 1
pX (5) = = ,
36 18
1
pX (6) = .
36
In conclusione, X è una variabile aleatoria discreta2 con supporto SX = {1, 2, 3, 4, 5, 6} e
densità discreta data da
X 1 2 3 4 5 6
pX 16 36 5 1
9
1
12
1
18
1
36


Variabili aleatorie costanti. Sia a un numero reale e X la variabile aleatoria costante


uguale ad a. Allora X è una variabile aleatoria discreta con supporto SX = {a} e densità
discreta
X a
pX 1
2
P6
Infatti pX (1) >0, . . ., pX (6) > 0 e i=1 pX (i) = 1.

4
Variabili aleatorie indicatrici. Sia A un evento e X = 1A la variabile aleatoria
indicatrice relativa all’evento A. Allora X è una variabile aleatoria discreta con supporto
SX = {0, 1} e densità discreta

X 0 1
pX 1 − P(A) P(A)

2 Caratterizzazione delle variabili aleatorie discrete


Sia X una variabile aleatoria discreta. Che relazione esiste tra pX e la distribuzione di
X, che abbiamo indicato con PX ? Che relazione c’è invece tra pX e FX , la funzione di
ripartizione di X? Le risposte a queste domande sono fornite dal seguente teorema.

Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Le seguenti
affermazioni sono equivalenti tra loro:

1) X è una variabile aleatoria discreta (con densità discreta pX e supporto SX =


{x1 , x2 , . . .}, finito o al più infinito numerabile).

2) FX è una funzione costante a tratti: FX è una funzione costante tranne nei punti
x1 , x2 , . . . di SX , in cui FX salta (verso l’alto) con ampiezza del salto pari a

FX (xi ) − FX (xi −) = pX (xi ).

Quindi FX è data dalla seguente formula:


X
FX (x) = pX (xi ), ∀ x ∈ R. (2.1)
xi ≤x

3) PX , la distribuzione di X, è concentrata nei punti x1 , x2 , . . . di SX :


X
PX = pX (xi ) δxi ,
i

dove δxi è la delta di Dirac in xi .

Infine, vale la formula


X
P(X ∈ B) = pX (xi ), ∀ B ⊂ R. (2.2)
xi ∈B

Non riportiamo la dimostrazione del Teorema 2.1. Notiamo solamente che la formula (2.1),
la quale fornisce il valore della funzione di ripartizione in x ∈ R, è un caso particolare
della formula (2.2), ricordando che per definizione di FX si ha

FX (x) = P(X ≤ x) = P(X ∈ (−∞, x]), ∀ x ∈ R.

5
Esercizio 2.1. Sia G : R → [0, 1] una
 funzione data da

 0, x < 0,

1/2, 0 ≤ x < 1,



G(x) = 2/3, 1 ≤ x < 2,

11/12, 2 ≤ x < 3,





1, x ≥ 3.

(a) Mostrare che G è una funzione di ripartizione.

Sia dunque X una variabile aleatoria con funzione di ripartizione FX = G.

(b) Mostrare che X è discreta. Determinare supporto e densità discreta di X.

(c) Trovare PX , la distribuzione di X.

(d) Calcolare P(X > 1/2), P(2 < X ≤ 4), P(1 < X < 2), P(X < 3).

(e) Mostrare che Y = (X − 2)2 è una variabile aleatoria discreta. Determinare SY e pY .

Soluzione.

(a) G è una funzione di ripartizione, infatti G verifica le seguenti proprietà:

1) G è monotona crescente.
2) G è continua a destra.
3) limx→−∞ G(x) = 0.
4) limx→+∞ G(x) = 1.

(b) Dato che G è costante a tratti, segue direttamente dal Teorema 2.1 che X è una
variabile aleatoria discreta. Inoltre, dal Teorema 2.1 sappiamo che i punti di salto
di G sono gli elementi del supporto SX di X, mentre l’ampiezza di ogni salto è la
probabilità che X assuma quel valore. Perciò, SX = {0, 1, 2, 3} e

X 0 1 2 3
pX 1/2 1/6 1/4 1/12

(c) Dal Teorema 2.1 si ha che


X 1 1 1 1
PX = pX (xi ) δxi = δ0 + δ1 + δ2 + δ3 .
i
2 6 4 12

(d) Per la formula (2.2) si ha che:


X 1
P(X > 1/2) = pX (xi ) = pX (1) + pX (2) + pX (3) = 1 − pX (0) =
2
xi >1/2

6
X 1
P(2 < X ≤ 4) = pX (xi ) = pX (3) =
2<xi ≤4
12
X
P(1 < X < 2) = pX (xi ) = 0,
1<xi <2
X 11
P(X < 3) = pX (xi ) = pX (0) + pX (1) + pX (2) = 1 − pX (3) = .
xi <3
12

Un modo alternativo per calcolare queste probabilità è tramite la funzione di riparti-


zione:
1
P(X > 1/2) = 1 − P(X ≤ 1/2) = 1 − FX (1/2) = ,
2
1
P(2 < X ≤ 4) = FX (4) − FX (2) = ,
12
P(1 < X < 2) = FX (2−) − FX (1) = 0,
11
P(X < 3) = FX (3−) = .
12

(e) Determiniamo pY . Dato che pY (y) = P(Y = y), iniziamo col determinare l’evento
{Y = y} al variare di y ∈ R:

{Y = y} = {(X − 2)2 = y}.

Dato che SX = {0, 1, 2, 3}, è chiaro che (X − 2)2 può essere uguale solo a 0, 1, 4. In
particolare, si ha che

{Y = 0} = {X = 2},
{Y = 1} = {X = 1} ∪ {X = 3},
{Y = 4} = {X = 0}.

Perciò
1
pY (0) = pX (2) = ,
4
1
pY (1) = pX (1) + pX (3) = ,
4
1
pY (4) = pX (0) =
2
In conclusione, Y è una variabile aleatoria discreta con supporto SY = {0, 1, 4} e
densità discreta data da
Y 0 1 4
pY 1/4 1/4 1/2

7
3 Indici di sintesi di una distribuzione: µ e σ 2
La distribuzione o legge di una variabile aleatoria può essere descritta in maniera sintetica
tramite due quantità numeriche, la media (o valore atteso) e la varianza.
La media è un indice di posizione, ovvero indica qual è il valore “centrale” del-
la distribuzione. Essa è una generalizzazione della media aritmetica di n numeri reali
x1 , . . . , x n :
x1 + · · · + xn
µAritm = .
n
In questa formula tutti i numeri xi hanno lo stesso “peso” pari a n1 , mentre la media che
andremo a definire sarà una media pesata (con le probabilità degli xi ).
La varianza è un indice di dispersione, ossia dice quanto la distribuzione si con-
centra attorno alla media. È una generalizzazione della media aritmetica delle distanze
al quadrato degli xi da µ:
(x1 − µ)2 + · · · + (xn − µ)2
.
n

3.1 Media o valore atteso

Definizione 3.1. Sia X una variabile aleatoria discreta con supporto SX = {x1 , x2 , . . .}.
La media (o valore atteso) di X è data daa
X
E[X] = xi pX (xi ).
i

La media si indica anche con µ oppure µX .


a
Il simbolo E deriva dall’inglese expected value (valore atteso). Segnaliamo inoltre che è ormai di uso
comune l’utilizzo delle parentesi quadre anziché tonde nell’espressione E[X].

Esercizio 3.1.

1) Sia a ∈ R una costante. Mostrare che E[a] = a.

2) Sia A un evento. Mostrare che E[1A ] = P(A).

Soluzione.

1) Ricordiamo che a denota ovviamente una costante, ma anche una variabile aleatoria
(la variabile aleatoria costante uguale ad a stessa). Come variabile aleatoria, sappiamo
che è una variabile aleatoria discreta con supporto Sa = {a} e densità discreta pa che
verifica
pa (a) = 1.
Quindi, dalla definizione di valore atteso, otteniamo

E[a] = a pa (a) = a.

8
2) Ricordiamo che la variabile aleatoria 1A è una variabile aleatoria discreta con supporto
S1A = {0, 1} e densità discreta

1A 0 1
p1 A 1 − P(A) P(A)

Dalla definizione di valore atteso, si ha dunque che

E[1A ] = 0 · p1A (0) + 1 · p1A (1) = p1A (1) = P(A).


Nel seguito capiterà spesso di dover calcolare il valore atteso di una funzione di X:

Y = h(X).

Risulta dunque particolarmente utile il seguente risultato.

Teorema 3.1. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. Inoltre, siano h : R → R e Y = h(X). Allora
X
E[Y ] = E[h(X)] = h(xi ) pX (xi ).
i

Dimostrazione. Supponiamo per semplicità che SX sia finito, quindi SX = {x1 , . . . , xn }.


Segue allora che anche il supporto di Y , indicato con SY , è finito. Si noti infatti che

SY = y ∈ R : y = h(xi ) per qualche xi ∈ SX .

Perciò SY = {y1 , . . . , ym } e, necessariamente, m ≤ n. Per ogni j = 1, . . . , m, poniamo



Syj := x ∈ SX : h(x) = yj .

Si noti che gli insiemi Sy1 , . . . , Sym sono disgiunti e la loro unione è uguale a SX , ossia
Sy1 , . . . , Sym sono una partizione di SX .
Possiamo dunque scrivere E[Y ] come segue, partendo dalla sua definizione, (nelle
tre uguaglianze intermedie sono evidenziate in blu le differenze rispetto alla formula
precedente)
m
X m
X  X  m
X  X 
E[Y ] = yj pY (yj ) = yj pX (xi ) = yj pX (xi )
j=1 j=1 i=1,...,n j=1 i=1,...,n
h(xi )=yj xi ∈Syj
m  X
X  m  X
X  n
X
= yj pX (xi ) = h(xi ) pX (xi ) = h(xi ) pX (xi ),
j=1 i=1,...,n j=1 i=1,...,n i=1
xi ∈Syj xi ∈Syj

dove l’ultima uguaglianza segue dal fatto che Sy1 , . . . , Sym sono una partizione di SX ,
quindi ogni xi compare in una e una sola sommatoria interna. 

9
Un’importante proprietà del valore atteso è la linearità.

Teorema 3.2 (Linearità del valore atteso). Sia X una variabile aleatoria discreta.
Inoltre, siano h : R → R, g : R → R e a, b ∈ R costanti. Allora

E[a X + b] = a E[X] + b (3.1)

e, più in generale,

E[a h(X) + b g(X)] = a E[h(X)] + b E[g(X)]. (3.2)

Dimostrazione. Dimostriamo la formula (3.1), dato che la formula (3.2) si dimostra in


modo analogo. Tale formula si dimostra applicando il Teorema 3.1 con Y = h(X), dove
h(x) = a x + b, ∀ x ∈ R.
Dal Teorema 3.1 si ha che
X X X
E[a X + b] = (a xi + b) pX (xi ) = a xi pX (xi ) + b pX (xi ).
i i i
P P
Dato che i xi pX (xi ) = E[X] e i pX (xi ) = 1, si ottiene la formula (3.1).

3.2 Varianza

Definizione 3.2. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. La varianza di X è data da
X
Var(X) = E[(X − E[X])2 ] = (xi − E[X])2 pX (xi ).
i

La varianza si indica anche con σ 2 oppure σX


2
.
La radice quadrata della varianza si chiama deviazione standard (o scarto
quadratico medio) e si indica con σ oppure σX .

Osservazione 1. Se X è una grandezza fisica espressa in una certa unità di misura,


allora la deviazione standard ha il vantaggio, a differenza della varianza, di essere espressa
nella stessa unità di misura di X (la varianza ha invece come unità di misura il quadrato
dell’unità di misura di X).
Per calcolare la varianza di una variabile aleatoria è utile la seguente formula.

Teorema 3.3. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. Vale che
X
Var(X) = E[X 2 ] − E[X]2 = x2i pX (xi ) − E[X]2 . (3.3)
i

10
Dimostrazione. Dimostriamo la prima uguaglianza, dato che la seconda è una conse-
guenza del Teorema 3.1.
Si ha che
Var(X) = E (X − E[X])2 = E X 2 − 2 X E[X] + E[X]2 .
   

Dalla linearità del valore atteso, si ottiene (si noti che E[X] è una costante)

Var(X) = E[X 2 ] − 2 E[X]2 + E[X]2 = E[X 2 ] − E[X]2 .


A differenza del valore atteso, la varianza non è lineare. Più precisamente, la varianza
possiede le seguenti proprietà.

Teorema 3.4 (Proprietà della varianza). Siano X una variabile aleatoria discreta e
a, b ∈ R costanti. Allora

1) Var(X) ≥ 0.

2) Var(b) = 0 e viceversa: se Var(X) = 0 allora X è una variabile aleatoria costante.

3) Var(aX + b) = a2 Var(X).

Dimostrazione.

1) Per definizione di varianza, si ha che


X
Var(X) = (xi − E[X])2 pX (xi ).
i

Dato che ogni addendo è maggiore o uguale di zero, segue che la somma (ovvero la
varianza di X) è anch’essa maggiore o uguale di zero.

2) Dalla formula (3.3) si ha che

Var(b) = E[b2 ] − E[b]2 .

Ricordando che il valore atteso di una costante è pari alla costante stessa, otteniamo

E[b2 ] − E[b]2 = b2 − b2 = 0.

Quindi Var(b) = 0.
Viceversa, sia X una generica variabile aleatoria discreta, di cui sappiamo che
X
Var(X) = (xi − E[X])2 pX (xi ) = 0.
i

Dato che ogni addendo è maggiore o uguale di zero, la somma è nulla se e solo se
ciascun addendo è nullo. Quindi

(xi − E[X])2 pX (xi ) = 0, ∀ i.

11
Tale prodotto è nullo se e solo se pX (xi ) = 0 oppure (xi − E[X])2 = 0 (che significa
xi =PE[X]). Non è possibile che pX (xi ) = 0 per ogni i, altrimenti non sarebbe vero
che i pX (xi ) = 1. D’altra parte, essendo i valori xi distinti tra loro, esiste solo un i
per cui vale che xi = E[X] (si noti che E[X] è una costante). Quindi il supporto della
variabile aleatoria X è costituito da un unico valore, SX = {E[X]}, da cui segue che
X è la variabile aleatoria costante uguale a E[X].

3) Ricordiamo che vale la formula Var(X) = E[X 2 ]−E[X]2 , la quale vale per una generica
variabile aleatoria, quindi anche per Y = aX + b. Perciò

Var(aX + b) = E[(aX + b)2 ] − E[aX + b]2


= E[a2 X 2 + 2abX + b2 ] − (aE[X] + b)2
= a2 E[X 2 ] + 2abE[X] + b2 − a2 E[X]2 − 2abE[X] − b2
= a2 (E[X 2 ] − E[X]2 ) = a2 Var(X).

4 Distribuzioni discrete notevoli


In questa sezione vediamo le principali distribuzioni discrete.

Distribuzione uniforme discreta. Sia {x1 , . . . , xn } un sottoinsieme finito di R. Di-


ciamo che X ha distribuzione uniforme discreta sull’insieme {x1 , . . . , xn } se X è
una variabile aleatoria discreta con SX = {x1 , . . . , xn } e densità discreta data da

X x1 x2 ··· xn
1 1 1
pX n n
··· n

In tal caso scriviamo


X ∼ Unif ({x1 , . . . , xn }).
Si noti che
x1 + · · · + xn
E[X] = µAritm = ,
n
(x1 − E[X])2 + · · · + (xn − E[X])2
Var(X) = .
n

Distribuzione di Bernoulli. Sia 0 ≤ p ≤ 1. Diciamo che X ha distribuzione di


Bernoulli (o bernoulliana) di parametro p se X è una variabile aleatoria discreta con
SX = {0, 1} e densità discreta data da

X 0 1
pX 1−p p

In tal caso scriviamo


X ∼ B(p).

12
Le variabili aleatorie di Bernoulli sono tutte e sole variabili aleatorie indicatrici. Infatti

X = 1A , con A = {X = 1}.

Si noti che

E[X] = p,
Var(X) = p(1 − p).

Distribuzione binomiale. Consideriamo ora una generalizzazione della distribuzione


bernoulliana: la distribuzione binomiale. Come abbiamo visto, una v.a. X ha distribu-
zione di Bernoulli se è una v.a. indicatrice di un qualche evento A. In altre parole, se X
vale solamente 1 o 0 a seconda che l’evento A si verifichi oppure no. Immaginiamo ora
di ripetere n volte l’esperimento aleatorio a cui l’evento A si riferisce, in modo tale che i
vari esperimenti siano tra loro “indipendenti”. Per ciascun esperimento consideriamo la
corrispondente v.a. bernoulliana. Abbiamo dunque n variabili aleatorie bernoulliane:

X1 ∼ B(p), X2 ∼ B(p), ... Xn ∼ B(p).

Consideriamo la seguente variabile aleatoria:

X = “no di successi negli n esperimenti”,

dove successo significa che l’evento A si è verificato, quindi X è il numero di volte che A
si è verificato negli n esperimenti. Notiamo che

X = X1 + · · · + Xn .

Vediamo un esempio in cui si verifica questa situazione. Come si vedrà nell’esempio, X


ha una distribuzione particolare che si chiama distribuzione binomiale di parametri n e p.

Esempio 4.1. Si consideri un’urna contenente b palline bianche ed r palline rosse. Si


effettuano n estrazioni con reimmissione. Siaa

X = “no di palline bianche estratte”.

Mostrare che X è una variabile aleatoria discreta e determinarne supporto e densità


discreta.
a
Si noti che X = X1 + · · · + Xn , dove

Xi = “vale 1 se si estrae una pallina bianca all’i-esima estrazione, 0 altrimenti”,


b
per ogni i = 1, . . . , n. Quindi Xi ∼ B(p), dove p = b+r .

Soluzione. Chiaramente SX = {0, 1, 2, . . . , n}. Resta dunque da calcolare pX (k) per


k = 0, 1, 2, . . . , n. Sia

Ak = {X = k}, per ogni k = 0, 1, 2, . . . , n.

13
Si noti che l’evento Ak ha la seguente interpretazione:

Ak = “si estraggono k palline bianche ed n − k palline rosse”.

Abbiamo già calcolato la probabilità di Ak nel capitolo riguardante il calcolo combinatorio.


Ricordiamo che  
n k
P(Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r
è la probabilità di estrarre una pallina bianca in una singola estrazione.
Quindi  
n k
pX (k) = p (1 − p)n−k , k = 0, 1, . . . , n.
k
Come seguirà dalla definizione, X ha distribuzione binomiale di parametri n e p, ovvero
X ∼ B(n, p). 

Siano n ∈ N e 0 ≤ p ≤ 1. Diciamo che X ha distribuzione binomiale di parametri


n e p se X è una variabile aleatoria discreta con SX = {0, 1, 2, . . . , n} e densità discreta
data da
 
n k
pX (k) = P(X = k) = p (1 − p)n−k , per ogni k = 0, . . . , n,
k
cioè
X 0 1 ··· n−1 n
n n n n
 n
 n−1
 n−1

pX 0 (1 − p) 1 p (1 − p) ··· n−1 p (1 − p) n pn

In tal caso scriviamo


X ∼ B(n, p).
Si noti che quando n = 1, X ha distribuzione di Bernoulli, ovvero B(1, p) = B(p).
Notiamo inoltre che, per la formula del binomio di Newton, vale che
n n  
X X n k
pX (k) = p (1 − p)n−k = 1, ∀ 0 ≤ p ≤ 1, n ∈ N. (4.1)
k=0 k=0
k

Questo dimostra che pX è effettivamente una densità discreta.

Proposizione 4.1. Siano 0 ≤ p ≤ 1, n ∈ N e X ∼ B(n, p). Allora

E[X] = np,
Var(X) = np(1 − p).

Dimostrazione.
n n   n
X X n k n−k
X n!
E[X] = k pX (k) = k p (1 − p) = k pk (1 − p)n−k
k=0 k=1
k k=1
k! (n − k)!
n n
X n! k n−k
X (n − 1)!
= p (1 − p) = np pk−1 (1 − p)n−k
k=1
(k − 1)! (n − k)! k=1
(k − 1)! (n − k)!

14
n−1
X (n − 1)! h
= np p (1 − p)n−h = n p.

h=0
h! (n − h)! ↑
h=k−1 (4.1)

Per quanto riguarda la varianza, dato che Var(X) = E[X 2 ] − E[X]2 = E[X 2 ] − n2 p2 , resta
da calcolare E[X 2 ]. Inoltre, E[X 2 ] = E[X(X − 1)] + E[X] = E[X(X − 1)] + np, quindi
dobbiamo calcolare E[X(X − 1)]. Si ha che
n n  
X X n k
E[X(X − 1)] = k (k − 1) pX (k) = k (k − 1) p (1 − p)n−k
k=0 k=2
k
n n
X n! k n−k
X n!
= k (k − 1) p (1 − p) = pk (1 − p)n−k
k=2
k! (n − k)! k=2
(k − 2)! (n − k)!
n
2
X (n − 2)!
= n (n − 1) p pk−2 (1 − p)n−k
k=2
(k − 2)! (n − k)!
n−2
X
2 (n − 2)! h
= n (n − 1) p p (1 − p)n−h = n (n − 1) p2 .

h=0
h! (n − h)! ↑
h=k−2 (4.1)

Quindi E[X 2 ] = E[X(X − 1)] + np = n(n − 1)p2 + np, perciò Var(X) = E[X 2 ] − n2 p2 =
np(1 − p). 

Distribuzione di Poisson. La distribuzione di Poisson che ora introduciamo è un


“caso limite” della distribuzione binomiale, che si ottiene a partire dalla distribuzione
binomiale quando
n → +∞, p → 0, np → λ,
dove λ > 0 è una costante fissata. Anche se in modo impreciso, possiamo dire più
semplicemente che se X ∼ B(n, p), n è “molto grande” e p è “molto piccolo”, allora X ha
approssimativamente distribuzione di Poisson di parametro λ = np. Questa osservazione
può essere d’aiuto in certi casi, dato che risulta più facile fare i conti con la distribuzione
di Poisson rispetto alla distribuzione binomiale.
Diciamo che X ha distribuzione di Poisson di parametro λ se X è una variabile
aleatoria discreta con SX = {0, 1, 2, . . .} e densità discreta data da
λk
pX (k) = P(X = k) = e−λ , per ogni k = 0, 1, 2, . . .
k!
In tal caso scriviamo
X ∼ Poisson(λ).
Si ricordi che
+∞ k
X x
= ex , ∀ x ∈ R. (4.2)
k=0
k!
Quindi si verifica che
+∞ +∞
X X λk
pX (k) = e−λ = 1.
k=0 k=0
k!

15
Proposizione 4.2. Siano λ > 0 e X ∼ Poisson(λ). Allora

E[X] = λ,
Var(X) = λ.

Dimostrazione.
+∞ k +∞ +∞ +∞
X
−λ λ −λ
X λk −λ
X λk −λ
X λk−1
E[X] = ke = e k = e = λe
k=0
k! k=1
k! k=1
(k − 1)! k=1
(k − 1)!
+∞ h
−λ
X λ
= λe = λ.

h=0
h! ↑
h=k−1 (4.2)

Per quanto riguarda la varianza, ricordiamo la formula


Var(X) = E[X 2 ] − E[X]2 = E[X 2 ] − λ2 .
Resta dunque da calcolare E[X 2 ]. Per la linearità del valore atteso (si usa in particolare
la formula (3.2) con h(X) = X(X − 1), g(X) = X, a = 1 e b = 1), abbiamo che
E[X 2 ] = E[X(X − 1) + X] = E[X(X − 1)] + E[X] = E[X(X − 1)] + λ,
Perciò, è sufficiente calcolare E[X(X − 1)]. Si ha che
+∞ +∞ +∞
X
−λ λk −λ
X λk −λ
X λk
E[X(X − 1)] = k (k − 1) e = e k (k − 1) = e
k=0
k! k=2
k! k=2
(k − 2)!
+∞ +∞ h
2 −λ
X λk−2 2 −λ
X λ
= λ e = λ e = λ2 .
k=2
(k − 2)! ↑
h=0
h! ↑
h=k−2 (4.2)

Quindi E[X 2 ] = E[X(X − 1)] + λ = λ2 + λ, perciò Var(X) = E[X 2 ] − λ2 = λ. 

5 Il problema del giornalaio


Consideriamo il seguente problema del giornalaio, che è un problema di economia riguar-
dante la gestione delle scorte.

Problema 5.1. Un giornalaio vende quotidiani a e 1.50/copia. Il suo guadagno è di


e 0.25/copiaa . Quante copie conviene al giornalaio avere in edicola?

• Il numero di copie richieste al giorno non è costante ma è soggetto ad oscillazioni


non prevedibili.

• Se il numero di copie è insufficiente, il giornalaio ha un mancato guadagno pari a


e 0.25 per ogni copia richiesta dopo che ha esaurito quelle ritirate.

• Ad ogni copia ritirata ma non venduta corrisponde invece una perdita di e 1.25.
a
Le copie non vendute giorno per giorno non possono essere rese, perdono dunque ogni valore.

16
Per risolvere questo problema il giornalaio dovrà innanzitutto valutare quali probabilità
attribuisce al fatto di poter vendere un numero di copie pari a 0, 1, 2, 3, ecc. A tal propo-
sito, potrebbe essere conveniente raccogliere informazioni o effettuare sperimentazioni per
avere una migliore base di giudizio. Per semplicità, supponiamo che il giornalaio decida
solamente di osservare cosa accade nei primi 50 giorni. Riportiamo nella tabella che segue
i dati riguardanti questo periodo di prova:

no copie richieste no giorni frequenza relativa


1
0 1 50
1
1 1 50
3
2 3 50
6
3 6 50
10
4 10 50
11
5 11 50
9
6 9 50
3
7 3 50
3
8 3 50
2
9 2 50
1
10 1 50

La colonna centrale riporta il numero di giorni (su un totale di cinquanta) in cui il numero
totale di copie richieste è stato pari a quanto riportato sulla stessa riga della prima colonna.
Si noti che in nessun giorno sono state vendute più di 10 copie. L’ultima colonna riporta
la frequenza relativa, ovvero la frazione (o percentuale) di giorni in cui è stato venduto un
numero di copie pari a 0, 1, 2, 3, ecc.
Come abbiamo già detto, supponiamo per semplicità che il giornalaio abbia ragione di
credere che questi dati siano significativi, ovvero che in futuro l’andamento delle richieste
non se ne scosterà significativamente. Introduciamo dunque la variabile aleatoria

X = “no di copie richieste”.

Allora X è una variabile aleatoria discreta con supporto

SX = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}

e densità discreta data da


X 0 1 2 3 4 5 6 7 8 9 10
1 1 3 6 10 11 9 3 3 2 1
pX 50 50 50 50 50 50 50 50 50 50 50

Supponiamo ora che il giornalaio decida di acquistare k copie, per qualche k = 1, . . . , 10.
Consideriamo dunque la variabile aleatoria

Yk = “guadagno avendo acquistato k copie”.

17
L’obiettivo del giornalaio è trovare il numero k che massimizza il “guadagno atteso”,
ovvero

trovare k = 1, . . . , 10 tale che E[Yk ], il “guadagno atteso”, sia massimo.

Mostriamo come si calcola E[Yk ] nel caso k = 3. Consideriamo dunque la variabile


aleatoria
Y3 = “guadagno avendo acquistato 3 copie”.
Si ha che 

 −3 · 1.25 X = 0

−3 · 1.25 + 1.50 X = 1
Y3 =


 −3 · 1.25 + 2 · 1.50 X = 2
−3 · 1.25 + 3 · 1.50 ≥

X 3
Quindi Y3 è una variabile aleatoria discreta con densità

Y3 −3.75 −2.25 −0.75 0.75


1 1 3 45
p Y3 P(X = 0) = 50 P(X = 1) = 50 P(X = 2) = 50 P(X ≥ 3) = 50

Perciò
guadagno atteso avendo acquistato 3 copie = E[Y3 ] = 0.51.
Ripetendo il ragionamento fatto nel caso k = 3 anche per gli altri valori di k, si ottiene
la seguente tabella:
k E[Yk ]
1 0.22
2 0.41
3 0.51
4 0.43
5 0.05
6 −0.66
7 −1.64
8 −2.71
9 −3.87
10 −5.09

In conclusione, il guadagno atteso è massimo per k = 3. Questo è dunque il numero di


copie che al giornalaio conviene avere in edicola.

18
Calcolo delle Probabilità e Statistica 2019/2020

VARIABILI ALEATORIE
CONTINUE
1 Introduzione
Le variabili aleatorie discrete descrivono quantità che possono assumere un numero finito
o al più un’infinità numerabile di valori. Ci sono però quantità che assumono un’infinità
continua di valori.

Esempio 1.1. Si consideri un componente elettronico. Sia

X = “tempo di vita del componente”.

In tal caso è naturale supporre che X possa assumere qualsiasi valore maggiore o uguale
a zero, quindi “SX = [0, +∞)”.

Per descrivere tali quantità introduciamo le variabili aleatorie continue. Prima di for-
nire la definizione precisa di variabile aleatoria continua, premettiamo alcune osservazioni
facendo riferimento alla variabile aleatoria X dell’Esempio 1.1.
Innanzitutto, poiché X può assumere un’infinità continua di valori, l’eventualità che ne
assuma esattamente uno in particolare (ad esempio il numero x = 3.45362) è praticamente
impossibile. Quindi, si dovrà avere che

pX (x) = P(X = x) = 0, ∀ x ∈ R.

In altri termini, la densità discreta pX per una variabile aleatoria continua è sempre
identicamente uguale a zero, non gioca dunque alcun ruolo.
Tuttavia, se invece di considerare un singolo valore x si considera un intervallo di valori
[a, b] ⊂ R, con a < b, allora ci aspettiamo che

P(a ≤ X ≤ b) > 0, se [a, b] ⊂ [0, +∞),

dove la richiesta [a, b] ⊂ [0, +∞) deriva dal fatto che nell’Esempio 1.1 la v.a. X è un
“tempo”, quindi “SX = [0, +∞)”.
In conclusione, facendo sempre riferimento alla v.a. X dell’Esempio 1.1, ci troviamo
di fronte al problema di conciliare queste due ragionevoli richieste:

(i) pX (x) = P(X = x) = 0, per ogni x ∈ R;

(ii) P(a ≤ X ≤ b) > 0, per ogni [a, b] ⊂ [0, +∞), con a < b.

Tale problema è risolto introducendo il concetto di variabile aleatoria continua. Infatti, se


X è una variabile aleatoria continua allora esiste una funzione fX ≥ 0, chiamata densità
continua di X, tale che Z b
P(a ≤ X ≤ b) = fX (x) dx.
a
Nel caso dell’Esempio 1.1 una possibile scelta di fX è la seguente:
(
0, x < 0,
fX (x) = −x
e , x ≥ 0.

2
È allora chiaro che le proprietà (i) e (ii) sono verificate. Infatti, ad esempio, per quanto
riguarda la proprietà (i) si ha che
Z x
pX (x) = P(X = x) = fX (y) dy = 0, ∀ x ∈ R.
↑ x
P(X=x)=P(x≤X≤x)

2 Definizioni di densità continua e v.a. continua

Definizione 2.1. Una funzione f : R → R si dice densità (continua) o funzione di


densità di probabilità o PDFa se:

• f (x) ≥ 0, per ogni x ∈ R;


R +∞
• −∞ f (x) dx = 1.
a
Dall’inglese probability density function.

Osservazione. Al contrario della densità discreta pX , che deve necessariamente verifi-


care le disuguaglianze
0 ≤ pX (x) ≤ 1, ∀ x ∈ R,
la densità continua verifica in generale solo la prima disuguaglianza:

0 ≤ f (x), ∀ x ∈ R.

Al contrario, si può benissimo avere f (x) > 1 per qualche x ∈ R. L’importante è che
R +∞
−∞
f (x) dx = 1.
La definizione di variabile aleatoria continua fa intervenire la densità continua.

Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Si
dice che X è una variabile aleatoria continua (in breve v.a.c.) se esiste una densità
continua, indicata con fX , tale che
Z b
P(a ≤ X ≤ b) = fX (x) dx, ∀ [a, b] ⊂ R
a

e, più in generale, Z
P(X ∈ B) = fX (x) dx, ∀ B ⊂ R. (2.1)
B

Osservazione 1. Esempi di utilizzo della formula (2.1) sono i seguenti:


Z b

P(a < X < b) = fX (x) dx, B = (a, b) ,
a
Z b

P(a ≤ X < b) = fX (x) dx, B = [a, b) ,
a

3
Z b 
P(a < X ≤ b) = fX (x) dx, B = (a, b] ,
Za x

P(X < x) = fX (x) dx, B = (−∞, x) ,
Z−∞
x 
P(X ≤ x) = fX (x) dx, B = (−∞, x] ,
−∞
Z +∞ 
P(X > x) = fX (x) dx, B = (x, +∞) ,
Zx +∞

P(X ≥ x) = fX (x) dx, B = [x, +∞) .
x

Altri casi in cui utilizzeremo la formula (2.1) sono quelli in cui B è unione di più intervalli.
Ad esempio, se B = [−1, 0] ∪ (2, 3] ∪ [5, +∞) allora
Z 0 Z 3 Z +∞
P(X ∈ B) = fX dx + fX dx + fX dx.
−1 2 5

Notiamo in particolare che la probabilità che una variabile aleatoria continua


X assuma valori in un intervallo non dipende dal fatto che gli estremi del-
l’intervallo siano inclusi o esclusi, contrariamente a quanto accade per le variabile
aleatorie discrete.
Osservazione 2. È importante sottolineare che, se X è una variabile aleatoria continua,
la sua densità fX non è unica. Infatti, se fX è una densità di X, allora ogni funzione
g per cui Z b Z b
g(x) dx = fX (x) dx, ∀ [a, b] ⊂ R, (2.2)
a a
è una densità di X. Ad esempio, se g è ottenuta da fX modificandone il valore in un
numero finito (o infinito numerabile) di punti, allora (2.2) vale e dunque g è una densità
di X.
Questa ambiguità nella nozione di densità di una variabile aleatoria continua non costi-
tuisce di norma un problema. Come vedremo, in molti casi esiste una versione “canonica”
della densità che è regolare, ad esempio continua. Spesso diremo, impropriamente, che
una certa funzione f è la densità di X.
Osservazione 3. Al contrario di quanto visto con le variabili aleatorie discrete, non
definiremo il supporto di una variabile aleatoria continua. Infatti il supporto dovrebbe
essere definito in termini della densità, ma la densità non è unica (si veda l’osservazione
precedente). Più precisamente, la definizione di supporto dovrebbe essere la seguente:

SX = x ∈ R : fX (x) > 0 . (2.3)

Nonostante la non unicità di fX , in molti casi esiste una versione “canonica” della den-
sità (si veda l’osservazione precedente) e dunque esiste anche una versione “canonica” di
supporto, definito come in (2.3) scegliendo come fX la versione canonica. In questi casi
diremo, impropriamente, che l’insieme SX è il supporto di X.
Dalla definizione di variabile aleatoria continua seguono le seguenti proprietà.

4
Teorema 2.1. Sia X una variabile aleatoria continua con densità fX .

1) La densità discreta di X è identicamente uguale a zero:

pX (x) = 0, ∀ x ∈ R.

2) La funzione di ripartizione di X è data da


Z x
FX (x) = fX (y) dy, ∀ x ∈ R.
−∞

Quindi FX è continua (e non solo continua a destra).

Dimostrazione.
1) Dalla definizione di pX , abbiamo che
Z x
pX (x) = P(X = x) = fX (y) dy = 0, ∀ x ∈ R,
x

che dimostra il punto 1).


2) Dalla definizione di FX , si ha che
Z x
FX (x) = P (X ≤ x) = fX (y) dy, ∀ x ∈ R.
−∞

Resta da dimostrare che FX è continua e non solo continua a destra. Quindi resta da
dimostrare che
FX (x) = FX (x−), ∀ x ∈ R.
Ricordando che FX (x−) = P(X < x), si ha
Z x
FX (x−) = P(X < x) = fX (y) dy = FX (x), ∀ x ∈ R.
−∞


Osservazione 1. Dal Teorema 2.1 segue che la funzione di ripartizione di una variabile
aleatoria continua è una funzione integrale. Le funzioni integrali costituiscono una
particolare sotto-famiglia delle funzioni continue. Esse sono anche dette funzioni asso-
lutamente continue. Per tale ragione le variabili aleatorie continue sono anche dette
variabili aleatorie assolutamente continue.
Osservazione 2. Grazie alla continuità della funzione di ripartizione FX , notiamo che
le probabilità
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b),
che come abbiamo già visto sono tutte uguali, sono in particolare date da
Z b
FX (b) − FX (a) = fX (x) dx.
a

5
Analogamente
Z a
P(X < a) = P(X ≤ a) = fX (x) dx = FX (a)
−∞

e Z +∞
P(X > a) = P(X ≥ a) = fX (x) dx = 1 − FX (a).
a

Possiamo dunque riassumere nel seguente schema le differenze principali tra variabili
aleatorie discrete e continue:

Variabili aleatorie discrete Variabili aleatorie continue


densità discreta densità continua
pX fX

X Z
P(X ∈ B) = pX (xi ) P(X ∈ B) = fX (x) dx
xi ∈B B

FX è una funzione integrale


FX è costante a tratti: o, equivalentemente,
X è una funzione assolutamente continua:
FX (x) = pX (xi ) Z x
xi ≤x
FX (x) = fX (y) dy
−∞

Si noti infine che queste due classi di variabili aleatorie non esauriscono tutte le possi-
bilità, infatti ci sono ad esempio le variabili aleatorie miste. Quest’ultime hanno come
“supporto” un insieme infinito più che numerabile, ad esempio un intervallo [a, b], ma
all’interno del supporto esistono un numero finito (o al più infinito numerabile) di valori
con probabilità strettamente positiva. Per descrivere la legge di una variabile aleatoria
mista è necessario utilizzare sia la densità discreta che la densità continua. Un esempio
di variabile aleatoria mista è il seguente.

Esempio 2.1. Si consideri un componente elettronico. Sia

X = “tempo di vita del componente”.

In tal caso può essere ragionevole supporre chea

P(X = 0) ∈ (0, 1)

mentre
P(X = x) = 0, ∀ x 6= 0.
a
Probabilità che il componente sia rotto, a causa di un difetto di fabbricazione.

6
Si noti che:

• X non è una v.a. discreta, infatti


(
P(X = 0), x = 0,
pX (x) =
0, x 6= 0.
P P
Quindi non vale che i pX (xi ) = 1, dato che i pX (xi ) = P(X = 0) < 1;

• X non è una v.a. continua, infatti P(X = 0) > 0, in contraddizione con quanto
affermato nel Teorema 2.1.

2.1 Dalla funzione di ripartizione alla densità continua


Nella sezione precedente abbiamo visto come si passa dalla densità continua alla funzione
di ripartizione. In particolare, ricordiamo dal Teorema 2.1 che vale la formula seguente:
Z x
FX (x) = fX (y) dy, ∀ x ∈ R.
−∞

Supponiamo ora di conoscere la funzione di ripartizione FX di una variabile aleatoria X.

1) Che proprietà1 deve verificare FX affinché X sia una variabile aleatoria continua?

2) Una volta stabilito che X è una variabile aleatoria continua, come si trova fX a partire
da FX ?

Per quanto riguarda il punto 1), come abbiamo visto nella sezione precedente, si ha che

FX è una funzione integrale


X è una v.a. continua ⇐⇒
(o, equivalentemente, assolutamente continua)

Nella pratica, non è semplice verificare2 che FX è una funzione integrale. Per tale ragione,
nel seguito studieremo solo casi in cui sarà già noto che X è una v.a. continua. Per quanto
riguarda invece il punto 2), vale il seguente risultato.
1
Ricordiamo che, per quanto riguarda le variabili aleatorie discrete, vale il seguente risultato:

X è una v.a. discreta ⇐⇒ FX è una funzione costante a tratti

2
Segnaliamo però che una condizione sufficiente affinché FX sia una funzione integrale è la seguente
condizione di facile verifica: FX è C 1 a tratti , cioè
• FX è continua in ogni punto x ∈ R;
• esiste un sottoinsieme finito D ⊂ R tale che FX è derivabile in ogni punto x ∈ R\D;
0
• la derivata FX è una funzione continua in ogni punto x ∈ R\D.

7
Proposizione 2.1. Sia X una variabile aleatoria e indichiamo con FX la sua funzione
di ripartizione. Supponiamo di sapere già che X è una variabile aleatoria continua
(quindi sappiamo già che FX è una funzione integrale). Allora la sua densità fX è
data da
fX (x) = FX0 (x), ∀ x in cui FX è derivabile.
Nei punti in cui FX non è derivabile, fX è definita in modo arbitrario.

Esercizio 2.1. Sia X una variabile aleatoria continuaa con funzione di ripartizione
(
0, x ≤ 0,
FX (x) = −x 2
(1 − e ) , x ≥ 0.

Determinare:

(a) la densità di X,

(b) P(X > 1),

(c) P(1 < X < 2).


a
Si noti che il testo dell’esercizio specifica già che X è continua, non serve dimostrarlo. Non serve
quindi mostrare che FX è una funzione integrale. Notiamo anche che in tutti i casi che considereremo
FX sarà sempre una funzione C 1 a tratti, quindi, automaticamente, una funzione integrale (si veda a tal
proposito la nota 2 ).

Soluzione.

(a) Poiché la variabile aleatoria X è continua, possiamo applicare la Proposizione 2.1, da


cui si ha che
fX (x) = FX0 (x), ∀ x in cui FX è derivabile,
altrimenti fX è definita in modo arbitrario dove FX non è derivabile. Dall’espressione
di FX si vede che FX è derivabile ovunque tranne al più nel punto x = 0. Quindi
(
0, x < 0,
fX (x) = −x −x
2 (1 − e ) e , x > 0.

Abbiamo dunque specificato fX per ogni x ∈ R\{0}. Nel punto x = 0 non è neces-
sario verificare se FX è derivabile, infatti possiamo comunque definire fX in modo
arbitrario, ad esempio ponendo fX (0) = 0. Ciò è una conseguenza dell’osservazione
in cui compare l’uguaglianza (2.2). In tale osservazione si dice infatti che è possi-
bile modificare il valore di fX in un numero finito (o infinito numerabile) di punti.
Assegnando dunque il valore arbitrario fX (0) = 0, otteniamo
(
0, x ≤ 0,
fX (x) = −x −x
2 (1 − e ) e , x > 0.

8
(b)
P(X > 1) = 1 − FX (1) = 1 − (1 − e−1 )2 ' 0.6.

(c)
P(1 < X < 2) = FX (2) − FX (1) = (1 − e−2 )2 − (1 − e−1 )2 ' 0.348.

Esercizio 2.2. Sia X una variabile aleatoria continua con funzione di ripartizione


 0, x ≤ 0,
0 ≤ x ≤ 41 ,

x,
FX (x) = 2
x − 14 + 14 , 1



 4
≤ x ≤ 1,
3 −(x−1)
 13
16
1−e + 16 , x ≥ 1.

Determinare la densità di X.

Soluzione. Per la Proposizione 2.1 si ha che




 0, x < 0,
0 < x < 14 ,

1,
fX (x) = 1
 1


 2 x − 4
, 4
< x < 1,
 3 −(x−1)
16
e , x > 1.

Abbiamo dunque specificato fX per ogni x ∈ R\ 0, 14 , 1 . Nei punti x = 0, x = 1



4
ex=1
possiamo invece definire fX in modo arbitrario, ad esempio ponendo:


 0, x ≤ 0,
0 < x ≤ 14 ,

1,
fX (x) =
2 x − 41 , 1



 4
< x ≤ 1,
 3 −(x−1)
16
e , x > 1.

2.2 Funzioni di variabili aleatorie continue


Siano h : R → R una qualunque funzione e X una variabile aleatoria continua. Poniamo

Y = h(X).

Ricordiamo che quando X è discreta, Y è necessariamente anch’essa una variabile aleatoria


discreta. Al contrario, quando X è continua, non possiamo dire nulla su Y . In particolare,
Y potrebbe essere discreta, continua, mista.

9
La situazione più semplice si ha quando la variabile aleatoria Y è discreta. Si è in tale
situazione quando Y assume un numero finito o al più infinito numerabile di valori. Ad
esempio, se h(x) = 1{x>10} allora
(
1, se X > 10,
Y = 1{X>10} =
0, se X ≤ 0.

In tal caso Y è discreta in quanto assume solo due valori: 0 e 1. In particolare, Y ha


distribuzione di Bernoulli di parametro p = P(X > 10):

Y ∼ B(p).

Supponiamo invece che Y non assuma un numero finito o al più numerabile di valori.
Supponiamo inoltre di sapere già3 che Y è una variabile aleatoria continua. Come si
trovano funzione di ripartizione e/o densità di Y ?
Per risolvere questo problema, si procede determinando innanzitutto la funzione di
ripartizione di Y . Nel caso in cui siamo interessati alla densità di Y , la otteniamo suc-
cessivamente derivando la funzione di ripartizione FY , applicando dunque la Proposizione
2.1.
Per trovare la funzione di ripartizione di Y , i primi passaggi che si fanno sono sempre
i seguenti:
FY (y) = P(Y ≤ y) = P(h(X) ≤ y).
Si cerca dunque di esprimere P(h(X) ≤ y) in termini della funzione di ripartizione di X.
Per fare questo è necessario risolvere la disuguaglianza h(X) ≤ y. Vediamo un esempio.

Esempio 2.2. Sia X una variabile aleatoria continua con funzione di ripartizione
(
0, x ≤ 0,
FX (x) = −x
1−e , x ≥ 0.

Qual è la densità della variabile aleatoria continuaa Y = eX ?


a
Si noti che il testo dell’esercizio specifica già che Y è continua, non serve dimostrarlo.

Soluzione. Iniziamo col determinare la funzione di ripartizione di Y :

FY (y) = P(Y ≤ y) = P(eX ≤ y).

Dobbiamo risolvere la disuguaglianza eX ≤ y. Distinguiamo due casi: y ≤ 0 e y > 0.


Primo caso: y ≤ 0. Se y ≤ 0, la disuguaglianza eX ≤ y non è mai verificata. Questo
significa che  X
e ≤ y = ∅.
3
Se invece non sapessimo ancora se Y è continua, per stabilirlo dovremmo prima determinare FY e
poi mostrare che FY è una funzione integrale, ad esempio mostrando che è C 1 a tratti.

10
Quindi P(eX ≤ y) = P(∅) = 0. Perciò

FY (y) = 0 ∀ y ≤ 0.

Secondo caso: y > 0. Se y > 0, allora la disuguaglianza eX ≤ y è verificata se e solo se


X ≤ log y, cioè
eX ≤ y ⇐⇒ X ≤ log y.
Quindi
FY (y) = P(X ≤ log y) = P(X ≤ log y) = FX (log y)
Utilizzando l’espressione di FX , si ottiene dunque:
• se log y ≤ 0, cioè 0 < y ≤ 1, allora FY (y) = FX (log y) = 0;

• se log y > 0 (cioè y > 1), allora FY (y) = FX (log y) = 1 − elog y = 1 − y1 .


In conclusione, mettendo insieme primo e secondo caso, otteniamo
(
0, y ≤ 1,
FY (y) = 1
1 − y, y > 1.

Applicando la Proposizione 2.1, si ricava la densità di Y derivando FY :


(
0, y ≤ 1,
fY (y) = 1
y2
, y > 1,

dove abbiamo posto, in modo arbitrario, fY (1) = 0. 

3 Indici di sintesi di una distribuzione: µ e σ 2


Come per le variabili aleatorie discrete, definiamo valore atteso e varianza per variabili
aleatorie continue.

3.1 Media o valore atteso

Definizione 3.1. Sia X una variabile aleatoria continua. La media (o valore atteso)
di X è data da Z +∞
E[X] = x fX (x) dx.
−∞

La media si indica anche con µ oppure µX .

Nel seguito capiterà spesso di dover calcolare il valore atteso di una funzione di X:

Y = h(X).

Risulta dunque particolarmente utile il seguente risultato.

11
Teorema 3.1. Sia X una variabile aleatoria continua. Inoltre, siano h : R → R e Y =
h(X). Allora Z +∞
E[Y ] = E[h(X)] = h(x) fX (x) dx.
−∞

Ricordiamo infine la proprietà di linearità del valore atteso, già dimostrata nel caso
discreto (la dimostrazione segue dalla formula del Teorema 3.1).

Teorema 3.2 (Linearità del valore atteso). Sia X una variabile aleatoria continua.
Inoltre, siano h : R → R, g : R → R e a, b ∈ R costanti. Allora

E[a X + b] = a E[X] + b

e, più in generale,

E[a h(X) + b g(X)] = a E[h(X)] + b E[g(X)].

3.2 Varianza

Definizione 3.2. Sia X una variabile aleatoria continua. La varianza di X è data da


Z +∞
2
(x − E[X])2 fX (x) dx.
 
Var(X) = E (X − E[X]) =
−∞

La varianza si indica anche con σ 2 oppure σX


2
.
La radice quadrata della varianza si chiama deviazione standard (o scarto
quadratico medio) e si indica con σ oppure σX .

Per calcolare la varianza di una variabile aleatoria è utile, come nel caso discreto, la
seguente formula.

Teorema 3.3. Sia X una variabile aleatoria continua. Vale che


Z +∞
2 2
Var(X) = E[X ] − E[X] = x2 fX (x) dx − E[X]2 .
−∞

Ricordiamo infine le seguenti proprietà, già dimostrate nel caso discreto.

12
Teorema 3.4 (Proprietà della varianza). Siano X una variabile aleatoria continua e
a, b ∈ R costanti. Allora

1) Var(X) ≥ 0.

2) Var(aX + b) = a2 Var(X).

4 Distribuzioni continue notevoli


In questa sezione vediamo le principali distribuzioni continue.

Distribuzione uniforme (continua). Diciamo che X ha distribuzione uniforme


(continua) su4 (a, b) se X è una variabile aleatoria continua con densità
(
1
b−a
, a < x < b,
fX (x) =
0, altrimenti.

In tal caso scriviamo


X ∼ Unif (a, b).
Si noti che 
0,
 x ≤ a,
x−a
FX (x) = b−a
, a ≤ x ≤ b,

1, x ≥ b.

Inoltre
Z b
x a+b
E[X] = dx = ,
a b−a 2
Z b 2 2
(b − a)2

2 2 x a+b
Var(X) = E[X ] − E[X] = dx − = .
a b−a 2 12

Distribuzione esponenziale. Sia λ > 0. Diciamo che X ha distribuzione espo-


nenziale di parametro λ se X è una variabile aleatoria continua con densità
(
0, x < 0,
fX (x) = −λx
λe , x ≥ 0.

In tal caso scriviamo


X ∼ Exp (λ).
4
Essendo X una variabile aleatoria continua, non fa alcuna differenza includere o escludere gli estremi
dell’intervallo. Più precisamente, sono identiche le distribuzioni (e dunque le v.a.) uniformi su (a, b)
oppure [a, b) oppure (a, b] oppure [a, b]. Quindi scriveremo semplicemente X ∼ Unif (a, b).

13
Si noti che (
0, x ≤ 0,
FX (x) =
1 − e−λx , x ≥ 0.
Inoltre
Z +∞
1
E[X] = x e−λx dx = ,
0 λ
Z +∞
1 1
Var(X) = E[X 2 ] − E[X]2 = x2 e−λx dx − 2
= 2.
0 λ λ
La distribuzione esponenziale si usa ad esempio per descrivere il tempo di vita di un
macchinario oppure di un componente elettronico (si veda l’Esempio 1.1).

Distribuzione normale (o gaussiana). Siano µ ∈ R e σ > 0. Diciamo che X ha


distribuzione normale (o gaussiana) di media µ e varianza σ 2 se X è una variabile
aleatoria continua con densità
1 1 (x−µ)
2
fX (x) = √ e− 2 σ 2 , per ogni x ∈ R.
σ 2π
In tal caso scriviamo
X ∼ N (µ, σ 2 ).
Diciamo inoltre che X ha distribuzione normale standard se

X ∼ N (0, 1),

ovvero X ha distribuzione normale di media µ = 0 e varianza σ 2 = 1. In tal caso, la


densità di X è data da
1 1 2
fX (x) = √ e− 2 x , per ogni x ∈ R.

La distribuzione normale ha un ruolo fondamentale in Probabilità e Statistica, come
conseguenza del Teorema centrale del limite che vedremo in seguito.
Notazione. Una variabile aleatoria con distribuzione normale standard viene general-
mente indicata con la lettera Z anziché X. Inoltre densità e funzione di ripartizione di Z
si indicano con ϕ e Φ anziché fZ e FZ .
Osservazione. Si noti che non esiste un’espressione esplicita della funzione di ripar-
tizione della distribuzione normale. Ad esempio, nel caso della distribuzione normale
standard, Φ è data da
Z x
1 1 2
Φ(x) = √ e− 2 y dy, per ogni x ∈ R.
−∞ 2π
Tale integrale non ammette un’espressione esplicita in termini di funzioni note. Di
conseguenza, i valori di Φ vengono calcolati per via numerica, approssimando il valore
dell’integrale.

14
Rx 1 2
Anche se non è possibile calcolare esplicitamente l’integrale −∞ √12π e− 2 y dy per un
generico valore x, è possibile farlo in alcuni casi particolari. Ad esempio, quando x = +∞,
come affermato nel seguente lemma.

Lemma 4.1 (Integrale di Gauss). Vale che


Z +∞
2 √
e−x dx = π. (4.1)
−∞

Osservazione. Come conseguenza del Lemma 4.1 segue che la funzione


1 1 (x−µ)
2
fX (x) = √ e− 2 σ2 , per ogni x ∈ R,
σ 2π

è effettivamente una densità, ovvero5


Z +∞
fX (x) dx = 1.
−∞

Infatti, con un cambio di variabili, si ha che


Z +∞ Z +∞ Z +∞
1 1 (x−µ)
2
1 2
fX (x) dx = √ e− 2 σ2 dx = √ e−z dz = 1.
−∞ −∞ σ 2π ↑ −∞ π
z= x−µ

σ 2

Dimostrazione del Lemma 4.1. Indichiamo con I il valore dell’integrale di Gauss,


quindi Z +∞
2
I = e−x dx.
−∞
2
Poiché la funzione x 7→ e−x è pari, si ha che
Z +∞
2
I = 2 e−x dx.
0

Dimostrare che I = π è equivalente a mostrare che I 2 = π. Dimostriamo dunque che
I 2 = π. Si ha che
 Z +∞  Z +∞   Z +∞  Z +∞ 
2 −x2 −x2 −x2 −y 2
I = 4 e dx e dx = 4 e dx e dy ,
0 0 0 0

dove la seconda uguaglianza discende dal fatto che, essendo la variabile d’integrazione
muta, possiamo indicarla con un’altra lettera, ad esempio y, anziché x. Il prodotto dei
due ultimi integrali è in effetti uguale all’integrale doppio
 Z +∞  Z +∞  Z +∞ Z +∞
−x2 −y 2 2 2
e dx e dy = e−(x +y ) dx dy.
0 0 0 0

5
È chiaro che fX (x) ≥ 0 per ogni x ∈ R.

15
Quindi Z +∞ Z +∞
2 +y 2 )
I 2
= 4 e−(x dx dy.
0 0

Integrando prima rispetto a y e poi rispetto a x, possiamo riscrivere I 2 come segue:


Z +∞  Z +∞ 
2 −(x2 +y 2 )
I = 4 e dy dx.
0 0

Nell’integrale interno (in cui x compare come un parametro fissato maggiore di zero),
Z +∞
2 2
e−(x +y ) dy,
0

eseguiamo il cambio di variabile y = xz, con x > 0 fissato. Quindi dy = x dz, perciò
Z +∞ Z +∞
−(x2 +y 2 ) 2 2
e dy = e−x (1+z ) x dz.
0 0

Di conseguenza, I 2 diventa
Z +∞ Z +∞ 
2 −x2 (1+z 2 )
I = 4 e x dz dx.
0 0

Scambiando l’ordine di integrazione


Z +∞  Z +∞ 
2 −x2 (1+z 2 )
I = 4 e x dx dz.
0 0

Si noti che ora è possibile calcolare esplicitamente l’integrale interno, infatti


Z +∞
2 2 1  −x2 (1+z2 ) +∞ 1 1
e−x (1+z ) x dx = −
 
2
e 0
= − 2
0−1 = .
0 2(1 + z ) 2(1 + z ) 2(1 + z 2 )

In conclusione, si ottiene
Z +∞
2 1  +∞
I = 4 dz = 2 arctan z 0
= π.
0 2(1 + z 2 )

Proposizione 4.1. Siano µ ∈ R, σ > 0 e X ∈ N (µ, σ 2 ).

1) E[X] = µ.

2) Var(X) = σ 2 .

16
Dimostrazione.
1) Dalla definizione di valore atteso, abbiamo che
Z +∞ Z +∞
1 1 (x−µ)
2
E[X] = x fX (x) dx = x √ e− 2 σ2 dx
−∞ −∞ σ 2π
Z +∞ √  1 −z2
= µ + zσ 2 √ e dz

x−µ
−∞ π
z= √
σ 2

1 −z2
Z +∞√ Z +∞ 1 −z2
= µ √ e dz + σ 2 z √ e dz
−∞ π −∞ π
√ Z +∞
1 2
= µ+σ 2 z √ e−z dz,
R +∞

2
−∞ π
√1 e−z dz=1
−∞ π

2
dove nell’ultima uguaglianza abbiamo usato (4.1). Infine, essendo z 7→ z √1π e−z una
funzione dispari, si ha che
Z +∞
1 2
z √ e−z dz = 0.
−∞ π
Quindi E[X] = µ.
2) Dalla definizione di varianza, abbiamo che
Z +∞ Z +∞
1 1 (x−µ)
2
Var(X) = 2
(x − µ) fX (x) dx = (x − µ)2 √ e− 2 σ2 dx
−∞ −∞ σ 2π
Z +∞
2 2
= σ2 z 2 √ e−z dz.

x−µ
−∞ π
z= √
σ 2

Integrando per parti, si ottiene


 +∞ Z +∞   
2 1 −z2 1 −z2
Var(X) = σ −z √ e + 2
√ e dz = σ [0 − 0] + 1 = σ 2 ,
π −∞ −∞ π
dove nella seconda uguaglianza abbiamo usato (4.1).


La distribuzione normale standard ha un ruolo fondamentale nello studio della distribu-


zione normale. Ciò deriva dal fatto che qualunque variabile aleatoria normale diventa, ese-
guendo un riscalamento e una traslazione (in una parola, standardizzando), una variabile
aleatoria normale standard.

Proposizione 4.2 (Standardizzazione). Siano µ ∈ R, σ > 0 e X ∈ N (µ, σ 2 ). Allora

X −µ
Z =
σ
è una variabile aleatoria normale standard, quindi Z ∼ N (0, 1).

17
Dimostrazione. Mostriamo che Z ammette densità continua data da (ricordiamo che
generalmente la densità della variabile aleatoria normale standard si indica con ϕ anziché
fZ )
1 1 2
ϕ(x) = √ e− 2 x , ∀ x ∈ R.

Iniziamo col determinare la funzione di ripartizione di Z:
 
X −µ
FZ (x) = P(Z ≤ x) = P ≤ x = P(X ≤ µ + σ x) = FX (µ + σ x).
σ
Derivando, si ottiene
fZ (x) = σ fX (µ + σ x).
Sapendo che X ∼ N (µ, σ 2 ), si ha che
1 1 (µ+σ x−µ)
2
1 1 2
σ fX (µ + σ x) = √ e− 2 σ2 = √ e− 2 x .
2π 2π
Quindi abbiamo dimostrato che Z ha densità ϕ, ovvero Z ∼ N (0, 1). 

La funzione di ripartizione di una variabile aleatoria normale standard Z, indicata gene-


ralmente con Φ anziché FZ , è data per definizione da
Z x
1 1 2
Φ(x) = √ e− 2 y dy, ∀ x ∈ R.
−∞ 2π
Come abbiamo già notato, non esiste una formula esplicita per Φ. Tuttavia Φ possiede le
seguenti utili proprietà.

Proposizione 4.3 (Proprietà di Φ). Sia


Z x
1 1 2
Φ(x) = √ e− 2 y dy, ∀x ∈ R
−∞ 2π
la funzione di ripartizione di una variabile aleatoria normale standard. Φ verifica le
seguenti proprietà:

1) Φ(0) = 21 .

2) Φ(−x) = 1 − Φ(x), per ogni x ≥ 0.

Osservazione. La proprietà 2) è particolarmente utile in quanto permette di calcolare


Φ per valori negativi una volta nota Φ per valori positivi.
Dimostrazione della Proposizione 4.3.
1) Si noti che la proprietà 1) segue dalla 2) scegliendo x = 0. Infatti si ottiene

Φ(0) = 1 − Φ(0),

che ha come soluzione Φ(0) = 12 . Resta dunque da dimostrare la proprietà 2).

18
1 2
2) Dato che y 7→ √1 e− 2 y è una funzione pari, si ha che

Z −x Z +∞
1 1 2 1 1 2
√ e− 2 y dy = √ e− 2 y dy, ∀ x > 0.
−∞ 2π x 2π
Questo fornisce l’uguaglianza voluta, infatti il primo integrale è Φ(−x), mentre il
secondo integrale è pari a 1 − Φ(x). 

Esercizio 4.1. Un apparecchio dosatore riempie delle provette da 10 cl. Assumiamo che
la quantità di liquido versata in una provetta (misurata in cl), indicata con X, abbia una
distribuzione N (9.99, (0.012)2 ), ovvero X è una variabile aleatoria continua con densità

1 (x−9.99)2
−1
fX (x) = √ e 2 (0.012)2 , ∀ x ∈ R.
0.012 2π
(a) Trovare la percentuale di provette fatte traboccare dal dosatore. [Si esprima il risultato
nella formaa 1 − Φ(x), per qualche x > 0]

(b) Determinare ` in modo tale che la percentuale di provette che contengono una quantità
di liquido inferiore a ` sia pari al 10% delle provette. [Si usib che Φ−1 (0.1) ' −1.282,
dove Φ−1 denota la funzione inversa di Φ]
a
Un’approssimazione di Φ(x) può essere ottenuta utilizzando WolframAlpha, si veda
www.wolframalpha.com, tramite il comando CDF[NormalDistribution[0,1],x].
b
Il valore di Φ−1 (0.1) è stato ottenuto con WolframAlpha tramite il comando
InverseCDF[NormalDistribution[0,1],0.1].

Soluzione.
(a) Si noti che l’evento “il dosatore fa traboccare la provetta” è dato da

{X > 10}.

Si noti inoltre che la v.a.


X − 9.99
Z =
0.012
ha legge normale standard. Quindi
 
X − 9.99 10 − 9.99
P(X > 10) = P >
↑ 0.012 0.012
standardizzazione
' P(Z > 0.833) = 1 − P(Z ≤ 0.833) = 1 − Φ(0.833) ' 20.24%.

(b) Dobbiamo trovare ` tale che


P(X < `) = 10%.
Standardizzando, possiamo riscrivere questa uguaglianza in termini di Z:
 
` − 9.99
P Z< = 0.1.
0.012

19
Quest’ultima uguaglianza può essere riscritta in termini di Φ, la funzione di riparti-
zione di Z:
     
` − 9.99 ` − 9.99 ` − 9.99
Φ = P Z≤ = P Z< = 0.1,
0.012 0.012 0.012

dove la seconda uguaglianza deriva dal fatto che Z è una variabile aleatoria continua.
Quindi
` − 9.99
= Φ−1 (0.1) ' −1.282,
0.012
da cui si ottiene ` ' 9.9746.

5 Generatori aleatori
In diverse aree della matematica applicata, ad esempio nell’ambito della simulazione nu-
merica o in crittografia, si richiede a un computer di produrre una sequenza di numeri
casuali con distribuzione assegnata. La maggior parte dei software di calcolo scientifico
(come ad esempio MATLAB oppure R) possiede comandi (o, meglio, generatori alea-
tori, anche detti generatori di numeri casuali) che forniscono tali sequenze di numeri
casuali, almeno per le distribuzioni più comuni. In C, ad esempio, si trova un gene-
ratore aleatorio che fornisce una sequenza di numeri casuali con distribuzione uniforme
su [0, RAND MAX], dove RAND MAX è una costante che, secondo gli standard di C,
deve essere maggiore o uguale di 32767. In questa sezione affronteremo le due seguenti
questioni.

1) Come si genera una variabile aleatoria con distribuzione uniforme?

2) Come si genera una variabile aleatoria con distribuzione non necessariamente uniforme?

5.1 Simulare la distribuzione uniforme


Possiamo suddividere i generatori aleatori di numeri casuali con distribuzione uniforme
in due categorie.

• Generatori fisici. I generatori fisici non sempre generano direttamente un numero


con distribuzione uniforme. Tale numero va dunque trasformato opportunamente
(procedendo in modo simile a come si fa per affrontare il problema 2 riportato
sopra) per ottenere un numero con distribuzione uniforme. Un esempio famoso di
generatore fisico era stato progettato dalla RAND Corporation alla fine degli anni
‘40 del Novecento. Il risultato di questo esperimento è riportato nel libro “A Million
Random Digits with 100000 Normal Deviates”, pubblicato dalla RAND Corporation
nel 1955. Tale libro contiene appunto un milione di numeri generati casualmente da
una simulazione elettronica di una roulette con numeri da 00000 a 99999.

20
• Generatori algoritmici. Un generatore algoritmico consiste in un algoritmo (com-
pletamente deterministico) in grado di produrre lunghe sequenze di numeri appa-
rentemente casuali. Tali numeri si chiamano pseudo-casuali. Fornendo all’algoritmo
lo stesso valore iniziale (seme) si ottiene dunque la medesima sequenza.
Tra i generatori algoritmici più conosciuti troviamo i generatori lineari congruen-
ziali (LCG). In tal caso, la sequenza di numeri pseudo-casuali è in generale data
da un’espressione del tipo seguente:

xn = (a xn−1 + c) mod m,

dove a, c, m sono dei parametri da fissare. Dunque xn è un numero intero compreso


tra 0 ed m − 1. Ad esempio, una nota combinazione di parametri è a = 75 = 16807,
c = 0, m = 231 − 1.

5.2 Simulare una distribuzione non necessariamente uniforme


Consideriamo una distribuzione non necessariamente uniforme, di cui si conosce la fun-
zione di ripartizione F . Supponiamo che U ∼ Unif (0, 1). Come si genera un numero
aleatorio X con funzione di ripartizione F a partire da U ?
Per rispondere a questa domanda, conviene studiare separatamente il caso in cui X
sia una v.a. continua oppure discreta. Prima però ricordiamo che U ∼ Unif (0, 1) significa
che U è una variabile aleatoria continua con densità
(
1, 0 < x < 1,
fU (x) =
0, altrimenti

e funzione di ripartizione

0,
 x ≤ 0,
FU (x) = x, 0 ≤ x ≤ 1,

1, x ≥ 1.

Distribuzione continua (ed F invertibile). Supponiamo che F sia la funzione di


ripartizione di una v.a. continua e inoltre che F sia invertibile 6 . Si noti che F è invertibile
se e solo se F è strettamente crescente. Dato che F è invertibile, esiste la sua inversa
F −1 : (0, 1) → R. Poniamo
X = F −1 (U ).
Allora X è la variabile aleatoria che cerchiamo, ossia X è una v.a. continua con funzione
di ripartizione data proprio da F :
X ∼ F.
Per dimostrarlo, notiamo innanzitutto che vale la seguente proprietà:

u ≤ F (x) ⇐⇒ F −1 (u) ≤ x. (5.1)


6
F è invertibile ad esempio quando X è una variabile aleatoria normale.

21
Allora

FX (x) = P(X ≤ x) = P(F −1 (U ) ≤ x)


= P(U ≤ F (x)) = FU (F (x)) = F (x).
↑ ↑
(5.1) 0≤F (x)≤1

Distribuzione discreta. Ricordiamo che F è la funzione di ripartizione di una v.a.


discreta se e solo se F è costante a tratti. Quindi, a differenza del caso precedente, F non
è strettamente crescente, dunque non è invertibile. Nonostante ciò, in tal caso ci sono vari
modi per definire X a partire da U . Generalmente si definisce X tramite la cosiddetta
inversa generalizzata di F . Vediamo con un esempio come si procede.

Esempio 5.1. Si consideri la funzione di ripartizione




 0, x < 2,

1/5, 2 ≤ x < 3,
F (x) =


 1/2, 3 ≤ x < 5,
x ≥ 5.

1,

Trovare una funzione G : (0, 1) → R tale che la variabile aleatoria

X = G(U )

ha funzione di ripartizione data proprio da F .

Soluzione. Una possibile scelta di G è la seguente:



2,

 0 < u ≤ 15 ,
1
G(u) = 3, 5
< u ≤ 21 ,

1

5,
2
< u < 1.

Infatti, sia
X = G(U ).
Allora SX = {2, 3, 5} e

X 2 3 5
1 3 1
pX P(G(U ) = 2) = 5 P(G(U ) = 3) = 10 P(G(U ) = 5) = 2

Dunque FX coincide con la funzione F . 

22
In generale, sia pX la densità discreta associata alla funzione di ripartizione F . Allora, F
è data da 


 0, x < x1 ,
x1 ≤ x < x2 ,



 pX (x1 ),

pX (x1 ) + pX (x2 ), x2 ≤ x < x3 ,



F (x) = pX (x1 ) + pX (x2 ) + pX (x3 ), x3 ≤ x < x4 ,

· · ·







 pX (x1 ) + · · · + pX (xn−1 ), xn−1 ≤ x < xn ,

1, x ≥ xn .
In tal caso, una possibile scelta per la funzione G : (0, 1) → R è la seguente:



 x1 , 0 < u ≤ pX (x1 ),
pX (x1 ) < u ≤ pX (x2 ),

x 2 ,



x 3 , pX (x2 ) < u ≤ pX (x3 ),



G(u) = x4 , pX (x3 ) < u ≤ pX (x4 ),

···





xn−1 ,


 pX (xn−1 ) < u ≤ pX (xn ),

x ,
n pX (xn ) < u < 1.

23
Calcolo delle Probabilità e Statistica 2019/2020

VETTORI ALEATORI
INTRODUZIONE GENERALE
e
CASO DISCRETO
1 Introduzione
In questo capitolo studiamo i vettori aleatori. Essi intervengono ogni volta che si è interes-
sati a due o più variabili aleatorie che riguardano lo stesso esperimento aleatorio oppure
quando la quantità d’interesse è essa stessa vettoriale.
In termini matematici, ciò significa che sullo stesso spazio di probabilità (Ω, P) sono
definite due (o più) variabili aleatorie X : Ω → R e Y : Ω → R. Risulta allora naturale
considerare la coppia (X, Y ), che è una variabile aleatoria definita su Ω a valori nello
spazio prodotto R × R = R2 . Chiameremo (X, Y ) vettore aleatorio (bidimensionale).

Definizione 1.1. Sia (Ω, P) uno spazio di probabilità.


Una qualunque funzione
(X, Y ) : Ω → R2
si chiama vettore aleatorio (bidimensionale).
Più in generale, una qualunque funzione

(X1 , X2 , . . . , Xn ) : Ω → Rn

si chiama vettore aleatorio (n-dimensionale).

1.1 Distribuzione o legge di un vettore aleatorio


Come per le variabili aleatorie, possiamo associare ad ogni vettore aleatorio la sua distri-
buzione o legge. Diamo la definizione solo per il caso bidimensionale.

Definizione 1.2. Sia (Ω, P) uno spazio di probabilità e (X, Y ) : Ω → R un vettore


aleatorio. Si chiama distribuzione o legge di (X, Y ) la probabilitàa

P(X,Y ) : P(R2 ) → [0, 1]

definita da
P(X,Y ) (B) = P((X, Y ) ∈ B), ∀ B ⊂ R2 .
Per dire che (X, Y ) ha distribuzione o legge P(X,Y ) scriveremo

(X, Y ) ∼ P(X,Y ) .
a
Ricordiamo che P(R2 ) è l’insieme delle parti di R2 .

Osservazione 1. Si noti che andrebbe verificato che P(X,Y ) è effettivamente una proba-
bilità, ovvero che P(X,Y ) verifica gli Assiomi I-II-III.
Osservazione 2. Se B ⊂ R2 è il prodotto cartesiano di due sottoinsiemi di R, quindi

B = B1 × B2 ,

2
per qualche B1 , B2 ∈ R, allora

P((X, Y ) ∈ B1 × B2 ) = P({X ∈ B1 } ∩ {Y ∈ B2 }).

Infatti l’evento {(X, Y ) ∈ B1 × B2 } è dato da

{(X, Y ) ∈ B1 × B2 } = {X ∈ B1 } ∩ {Y ∈ B2 }.

Notazione 1. Nel seguito spesso dovremo calcolare la probabilità di un evento della


forma {X ∈ B1 } ∩ {Y ∈ B2 }, ovvero

P({X ∈ B1 } ∩ {Y ∈ B2 }).

Per semplificare la notazione, invece di P({X ∈ B1 } ∩ {Y ∈ B2 }) spesso scriveremo

P(X ∈ B1 , Y ∈ B2 ) oppure P(X ∈ B1 e Y ∈ B2 ).

In altre parole, la virgola (oppure la congiunzione e) sta per intersezione.


Notazione 2. P(X,Y ) si chiama distribuzione di (X, Y ) oppure anche distribuzione
congiunta di X e Y . Inoltre le distribuzioni di X e Y , ovvero PX e PY , si chiamano
distribuzioni marginali.

Funzione di ripartizione congiunta. È possibile estendere al caso multidimensionale


il concetto di funzione di ripartizione. Si può infatti definire la funzione di ripartizione
congiunta di X e Y :

F(X,Y ) (x, y) = P({X ≤ x}∩{Y ≤ y}) = P((X, Y ) ∈ (−∞, x]×(−∞, y]), ∀ (x, y) ∈ R2 ,

dove la seconda uguaglianza discende dall’Osservazione 2 riportata sopra. Equivalente-


mente, possiamo definire F(X,Y ) in termini della distribuzione di (X, Y ):

F(X,Y ) (x, y) = P(X,Y ) ((−∞, x] × (−∞, y]), ∀ (x, y) ∈ R2 .

Nel caso multidimensionale, tuttavia, la funzione di ripartizione non è praticamente


utilizzata. Infatti conviene lavorare direttamente con la densità (discreta o continua).

1.2 Indipendenza di variabili aleatorie


Grazie al concetto di vettore aleatorio è possibile estendere la nozione di indipendenza,
già definita per gli eventi, alle variabili aleatorie.
Il significato intuitivo della nozione d’indipendenza di variabili aleatorie è il seguente:
più variabili aleatorie si dicono indipendenti se la conoscenza dei valori assunti da alcune
di esse non fornisce alcuna informazione sul valore che assumeranno le altre.
Matematicamente, n variabili aleatorie X1 , . . . , Xn si dicono indipendenti se gli eventi
da esse generati, ovvero

{X1 ∈ B1 } ... {Xn ∈ Bn }, al variare di tutti i sottoinsiemi B1 , . . . , Bn di R,

3
sono indipendenti. Riportiamo prima la definizione per due variabili aleatorie, poi per n
variabili aleatorie.

Definizione 1.3. Sia (Ω, P) uno spazio di probabilità. Due variabili aleatorie X e Y si
dicono indipendenti se

P(X ∈ B1 , Y ∈ B2 ) = P(X ∈ B1 ) P(Y ∈ B2 ),

per ogni B1 , B2 ⊂ R, o, equivalentemente,

P(X,Y ) (B1 × B2 ) = PX (B1 ) PY (B2 ).

In tal caso, scriviamo


X Y.

|=
Osservazione. Si dice anche che due variabili aleatorie sono indipendenti se la distri-
buzione congiunta si fattorizza nel prodotto delle marginali.

Definizione 1.4. Sia (Ω, P) uno spazio di probabilità. n variabili aleatorie X1 , . . . , Xn si


dicono indipendenti se
n
Y
P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = P(Xi ∈ Bi ),
i=1

per ogni B1 , . . . , Bn ⊂ R.

Concludiamo questa sezione con il seguente risultato, in cui si afferma che funzioni di
variabili aleatorie indipendenti sono indipendenti.

Proposizione 1.1. Siano X e Y variabili aleatorie indipendenti. Siano inoltre f : R → R


e g : R → R funzioni arbitrarie. Allora anche le variabili aleatorie

f (X) e g(Y )

sono indipendenti.

Dimostrazione. Siano B1 , B2 ⊂ R. Dobbiamo mostrare che


P(f (X) ∈ B1 , g(Y ) ∈ B2 ) = P(f (X) ∈ B1 ) P(g(Y ) ∈ B2 ).
Siano
f −1 (B1 ) =

x ∈ R : f (x) ∈ B1 ,
g −1 (B2 ) = y ∈ R : g(y) ∈ B2


le controimmagini di B1 e B2 tramite f e g, rispettivamente. Si noti che f −1 (B1 ) e g −1 (B2 )


sono sottoinsiemi di R. Allora
{f (X) ∈ B1 } = {X ∈ f −1 (B1 )} e {g(Y ) ∈ B2 } = {Y ∈ g −1 (B2 )}. (1.1)

4
Quindi

P(f (X) ∈ B1 , g(Y ) ∈ B2 ) = P(X ∈ f −1 (B1 ), Y ∈ g −1 (B2 ))


= P(X ∈ f −1 (B1 )) P(Y ∈ g −1 (B2 )),

|=
X Y

dove nella seconda uguaglianza abbiamo usato l’indipendenza di X e Y . Utilizzando


nuovamente le uguaglianze (1.1), si ottiene

P(X ∈ f −1 (B1 )) P(Y ∈ g −1 (B2 )) = P(f (X) ∈ B1 ) P(g(Y ) ∈ B2 ),

che conclude la dimostrazione. 

Osservazione. Come conseguenza della Proposizione 1.1 si deduce che se X e Y sono


indipendenti allora non può esistere alcuna dipendenza funzionale tra X e Y , tranne
nel caso in cui almeno una tra X e Y sia una costante1 .
In altri termini, non può esistere alcuna funzione f : R → R tale che

Y = f (X).

Infatti, supponiamo per assurdo che una tale funzione esista. Allora, applicando la Pro-
posizione 1.1 con questa funzione f e g : R → R funzione identità, quindi

g(y) = y, ∀ y ∈ R,

si ottiene che le variabili aleatorie

f (X) e g(Y ) = Y = f (X)

sono indipendenti. Quindi, per ogni B ⊂ R (scegliendo B1 = B2 = B nella definizione di


indipendenza),

P({f (X) ∈ B} ∩ {f (X) ∈ B}) = P(f (X) ∈ B) P(f (X) ∈ B).

Notando che {f (X) ∈ B} ∩ {f (X) ∈ B} = {f (X) ∈ B}, possiamo riscrivere questa


uguaglianza come segue:

P(f (X) ∈ B) = P(f (X) ∈ B)2 . (1.2)

Quest’ultima uguaglianza è verificata se e solo se P(f (X) ∈ B) è uguale a 0 oppure 1,


quindi se e solo se f (X) è costante, ossia Y è costante. Se invece Y non è costante, esiste
sicuramente un sottoinsieme B di R tale per cui

P(f (X) ∈ B) 6= 0 e P(f (X) ∈ B) 6= 1,

da cui si ottiene una contraddizione con (1.2).


1
Infatti, se ad esempio Y è costante (quindi Y = c) allora Y = f (X) scegliendo come funzione
f : R → R la funzione costante: f (x) = c, per ogni x ∈ R.

5
2 Vettori aleatori discreti
In questa sezione studiamo una particolare classe di vettori aleatori, i vettori aleatori
discreti (bidimensionali).

Definizione 2.1. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio. Si
dice che (X, Y ) è un vettore aleatorio discreto se sia X che Y sono variabili aleatorie
discrete.

Dalla definizione di vettore aleatorio discreto si intuisce che il vettore (X, Y ) assume solo
un numero finito (o al più infinito numerabile) di valori, dati al più da tutte le coppie
dell’insieme SX × SY . In altre parole, il2 “supporto” di (X, Y ) è un sottoinsieme di
SX × SY .
Come abbiamo visto per le variabili aleatorie discrete, anche nello studio dei vettori
aleatori discreti risulta particolarmente utile la densità discreta, che ora introduciamo.

Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio. La
funzione p(X,Y ) : R2 → [0, 1], data da

p(X,Y ) (x, y) = P(X = x, Y = y) = P((X, Y ) = (x, y)), ∀ (x, y) ∈ R2 ,

si chiama densità discreta congiunta di X e Y .


Infine, pX e pY si chiamano densità discrete marginali di X e Y , rispettivamente.

Si noti che p(X,Y ) (x, y) è la probabilità che il vettore aleatorio (X, Y ) assuma il valore
(x, y). Per tale ragione, p(X,Y ) (x, y) verifica necessariamente le disuguaglianze

0 ≤ p(X,Y ) (x, y) ≤ 1, ∀ (x, y) ∈ R2 .

Osservazione. In certi casi, come vedremo, è utile calcolare p(X,Y ) (x, y) tramite la regola
della catena:
p(X,Y ) (x, y) = P(X = x | Y = y) P(Y = y)
oppure
p(X,Y ) (x, y) = P(Y = y | X = x) P(X = x).

Le principali proprietà della densità discreta congiunta di X e Y sono riportate nel


seguente teorema.
2
Il supporto di (X, Y ) è l’insieme dei punti di R2 tali per cui p(X,Y ) (x, y) > 0, dove p(X,Y ) è la densità
discreta congiunta di X e Y definita nella Definizione 2.2. Tuttavia, nel caso bidimensionale invece di
introdurre un’ulteriore notazione si preferisce lavorare direttamente con l’insieme SX × SY , si veda a tal
proposito il Teorema 2.1.

6
Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio discreto.
Siano inoltre SX e SY i supporti di X e Y , rispettivamente. Valgono le seguenti proprietà.

1) p(X,Y ) (x, y) = 0, per ogni (x, y) ∈ / SX × SY .


P P
2) xi ∈SX yj ∈SY p(X,Y ) (xi , yj ) = 1.

3) Vale la formula
X
P((X, Y ) ∈ B) = p(X,Y ) (xi , yj ), ∀ B ⊂ R2 . (2.1)
(xi ,yj )∈B

P P
Notazione. La notazione xi ∈SX yj ∈SY p(X,Y ) (xi , yj ) indica una doppia sommatoria,
in cui prima si somma rispetto a yj , tenendo xi fissato, dopodiché si somma il risultato
cosı̀ ottenuto rispetto a xi .
Il risultato finale non cambia se si scambia l’ordine delle sommatorie, come conseguenza
della proprietà commutativa dell’addizione:
X X X X
p(X,Y ) (xi , yj ) = p(X,Y ) (xi , yj ).
xi ∈SX yj ∈SY yj ∈SY xi ∈SX

Come conseguenza di tale invarianza, questa doppia sommatoria è anche indicata come
segue: X
p(X,Y ) (xi , yj ).
(xi ,yj )∈SX ×SY

Infine, se è chiaro dal testo quale sia l’insieme SX × SY a cui appartengono le coppie
(xi , yj ), allora si scrive semplicemente
X
p(X,Y ) (xi , yj ),
i,j

sottintendendo che si esegue la somma su tutte le coppie (xi , yj ) ∈ SX × SY . Se invece


si esegue la somma solo sulle coppie di SX × SY che appartengono ad un determinato
sottoinsieme B di R2 , allora si scrive
X
p(X,Y ) (xi , yj ),
(xi ,yj )∈B

come accade nella formula (2.1).


Osservazione. Le proprietà 1) e 2) del Teorema 2.1 sono in effetti tra loro equivalenti.
Esse equivalgono a dire che il vettore aleatorio (X, Y ) assume con probabilità positiva al
più tutti e soli i valori in SX × SY .

2.1 Densità discreta congiunta e densità discrete marginali


Che relazione c’è tra la densità discreta congiunta p(X,Y ) e le marginali pX e pY ? Ricor-
diamo che
pX (xi ) = P(X = xi ),

7
pY (yj ) = P(Y = yj ),
p(X,Y ) (xi , yj ) = P(X = xi , Y = yj ).
Dalla formula delle probabilità totali otteniamo il seguente risultato.

Teorema 2.2. Sia (X, Y ) un vettore aleatorio discreto. Allora


X
pX (xi ) = p(X,Y ) (xi , yj ), ∀ xi ∈ SX ,
j
X
pY (yj ) = p(X,Y ) (xi , yj ), ∀ yj ∈ SY .
i

Dimostrazione. Dimostriamo solo la prima formula nel caso in cui SY è un insieme


finito: SY = {y1 , . . . , ym }. Quindi dobbiamo dimostrare che, per ogni xi ∈ SX fissato,
vale m
X
pX (xi ) = p(X,Y ) (xi , yj ).
j=i
Riscritta in termini di P diventa
m
X
P(X = xi ) = P(X = xi , Y = yj ). (2.2)
j=i

Poniamo
A = {X = xi }, Bj = {Y = yj }, ∀ j = 1, . . . , m.
Gli eventi B1 , . . . , Bm sono una partizione di Ω. Quindi, dalla formula delle probabilità
totali abbiamo che m
X
P(A) = P(A ∩ Bj ),
j=i

che corrisponde all’uguaglianza (2.2). 

Tabella della densità discreta congiunta. Nel caso in cui sia SX che SY sono
insiemi finiti, quindi
SX = {x1 , . . . , xn },
SY = {y1 , . . . , ym },
possiamo riportare i valori di p(X,Y ) in una tabella:

aa
Y
X aaa y1 y2 ··· ym pX
a
x1 p(X,Y ) (x1 , y1 ) p(X,Y ) (x1 , y2 ) ··· p(X,Y ) (x1 , ym ) pX (x1 )
x2 p(X,Y ) (x2 , y1 ) p(X,Y ) (x2 , y2 ) ··· p(X,Y ) (x2 , ym ) pX (x2 )
.. .. .. .. .. ..
. . . . . .
xn p(X,Y ) (xn , y1 ) p(X,Y ) (xn , y2 ) ··· p(X,Y ) (xn , ym ) pX (xn )
pY pY (y1 ) pY (y2 ) ··· pY (ym ) 1

8
Ai margini della tabella compaiono appunto le densità discrete marginali. Per il Teorema
2.2 si ha che i valori di pX si ottengono sommando i valori di p(X,Y ) che compaiono sulla
stessa riga. Analogamente, i valori di pY si ottengono sommando i valori di p(X,Y ) che
compaiono sulla stessa colonna. Infine, sommando i valori dell’ultima colonna (quindi i
valori di pX ) si ottiene 1. Analogamente, sommando i valori dell’ultima riga (quindi i
valori di pY ) si ottiene ancora 1. Questo spiega la presenza del numero 1 nell’angolo in
basso a destra della tabella.

2.2 Indipendenza e densità discreta congiunta


Come abbiamo visto con il Teorema 2.2, e come segue anche dalla tabella della densità
discreta congiunta, se si conosce p(X,Y ) allora è possibile ricostruire pX e pY . In altri
termini, se è nota la distribuzione congiunta di (X, Y ) allora è possibile determinare le
distribuzioni marginali di X e Y . Non è invece possibile, in generale, ricostruire la densità
discreta congiunta a partire dalle marginali. Infatti, esistono densità discrete congiunte
tra loro diverse ma con le stesse marginali. Un esempio è dato dalle seguenti tabelle:
aa aa
Y
X aaa y1 y2 pX Y
X aaa y1 y2 pX
a a
1 1 1 1 1
x1 2 0 2 x1 4 4 2
(2.3)
1 1 1 1 1
x2 0 2 2 x2 4 4 2
1 1 1 1
pY 2 2 1 pY 2 2 1

Tuttavia, se X e Y sono indipendenti allora esiste un’unica densità discreta congiunta


avente come marginali proprio quelle di X e Y , come affermato nel seguente teorema.

Teorema 2.3. Siano X e Y variabili aleatorie discrete. Allora X e Y sono indipendenti


se e solo se

p(X,Y ) (xi , yj ) = pX (xi ) pY (yj ), ∀ (xi , yj ) ∈ SX × SY . (2.4)

Osservazione. Si dice anche che due variabili aleatorie discrete sono indipendenti se
la densità discreta congiunta si fattorizza nel prodotto delle marginali. Ad
esempio, se si considerano le due tabelle in (2.3), in quella di sinistra X e Y non sono
indipendenti, mentre in quella di destra sono indipendenti. Dunque, la tabella di destra è
l’unica possibile affinché X e Y abbiamo quelle marginali e siano anche indipendenti.
Dimostrazione del Teorema 2.3. Dividiamo la dimostrazione in due passi.
1) Se vale (2.4) allora X e Y sono indipendenti. Siano B1 e B2 sottoinsiemi di R.
Dobbiamo mostrare che

P(X ∈ B1 , Y ∈ B2 ) = P(X ∈ B1 ) P(Y ∈ B2 ).

Poiché P(X ∈ B1 , Y ∈ B2 ) = P((X, Y ) ∈ B1 × B2 ), applicando la formula (2.1) otteniamo


X X X
P(X ∈ B1 , Y ∈ B2 ) = p(X,Y ) (xi , yj ) = p(X,Y ) (xi , yj ),
(xi ,yj )∈B1 ×B2 xi ∈B1 yj ∈B2

9
dove l’ultima uguaglianza segue dal fatto che essendo B1 × B2 un prodotto cartesiano,
possiamo prima sommare rispetto a yj e poi rispetto a xi , e viceversa.
Dalla (2.4) segue che
X X
P(X ∈ B1 , Y ∈ B2 ) = pX (xi ) pY (yj ).
xi ∈B1 yj ∈B2

La somma interna, in cui si somma rispetto a yj tenendo xi fissato, diventa


X X
pX (xi ) pY (yj ) = pX (xi ) pY (yj ) = pX (xi ) P (Y ∈ B2 ).
yj ∈B2 yj ∈B2

Quindi
X
P(X ∈ B1 , Y ∈ B2 ) = P (Y ∈ B2 ) pX (xi ) = P(X ∈ B1 ) P(Y ∈ B2 ).
xi ∈B1

2) Se X e Y sono indipendenti allora vale (2.4). Se sappiamo già che X e Y sono


indipendenti, allora applicando la definizione di indipendenza con B1 = {xi } e B2 = {yj }
si ottiene proprio l’uguaglianza (2.4). 

Esercizio 2.1. Siano X e Y variabili aleatorie discrete con densità discreta congiunta
parzialmente data da
X aYa −1
aa
5 10 pX
0 0.12 0.4
5
pY 0.3 1

(a) Completare la tabella in modo che X e Y siano indipendenti.

(b) Calcolare P(X < Y ).

(c) Calcolare P(|XY | ≥ 5) e P(X + Y > 5).

(d) Siano U = |XY | e V = X + Y . Trovare la densità discreta congiunta di U e V e le


densità marginali.

Soluzione.
(a) Sappiamo che l’ultima colonna deve avere come somma 1, quindi si ottiene

X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 1
Dal Teorema 2.3 sappiamo che affinché X e Y siano indipendenti la densità discreta
congiunta deve essere il prodotto delle marginali. In particolare, si ha che
p(X,Y ) (0, 5) 0.12
p(X,Y ) (0, 5) = pX (0) pY (5) =⇒ pY (5) = = = 0.3.
pX (0) 0.4

10
Quindi
X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 0.3 1
Poiché l’ultima riga deve avere come somma 1, otteniamo

X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 0.3 0.4 1

Adesso che abbiamo completamente determinato le densità marginali, per l’indipendenza


la densità discreta congiunta si ottiene facendo il prodotto. Quindi la tabella comple-
tata è data da aa Y
X aa −1 5 10 pX
0 0.12 0.12 0.16 0.4
5 0.18 0.18 0.24 0.6
pY 0.3 0.3 0.4 1

(b) Per la formula (2.1), si ha che


X
P(X < Y ) = p(X,Y ) (xi , yj ).
(xi ,yj ) : xi <yj

Le coppie (xi , yj ) che verificano la condizione xi < yj sono: (0, 5), (0, 10), (5, 10).
Quindi

P(X < Y ) = p(X,Y ) (0, 5) + p(X,Y ) (0, 10) + p(X,Y ) (5, 10) = 0.52.

(c) Procedendo come al punto precedendo, si ottiene

P(|XY | ≥ 5) = p(X,Y ) (5, −1) + p(X,Y ) (5, 5) + p(X,Y ) (5, 10) = pX (5) = 0.6,
P(X + Y > 5) = p(X,Y ) (0, 10) + p(X,Y ) (5, 5) + p(X,Y ) (5, 10) = 0.58.

(d) Iniziamo col determinare i valori di (U, V ) per ciascuna coppia di valori di (X, Y ). Si
ha che

se (X, Y ) = (0, −1) allora (U, V ) = (0, −1),


se (X, Y ) = (0, 5) allora (U, V ) = (0, 5),
se (X, Y ) = (0, 10) allora (U, V ) = (0, 10),
se (X, Y ) = (5, −1) allora (U, V ) = (5, 4),
se (X, Y ) = (5, 5) allora (U, V ) = (25, 10),
se (X, Y ) = (5, 10) allora (U, V ) = (50, 15).

11
Quindi SU = {0, 5, 25, 50} e SV = {−1, 4, 5, 10, 15}. Determiniamo ora p(U,V ) . Per
quanto visto qui sopra, abbiamo che

p(U,V ) (0, −1) = p(X,Y ) (0, −1),


p(U,V ) (0, 5) = p(X,Y ) (0, 5),
p(U,V ) (0, 10) = p(X,Y ) (0, 10),
p(U,V ) (5, 4) = p(X,Y ) (5, −1),
p(U,V ) (25, 10) = p(X,Y ) (5, 5),
p(U,V ) (50, 15) = p(X,Y ) (5, 10).

La tabella della densità discreta congiunta di U e V è dunque la seguente:


V
aa
U aaa −1 4 5 10 15 pU
0 0.12 0 0.12 0.16 0 0.4
5 0 0.18 0 0 0 0.18
25 0 0 0 0.18 0 0.18
50 0 0 0 0 0.24 0.24
pV 0.12 0.18 0.12 0.34 0.24 1

Le densità marginali di U e V si ottengono sommando rispettivamente lungo le righe


e lungo le colonne.


2.3 Valore atteso e varianza di una funzione di (X, Y )


Nel seguito capiterà spesso di dover calcolare valore atteso e varianza di una funzione di
(X, Y ):
h(X, Y ).
Risulta dunque particolarmente utile il seguente risultato.

Teorema 2.4. Siano (X, Y ) un vettore aleatorio discreto e h : R2 → R. Allora


X
E[h(X, Y )] = h(xi , yj ) p(X,Y ) (xi , yj )
i,j

e
 2  X 
Var(h(X, Y )) = E h(X, Y ) − E[h(X, Y )] = h(xi , yj ) − E[h(X, Y )] p(X,Y ) (xi , yj ).
i,j

Vale inoltre la formula


2  X
Var(h(X, Y )) = E h(X, Y ) −E[h(X, Y )]2 = (h(xi , yj ))2 p(X,Y ) (xi , yj )−E[h(X, Y )]2 .

i,j

12
Dalla formula del valore atteso di h(X, Y ) discendono i seguenti due risultati, riguardanti
il valore atteso della somma e del prodotto di (X, Y ), che corrispondono dunque ai casi
in cui h(x, y) = x + y e h(x, y) = xy. Il primo risultato, che riguarda appunto la somma
di X e Y , esprime la proprietà di linearità del valore atteso.

Corollario 2.1. Siano X e Y variabili aleatorie discrete. Siano inoltre a e b due numeri
reali fissati. Allora
E[aX + bY ] = aE[X] + bE[Y ].

Dimostrazione. Applicando il Teorema 2.4 con h(x, y) = ax + by, si ottiene


X
E[aX + bY ] = (axi + byj ) p(X,Y ) (xi , yj )
i,j
X X
= a xi p(X,Y ) (xi , yj ) + b yj p(X,Y ) (xi , yj )
i,j i,j
X X X X
= a xi p(X,Y ) (xi , yj ) +b yj p(X,Y ) (xi , yj )
i j j
| {z } |i {z }
pX (xi ) pY (yj )
X X
=a xi pX (xi ) + b yj pY (yj ) = aE[X] + bE[Y ].
i j

Corollario 2.2. Siano X e Y variabili aleatorie discrete. Se X e Y sono indipendenti


allora
E[XY ] = E[X] E[Y ].

Osservazione. Si noti che, in generale, non vale il viceversa: se E[XY ] = E[X]E[Y ]


non si può concludere che X e Y sono indipendenti.
Dimostrazione. Applicando il Teorema 2.4 con h(x, y) = xy, si ottiene
X
E[XY ] = xi yj p(X,Y ) (xi , yj )
i,j
X
= xi yj pX (xi ) pY (yj )

indipendenza i,j
X  X 
= xi pX (xi ) yj pY (yj ) = E[X] E[Y ].
i j

13
2.4 Indici di sintesi della distribuzione di un vettore aleatorio
discreto
La distribuzione o legge di un vettore aleatorio bidimensionale (X, Y ) può essere descritta
in maniera sintetica tramite le seguenti quantità:

E[X], E[Y ], Var(X), Var(Y ), Cov(X, Y ),

dove Cov(X, Y ) è la covarianza di X e Y , che ora definiamo. Come vedremo la covarianza


è una misura della “dipendenza” tra X e Y .

Definizione 2.3. Siano X e Y variabili aleatorie discrete. La covarianza di X e Y è


data da
  X
Cov(X, Y ) = E (X − E[X]) (Y − E[Y ]) = (xi − E[X]) (yj − E[Y ]) p(X,Y ) (xi , yj ).
i,j

Se Cov(X, Y ) = 0, le variabili aleatorie X e Y si dicono scorrelate.

Osservazione 1. Si noti che la covarianza di X e Y è definita come il valore atteso


della variabile aleatoria h(X, Y ), dove

h(x, y) = (x − E[X]) (y − E[Y ]).

Quindi la seconda uguaglianza nella Definizione 2.3 di covarianza è una conseguenza del
Teorema 2.4.
Osservazione 2. Si noti che

Cov(X, X) = Var(X).

Osservazione 3. Si noti che la covarianza è simmetrica

Cov(X, Y ) = Cov(Y, X).

Per calcolare la covarianza di X e Y è utile la seguente formula.

Teorema 2.5. Siano X e Y variabili aleatorie discrete. Vale che


X
Cov(X, Y ) = E[XY ] − E[X] E[Y ] = xi yj p(X,Y ) (xi , yj ) − E[X] E[Y ].
i,j

Quindi se le variabili aleatorie X e Y sono indipendenti allora sono scorrelate.

Dimostrazione. Dimostriamo la prima uguaglianza, dato che la seconda è una conse-


guenza del Teorema 2.4.
Per definizione, si ha che
   
Cov(X, Y ) = E (X − E[X]) (Y − E[Y ]) = E XY − X E[Y ] − E[X] Y + E[X] E[Y ] .

14
Dalla linearità del valore atteso, si ottiene (si noti che E[X] e E[Y ] sono costanti)

Cov(X, Y ) = E[XY ] − E[X] E[Y ] − E[X] E[Y ] + E[X] E[Y ] = E[XY ] − E[X] E[Y ].

Infine se le variabili aleatorie X e Y sono indipendenti allora dal Corollario 2.2 si ha che

E[XY ] = E[X] E[Y ],

quindi Cov(X, Y ) = 0, ovvero X e Y sono scorrelate. 

La covarianza interviene nella formula della varianza di X + Y .

Teorema 2.6. Siano X e Y variabili aleatorie discrete. Vale che

Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ).

Quindi se X e Y sono scorrelate vale che

Var(X + Y ) = Var(X) + Var(Y ).

Dimostrazione. Applicando il Teorema 2.4 con h(x, y) = x + y, si ottiene


 2   2 
Var(X + Y ) = E X + Y − E[X + Y ] = E X + Y − E[X] − E[Y ]
 2 2  
= E X − E[X] + Y − E[Y ] + 2 X − E[X] Y − E[Y ]
= Var(X) + Var(Y ) + 2 Cov(X, Y ).

Osservazione. La covarianza è un indicatore di dipendenza tra due variabili aleatorie


X e Y . Più precisamente, supponiamo3 che Var(X) > 0 e Var(Y ) > 0. In tal caso, ha
senso definire il coefficiente di correlazione
Cov(X, Y )
ρX,Y = p p .
Var(X) Var(Y )

Si può dimostrare che


−1 ≤ ρX,Y ≤ 1.
Ricordiamo che se Cov(X, Y ) = 0 allora X e Y si dicono scorrelate. Si noti che
Cov(X, Y ) = 0 equivale a ρX,Y = 0. Al contrario, quando la correlazione è massima
in valore assoluto (quindi ρX,Y = −1 oppure ρX,Y = 1), si ha che

ρX,Y = ±1 ⇐⇒ Y = a X + b.

Più precisamente, ρX,Y = ±1 se e solo se esistono due costanti a 6= 0 e b ∈ R tali che


Y = a X + b. La correlazione misura dunque se esiste tra X e Y una dipendenza di
tipo lineare. Quindi quando X e Y sono scorrelate (Cov(X, Y ) = 0) significa solamente
3
Ricordiamo che Var(X) > 0 se e solo se X non è costante.

15
che non esiste una dipendenza lineare tra X e Y . Ricordiamo invece che se X e Y sono
indipendenti allora non esiste alcuna dipendenza funzionale tra X e Y (non solo di tipo
lineare). Perciò se sappiamo solamente che Cov(X, Y ) = 0 non possiamo dire che X e Y
sono indipendenti. Riassumendo:

X Y =⇒ Cov(X, Y ) = 0,

|=
invece
X Y ⇐=
6 Cov(X, Y ) = 0.

|=
Esercizio 2.2. Siano X ed Y variabili aleatorie discrete indipendenti entrambe con
distribuzione di Bernoulli di parametro p = 12 , quindi

X ∼ B 12 , Y ∼ B 21 ,
 
X Y.

|=
Siano U = X + Y e V = |X − Y |.

(a) Determinare la densità discreta congiunta di U e V e le densità marginali.

(b) Calcolare la probabilità che V sia minore di U .

(c) Calcolare la varianza di U , la varianza di V e la covarianza di U e V .

(d) U e V sono indipendenti?

Soluzione.

(a) Notiamo che


aa
Y
X aaa 0 1 pX
a
1 1 1
0 4 4 2
1 1 1
1 4 4 2
1 1
pY 2 2 1
Per quanto riguarda U e V , si ha SU = {0, 1, 2} e SV = {0, 1}. Inoltre
1
p(U,V ) (0, 0) = p(X,Y ) (0, 0) = ,
4
p(U,V ) (0, 1) = 0,
p(U,V ) (1, 0) = 0,
1
p(U,V ) (1, 1) = p(X,Y ) (0, 1) + p(X,Y ) (1, 0) = ,
2
1
p(U,V ) (2, 0) = p(X,Y ) (1, 1) = ,
4
p(U,V ) (2, 1) = 0.

16
Quindi
V
aa
U aaa 0 1 pU
1 1
0 4 0 4
1 1
1 0 2 2
1 1
2 4 0 4
1 1
pV 2 2 1
Le densità marginali di U e V si ottengono sommando rispettivamente lungo le righe
e lungo le colonne.

(b) Per la formula (2.1), si ha che


X
P(V < U ) = p(U,V ) (ui , vj ).
vj <ui

Le coppie (ui , vj ) che verificano la condizione vj < ui sono: (1, 0), (2, 0), (2, 1). Quindi
1
P(V < U ) = p(U,V ) (1, 0) + p(U,V ) (2, 0) + p(U,V ) (2, 1) = p(U,V ) (2, 0) = .
4

(c) Iniziamo col calcolare E[U ] e E[U 2 ]:


1 1 1
E[U ] = 0 × +1× +2× = 1
4 2 4
1 1 1 3
E[U 2 ] = 02 × + 12 × + 22 × = .
4 2 4 2
Quindi
1
Var(U ) = E[U 2 ] − E[U ]2 = .
2
Per quanto riguarda V , si può procedere come per U , oppure notare che V ∼ B(1/2),
quindi
1
Var(V ) = .
4
Resta da determinare Cov(U, V ). Iniziamo col calcolare E[U V ]:
X
E[U V ] = ui vj p(U,V ) (ui , vj )
i,j
1 1 1
= 0×0× +0×1×0+1×0×0+1×1× +2×0× +2×1×0
4 2 4
1
= .
2
Quindi (si noti che E[V ] = 1/2)

Cov(U, V ) = E[U V ] − E[U ] E[V ] = 0.

Quindi le variabili aleatorie U e V sono scorrelate.

17
(d) No, infatti, ad esempio, p(U,V ) (0, 1) 6= pU (0) pV (1). Quindi U e V non possono
essere indipendenti per il Teorema 2.3. (A conferma della non indipendenza di U e
V , notiamo che esiste una dipendenza funzionale tra queste due variabili aleatorie,
infatti: V = U mod 2)

18
Calcolo delle Probabilità e Statistica 2019/2020

TEOREMI LIMITE
1 Introduzione
L’argomento di questo capitolo ha come principale motivazione le applicazioni alla Sta-
tistica. Più precisamente, supponiamo di essere interessati ad un esperimento aleatorio
e, in particolare, ad una variabile aleatoria ad esso collegata. Indichiamo tale variabile
aleatoria con X. Come possiamo determinare, o meglio “stimare”, la distribuzione di X?
Per stimare la distribuzione di X, un buon punto di partenza consiste nello stimare la
media di tale distribuzione, cioè E[X]. In questo capitolo forniremo le basi teoriche per
lo studio del seguente problema: data una qualunque variabile aleatoria X, come si stima
E[X]?
Si noti che saper stimare il valore atteso di una qualunque variabile aleatoria X, signi-
fica non solo saper stimare E[X] ma anche E[f (X)] con f : R → R funzione arbitraria. Si
può dimostrare che la conoscenza di tutti i valori attesi E[f (X)], con f funzione arbitraria,
sono equivalenti alla conoscenza della distribuzione di X. In altre parole, saper stimare
E[X], con X arbitraria, permette di risolvere, per lo meno a livello teorico, il problema
che abbiamo posto all’inizio: data una qualunque variabile aleatoria X, come si stima la
distribuzione di X?
Notiamo che saper stimare il valore atteso di una qualunque variabile aleatoria X
significa anche saper stimare la probabilità di un qualunque evento A. Infatti, è sufficiente
scegliere X = 1A , la variabile aleatoria indicatrice relativa all’evento A, e ricordare che
P(A) = E[1A ].
Sia dunque X una generica variabile aleatoria di cui si vuole stimare il valore atteso.
Per ottenere una “stima” si segue questo classico procedimento della Statistica: si ripete
un numero “elevato” di volte l’esperimento aleatorio, ogni volta registrando quale valore
ha assunto la variabile aleatoria X. Si ottiene dunque una sequenza di valori numerici1 :

x1 x2 x3 ··· xn

Una sequenza ottenuta in questo modo si chiama un campione di dati. Come otteniamo
a partire da x1 , x2 , x3 , . . . , xn una stima di E[X]? Come vedremo in questo capitolo, una
scelta naturale è quella di considerare la media aritmetica di x1 , x2 , x3 , . . . , xn :
x1 + x2 + x3 + · · · + xn
E[X] ' . (1.1)
n
La media aritmetica del campione x1 , x2 , x3 , . . . , xn si chiama anche media campionaria e
si indica con il simbolo x̄n , quindi
x1 + x2 + x3 + · · · + xn
x̄n = .
n
Come motivazione della stima (1.1) è utile ricordare quanto visto nel problema del gior-
nalaio (si veda il capitolo riguardante le variabili aleatorie discrete). Nella risoluzione di
tale problema si introduce la variabile aleatoria

X = “no di copie richieste”.


1
Indichiamo i valori assunti da X nei vari esperimenti con lettere minuscole dato che non sono aleatori,
infatti stiamo supponendo che gli esperimenti si siano già svolti e noi ne conosciamo l’esito.

2
Per determinare la distribuzione di X si “ripete l’esperimento aleatorio 50 volte”, ovvero
si osserva cosa accade in cinquanta giorni. Supponiamo ad esempio che questi siano i dati
ottenuti (qui xi indica il no di copie richieste l’i-esimo giorno):
x1 = 6, x2 = 3, x3 = 5, x4 = 8, x5 = 4, x6 = 7, x7 = 3, x8 = 5,
x9 = 2, x10 = 1, x11 = 9, x12 = 3, x13 = 5, x14 = 6, x15 = 6, x16 = 4,
x17 = 5, x18 = 5, x19 = 7, x20 = 2, x21 = 8, x22 = 4, x23 = 0, x24 = 3,
x25 = 3, x26 = 9, x27 = 8, x28 = 4, x29 = 4, x30 = 6, x31 = 5, x32 = 10,
x33 = 6, x34 = 5, x35 = 4, x36 = 7, x37 = 6, x38 = 4, x39 = 5, x40 = 6,
x41 = 5, x42 = 4, x43 = 3, x44 = 2, x45 = 4, x46 = 6, x47 = 4, x48 = 5,
x49 = 6, x50 = 5.
Riportiamo tali dati in forma aggregata nella seguente tabella:
no copie richieste no giorni frequenza relativa
1
0 1 50
1
1 1 50
3
2 3 50
6
3 6 50
10
4 10 50
11
5 11 50
9
6 9 50
3
7 3 50
3
8 3 50
2
9 2 50
1
10 1 50

Supponendo che tali dati siano significativi (ovvero che in futuro l’andamento delle richie-
ste non si scosterà significativamente da quanto riportato in tabella), risulta ragionevole
supporre che X sia una variabile aleatoria discreta con supporto
SX = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
e densità discreta data da
X 0 1 2 3 4 5 6 7 8 9 10
1 1 3 6 10 11 9 3 3 2 1
pX 50 50 50 50 50 50 50 50 50 50 50
Abbiamo dunque “determinato”, o meglio stimato, direttamente la distribuzione di X,
quindi in particolare anche la sua media E[X]. Infatti
1 1 3 6 10 11 9 3 3 2 1
E[X] = 0 · +1· +2· +3· +4· +5· +6· +7· +8· +9· + 10 ·
50 50 50 50 50 50 50 50 50 50 50
x1 + x2 + x3 + · · · + x50
= .
50
In conclusione, come si vede da questo esempio, la formula (1.1) coincide con quanto si
ottiene stimando direttamente la distribuzione di X tramite le frequenze relative.

3
2 Successioni di variabili aleatorie i.i.d.
Iniziamo a formalizzare il problema presentato nella sezione precedente, ovvero data una
qualunque variabile aleatoria X, come si stima E[X]? Immaginiamo dunque di ripete-
re l’esperimento aleatorio a cui siamo interessati infinite 2 volte. Prima di eseguire tali
esperimenti, il valore assunto dalla variabile aleatoria di interesse è da ritenersi aleatorio.
Quindi è naturale considerare una successione di variabili aleatorie che rappresenta gli
ipotetici valori assunti dalla variabile aleatoria di interesse nei vari esperimenti:

X1 X2 X3 ··· Xn ···

La lettera maiuscola sta dunque ad indicare che gli esperimenti devono ancora essere svolti
e le quantità sono quindi aleatorie. Solo dopo aver eseguito gli esperimenti conosceremo
i valori da esse assunti, che saranno indicati con le lettere minuscole x1 , x2 , x3 , . . . , xn , . . .
La successione X1 , X2 , X3 , . . . , Xn , . . . verrà indicata anche con il simbolo

(Xn )n .

Per quanto detto finora è chiaro che le variabili aleatorie X1 , X2 , X3 , . . . , Xn , . . . verificano


la seguente proprietà.

1) Le variabili aleatorie X1 , X2 , X3 , . . . , Xn , . . . hanno tutte la stessa distribuzione.

Infatti sono repliche della variabile aleatoria X, quindi hanno tutte la stessa distribuzione
di X. In particolare, hanno lo stesso valore atteso pari a E[X] (ma anche ad esempio la
stessa varianza).
Un’altra richiesta naturale è la seguente.

2) Le variabili aleatorie X1 , X2 , X3 , . . . , Xn , . . . sono indipendenti.

Tale proprietà equivale a dire che le varie ripetizioni dell’esperimento aleatorio sono ese-
guite in modo tale che non ci siano influenze tra di loro. La prossima definizione chiarisce
il significato di successione di variabili aleatorie indipendenti.

Definizione 2.1. (Xn )n è una successione di variabili aleatorie indipendenti se


sono indipendenti tutte le sottofamiglie finite

Xi1 , Xi2 , . . . , Xik

al variare di k = 2, . . . , n, . . . e degli indici i1 , . . . , ik , tutti distinti tra loro.

Nel seguito considereremo sempre successioni di variabili aleatorie che verificano le pro-
prietà 1) e 2). Risulta quindi utile la seguente definizione.
2
Chiaramente nella realtà potremo fare solo un numero finito, anche se “elevato”, di ripetizioni.

4
Definizione 2.2. (Xn )n è una successione di variabili aleatorie i.i.d.a se valgono
le seguenti due proprietà:

1) X1 , X2 , . . . , Xn , . . . hanno tutte la stessa distribuzione;

2) (Xn )n è una successione di variabili aleatorie indipendenti.


a
i.i.d. sta per indipendenti e identicamente distribuite.

3 Legge dei grandi numeri (LGN)


Iniziamo con un risultato preliminare, particolarmente importante.

Teorema 3.1 (Disuguaglianza di Chebyshev). Sia Y una variabile aleatoria con


media µ. Per ogni ε > 0, vale che
 Var(Y )
P |Y − µ| > ε ≤ .
ε2

Dimostrazione. Sia
(
1, se |Y − µ| > ε,
Z = 1{|Y −µ|>ε} =
0, altrimenti.

In altre parole, Z è la variabile aleatoria indicatrice relativa all’evento {|Y − µ| > ε}.
Quindi, in particolare, Z ∼ B(p) con

p = P |Y − µ| > ε .

Si noti che

Var(Y ) = E (Y − µ)2
 

≥ E (Y − µ)2 1{|Y −µ|>ε}


 

≥ E ε2 1{|Y −µ|>ε} = ε2 E 1{|Y −µ|>ε} = ε2 E[Z].


   

Dato che Z ∼ B(p), si ha che E[Z] = p = P(|Y − µ| > ε), quindi

Var(Y ) ≥ ε2 P |Y − µ| > ε .


Passiamo ora alla Legge dei grandi numeri. Consideriamo dunque una successione di
variabili aleatorie i.i.d.

X1 X2 X3 ··· Xn ···

5
o, più sinteticamente, (Xn )n . Indichiamo con µ e σ 2 rispettivamente la loro media e la
loro varianza. Per ogni n fissato, definiamo la media campionaria delle prime n variabili
aleatorie come segue:
X1 + · · · + Xn
X̄n = .
n
Si noti che X̄n è anch’essa una variabile aleatoria, infatti il suo valore non è ancora noto.
Sarà noto solo dopo aver svolto i primi n esperimenti. A quel punto indicheremo il suo
valore con la lettera minuscola x̄n .
Come abbiamo sottolineato all’inizio, la media campionaria si usa in Statistica per
stimare la vera media µ delle variabili aleatorie X1 , . . . , Xn , . . .. Questa è una conseguenza
della Legge dei grandi numeri, la quale stabilisce che X̄n “converge” verso µ quando n
tende all’infinito.

Teorema 3.2 (Legge dei grandi numeri). Sia (Xn )n una successione di variabili
aleatorie i.i.d. con media µ e varianza σ 2 . Allora, posto
X1 + · · · + Xn
X̄n = ,
n
si ha 
∀ ε > 0, lim P |X̄n − µ| > ε = 0. (3.1)
n→+∞

Inoltre, vale che


 σ2
P |X̄n − µ| > ε ≤ . (3.2)
ε2 n

Notazione. Se vale che



∀ ε > 0, lim P |X̄n − µ| > ε = 0,
n→+∞

si dice che X̄n converge in probabilità a µ quando n tende all’infinito. In tal caso, si
scrive
P
X̄n −→ µ.
n→+∞

Osservazione. La (3.2) fornisce una stima della velocità di convergenza in probabilità.


Dimostrazione della Legge dei grandi numeri. La dimostrazione consiste nell’appli-
cazione della disuguaglianza di Chebyshev alla variabile aleatoria X̄n . Per applicare tale
disuguaglianza, dobbiamo prima calcolare media e varianza di X̄n .
La media di X̄n si calcola usando la linearità del valore atteso:
 
X1 + · · · + X n 1
E[X̄n ] = E = E[X1 + · · · + Xn ]
n n
1 
= E[X1 ] + · · · + E[Xn ]
↑ n
linearità di E[·]
1
= n µ = µ.
↑ n
ident. distr.

6
Quindi anche X̄n ha media µ.
Per quanto riguarda la varianza, grazie all’indipendenza di X1 , . . . , Xn si ha che
 
X1 + · · · + Xn 1
Var(X̄n ) = Var = 2 Var(X1 + · · · + Xn )
n n
1 
= Var(X 1 ) + · · · + Var(X n )
↑ n2
indipendenza

1 2 σ2
= n σ = .
↑ n2 n
ident. distr.

Adesso, per ogni ε > 0 fissato, applicando la disuguaglianza di Chebyshev alla variabile
aleatoria X̄n , otteniamo

Var(X̄n ) σ2
P(|X̄n − µ| > ε) ≤ = ,
ε2 ε2 n
che dimostra la formula (3.2). Dimostriamo infine la formula (3.1). Poiché

σ2
0 ≤ P(|X̄n − µ| > ε) ≤ −→ 0,
ε2 n n→+∞

concludiamo che 
lim P |X̄n − µ| > ε = 0.
n→+∞

7
3.1 Metodo Monte Carlo
La Legge dei grandi numeri è alla base di un metodo numerico probabilistico molto
importante, noto come metodo Monte Carlo 3 . Consideriamo il seguente problema.
Z b
Come si può approssimare f (x) dx, con f funzione integrabile?
a
R1
Per semplicità, consideriamo il caso a = 0 e b = 1, quindi l’integrale diventa 0
f (x) dx.
Possiamo riscrivere questo integrale come valore atteso:
Z 1
f (x) dx = E[f (U )],
0

dove U ∼ Unif (0, 1). Ci siamo dunque ricondotti al problema di stimare il valore atteso
della variabile aleatoria X = f (U ). Il metodo Monte Carlo consiste nell’approssima-
re numericamente il valore atteso E[f (U )] facendo uso della Legge dei grandi numeri.
Più precisamente, sia (Un )n una successione di variabili aleatorie i.i.d. con la medesima
distribuzione di U , quindi uniforme su (0, 1). Definiamo

Xn = f (Un ), ∀ n.

Allora (Xn )n è ancora una successione di variabili aleatorie i.i.d., con la medesima distri-
buzione di f (U ). Quindi, per la Legge dei grandi numeri,
Z 1
f (U1 ) + · · · + f (Un ) P
−→ E[f (U )] = f (x) dx.
n n→+∞ 0

L’implementazione del metodo Monte Carlo si basa sull’utilizzo dei generatori aleatori.
Nell’esempio qui considerato, per approssimare E[f (U )] si genera una sequenza di numeri
3
Il metodo Monte Carlo è stato sviluppato nell’ambito della ricerca nucleare. La sua nascita si at-
tribuisce in particolare al matematico polacco Stanislaw Ulam, che lavorava nell’ambito del progetto
Manhattan. Anche il fisico italiano Enrico Fermi e il matematico ungherese John von Neumann hanno
contribuito alla nascita di questo metodo. Il nome è stato coniato successivamente dal matematico statu-
nitense Nicholas Metropolis (anch’egli all’interno del progetto Manhattan), facendo proprio riferimento
alla città di Monte Carlo e al suo casinò. Nella sua autobiografia Ulam descrive come l’idea gli sia venuta
cercando di calcolare la probabilità di vincere al solitario. Più precisamente, si consideri un mazzo di 52
carte. La riuscita o meno del solitario dipende solamente da come sono ordinate le carte nel mazzo. In
totale ci sono 52! ordinamenti. Quindi
numero di solitari riusciti
P(“vincere”) = .
52!
Come racconta egli stesso: “L’idea del metodo Monte Carlo mi è venuta giocando a carte un solitario
durante un periodo di convalescenza, nel 1946. Avevo sprecato un mucchio di tempo per calcolare, senza
successo, con tecniche combinatorie, la probabilità di riuscita del solitario. Pensai allora che, giocando
un centinaio di volte il solitario, avrei potuto stimare questa probabilità con la frequenza delle volte con
cui era riuscito, aggirando cosı̀ con la pratica il pensiero astratto. Questo metodo era ormai possibile,
visto l’avvento dei calcolatori veloci. Era ovvio pensare anche a soluzioni simili per problemi legati alla
diffusione dei neutroni o di fisica matematica e, più in generale, a come scambiare processi descritti
da certe equazioni differenziali con un modello equivalente interpretabile come successione di operazioni
aleatorie. In seguito descrissi l’idea a John von Neumann e cominciammo a realizzare veri e propri calcoli
matematici al riguardo.”

8
casuali con distribuzione uniforme su (0, 1), quindi

u1 u2 ··· un

Tali numeri sono scritti con la lettera minuscola in quanto sono noti, infatti sono i numeri
forniti dal generatore aleatorio. Dopodiché, si calcola la quantità
f (u1 ) + · · · + f (un )
.
n
R1
Se n è “elevato” si ottiene una buona approssimazione dell’integrale 0 f (x) dx.
I principali vantaggi rispetto ai metodi deterministici di integrazione numerica sono i
seguenti:
• non si richiedono ipotesi di regolarità sulla funzione integranda f ;

• l’ordine di convergenza del metodo, che è √1n come seguirà dal Teorema centra-
le del limite, è indipendente dalla dimensione e l’implementazione del metodo in
dimensione maggiore di uno non comporta alcuna difficoltà aggiuntiva.

3.2 Metodo del gradiente stocastico


In questa sezione presentiamo un altro metodo numerico, noto come metodo del gra-
diente stocastico, particolarmente importante nell’ambito delle reti neurali. Iniziamo col
descrivere il metodo del gradiente, che è un metodo completamente deterministico.

Metodo del gradiente. Sia f : Rd → R e consideriamo il seguente problema4 di


ottimizzazione:

Trovare x∗ ∈ Rd punto di minimo di f : f (x∗ ) = min f (x). (3.3)


x

Quando f verifica opportune ipotesi di regolarità, il metodo del gradiente permette di


determinare in modo approssimato un tale punto x∗ . Alla base di questo metodo vi è
una proprietà del gradente che ora richiamiamo. Innanzitutto, ricordiamo che il gradiente
di f calcolato nel punto x = (x1 , . . . , xd ), indicato con ∇f (x), è il vettore delle derivati
parziali prime:  ∂f 
∂x1
(x)
∇f (x) =  ..
.
 
.
∂f
∂xd
(x)
Il vettore ∇f (x) rappresenta l’incremento infinitesimo della funzione f nel punto x, si
deduce dunque la seguente fondamentale proprietà: se a partire da x ci muoviamo lungo il
grafico di f , allora le direzioni di massima crescita e massima decrescita sono individuate
rispettivamente dai vettori ∇f (x) e −∇f (x).
Veniamo dunque alla descrizione del metodo del gradiente. Per determinare x∗ si
procede in modo iterativo:
4
Se invece che al minimo siamo interessati al massimo basta notare che un punto di massimo di f è
un punto di minimo di −f . Si applica dunque il metodo del gradiente alla funzione −f .

9
• al passo 0, si sceglie in modo arbitrario un punto di partenza x0 ∈ Rd ;

• al generico passo k = 1, 2, 3, . . ., in cui sono già stati determinati i valori x0 , x1 , . . . , xk ,


si determina xk+1 come segue:

xk+1 = xk + αk v k , (3.4)

dove:

– v k è un vettore di lunghezza unitaria (detto anche versore), che individua la


direzione in Rd lungo cui muoversi;
– αk è un numero reale strettamente positivo che rappresenta la distanza da
compiere lungo la direzione v k .

La direzione ottimale lungo cui muoversi ad ogni passo k è quella che congiunge xk a x∗ ,
che tuttavia non è ovviamente nota a priori. Dato che x∗ è un punto di minimo, l’idea
più naturale è prendere come direzione quella di massima decrescita, data da −∇f (xk ).
Per tale ragione, il metodo del gradiente corrisponde al seguente schema iterativo:

xk+1 = xk − βk ∇f (xk ).

La quantità che qui abbiamo chiamato βk non corrisponde in generale al parametro


αk che compare in (3.4), infatti ∇f (xk ) non ha generalmente lunghezza unitaria. Più
precisamente, vale la relazione

∇f (xk )
α k = βk .
lunghezza di ∇f (xk )

Quando f verifica opportune ipotesi di regolarità, vale che

lim f (xk ) = f (x∗ ).


k→+∞

Metodo del gradiente stocastico. Nell’ambito delle reti neurali si è interessati


al problema di ottimizzazione (3.3) per una particolare funzione f , avente la seguente
espressione:
n
1X
f (x) = fi (x), ∀ x ∈ Rd .
n i=1
In altre parole, f è la media aritmetica di n funzioni qui indicate con f1 , . . . , fn . Il metodo
del gradiente applicato ad una tale funzione corrisponde al seguente schema iterativo:
n
1X
xk+1 = x k − βk ∇fi (xk ).
n i=1

Se n è molto elevato può essere particolarmente oneroso determinare xk+1 . Il metodo del
gradiente stocastico consiste dunque nell’individuare, ad ogni passo k, un sottoinsieme di
addendi in modo casuale; sono tali addendi i soli che vengono utilizzati al passo k per
determinare xk+1 .

10
4 Teorema centrale del limite (TCL)
Come nel caso della Legge dei grandi numeri, consideriamo una successione (Xn )n di
variabili aleatorie i.i.d. e indichiamo con µ e σ 2 media e varianza di ciascuna variabile
aleatoria Xn . Sia inoltre
X1 + · · · + Xn
X̄n = .
n
Grazie alla Legge dei grandi numeri sappiamo che vale la convergenza
P
X̄n −→ µ.
n→+∞

Il Teorema centrale del limite5 descrive come avviene questa convergenza, o più precisa-
mente, ci dice qual è approssimativamente la distribuzione di X̄n per n grande.
Prima di enunciare il Teorema centrale del limite, è utile introdurre la variabile aleatoria
Z̄n data da
X̄n − µ
Z̄n = σ .

n

Si noti che
E[Z̄n ] = 0, Var(Z̄n ) = 1.
La variabile aleatoria Z̄n si chiama media campionaria standardizzata.

Teorema 4.1 (Teorema centrale del limite). Sia (Xn )n una successione di variabili
aleatorie i.i.d. con media µ e varianza σ 2 . Supponiamo che σ > 0. Allora, posto

X̄n − µ
Z̄n = ,
√σ
n

si ha
lim P(Z̄n ≤ x) = lim FZ̄n (x) = Φ(x), ∀ x ∈ R,
n→+∞ n→+∞
Rx 1 2
dove Φ(x) = −∞
√1

e− 2 y dy è la funzione di ripartizione della distribuzione normale
standard.

Osservazione 1. Se σ = 0, il Teorema centrale del limite non vale. Tuttavia, in tal caso
possiamo dire molto di più sulla successione X̄n . Infatti, se σ = 0 allora ciascuna variabile
aleatoria Xn è costante e inoltre Xn = µ. Di conseguenza, anche X̄n = µ, mentre Z̄n = 0,
per ogni n.
Osservazione 2. Se vale che

lim FZ̄n (x) = Φ(x), ∀ x ∈ R,


n→+∞

5
Il nome “Teorema centrale del limite” (o “Teorema limite centrale”) è stato dato dal matematico
ungherese George Pólya per sottolineare come tale teorema abbia un ruolo centrale in Probabilità e
Statistica.

11
si dice che Z̄n converge in legge (o in distribuzione) ad una variabile aleatoria
normale standard quando n tende all’infinito. In tal caso, si scrive
L
Z̄n −→ Z ∼ N (0, 1).
n→+∞

Osservazione 3. Sulla base dell’esperienza empirica, generalmente si applica il valore


n = 30 come soglia di applicabilità del Teorema centrale del limite. Tuttavia questa soglia
funziona bene solo per distribuzioni simmetriche. Se la distribuzione è particolarmente
asimmetrica, bisogna considerare valori più grandi di n.
Osservazione 4. Se n è “elevato”, dal Teorema centrale del limite si ha che

FZ̄n (x) ' Φ(x), per ogni x ∈ R.

Questo significa che


Z̄n ≈ Z,
con Z variabile aleatoria normale standard. Il simbolo ≈ indica che Z̄n e Z hanno
approssimativamente la stessa distribuzione. Dato che
σ
X̄n = µ + √ Z̄n ,
n

si ha
σ σ
X̄n = µ + √ Z̄n ≈ µ + √ Z.
n n
2
Poiché µ + √σn Z ∼ N µ, σn , si deduce che X̄n ha approssimativamente distribuzione


normale di media µ e varianza σ 2 /n. Inoltre, l’approssimazione


σ
X̄n ≈ µ + √ Z
n

precisa ed esplicita il risultato di convergenza della Legge dei grandi numeri. In particolare,
fornisce l’ordine di convergenza √1n . Infatti, l’errore (aleatorio) di approssimazione è dato
da
σ
|X̄n − µ| ≈ √ |Z|.
n
Quindi l’errore medio è pari a
r
σ σ 2
E[|X̄n − µ|] ' √ E[|Z|] = √ ,
n n π

dove l’ultima uguaglianza segue dall’integrale


Z +∞ Z +∞
r
1 1 2 1 − 1 x2 2 h − 1 x2 i+∞ 2
E[|Z|] = |x| √ e− 2 x dx = 2 x √ e 2 dx = − √ e 2 = .
−∞ 2π 0 2π 2π 0 π

12
Esercizio 4.1. Supponiamo di lanciare un milione di volte una moneta non truccata.
Qual è la probabilità di ottenere un numero di teste compreso fra 499500 e 501000? Si
calcoli tale probabilità in modo approssimato, facendo uso del Teorema centrale del limite.
[Si esprima il risultato nella forma Φ(x) − Φ(−y), con x, y > 0 da determinarsi]

Soluzione. Il risultato è Φ(2) − Φ(−1) ' 0.9773 − 0.1587 = 0.8186. Infatti, sia

Xn = “vale 1 se all’n-esimo lancio esce testa, zero altrimenti”.

Allora Xn ∼ B(p) di parametro p = 1/2, quindi


1 1
µ = E[Xn ] = p = , σ 2 = Var(Xn ) = p (1 − p) = .
2 4
Inoltre (Xn )n è una successione di variabili aleatorie i.i.d., tutte aventi legge B(1/2).
L’esercizio chiede di calcolare (in modo approssimato) la seguente probabilità:

P 499500 ≤ X1 + · · · + X1000000 ≤ 501000 .

Siano
X1 + · · · + X n
X̄n = ,
n
X̄n − µ
Z̄n = √ .
σ/ n

Dal Teorema centrale del limite sappiamo che Z̄n ha approssimativamente distribuzione
normale standard (cioè X̄n ha approssimativamente distribuzione normale di media µ =
1/2 e varianza σ 2 /n = 1/(4n)). Quindi
 
 499500 501000
P 499500 ≤ X1 + · · · + X1000000 ≤ 501000 = P ≤ X̄1000000 ≤
1000000 1000000

= P 0.4995 ≤ X̄1000000 ≤ 0.5010
 
0.4995 − µ 0.5010 − µ
= P √ ≤ Z̄1000000 ≤ √
↑ σ/ 1000000 σ/ 1000000
standardizzazione
 
0.4995 − 0.5 0.5010 − 0.5
= P √ ≤ Z̄1000000 ≤ √
0.5/ 1000000 0.5/ 1000000

' P − 1 ≤ Z̄1000000 ≤ 2 = Φ(2) − Φ(−1) ' 0.9773 − 0.1587 = 0.8186.

13
Calcolo delle Probabilità e Statistica 2019/2020

CATENE DI MARKOV
A TEMPO DISCRETO
1 Processi stocastici
Iniziamo con l’introdurre una generalizzazione del concetto di variabile aleatoria, che si
chiama processo stocastico 1 (o anche processo casuale o processo aleatorio).
Supponiamo di voler descrivere matematicamente una quantità numerica incerta il
cui valore evolve nel tempo. Questo corrisponde ad una famiglia di variabili aleatorie
indicizzate mediante un parametro che è appunto il “tempo”. Vediamo due esempi, a
seconda che il tempo sia “discreto” o “continuo”.

Esempio 1.1. Un’urna contiene 90 palline numerate da 1 a 90. Si estrae una pallina dal-
l’urna, si registra il suo numero e la si reintroduce nell’urna. Quindi si itera la procedura.
Poniamo

Xn = “numero della pallina estratta all’ n-esima estrazione”.

La quantità numerica (numero della pallina) che varia nel “tempo” (dato dall’ordine di
estrazione) è rappresentata dalla famiglia (in tal caso, successione) di variabili aleatorie
(Xn )n , indicizzate dal parametro n ∈ N.

Esempio 1.2. Consideriamo un componente elettronico e sia

Xt = “temperatura del componente elettronico all’istante t”,

per ogni numero reale t ≥ 0. In tal caso la quantità numerica (temperatura) che varia nel
tempo è rappresentata dalla famiglia di variabili aleatorie (Xt )t , indicizzate dal parametro
t ≥ 0.

Diamo quindi la definizione generale di processo stocastico, distinguendo a seconda


della natura del parametro temporale.

Definizione 1.1. Sia (Ω, P) uno spazio di probabilità.

• Si chiama processo stocastico a tempo discreto una successione di variabili


aleatorie (Xn )n , con n ∈ N, tutte definite su Ω.

• Si chiama processo stocastico a tempo continuo una famiglia di variabili


aleatorie (Xt )t , con t ∈ [0, +∞), tutte definite su Ω.

Osservazione. Si noti che è possibile considerare processi stocastici su intervalli di


tempo finiti. Ad esempio, un processo stocastico a tempo continuo sull’intervallo di tempo
[0, 10] è una famiglia di variabili aleatorie (Xt )t , con t ∈ [0, 10].
Nel seguito considereremo solo processi stocastici a tempo discreto, in cui inoltre le
variabili aleatorie X1 , . . . , Xn , . . . saranno tutte discrete e, in particolare, con supporto
1
Il termine stocastico deriva dal greco ed è sinonimo di casuale e aleatorio.

2
finito. Un esempio importante di processo stocastico a tempo discreto, che abbiamo già
incontrato nello studio dei teoremi limite, è il seguente.

Esempio 1.3. Sia (Xn )n una successione di variabili aleatorie indipendenti e


identicamente distribuite (i.i.d.). Allora (Xn )n è un processo stocastico a tempo discreto.

Il nostro obiettivo è studiare successioni (Xn )n più generali delle successioni i.i.d., in
cui le due ipotesi (“indipendenti” e “identicamente distribuite”) verranno indebolite. In
particolare, per quanto riguarda la prima ipotesi (“indipendenti”), considereremo succes-
sioni (Xn )n in cui ci potrà essere una dipendenza tra le variabili aleatorie, anche se tale
dipendenza dovrà avere una struttura particolare detta “a catena”: la variabile aleatoria
Xn+1 sarà influenzata direttamente solo da quella che la precede, ovvero Xn , e tramite
essa sarà influenzata da tutte le variabili aleatorie precedenti. Più precisamente, una vol-
ta nota Xn , la conoscenza supplementare dei valori di X1 , X2 , . . . , Xn−1 non darà alcuna
ulteriore informazione riguardo il valore di Xn+1 .

2 Catene di Markov a tempo discreto


I processi stocastici a tempo discreto che studieremo si chiamano catene di Markov 2 a
tempo discreto, dove il termine “catene” fa proprio riferimento alla particolare struttura
di dipendenza tra le variabili aleatorie del processo.

Definizione 2.1. Si chiama catena di Markov (a tempo discreto)a una successione


di variabili aleatorie (Xn )n (ovvero, un processo stocastico a tempo discreto) che verifica
le seguenti proprietà.

1) Le variabili aleatorie X1 , . . . , Xn , . . . sono discrete e il loro supporto è contenuto


nello stesso insieme S discreto (cioè finito o al più infinito numerabile), ovvero

SX1 ⊂ S, ··· SXn ⊂ S, ···

S si chiama lo spazio degli stati della catena di Markov.

2) (Proprietà di Markov: dipendenza a “catena”) Per ogni scelta di


i1 , . . . , in−1 , i, j ∈ S (non necessariamente distinti) vale l’uguaglianza

P(Xn+1 = j|X1 = i1 , . . . , Xn−1 = in−1 , Xn = i) = P(Xn+1 = j|Xn = i).


a
Dato che ci occuperemo solo di catene di Markov a tempo discreto, nel seguito parleremo solo di
catene di Markov.

2
Andrej Andreevic Markov (1856-1922) è stato un matematico russo, allievo di Chebyshev. Markov
è noto soprattutto per essere stato uno dei primi matematici ad indagare a fondo i processi stocastici,
introducendo in particolare i processi che oggi portano il suo nome.

3
La quantità
πij (n) = P(Xn+1 = j|Xn = i)
si chiama probabilità di transizione all’istante n dallo stato i allo stato j.

Osservazione 1. Per semplicità nel seguito utilizzeremo sempre e solo S invece dei sup-
porti delle singole variabili aleatorie X1 , . . . , Xn , . . ., anche se ciascuna variabile aleatoria
non assumerà necessariamente tutti i valori contenuti in S.
Osservazione 2. La proprietà di Markov afferma che le variabili aleatorie X1 , . . . , Xn , . . .
non sono necessariamente indipendenti (come accade nel caso i.i.d.), tuttavia la struttura
di dipendenza è abbastanza semplice dato che è appunto a “catena”.
Per comprendere meglio la proprietà di Markov, supponiamo di essere all’istante n,
quindi di conoscere il valore che è stato assunto dalle variabili aleatorie X1 , . . . , Xn−1 , Xn .
Indichiamo tali valori con i1 , . . . , in−1 , i, quindi
X1 = i 1 , X2 = i2 , ··· Xn−1 = in−1 , Xn = i.
I valori i1 , . . . , in−1 , i rappresentano la storia del processo fino all’istante n; inoltre i1 , . . . , in−1
sono i valori passati, mentre i è il valore presente; infine Xn+1 è il valore futuro. Utilizzando
questa terminologia, possiamo riscrivere la proprietà di Markov come segue:
P(“il valore futuro è j”|“il valore presente è i e i valori passati sono i1 , . . . , in−1 ”)
= P(“il valore futuro è j”|“il valore presente è i”)
o, in modo ancora più sintetico,
P(“futuro”|“presente e passato”) = P(“futuro”|“presente”).
In altri termini, nelle catene di Markov la dipendenza dal passato dei valori futuri viene
riassunta dal valore presente. Chiaramente è possibile considerare processi stocastici con
strutture di dipendenza più complesse di quella delle catene di Markov, ma noi non ce ne
occuperemo.

3 Catene di Markov omogenee e a stati finiti


Nel seguito ci occuperemo solamente di una classe particolare e molto importante di catene
di Markov, ovvero le catene di Markov omogenee e a stati finiti, che ora definiamo.

Definizione 3.1. Sia (Xn )n una catena di Markov.

• Si dice che (Xn )n è omogenea (nel tempo) se la probabilità di transizione non di-
pende da n. In tal caso, si scrive πij invece di πij (n) e si dice che πij è la probabilità
di transizione dallo stato i allo stato j.

• Si dice che (Xn )n è a stati finiti se lo spazio di stato S è un insieme finito. In tal
caso indicheremo con N la cardinalità di S. Spesso supporremo che S sia dato da
S = {1, 2, . . . , N } oppure S = {0, 1, . . . , N − 1}.

4
Notazione. Nel seguito, anche se non esplicitamente indicato, quando scriveremo catena
di Markov intenderemo sempre catena di Markov omogenea e a stati finiti.
La struttura di dipendenza a catena di (Xn )n , nel caso omogeneo e a stati fini-
ti, è completamente descritta da una matrice quadrata di ordine N , detta matrice di
transizione.
Definizione 3.2. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Si chiama
matrice di transizione la matrice N × N (dove N è la cardinalità di S), indicata con
Π, le cui componenti sono le probabilità di transizione:

πij = P(Xn+1 = j|Xn = i), per ogni i, j ∈ S,

con n qualunque, dato che la catena è omogenea. In altri termini, la probabilità di


transizione πij corrisponde all’elemento nella riga i e colonna j della matrice Π.

Osservazione. Se lo spazio degli stati S non è l’insieme {1, . . . , N }, per scrivere una
matrice di transizione Π bisogna prima fissare un ordinamento degli stati in S (ossia
decidere quale stato corrisponde alla prima riga, quale alla seconda, e cosı̀ via).
Si noti che ogni riga di Π corrisponde alle probabilità (si pensi ad esempio alla riga i):

P(Xn+1 = 1|Xn = i), ··· P(Xn+1 = j|Xn = i), ··· P(Xn+1 = N |Xn = i).

La riga i di Π corrisponde quindi alla “densità discreta di Xn+1 sapendo che Xn = i”.
Questo implica che ogni elemento di Π deve essere un numero appartenente all’intervallo
[0, 1] (in quanto corrisponde ad una probabilità condizionale), inoltre la somma degli
elementi di una qualsiasi riga deve essere uguale a 1. In altri termini, Π deve verificare le
proprietà riportate nel seguente teorema.

Teorema 3.1. Sia Π una matrice di transizione di una catena di Markov (Xn )n . Allora
Π è tale che:

1) 0 ≤ πij ≤ 1, per ogni i, j;


2) la somma degli elementi di ogni riga vale 1, ovvero
N
X
πij = 1, per ogni riga i.
j=1

Dimostrazione. La proprietà 1) segue direttamente dalla definizione di πij , in quanto


ciascun πij è una probabilità (condizionale). Per quanto riguarda 2), essa è una conse-
guenza della formula delle probabilità totali. Infatti, sia i una riga qualsiasi. Poniamo
(scegliendo un istante n qualsiasi, dato che la catena di Markov è omogenea)

A = {Xn = i}, Bj = {Xn+1 = j}, per ogni j ∈ S = {1, . . . , N }.

5
Allora gli eventi B1 , . . . , BN costituiscono una partizione di Ω. Quindi, per la formula
delle probabilità totali, si ha
N
X
P(A) = P(A ∩ Bj ),
j=1

che possiamo riscrivere come segue


N
X
P(Xn = i) = P(Xn = i, Xn+1 = j). (∗)
j=1

Utilizziamo quest’ultima uguaglianza, indicata con (∗), per dimostrare la proprietà 2).
Abbiamo che
N N N
X X X P(Xn+1 = j, Xn = i)
πij = P(Xn+1 = j|Xn = i) =
j=1 j=1 j=1
P(Xn = i)
N
1 X
= P(Xn+1 = j, Xn = i)
P(Xn = i) j=1
P(Xn = i)
= = 1.
↑ P(Xn = i)
(∗)

Rappresentazione grafica di una catena di Markov. Una catena di Markov può


essere rappresentata graficamente tramite un grafo orientato costruito nel modo seguente:

• ogni stato i ∈ S corrisponde ad un nodo del grafo;

• ogni probabilità di transizione πij , se strettamente positiva, corrisponde ad un ar-


co orientato (una freccia) dal nodo i al nodo j (non si disegnano invece le frecce
corrispondenti a probabilità di transizione nulle);

• si riporta il valore di πij sull’arco corrispondente.

In tal caso si dice che la successione di variabili aleatorie (Xn )n è una passeggiata aleatoria
(in inglese random walk ) sul grafo. Vediamo due esempi.

Esempio 3.1. Si consideri una catena di Markov (Xn )n con spazio degli stati S = {1, 2}
e matrice di transizione  
1−α α
Π =
β 1−β
dove 0 ≤ α ≤ 1 e 0 ≤ β ≤ 1 sono due parametri fissati. Questa è la matrice di transizione
più generale possibile per una catena di Markov a due stati.

6
Il grafo ad essa associato è il seguente:
α

1−α 1 2 1−β

Esempio 3.2. Si consideri una catena di Markov (Xn )n con spazio degli stati S = {1, 2, 3}
e matrice di transizione  
0 1 0
Π =  0 1/2 1/2  .
1/2 0 1/2
Il grafo ad essa associato è il seguente:

1/2 1

1/2 3 2 1/2
1/2

3.1 Probabilità di transizione in più passi


Sia (Xn )n una catena di Markov (omogenea e a stati finiti) con matrice di transizione Π.
Dalla definizione di (Xn )n , sappiamo quanto vale la probabilità condizionale

P(Xn+1 = j|Xn = i),

infatti è data da πij . Quanto vale invece la probabilità condizionale

P(Xn+2 = j|Xn = i) ?

Più in generale, quanto vale


P(Xn+m = j|Xn = i) ?
(m)
Tale probabilità (che nel caso omogeneo non dipende da n) si indica con πij e si chiama
probabilità di transizione dallo stato i allo stato j in m passi.

7
Definizione 3.3. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Per ogni
intero m ≥ 0, poniamo (con n qualsiasi)
(m)
πij = P(Xn+m = j|Xn = i), per ogni i, j ∈ S.
(m)
πij si chiama probabilità di transizione dallo stato i allo stato j in m passi.

Quando m = 0 oppure m = 1, la probabilità di transizione ha un’espressione partico-


lare, come descritto nella seguente proposizione.

Proposizione 3.1. Sia (Xn )n una catena di Markov omogenea e a stati finiti.
(0)
• Per m = 0, πij è data da:

1, se i = j,
(0)
πij =
0, se i 6= j.

(0)
Quindi la matrice di componenti πij corrisponde alla matrice identità N × N ,
indicata con IN .
(1)
• Per m = 1, πij è data da:
(1)
πij = πij .
(1)
Quindi la matrice di componenti πij corrisponde alla matrice di transizione Π.

Dimostrazione.

• Sia m = 0, allora
(0)
πij = P(Xn = j|Xn = i),
dove n è un istante qualsiasi, dato che la catena di Markov è omogenea. Per
definizione di probabilità condizionale, abbiamo che

P({Xn = j} ∩ {Xn = i})


P(Xn = j|Xn = i) = .
P(Xn = i)

Si noti che 
{Xn = i}, se i = j,
{Xn = j} ∩ {Xn = i} =
∅, se i 6= j.
Quindi

P(Xn = i)

, se i = j,
 
P({Xn = j} ∩ {Xn = i})

 P(Xn = i) 1, se i = j,
= =
P(Xn = i)  P(∅) 0, se i 6= j.

 , se i 6= j,
P(Xn = i)

8
(1)
• Sia m = 1. Segue direttamente dalle definizioni di πij e πij che tali probabilità
(condizionali) coincidono.

(m)
Il seguente teorema fornisce una formula per il calcolo di πij .

Teorema 3.2. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Per ogni intero
(m)
m, la matrice di componenti πij è data da

· · Π} = Πm .
| ·{z
Π
m volte

Osservazione. Si noti che, in particolare, il Teorema 3.2 vale anche per m = 1, dato
che Π1 = Π, e per m = 0, dato che Π0 = IN .
(2)
Dimostrazione del Teorema 3.2 nel caso m = 2. Dobbiamo dimostrare che πij
coincide con l’elemento nella i-esima riga e j-esima colonna della matrice Π2 , quindi
N
X
(2)
πij = πik πkj .
k=1

Per mostrare la validità di questa formula, consideriamo tutti i cammini che portano da
i a j in due passi. Ci sono esattamente N cammini di questo tipo, che sono dati da:

i → 1 → j; i → 2 → j; ··· i → N → j.

Consideriamo uno qualunque di questi cammini, ad esempio quello passante per lo stato
k, ovvero i → k → j. La probabilità di percorrerlo è pari al prodotto delle probabilità
πik πkj . Infatti

P(“passare per k e poi per j”|“partire da i”) = P({Xn+2 = j} ∩ {Xn+1 = k}|Xn = i)



n qualunque, per omog.
P({Xn+2 = j} ∩ {Xn+1 = k} ∩ {Xn = i})
=
P(Xn = i)
P({Xn+1 = k} ∩ {Xn = i}) P({Xn+2 = j} ∩ {Xn+1 = k} ∩ {Xn = i})
=
P(Xn = i) P({Xn+1 = k} ∩ {Xn = i})
= P(Xn+1 = k|Xn = i) P(Xn+2 = j|{Xn+1 = k} ∩ {Xn = i})
= P(Xn+1 = k|Xn = i) P(Xn+2 = j|Xn+1 = k) = πik πkj .

propr. Markov

(2)
Infine, πij è dato dalla somma delle probabilità dei cammini che portano da i a j in due
passi. Quindi
XN
(2)
πij = πik πkj .
k=1

9
(m) (m)
Calcolo diretto di πij . Dal Teorema 3.2 sappiamo che per calcolare πij dobbiamo
(m)
prima trovare la matrice Πm , dopodiché πij è l’elemento nella riga i e colonna j di questa
(m)
matrice. Vediamo ora invece un modo alternativo per il calcolo di πij , più diretto, che
si basa sull’utilizzo del grafo orientato associato a (Xn )n . Vediamolo nel caso m = 2.
(2)
Sappiamo che πij è dato dalla formula

N
X
(2)
πij = πik πkj .
k=1

Il prodotto πik πkj corrisponde alla probabilità di andare da i a j in due passi passando
per il nodo k, cioè di percorrere il cammino che indichiamo brevemente con i → k → j.
Generalmente, solo alcuni di questi cammini hanno probabilità positiva (cioè solo per
alcuni si ha che πik πkj > 0). Per individuarli, il modo più facile è utilizzare il grafo
associato alla catena di Markov, sfruttando il fatto che sul grafo non sono riportate le
frecce corrispondenti a probabilità nulle. Se ad esempio vediamo dal grafo che esistono
solo due cammini possibili, dati da i → k1 → j e i → k2 → j, allora
(2)
πij = πik1 πk1 j + πik2 πk2 j .
(m)
In generale, per calcolare πij , con m qualunque, si procede come segue:

• a partire dal grafo, si trovano tutti i cammini che portano da i a j in m passi;

• la probabilità di ogni cammino è il prodotto delle probabilità lungo gli archi del
cammino stesso;
(m)
• πij è la somma delle probabilità dei cammini che portano da i a j in m passi.

3.2 Classi comunicanti


Data una catena di Markov (Xn )n (omogenea e a stati finiti), è possibile classificare gli
stati in modo tale da partizionare lo spazio degli stati S in sottoinsiemi chiamati classi
comunicanti.
Definizione 3.4. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Fissiamo
due stati i, j ∈ S (non necessariamente i 6= j).
Si dice che j è accessibile da i se esiste m ≥ 0 tale che
(m)
πij > 0.

In tal caso scriviamo


i j.

(0)
Osservazione. Dato che, per definizione, πii = 1, è sempre vero che i è accessibile da
i stesso. Infatti è banalmente vero che se parto dalla stato i allora accedo allo stato i in
m = 0 passi. Quindi vale sempre che i i.

10
Nel caso i 6= j, come chiarito nel teorema che segue, si ha che i j se e solo se
esiste un cammino di probabilità positiva (che dunque può essere determinato a partire
dal grafo) che conduce da i a j.

Teorema 3.3. Le due affermazioni seguenti sono equivalenti se i 6= j:

a) i j;

b) esiste un intero m ≥ 1 ed esiste un cammino i1 → i2 → i3 → · · · → im+1 in m passi


tale che i1 = i, im+1 = j e

πi1 i2 πi2 i3 · · · πim im+1 > 0.

Dimostrazione del Teorema 3.3 nel caso m = 2. Dobbiamo dimostrare che le


seguenti affermazioni sono equivalenti se i 6= j:
(2)
a) i j, ovvero πij > 0;

b) esiste un cammino i → k → j, che porta da i a j in due passi, tale che

πik πkj > 0.

Sappiamo dal Teorema 3.2 che


N
X
(2)
πij = πik πkj
k=1
(2)
Concludiamo dunque che πij > 0 se e solo se almeno un addendo della sommatoria è
positivo, ovvero se e solo se esiste un k tale che πik πkj > 0. 

Definizione 3.5. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Fissiamo
due stati i, j ∈ S (non necessariamente i 6= j).
Gli stati i e j si dicono comunicanti se i j ej i. In tal caso scriviamo

i ! j.

Si chiama classe comunicante un sottoinsieme di S costituito da stati tra loro


comunicanti.

Osservazione 1. Dall’osservazione precedente sappiamo che i i per qualunque stato


i. Dunque è chiaro che ogni stato i ∈ S è comunicante con se stesso, ovvero
i ! i. Ciò implica che ogni stato i ∈ S appartiene ad una classe comunicante (tale
classe potrebbe eventualmente contenere solo lo stato i stesso).
Osservazione 2. Dal Teorema 3.3 segue che le due affermazioni seguenti sono equiva-
lenti se i 6= j:

a) i ! j;

11
b) esiste un cammino chiuso che passa per i e j (per cammino chiuso si intende un
cammino in cui stato di partenza e stato di arrivo coincidono).

Osservazione 3. La relazione “comunicante con” è una relazione di equivalenza


sullo spazio degli stati S, ovvero verifica le seguenti proprietà:

• riflessività: i ! i, per ogni stato i ∈ S;

• simmetria: se i ! j allora j ! i;

• transitività: se i ! j e j ! k allora i ! k.

Infatti, è riflessiva per l’ Osservazione 1 riportata qui sopra. Inoltre, utilizzando quanto
affermato nell’ Osservazione 2, è facile verificare che è anche simmetrica e transitiva.
Dunque l’insieme S può essere partizionato nelle corrispondenti classi di equivalenza, che
sono appunto le classi comunicanti. Da ciò segue che ogni stato i ∈ S appartiene
ad una e una sola classe comunicante (non è in particolare possibile che uno stesso
stato appartenga contemporaneamente a due classi distinte).

Definizione 3.6. Sia (Xn )n una catena di Markov omogenea e a stati finiti.
Si dice che (Xn )n è irriducibile se esiste un’unica classe comunicante, che è quindi data
dall’insieme S stesso.

3.3 Legge di Xn
Sia (Xn )n una catena di Markov (omogenea e a stati finiti) con matrice di transizione Π.
Ci poniamo ora il seguente problema.

Qual è la legge della variabile aleatoria Xn ?

Sappiamo che Xn è una variabile aleatoria discreta, quindi è sufficiente determinare sup-
porto e densità discreta di Xn . Come abbiamo detto in precedenza, come supporto pren-
diamo S (anche se, in generale, S contiene più valori di quelli che effettivamente Xn
assume). Resta da determinare la densità discreta pXn . Supponiamo che lo spazio degli
stati S sia dato dall’insieme {1, 2, . . . , N }. Allora determinare la densità discreta pXn
significa conoscere la tabella

Xn 1 2 ··· N
pXn pXn (1) pXn (2) ··· pXn (N )

Più precisamente, determinare la densità discreta pXn significa conoscere il vettore riga
#» dato da
p Xn

#»    
p Xn = pXn (1) pXn (2) · · · pXn (N ) = P(Xn = 1) P(Xn = 2) · · · P(Xn = N ) .

Notazione. Nel seguito, anche se non esplicitamente detto, quando parleremo di distri-
#» , che come abbiamo visto
buzione (o legge) di Xn ci riferiremo sempre al vettore riga p Xn
descrive completamente la densità discreta di Xn , e quindi anche la sua distribuzione.

12
Torniamo al problema che ci siamo posti inizialmente, ovvero determinare la distri-
buzione di Xn (quindi p #» ). Per trovare tale distribuzione non è sufficiente conoscere
Xn
la matrice di transizione Π, dobbiamo anche sapere qual è la distribuzione iniziale della
#» ).
catena di Markov, cioè la distribuzione di X1 (quindi p X1

Teorema 3.4. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Allora la
distribuzione di Xn è data dalla seguente formula:

p #» n−1
Xn = pX1 Π , per ogni n = 1, 2, . . .

Si noti in particolare che


N
X (n−1)
pXn (j) = P(Xn = j) = pX1 (i) πij ,
i=1

per ogni j ∈ S.

Dimostrazione. Dobbiamo dimostrare che, per ogni j ∈ S, vale la seguente formula:


N
X (n−1)
P(Xn = j) = pX1 (i) πij .
i=1

Tale formula è vera in quanto è una diretta conseguenza della formula delle probabilità
totali. Infatti
XN
P(Xn = j) = P(X = j|X = i) P(X1 = i) .
| n {z 1 } | {z }
i=1
π
(n−1) pX1 (i) 
ij

3.4 Distribuzione invariante


Sia X una variabile aleatoria discreta con supporto (contenuto in) S. Sappiamo che la
distribuzione (o legge) di X è completamente descritta dal vettore riga p #» , che contiene i
X
valori assunti dalla densità discreta di X. Per semplificare la notazione, indichiamo questo
#» Si noti che il vettore π
vettore con π. #» verifica le seguenti proprietà:

1) ogni sua componente è compresa tra 0 e 1;

2) la somma delle sue componenti è uguale a 1.

Definizione 3.7. Siano Π una matrice di transizione e π #» un vettore che verifica le


proprietà 1) e 2) qui sopra riportate.
Si dice che π#» è una distribuzione invariante o stazionaria o di equilibrio (per Π)
se
#» = π
π #» Π.

Osservazione. Si noti che π #» è una distribuzione invariante per Π se e solo se π


#» è un
autovettore (che verifica le proprietà 1) e 2)) per Π relativo all’autovalore 1.

13
Il termine “invariante” deriva dal seguente teorema, in cui si dimostra che se la distribu-
zione iniziale della catena di Markov è invariante allora le variabili aleatorie X1 , . . . , Xn , . . .
sono identicamente distribuite.
Teorema 3.5. Sia (Xn )n una catena di Markov omogenea e a stati finiti con matrice di
transizione Π.
Supponiamo che la distribuzione di X1 sia invariante, ovvero

p #»
X1 = pX1 Π.

#» .
Allora la distribuzione di Xn (qualunque sia n) è ancora data da p X1

Dimostrazione. Dal Teorema 3.4, sappiamo che la distribuzione (intesa come densità
discreta) di Xn è data da

p #» n−1 #» Πn−2 = · · · = p
#» Π Πn−2 = p #» .
Xn = pX1 Π = p
| X{z1 } X1 X1

=p 
X1

Come vedremo nella prossima sezione, il concetto di distribuzione invariante di una


catena di Markov gioca un ruolo importante in quanto è legato al comportamento della
catena stessa per tempi lunghi.

4 Algoritmo PageRank
In questa sezione finale vogliamo descrivere come funziona il motore di ricerca Google
(nella sua prima versione del 1997), o meglio come funziona l’algoritmo PageRank. Prima
però abbiamo bisogno di introdurre ancora alcuni strumenti della teoria delle catene di
Markov.

4.1 Interpretazione della distribuzione invariante


Iniziamo col dare la seguente definizione.

Definizione 4.1. Sia (Xn )n una catena di Markov omogenea e a stati finiti con matrice
di transizione Π.
Si dice che (Xn )n è regolare se esiste n0 tale che
(n )
πij 0 > 0, ∀ i, j ∈ S

ovvero se la matrice
· · Π} = Πn0
| ·{z
Π
n0 volte

ha tutte le componenti strettamente positive.

Osservazione. Si noti che se una catena di Markov è regolare allora si può andare da
(n )
un qualunque stato i ad un qualunque altro stato j in al più n0 passi (dato che πij 0 > 0

14
per ogni i, j ∈ S). Dunque, in tal caso, (Xn )n ha un’unica classe comunicante (che è
quindi S). In altri termini, se una catena di Markov è regolare allora è irriducibile.
Se una catena di Markov è regolare vale il seguente risultato fondamentale.

Teorema 4.1 (di convergenza all’equilibrio o ergodico). Sia (Xn )n una catena di Markov
omogenea e a stati finiti con matrice di transizione Π.
#» tale che, qualunque
Se (Xn )n è regolare allora esiste un’unica distribuzione invariante π
sia i ∈ S,
(n)
lim πij = πj , ∀ j ∈ S.
n→+∞

Inoltre, la velocità di convergenza è esponenziale:


(n)
|πij − πj | ≤ C q n ,

con 0 ≤ q < 1 e C costante positiva.

(n)
Il Teorema 4.1 fornisce un collegamento tra πj e la probabilità di transizione πij
(che corrisponde alla probabilità condizionale P(Xn+1 = j|X1 = i) o, più in generale, a
P(Xn+k = j|Xk = i)).
(n)
Più precisamente, il Teorema 4.1 ci dice che πj è approssimativamente uguale a πij
per n >> 1, qualunque sia i. Ciò fornisce la seguente interpretazione di πj : la probabilità
πj rappresenta, approssimativamente, la probabilità (condizionale) P(Xn+1 = j|X1 = i)
di essere nello stato j al passo n, indipendentemente da quale sia lo stato di partenza i.
Di conseguenza, gli stati j per cui la probabilità πj è elevata sono quelli più facilmente
raggiungibili dagli altri stati. In altri termini, sono gli stati che vengono più spesso
“visitati” se si immagina di partire da un qualunque stato i e di percorrere una passeggiata
aleatoria lungo il grafo orientato associato alla catena di Markov.
Ordinando gli stati in modo crescente in base ai valori contenuti in π, #» si ottiene quindi
un ordinamento degli stati in base a quanto sono più o meno facilmente “visitabili”.

4.2 Google e l’algoritmo PageRank


Vediamo ora un’applicazione delle catene di Markov di grande successo: l’algoritmo Page-
Rank utilizzato dal motore di ricerca Google, ideato nel 1997 da Sergey Brin e Lawrence
“Larry” Page. Quanto segue si basa sul seguente articolo di ricerca:

S. Brin, L. Page. The anatomy of a large-scale hypertextual web searching engine.


Computer networks and ISDN Systems, 33, 107-117, 1998.

Come spiegato in questo articolo, il nome Google è stato scelto da Brin e Page in
quanto rimanda al nome googol, che è il termine matematico con cui si indica il numero
10100 : il motivo è che questo numero rende l’idea della scala dei problemi che un motore
di ricerca deve affrontare.
Google, e in particolare l’algoritmo PageRank, si basa sulla struttura “topologica” del
web, intesa come grafo orientato in cui ogni nodo corrisponde ad una pagina e ogni freccia

15
rappresenta un link. Tale struttura permette di ordinare le pagine, ovvero creare un ran-
king delle pagine che è appunto il compito dell’algoritmo PageRank. Questo ordinamento
viene utilizzato per rispondere in maniera rapida e soddisfacente a ciascuna singola query.
L’algoritmo PageRank nella sua forma attuale non è chiaramente noto (essendo ov-
viamente tutelato da copyright), però l’idea originale del metodo è chiara. L’ordinamento
delle pagine web fornito dall’algoritmo PageRank si basa sull’assegnazione di un indice di
significatività a ciascuna pagina. Per una generica pagina web A, denotiamo tale indice
con PR(A). La procedura di assegnazione dell’indice di significatività prescinde dall’ef-
fettivo contenuto della pagina, mentre tiene conto di quanto e da chi è citata (ovvero, di
quanti e quali link conducono a quella pagina). In particolare, l’indice di significatività
deve soddisfare i due requisiti seguenti:

1) risultare elevato se una pagina è citata da molte altre pagine;

2) risultare elevato se riferito ad una pagina citata da (eventualmente poche) pagine molto
significative.

Dunque il solo conteggio dei link ad una pagina non può essere un buon indice di signi-
ficatività (in quanto non soddisfa il secondo requisito). L’indice di significatività di una
pagina A deve essere invece proporzionale agli indici di significatività delle pagine che
conducono ad A.

4.3 Descrizione dell’algoritmo PageRank


Rappresentiamo graficamente il web come un grafo orientato in cui ogni nodo corrispon-
de ad una pagina e ogni freccia ad un link. Immaginiamo di effettuare una passeggiata
aleatoria nel web, scegliendo ad ogni passo un link a caso dalla pagina in cui ci trovia-
mo (più precisamente, supponiamo che i link uscenti da una data pagina siano tra loro
equiprobabili). Indichiamo infine con (Xn )n la catena di Markov che descrive tale passeg-
giata aleatoria e con Π la sua matrice di transizione. Vediamo a tal proposito il seguente
esercizio.
Esercizio 4.1. Si consideri una versione semplificata del web, descritta dal seguente grafo
orientato, in cui ogni nodo corrisponde ad una pagina, mentre le frecce rappresentano i
link tra le pagine:

3 2 1

16
Supponiamo di partire dalla pagina numero 1 e di effettuare una passeggiata aleatoria
nel web, scegliendo ad ogni passo un link a caso dalla pagina in cui ci troviamo (più
precisamente, si suppongano equiprobabili tra loro i link uscenti da una data pagina). Sia
(Xn )n la catena di Markov che descrive tale passeggiata aleatoria.

(a) Qual è la distribuzione iniziale della catena di Markov, ovvero qual è la densità discreta
di X1 ?
(b) Si rappresenti graficamente la catena di Markov tramite un grafo orientato.
(c) Qual è la matrice di transizione di (Xn )n ?

Nella realtà, la dimensione della matrice Π è gigantesca; si pensi che già nel 1997 si
stimava la presenza di circa 100 milioni di pagine web.
Si noti che gli elementi non nulli della i-esima riga di Π corrispondono alle pagine che
hanno un link che conduce alla pagina i; se tali elementi sono in numero pari a mi , il loro
valore è dato da 1/mi (per l’ipotesi di equiprobabilità, tutti hanno lo stesso valore). Si
noti inoltre che gli elementi non nulli della j-esima colonna sono le pagine a cui si può
accedere partendo dalla pagina j.

L’idea fondamentale su cui si basa l’algoritmo PageRank è quella di considerare la


#» della catena di Markov, ordinando gli stati utilizzando proprio
distribuzione invariante π
l’ordinamento suggerito da π,#» quindi ponendo

PR(j) = πj .

per ogni pagina web j. Vediamo con un esempio perché πj è un buon indice di significati-
vità (ovvero verifica i due requisiti precedentemente riportati sopra). Per farlo riprendiamo
l’Esercizio 4.1 e determiniamo in tal caso la distribuzione invariante π. #»
#» Dato che
Esercizio 4.1 (continuazione). Dobbiamo determinare π.
#» = π
π #» Π

e  
0 1/2 0 1/2
 1/3 0 1/3 1/3 
Π = 
 0
,
0 0 1 
0 1 0 0
si ottiene il sistema di equazioni seguente:

π1 = 13 π2 ,



π = 1 π + π ,

2 2 1 4
1


 π3 = 3 π2 ,
π4 = 12 π1 + 13 π2 + π3 .

17
#» è un vettore densità discreta, quindi deve verificare anche le due proprietà
Si noti che π
seguenti:

1) 0 ≤ πj ≤ 1, per ogni j = 1, 2, 3, 4;
P4
2) j=1 πj = 1.

Si ottiene dunque un’unica soluzione al sistema precedente, che è data da:




 π1 = 0.133333,

π
2 = 0.399999,
π 3
 = 0.133333,


π4 = 0.333333.

L’ordinamento delle pagine ottenuto in tal modo è: Pag2 > Pag4 > Pag1 = Pag3 .

Osservazione. Dal sistema di equazioni dell’esempio precedente si deduce che l’indice


di significatività di una pagina web A, a cui si accede dalle pagine T1 , . . . , Tn , è dato da
1 1
PR(A) = PR(T1 ) + · · · + PR(Tn ),
C(T1 ) C(Tn )

dove C(Ti ) è il numero di link che partono dalla pagina Ti . In conclusione, come richiesto,
l’indice di significatività di A è proporzionale agli indici di significatività delle pagine che
conducono ad A.
Concludiamo infine osservando che quanto detto finora si basa sul Teorema 4.1, che
però vale solo quando (Xn )n è regolare. In generale, non è assolutamente garantito che
questa ipotesi valga. Per tale ragione vanno presi degli accorgimenti, modificando op-
portunamente la matrice di transizione Π del web. Vediamo come si affronta questo
problema.
Nel web ci sono pagine da cui non si può accedere ad alcuna altra pagina. Una pagina
web di questo tipo si chiama pagina dangling e la riga corrispondente sulla matrice di
transizione è costituita solo da zeri, dunque Π in tal caso non è neppure una vera matrice
di transizione dato che la somma degli elementi di una riga dovrebbe sempre essere uguale
a 1.
Per risolvere questo problema una possibilità è quella di ipotizzare che ciascuna pagina
dangling punti ad ogni altra pagina del web (ciò è giustificato dal fatto che si passa da
una pagina all’altra non solo tramite i link, ma anche con la barra degli indirizzi): questo
equivale a sostituire alla riga di una pagina dangling, formata da tutti zeri, il vettore riga
1 1
· · · N1 .

N N

Indichiamo con Πe la nuova matrice cosı̀ ottenuta a partire da Π. Si noti che N è talmente
grande che 1/N è pressoché zero, quindi Πe ' Π. Tuttavia, con questa modifica la nuova
matrice Π
e è una vera matrice di transizione.

18
Nonostante questa modifica la catena di Markov associata a Π e non è ancora regolare
(quindi non è ancora possibile applicare il Teorema ergodico). Per ottenere tale proprietà
è sufficiente perturbare la matrice Π
e come segue:

1
ΠPR = (1 − d) 1N + d Π,
e
N
dove:

• 1N è la matrice N × N le cui componenti sono tutte uguali a 1;

• d ∈ (0, 1) è un parametro fissato (che va scelto in modo “ottimale”).

Si noti che N1 1N è una matrice di transizione come Π,


e quindi è facile mostrare che anche
ΠPR lo è. Inoltre, dato che tutti gli elementi di ΠPR sono strettamente positivi, la catena
di Markov associata a ΠPR è regolare. Possiamo dunque applicare il Teorema 4.1.

19