Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUZIONE
1 L’incertezza e la probabilità
Il concetto di probabilità è strettamente collegato al concetto di incertezza. A tal proposito,
si considerino le seguenti affermazioni:
Esse riguardano il verificarsi di un evento futuro, per tale ragione non è possibile dire
con certezza assoluta se sono vere oppure false, è possibile però dire che sono probabili.
Mentre in logica matematica (anche detta logica del certo) si studiano solo affermazioni
vere oppure false, nella realtà si ha a che fare con affermazioni di cui in genere è possibile
solamente dire che sono probabili. Tali affermazioni riguardano infatti eventi (non solo
futuri come nel caso di A, B, C, ma anche presenti o passati) di cui non si hanno tutte
le informazioni a disposizione per dire con certezza assoluta se sono veri oppure falsi. A
questo proposito, riportiamo la seguente citazione:
“. . . il caso della certezza, intesa come certezza assoluta, è, se non un’astrazione
illusoria, per lo meno un caso limite, mentre sarebbe da considerarsi normale il caso
dell’incertezza.” 1
• P(A) ∈ (0, 1) significa che l’affermazione è probabile, in particolare più P(A) è vicino
ad 1 più è probabile che l’evento “domani a Bologna piove” si verifichi.
2
• Come si assegna/stima la probabilità?
La prima questione (a cui abbiamo già fornito una possibile risposta affermando che la
probabilità è una “misura dell’avverabilità di un evento”) è di pertinenza della Filosofia.
La seconda è invece di competenza della Statistica e può essere affrontata a due livelli:
ingenuo o formale. Infine, la terza questione può essere risolta servendosi unicamente
di argomentazioni assiomatico-deduttive ed è dunque di pertinenza della Matematica: la
disciplina che se ne occupa è il Calcolo delle probabilità o, semplicemente, Probabilità (in
particolare, almeno nella prima parte riguardante gli eventi, può essere vista come un
nuovo capitolo della logica matematica, la logica dell’incerto).
Infine, possiamo affermare che:
A ⊂ Ω.
Si noti che tra tutti i sottoinsiemi di Ω ci sono anche5 l’insieme vuoto (indicato con il
simbolo ∅) e l’insieme Ω stesso, ovvero ∅ ⊂ Ω e Ω ⊂ Ω. Indicheremo con P(Ω) l’insieme
delle parti di Ω, ovvero l’insieme i cui elementi sono tutti i sottoinsiemi di Ω, compresi
l’insieme vuoto ∅ e Ω stesso.
3
Ad esempio, nota la probabilità degli eventi A e B, cosa possiamo dire della probabilità dell’evento
C = A e B?
4
Anche detta Statistica induttiva o Statistica matematica.
5
L’insieme vuoto e Ω sono anche detti sottoinsiemi impropri di Ω, mentre tutti gli altri si chiamano
sottoinsiemi propri.
3
Operazioni insiemistiche. Ricordiamo la definizione di unione, intersezione e com-
plementazione.
(A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c ,
• per n insiemi
(A1 ∪A2 ∪· · ·∪An )c = Ac1 ∩Ac2 ∩· · ·∩Acn , (A1 ∩A2 ∩· · ·∩An )c = Ac1 ∪Ac2 ∪· · ·∪Acn .
1) An = {n}. Risposta: ∪∞ ∞
n=1 An = N e ∩n=1 An = ∅.
4
Esercizio 2.2. Siano A1 , A2 , . . . , An , . . . tutti uguali all’insieme vuoto. Mostrare che tali
insiemi sono tra loro disgiuntia e la loro unione è uguale all’insieme vuoto.
a
Ai ∩ Aj = ∅, per ogni i 6= j.
2) Ω = {a, b}. Risposta: P(Ω) = {∅, {a}, {b}, {a, b}} e |P(Ω)| = 4.
3) Ω = {a, b, c}. Risposta: P(Ω) = {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}} e |P(Ω)| = 8.
Sulla base di quanto ottenuto nei tre casi appena studiati, qual è la cardinalità di P(Ω)
quando Ω ha n elementi? Risposta: |P(Ω)| = 2n .
• lancio di una moneta, i cui esiti sono generalmente indicati con “testa” e “croce”;
• lancio di un dado, i cui esiti sono generalmente indicati con i numeri naturali da 1
a 6.
Un evento viene solitamente indicato con una lettera maiuscola dell’alfabeto. Spesso si
utilizzano le prime lettere dell’alfabeto: A, B, C, . . .
6
Le definizioni di esperimento aleatorio ed esito qui riportate, come anche quella di probabilità a cui
abbiamo precedentemente accennato, non sono vere e proprie definizioni matematiche. Tali concetti sono,
più precisamente, enti primitivi (come punto, retta, piano in geometria). Possono quindi essere definiti
solo intuitivamente e a partire da essi vengono formulate tutte le altre (vere) definizioni.
5
Esempio 3.1. Si lancia un dado. L’affermazione
è un evento.
Definizione 3.3. Ogni evento, inteso come affermazione, è rappresentato dal sottoin-
sieme di Ω costituito dai casi favorevoli, ovvero dagli esiti per cui l’evento è vero (è
rappresentato dall’insieme vuoto ∅ se è sempre falso).
Un qualunque sottoinsieme di Ω lo chiameremo ancora evento.
Ω = {1, 2, 3, 4, 5, 6}.
A = {2, 4, 6}.
6
• L’evento certo è un’affermazione che è sempre vera, qualunque sia l’esito dell’e-
sperimento aleatorio. Essa è rappresentata dall’insieme Ω stesso. Per tale ragione
si dice che l’insieme Ω è l’evento certo.
• L’evento impossibile è un’affermazione che è sempre falsa, qualunque sia l’esito
dell’esperimento aleatorio. Essa è rappresentata dall’insieme vuoto ∅. Per tale
ragione si dice che l’insieme ∅ è l’evento impossibile.
• Un evento elementare è un’affermazione che è vera per un solo esito, quindi
è rappresentata da un sottoinsieme di Ω che contiene un solo elemento. Per tale
ragione tutti i sottoinsiemi di Ω che contengono un solo elemento sono chiamati
eventi elementari.
Ω = {1, 2, 3, 4, 5, 6},
A = Ω, B = ∅, C = {2}.
Operazioni tra eventi. Come abbiamo visto gli eventi sono descritti sia da affer-
mazioni che da insiemi. Sulle affermazioni possiamo eseguire certe operazioni tramite
i connettivi logici, che corrispondono ad opportune operazioni/relazioni 7 insiemistiche,
come riportato nella tabella seguente:
7
“ ⊂ ” e “ = ” sono relazioni (anziché operazioni) insiemistiche.
7
Esercizio 3.1. A cosa corrisponde “A ma non B”?
Allora ∞
X
P(A) = P(An ).
n=1
a
Anche detta σ-additività.
b
In formule: Ai ∩ Aj = ∅, per ogni i 6= j. In altri termini, non hanno elementi in comune.
dove P(Ω) è l’insieme delle parti di Ω e rappresenta il dominio9 della funzione P, mentre
il codominio è l’intervallo [0, 1]. In simboli:
8
Esempio 3.4. Siano Ω = R e x0 un numero reale fissato. Si consideri la funzione
data da (
1, se x0 ∈ A,
δx0 (A) = ∀ A ⊂ R.
0, se x0 ∈
/ A,
δx0 si chiama delta di Dirac in x0 . Si verifica che δx0 soddisfa gli Assiomi I-II-III,
quindi δx0 è una probabilità e (R, δx0 ) è uno spazio di probabilità.
Si consideri la funzione
P : P(R) −→ [0, 1]
data da n
X
P(A) = pi δxi (A), ∀ A ⊂ R.
i=1
P è dunque una combinazione linearea di delta di Dirac. Si verifica che P soddisfa gli
Assiomi I-II-III, quindi P è una probabilità e (R, P) è uno spazio di probabilità.
a
Si tratta in particolare di una combinazione convessa, ovvero di una combinazione lineare con
coefficienti che verificano (3.1).
9
4 Conseguenze degli assiomi
Teorema 4.1. Sia (Ω, P) uno spazio di probabilità. Le seguenti proprietà della probabilità
P discendono dagli Assiomi I-II-III:
IV) P(∅) = 0.
Dimostrazione.
IV) Sappiamo dall’Assioma I che P(∅) è un numero che verifica 0 ≤ P(∅) ≤ 1. Per
semplificare la notazione, poniamo p := P(∅). Dobbiamo mostrare che p = 0.
A tale scopo utilizziamo l’additività numerabile (Assioma III) prendendo come
successione A1 , A2 , . . . , An , . . . gli insiemi
A1 = ∅, A2 = ∅, ··· An = ∅, ···
Tali insiemi sono evidentemente disgiunti tra loro (cioè non hanno elementi in co-
mune; questo è evidente dato che sono tutti uguali all’insieme vuoto, quindi ciascun
insieme non contiene alcun elemento). Inoltre, posto
∞
[
A = An
n=1
10
Questa è un’equazione nell’incognita p, che è verificata solo per p = 0. Infatti il
primo termine è uguale a p (quindi è uguale a zero se p = 0), mentre il secondo è
dato da
+∞
X 0, se p = 0,
p =
n=1
+∞, se 0 < p ≤ 1.
V) Dimostriamo il caso con due insiemi A e B (il caso con n insiemi si dimostra in
modo analogo). Utilizziamo l’additività numerabile (Assioma III) prendendo come
successione A1 , A2 , . . . , An , . . . gli insiemi
A1 = A, A2 = B, An = ∅, per ogni n ≥ 3.
Segue allora dall’additività numerabile (Assioma III) e dal fatto che P(An ) = 0
quando n ≥ 3
∞
X
P(A ∪ B) = P(An ) = P(A) + P(B).
↑
n=1 P(An )=0, n≥3
VI) Utilizziamo l’additività finita dimostrata al punto precedente prendendo gli insiemi
A e Ac .
Ω = A ∪ Ac .
P(Ac ) = 1 − P(A).
11
Esercizio 4.1. Lanciamo un dado perfettamente bilanciatoa a sei facce.
Qual è la probabilità che esca un numero maggiore o uguale a 3?
a
equilibrato, regolare, non truccato, . . ., oppure, equivalentemente, se il testo non dice nulla è
sottinteso che sia perfettamente bilanciato (ciò è una conseguenza del cosiddetto “principio di ragione
non sufficiente” di Laplace: se non si ha alcuna informazione a riguardo, si suppone che tutti i risultati
dell’esperimento siano tra loro equiprobabibili, dato che, non avendo alcuna informazione più precisa,
non c’è alcuna ragione per cui uno debba essere più probabile degli altri).
Per risolvere l’esercizio dobbiamo innanzitutto trovare uno spazio campionario per l’espe-
rimento aleatorio in questione. In tal caso, è naturale scegliere come spazio campionario
l’insieme
Ω = {1, 2, 3, 4, 5, 6}.
Dunque l’evento A è rappresentato dal sottoinsieme
A = {3, 4, 5, 6}.
Resta da determinare P(A). Dal testo dell’esercizio sappiamo che il dado è perfettamente
bilanciato, ovvero che gli eventi elementari
sono equiprobabili :
Dato che gli eventi {1}, . . . , {6} sono tra loro disgiunti e la loro unione è pari a
Quest’ultima equazione, insieme alle cinque equazioni (4.1), fornisce un sistema di sei
equazioni in sei incognite:
P({1}) = P({2}),
P({2}) = P({3}),
P({3}) = P({4}),
P({4}) = P({5}),
P({5}) = P({6}),
P({1}) + P({2}) + P({3}) + P({4}) + P({5}) + P({6}) = 1.
12
Tale sistema si risolve facilmente, ponendo x = P({1}) = · · · = P({6}) e sostituendo
nell’ultima equazione, che diventa 6 x = 1. Si conclude che l’unica soluzione del sistema
è data da
1
P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) = .
6
Ricordando che A = {3, 4, 5, 6}, dall’additività finita si ottiene
4
P(A) = P({3}) + P({4}) + P({5}) + P({6}) = .
6
Nell’esercizio appena svolto, dato un qualunque evento A vale la formula
no di eventi elementari che compongono A casi favorevoli
P(A) = = .
6 casi possibili
Questa proprietà vale ogni volta che l’esperimento aleatorio può essere descritto da uno
spazio campionario Ω finito con esiti equiprobabili , come affermato nel seguente Teo-
rema.
13
Quest’ultima equazione, insieme alle N − 1 equazioni (4.2), fornisce un sistema di N
equazioni in N incognite:
P({ω1 }) = P({ω2 }),
P({ω2 }) = P({ω3 }),
P({ω3 }) = P({ω4 }),
.
..,
P({ω1 }) + P({ω2 }) + · · · + P({ωN }) = 1.
Nell’ambito degli spazi di probabilità con spazio campionario finito, il caso di esiti equi-
probabili è estremamente particolare. Tuttavia, se guardiamo ai libri di testo di Calcolo
delle probabilità, la stragrande maggioranza degli esercizi ha esiti equiprobabili. Questo
perché, se gli esiti non sono equiprobabili, il testo dell’esercizio deve in aggiunta specifi-
care esattamente in che modo non lo sono, dato che ci sono infinite10 possibilità. A tal
proposito, si veda l’esercizio seguente.
Esercizio 4.2. Si dispone di un dado non bilanciato a forma di tetraedro regolare con
le facce numerate da 1 a 4. Lanciando il dado, la probabilità che esca 1 è il doppio della
probabilità che esca 2, che a sua volta è il doppio della probabilità che esca 3, che a sua
volta è il doppio della probabilità che esca 4.
Se si lancia il dado, qual è la probabilità che esca un numero pari?
Ω = {1, 2, 3, 4},
dunque
A = {2, 4}.
Resta da determinare P(A). Dal testo dell’esercizio sappiamo che il dado non è bilanciato,
è più precisamente che
10
Infatti, se gli esiti sono equiprobabili, dal Teorema 4.2 sappiamo che necessariamente P({ω1 }) = · · · =
P({ωN }) = N1 . Se invece non sono equiprobabili, sappiamo solo (dagli Assiomi I e II) che
Possiamo dunque scegliere come vogliamo P({ω1 }), . . . , P({ωN }), purché i vincoli (4.3) siano verificati.
14
“. . . la probabilità che esca 1 è il doppio della probabilità che esca 2,
che a sua volta è il doppio della probabilità che esca 3,
che a sua volta è il doppio della probabilità che esca 4.”
Quest’ultima equazione, insieme alle tre equazioni (4.4), fornisce un sistema di quattro
equazioni in quattro incognite:
P({1}) = 2 P({2}),
P({2}) = 2 P({3}),
P({3}) = 2 P({4}),
P({1}) + P({2}) + P({3}) + P({4}) = 1.
15
Teorema 4.3 (Formula dell’unione di due eventi ). Siano A e B due eventi
qualunque (non necessariamente disgiunti), allora
Osservazione 2. Per convincersi della validità della formula (4.5), basta osservare che
la somma P(A) + P(B) conta due volte l’intersezione, per tale ragione dobbiamo sottrarre
P(A ∩ B).
Dimostrazione. Consideriamo gli insiemi
C1 = A\B, C2 = B\A.
16
Calcolo delle Probabilità e Statistica 2019/2020
PROBABILITÀ CONDIZIONALE
E INDIPENDENZA
1 Probabilità condizionale
1.1 Definizione e proprietà
Consideriamo un evento A riguardante l’esito di un qualche esperimento aleatorio, e in-
dichiamo con P(A) la sua probabilità. Se veniamo a conoscenza del fatto che un altro
evento B si è verificato, come è sensato aggiornare il valore di P(A) per tenere conto di
questa nuova informazione?
Introduciamo un simbolo per indicare la probabilità dell’evento A sapendo che l’evento B
si è verificato:
P(A|B).
Chiameremo P(A|B) la probabilità condizionale (o condizionata) di A dato B. Quanto
vale P(A|B)? Prima di rispondere vediamo due esempi.
Soluzione. In primo luogo, introduciamo uno spazio di probabilità (Ω, P) che descriva
l’esperimento aleatorio: Ω = {1, 2, 3, 4, 5, 6} e P probabilità uniforme 1 .
Nel testo dell’esercizio si fa riferimento ai due eventi seguenti:
A = {3, 4, 5, 6},
B = {2, 4, 6}.
P(A|B).
Poiché non abbiamo ancora detto come si calcola tale probabilità, possiamo solo provare
a indovinare quanto dovrebbe valere: dato che si è verificato B, cioè è uscito un numero
pari, i “veri” casi possibili sono 2, 4, 6; dunque i “veri” casi favorevoli sono 4 e 6;
supponendo che sia lecito utilizzare la formula “veri” casi favorevoli/ “veri” casi possibili,
otteniamo
2
P(A|B) = .
3
1 1
Quindi P({1}) = · · · = P({6}) = 6 e vale la formula di Laplace:
2
In effetti questa è la risposta corretta, come si potrà verificare utilizzando la formula per
la probabilità condizionale.
Esempio 1.2. Lanciamo un dado truccato a quattro facce, per cui la probabilità che
esca 1 è il doppio della probabilità che esca 2, che a sua volta è il doppio della probabilità
che esca 3, che a sua volta è il doppio della probabilità che esca 4.
Qual è la probabilità che esca un numero maggiore o uguale a 3 sapendo che è uscito un
numero pari?
Soluzione. Abbiamo già studiato questo esperimento aleatorio e sappiamo che uno spazio
di probabilità (Ω, P) che lo descrive è Ω = {1, 2, 3, 4} e P tale che
8 4 2 1
P({1}) = , P({2}) = , P({3}) = , P({4}) = .
15 15 15 15
I due eventi
A = {3, 4},
B = {2, 4}.
Resta da trovare P(A|B). Come nell’esempio precedente, non avendo ancora a disposizione
la formula di P(A|B), possiamo solo provare a indovinare quanto dovrebbe valere. Il
ragionamento è lo stesso di prima: dato che si è verificato B, i “veri” casi possibili sono
2 e 4; dunque c’è un solo “vero” caso favorevole che è 4. Come seguirà dalla formula,
P(A|B) è pari al rapporto tra la probabilità dei “veri” casi favorevoli e la probabilità dei
“veri” casi possibili:
P({4}) 1
P(A|B) = = .
P({2}) + P({4}) 5
Definizione 1.1. Siano A e B due eventi cona P(B) > 0. La probabilità condizionale
di A dato B è
P(A ∩ B)
P(A|B) = .
P(B)
a
Si richiede che P(B) > 0 solo perché P(B) compare a denominatore.
3
“veri” casi favorevoli e la probabilità dei “veri” casi possibili:
probabilità dei “veri” casi favorevoli
P(A|B) = .
probabilità dei “veri” casi possibili
Nel caso in cui Ω sia finito e gli esiti siano equiprobabili, dunque P è uniforme, allora
P(A|B) è pari al rapporto tra i “veri” casi favorevoli e i “veri” casi possibili:
P(A ∩ Ω)
P(A|Ω) = = P(A).
P(Ω)
Questo è naturale, infatti se l’evento che sappiamo essersi verificato è Ω, non pos-
sediamo alcuna informazione aggiuntiva (i casi possibili non sono cambiati). Infatti
Ω è l’evento certo e sappiamo già che si verificherà sicuramente.
P(Ω ∩ B) P(B)
P(Ω|B) = = = 1.
P(B) ↑ P(B)
Ω∩B=B
Inoltre, essa possiede tutte le proprietà di una probabilità, come affermato nel seguente
teorema.
2
Vedremo in seguito che relazione esiste tra P(A|B) e P(B|A) (formula di Bayes).
4
Teorema 1.1. Sia B un evento tale che P(B) > 0. Valgono le seguenti proprietà:
0 ≤ P(A|B) ≤ 1.
II) P(Ω|B) = 1.
Allora ∞
X
P(A|B) = P(An |B).
n=1
IV) P(∅|B) = 0.
5
1.2 Utilizzo della probabilità condizionale
Quando si studiano esperimenti aleatori reali, spesso molte probabilità condizionali sono
note. Analogamente, negli esercizi, la probabilità condizionale è spesso data dal testo
dell’esercizio (anche se non esplicitamente, come vedremo), mentre sarà nostro compito
determinare la probabilità dell’intersezione P(A∩B), che nella formula di P(A|B) compare
a numeratore:
P(A ∩ B)
P(A|B) = .
P(B)
In altri termini, spesso (anche se non sempre) utilizzeremo tale formula riscritta come
segue:
P(A ∩ B) = P(A|B) P(B), (1.1)
dove P(B) e P(A|B) saranno note, mentre P(A ∩ B) sarà l’incognita. Data l’importanza
della formula (1.1) (che chiameremo regola della catena), è utile riportarla come teorema.
Teorema 1.2. Siano A e B due eventi con P(B) > 0. Vale la regola della catena:
Più in generale, dati n eventi A1 , A2 , . . . , An , con P(A1 ∩ · · · ∩ An−1 ) > 0, vale la regola
della catena:
Osservazione. Nella regola della catena per n insiemi, la richiesta P(A1 ∩· · ·∩An−1 ) > 0
garantisce che tutte le probabilità condizionali che compaiono siano definite. Infatti, dato
che
A1 ∩ · · · ∩ An−1 ⊂ A1 ∩ · · · ∩ An−2 ⊂ · · · ⊂ A1 ,
dalla monotonia della probabilità segue che anche le probabilità P(A1 ∩· · ·∩An−2 ), . . . , P(A1 )
sono strettamente maggiori di zero.
Dimostrazione. La dimostrazione della regola della catena nel caso di due insiemi A
e B è riportata appena prima dell’enunciato del teorema e segue immediatamente dalla
definizione di P(A|B) (è infatti un modo di riscrivere la definizione di P(A|B)).
La regola della catena per n insiemi segue anch’essa dalla definizione di P(An |A1 ∩
A2 ∩ · · · ∩ An−1 ), . . ., P(A2 |A1 ), infatti
6
Esercizio 1.1. Un’urna contiene tre palline bianche, due palline nere e una pallina rossa.
Si eseguono tre estrazioni senza reimmissione.
Qual è la probabilità di estrarre nell’ordine una bianca, una rossa e una nera?
Per risolvere questo esercizio non è necessario introdurre uno spazio campionario Ω, elen-
cando dunque tutti gli esiti dell’esperimento aleatorio. Esiste infatti un’altra via, più
semplice e veloce, per risolvere l’esercizio, la quale utilizza solo gli eventi e le proprietà
della probabilità (in particolare, la regola della catena). Vediamone i dettagli nel risolve-
re questo esercizio. Invece di elencare gli esiti dell’esperimento aleatorio, elenchiamo gli
eventi di cui conosciamo la probabilità (condizionale oppure non condizionale). Essi sono
in generale eventi che si riferiscono ai singoli sotto-esperimenti aleatori. Nell’esercizio in
questione, sono gli eventi che si riferiscono alle singole estrazioni:
con i = 1, 2, 3. Dato che il testo dell’esercizio non dice nulla a riguardo, si suppone
che le palline all’interno dell’urna abbiano tutte la stessa probabilità di essere estratte.
Dunque, nota la composizione dell’urna, vale l’equiprobabilità, ovvero vale la formula casi
favorevoli /casi possibili. Ad esempio
3 1
P(B1 ) = =
↑
6 2
è l’urna iniziale
oppure
2
P(B2 |B1 ) =
↑
5
nell’urna ci sono
2 b, 2 n e 1 r
oppure
1
P(B3 |B1 ∩ B2 ) = .
↑
4
nell’urna ci sono
1 b, 2 n e 1 r
Queste tre probabilità sono date (anche se non esplicitamente) dal testo dell’esercizio,
infatti seguono dalla sola ipotesi secondo cui ad ogni estrazione le palline hanno tutte
7
la stessa probabilità di essere estratte3 . In conclusione, le seguenti probabilità sono note
(non sono riportate tutte quelle relative agli eventi B3 , N3 , R3 ):
3 1
P(B1 ) = = ,
6 2
2 1
P(N1 ) = = ,
6 3
1
P(R1 ) = ,
6
2
P(B2 |B1 ) = ,
5
3
P(B2 |N1 ) = ,
5
3
P(B2 |R1 ) = ,
5
2
P(N2 |B1 ) = ,
5
1
P(N2 |N1 ) = ,
5
2
P(N2 |R1 ) = ,
5
1
P(R2 |B1 ) = ,
5
1
P(R2 |N1 ) = ,
5
P(R2 |R1 ) = 0,
1
P(B3 |B1 ∩ B2 ) = ,
4
2 1
P(B3 |B1 ∩ N2 ) = = ,
4 2
2 1
P(B3 |B1 ∩ R2 ) = = ,
4 2
e cosı̀ via . . .
L’evento A di cui è richiesta la probabilità può essere espresso in termini degli eventi che
abbiamo introdotto come segue:
A = B1 ∩ R2 ∩ N3 .
Dunque, per la regola della catena,
2 1 3 1
P(A) = P(N3 |B1 ∩ R2 ) P(R2 |B1 ) P(B1 ) = · · = .
4 5 6 20
↑ ↑ ↑
nell’urna ci sono nell’urna ci sono è l’urna iniziale
2 b, 2 n e 0 r 2 b, 2 n e 1 r
3
Come abbiamo detto, l’ipotesi secondo cui le palline hanno tutte la stessa probabilità di essere estratte
è assunta seppur tacitamente. Se infatti non fosse assunta, il testo dell’esercizio dovrebbe segnalarlo e
dovrebbe spiegare come cambiano le probabilità (come accade nell’esercizio riguardante il dado truccato).
8
Nello studio di un esperimento aleatorio costituito da più sotto-esperimenti aleatori, in cui
come abbiamo visto nel precedente esercizio sono note alcune probabilità condizionali e
altre non condizionali, è utile servirsi del diagramma ad albero. Ad esempio, il diagramma
ad albero relativo all’Esercizio 1.1 è il seguente:
1
P(B3 |B1 ∩ B2 ) = 4
B3
1
P(N3 |B1 ∩ B2 ) = 2
B2 N3
2
P(B2 |B1 ) = 5
1
P(R3 |B1 ∩ B2 ) = 4 R3
1
P(B3 |B1 ∩ N2 ) = 2
B3
2
P(N2 |B1 ) = 5 P(N3 |B1 ∩ N2 ) = 1
4
B1 N2 N3
1
P(R3 |B1 ∩ N2 ) = 4 R3
1
P(B3 |B1 ∩ R2 ) = 2
B3
1
P(R2 |B1 ) = 5
1
P(N3 |B1 ∩ R2 ) = 2
R2 N3
1
P(B1 ) = 2 P(R3 |B1 ∩ R2 ) = 0 R3
1
P(B3 |N1 ∩ B2 ) = 2
B3
1
P(N3 |N1 ∩ B2 ) = 4
B2 N3
3
P(B2 |N1 ) = 5
1
P(R3 |N1 ∩ B2 ) = 4 R3
3
P(B3 |N1 ∩ N2 ) = 4
B3
1
P(N2 |N1 ) = 5 P(N3 |N1 ∩ N2 ) = 0
Ω N1 N2 N3
1
P(N1 ) = 3
1
P(R3 |N1 ∩ N2 ) = 4 R3
3
P(B3 |N1 ∩ R2 ) = 4
B3
1
P(R2 |N1 ) = 5
1
P(N3 |N1 ∩ R2 ) = 4
R2 N3
P(R3 |N1 ∩ R2 ) = 0 R3
1
P(R1 ) = 6
1
P(B3 |R1 ∩ B2 ) = 2
B3
1
P(N3 |R1 ∩ B2 ) = 2
P(B2 |R1 ) = 3 B2 N3
5
P(R3 |R1 ∩ N2 ) = 0 R3
R1 3
P(B3 |R1 ∩ N2 ) = 4
B3
1
P(N2 |R1 ) = 2 P(N3 |R1 ∩ N2 ) = 4
5 N2 N3
P(R3 |R1 ∩ N2 ) = 0 R3
• ogni nodo corrisponde ad un evento4 (il primo nodo, la radice, corrisponde sempre
all’evento certo Ω);
• ogni ramo corrisponde ad una probabilità: nella prima ramificazione ci sono pro-
babilità non condizionali; dalla seconda ramificazione in poi ci sono probabilità
condizionali;
4
Tipicamente, la prima ramificazione descrive il primo sotto-esperimento aleatorio, la seconda il
secondo sotto-esperimento aleatorio e cosı̀ via.
9
• i rami che escono da un medesimo nodo conducono ad eventi tra loro disgiunti la
cui unione è Ω; per tale ragione, le probabilità dei rami che escono da un medesimo
nodo sommano a uno;
sappiamo dalla regola della catena che si ottiene la probabilità dell’intersezione degli
eventi, infatti
La terza proprietà di un diagramma ad albero riportata qui sopra, ovvero che i rami che
escono da un medesimo nodo conducono ad eventi tra loro disgiunti la cui unione è Ω,
può essere abbreviata dicendo che i rami che escono da un medesimo nodo conducono ad
una partizione di Ω. La definizione di partizione di Ω è la seguente.
Esercizio 1.2. Ci sono due urne: la prima contiene due palline rosse e una bianca; la
seconda contiene tre palline rosse e due bianche. Si lancia una moneta: se esce testa si
estrae una pallina dalla prima urna, se esce croce si estrae una pallina dalla seconda urna.
Qual è la probabilità che l’esito del lancio della moneta sia testa e la pallina estratta sia
bianca?
10
Soluzione. L’esperimento aleatorio è costituito da due sotto-esperimenti aleatori: il
lancio della moneta seguito dall’estrazione dall’urna che è stata scelta. L’evento di cui
dobbiamo calcolare la probabilità è
A = “l’esito del lancio della moneta è testa e la pallina estratta è bianca”.
Elenchiamo gli eventi riguardanti i due sotto-esperimenti aleatori:
T = “l’esito del lancio della moneta è testa”,
C = “l’esito del lancio della moneta è croce” = T c ,
B = “la pallina estratta è bianca”,
R = “la pallina estratta è rossa” = B c .
Si noti che per ogni sotto-esperimento aleatorio abbiamo considerato una partizione 5 o
schema di alternative. Infatti, gli insiemi T e C sono una partizione di Ω, come anche gli
insiemi B ed R. Le probabilità note sono le seguenti:
1
P(T ) = ,
2
1
P(C) = ,
2
1
P(B|T ) = ,
↑
3
1a urna
2
P(R|T ) = ,
↑
3
1a urna
3
P(B|C) = ,
↑
5
2a urna
2
P(R|C) = ,
↑
5
2a urna
5
Se non fosse cosı̀ per qualche sotto-esperimento aleatorio, vorrebbe dire che gli eventi considerati non
tengono conto di tutti i possibili risultati del sotto-esperimento in questione.
11
L’evento A di cui è richiesta la probabilità può essere espresso in termini degli eventi che
abbiamo introdotto come segue:
A = T ∩ B.
Quindi, per la regola della catena,
1 1 1
P(A) = P(B|T ) P(T ) = · = .
3 2 6
2 Eventi indipendenti
La probabilità condizionale P(A|B) rappresenta la probabilità dell’evento A sapendo che
l’evento B si è verificato. Può succedere che l’informazione che l’evento B si è verificato
non alteri la probabilità di A, cioè P(A|B) = P(A)? Quando questo accade, diremo che A
e B sono eventi “indipendenti”, nel senso che verificano quanto affermato nella definizione
seguente (si noti che nella Definizione 2.1 non compare la probabilità condizionale; questo
punto sarà chiarito dal Teorema 2.1).
A B.
|=
Teorema 2.1.
A B ⇐⇒ P(A|B) = P(A).
|=
A B ⇐⇒ P(B|A) = P(B).
|=
Osservazione. In altri termini, se P(A) > 0 e P(B) > 0, le tre uguaglianze seguenti
sono equivalenti:
12
Viene adottata come definizione di indipendenza la (2.1) in quanto è simmetrica rispetto
ad A e B, inoltre non necessita di assunzioni su P(A) o P(B).
Dimostrazione (del Teorema 2.1). Dimostriamo solo l’affermazione 1), dato che la 2)
si dimostra allo stesso modo.
La 1) è una conseguenza della seguente catene di equivalenze:
P(B) P(B)
⇐⇒ P(A|B) = P(A).
Osservazione. La nozione di indipendenza non è da confondersi con quella di insie-
mi disgiunti. Due eventi A e B sono contemporaneamente disgiunti e indipendenti solo
quando P(A) = 0 oppure P(B) = 0. Infatti
Dato che
B = Ω ∩ B = (A ∪ Ac ) ∩ B = (A ∩ B) ∪ (Ac ∩ B)
e gli eventi A ∩ B e Ac ∩ B sono disgiunti, per l’additività finita abbiamo che
Quindi
13
Definizione 2.2. Tre eventi A, B, C si dicono indipendenti se valgono
simultaneamente le quattro uguaglianze seguenti:
per ogni k = 2, . . . , n e per ogni scelta di indici i1 , . . . , ik , tutti distinti tra loro e compresi
tra 1 e n.
A = {5, 6},
B = {2, 4, 6}.
Quindi
1
P(A) = ,
3
P(A ∩ B) P({6}) 1
P(A|B) = = = .
P(B) P(B) 3
14
non valesse, dovrebbe spiegare in che modo i sotto-esperimenti aleatori si influenzano tra
loro (come accade ad esempio negli Esercizi 1.1 e 1.2).
Esercizio 2.2. Lanciamoa una moneta e un dado a quattro facce, entrambi non truccati.
Determinare uno spazio di probabilità che descriva l’esperimento aleatorio.
a
Dato che i due sotto-esperimenti aleatori “non si influenzano tra loro”, non ha alcuna importanza
quale si effettua per primo (possono anche svolgersi contemporaneamente).
Ω = {t, c} × {1, 2, 3, 4}
= (t, 1), (t, 2), (t, 3), (t, 4), (c, 1), (c, 2), (c, 3), (c, 4) .
Resta da determinare P, che significa assegnare la probabilità di tutti gli eventi elementari
P({(t, 1)}), P({(t, 2)}), . . . , P({(c, 4)}). Intuitivamente è naturale aspettarsi che gli eventi
elementari (che sono otto) siano equiprobabili:
1
P({(t, 1)}) = P({(t, 2)}) = · · · = P({(c, 4)}) = . (2.2)
8
Ciò significa che P è la probabilità uniforme, quindi vale la formula casi favorevoli /casi
possibili:
no di eventi elementari che compongono A
P(A) = ,
8
per ogni sottoinsieme A di Ω.
Dimostriamo dunque la validità di (2.2). Ciò che sappiamo è solamente che dado e moneta
non sono truccati, e inoltre che i due sotto-esperimenti aleatori “non si influenzano tra
loro” (sono indipendenti), infatti diversamente sarebbe descritto nel testo dell’esercizio il
modo in cui si influenzano. Esprimiamo tutto questo in formule introducendo gli eventi
che riguardano i singoli sotto-esperimenti aleatori:
Esercizio 2.3. Nel gioco del lotto si estraggono senza reimmissione cinque numeri da
un’urna che contiene 90 palline numerate da 1 a 90.
Soluzione.
1) Uno spazio campionario naturale è l’insieme di tutte le cinquine ordinate di numeri
distinti da 1 a 90:
Ω = (x1 , x2 , x3 , x4 , x5 ) : xi è un numero naturale da 1 a 90, con xi 6= xj se i 6= j .
Si noti che
|Ω| = 90 · 89 · 88 · 87 · 86.
Resta da determinare P. Intuitivamente, ci aspettiamo che P sia la probabilità uniforme,
ovvero
1
P({(x1 , x2 , x3 , x4 , x5 )}) = , ∀ (x1 , x2 , x3 , x4 , x5 ) ∈ Ω. (2.3)
90 · 89 · 88 · 87 · 86
16
Dimostriamo questo risultato. Introduciamo gli eventi che riguardano i singoli sotto-
esperimenti aleatori, ovvero le singole estrazioni:
Consideriamo ad esempio la cinquina (17, 54, 2, 76, 45). Allora possiamo esprimere l’evento
elementare {(17, 54, 12, 76, 45)} in termini degli eventi Ei,n come segue:
(17, 54, 2, 76, 45) = E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ∩ E5,45 .
Per determinare la probabilità di {(17, 54, 12, 76, 45)} (e dimostrare la validità di (2.3))
possiamo usare la regola della catena:
Tutte queste probabilità sono note, poiché ad ogni estrazione conosciamo la composizione
dell’urna. In particolare, si ha che
1
P(E1,17 ) = ,
90
1
P(E2,54 |E1,17 ) = ,
89
1
P(E3,12 |E1,17 ∩ E2,54 ) = ,
88
1
P(E4,76 |E1,17 ∩ E2,54 ∩ E3,12 ) = ,
87
1
P(E5,45 |E1,17 ∩ E2,54 ∩ E3,12 ∩ E4,76 ) = .
86
Quindi
1
P({(17, 54, 2, 76, 45)}) = .
90 · 89 · 88 · 87 · 86
È chiaro che questo ragionamento vale per qualunque cinquina, non solo per (17, 54, 2, 76, 45).
Possiamo dunque concludere che (2.3) è valida, quindi che P è la probabilità uniforme.
2) Se le estrazioni avvengono con reimmissione, uno spazio campionario naturale è l’in-
sieme di tutte le cinquine ordinate di numeri da 1 a 90, non necessariamente distinti:
Ω = (x1 , x2 , x3 , x4 , x5 ) : xi è un numero naturale da 1 a 90 .
Si noti che in tal caso Ω può anche essere scritto come segue:
17
Resta da determinare P. Dato che in questo caso le estrazioni non si influenzano tra
di loro, sono dunque indipendenti, inoltre ogni estrazione ha esiti equiprobabili, possia-
mo concludere senza fare conti (come già osservato alla fine dell’Esercizio 2.2) che la
probabilità P è uniforme, ovvero
1
P({(x1 , x2 , x3 , x4 , x5 )}) =, ∀ (x1 , x2 , x3 , x4 , x5 ) ∈ Ω. (2.4)
905
Tuttavia, per maggiore chiarezza, possiamo comunque procedere come prima e dimostrar-
lo. Utilizziamo le stesse notazioni introdotte al punto precedente, quindi
Ei,n = “all’i-esima estrazione esce il numero n”, i = 1, 2, 3, 4, 5, n = 1, . . . , 90.
Consideriamo ad esempio la cinquina (52, 34, 65, 34, 52). Allora
(52, 34, 65, 34, 52) = E1,52 ∩ E2,34 ∩ E3,65 ∩ E4,34 ∩ E5,52 .
A differenza del punto precedente, nel caso con reimmissione gli eventi che si riferiscono
ad estrazioni differenti sono tra loro indipendenti, quindi vale che
P({(52, 34, 65, 34, 52)}) = P(E1,52 ∩ E2,34 ∩ E3,65 ∩ E4,34 ∩ E5,52 )
1
= P(E1,52 ) P(E2,34 ) P(E3,65 ) P(E4,34 ) P(E5,52 ) = .
905
Abbiamo dunque dimostrato la validità di (2.4).
dove l’ultima uguaglianza segue dalla proprietà distributiva dell’intersezione rispetto all’u-
nione. Inoltre, dato che gli eventi B1 , . . . , Bn sono disgiunti (ovvero, non hanno elementi
in comune), segue che anche gli eventi A ∩ B1 , . . . , A ∩ Bn sono disgiunti. Quindi, per la
proprietà di additività finita della probabilità,
n
X
P(A) = P(A ∩ Bi ).
i=1
18
Infine, dalla regola della catena,
Quindi
n n
regola catena
X X
P(A) = P(A ∩ Bi ) = P(A|Bi ) P(Bi ).
i=1 i=1
Osservazione. Grazie alla formula delle probabilità totali, possiamo dire qualcosa di più
sul diagramma ad albero di un esperimento aleatorio. Infatti, segue dalla formula delle
probabilità totali la seguente importante proprietà di un diagramma ad albero:
• la probabilità di un qualunque evento che compare nel diagramma ad albero (in
altri termini, un evento che corrisponde ad un nodo dell’albero) è la somma delle
probabilità di tutti i cammini che dalla radice Ω conducono ad esso.
Il modo migliore per rendersi conto della validità di questa proprietà è con un esercizio,
come quello che segue.
Esercizio 3.1. Un’urna contiene 10 palline di cui 6 bianche e 4 rosse. Si estraggono due
palline senza reimmissione. Calcolare la probabilità dell’evento
Le probabilità note sono le seguenti (in realtà, per trovare la probabilità di B2 , come
richiesto dall’esercizio, non serve riportare tutte queste probabilità):
6 3
P(B1 ) = = ,
10 5
2
P(R1 ) = 1 − P(B1 ) = ,
5
5
P(B2 |B1 ) = ,
9
4
P(R2 |B1 ) = 1 − P(B2 |B1 ) = ,
9
6 2
P(B2 |R1 ) = = ,
9 3
3 1
P(R2 |R1 ) = 1 − P(B2 |R1 ) = = .
9 3
19
Allora, dalla formula delle probabilità totali otteniamo
5 3 2 2 3
P(B2 ) = P(B2 |B1 ) P(B1 ) + P(B2 |R1 ) P(R1 ) = · + · = .
9 5 3 5 5
A tale risultato si può arrivare utilizzando il diagramma ad albero:
5
P(B2 |B1 ) = 9 B2
3
P(B1 ) = 5 B1
P(R2 |B1 ) = 4 R2
9
Ω 2
P(B2 |R1 ) = 3 B2
2 R1
P(R1 ) = 5
P(R2 |R1 ) = 1 R2
3
Ricordando che la probabilità di un cammino è il prodotto delle probabilità dei suoi rami,
otteniamo
P(B2 ) = P(B2 |B1 ) P(B1 ) + P(B2 |R1 ) P(R1 ),
che corrisponde alla formula delle probabilità totali.
4 Formula di Bayes
Le formule che seguono dalla definizione di probabilità condizionale sono tre: la regola
della catena, la formula delle probabilità totali e la formula di Bayes, che ora presentia-
mo. Sono molto importanti in quanto permettono di risolvere problemi di Calcolo delle
probabilità utilizzando solo gli eventi, senza dover introdurre esplicitamente lo spazio
campionario. Sono inoltre strettamente collegate al diagramma ad albero.
Veniamo dunque alla formula di Bayes, che stabilisce la relazione tra le probabilità
condizionali P(A|B) e P(B|A).
Teorema 4.1 (Formula di Bayes). Siano A e B due eventi tali che P(A) > 0 e P(B) >
0, allora vale la formula
P(A|B) P(B)
P(B|A) = .
P(A)
P(A ∩ B)
P(B|A) = .
P(A)
20
Utilizzando la regola della catena, possiamo riscrivere il numeratore come segue
Quindi
P(A ∩ B) P(A|B)P(B)
P(B|A) = = ,
↑ P(A) ↑ P(A)
defn. di P(B|A) reg. catena
Esercizio 4.1. Ci sono due urne: la prima urna contiene una pallina bianca e due palline
rosse, mentre la seconda contiene due palline bianche e cinque palline rosse. Si lancia una
moneta: se esce testa si estrae una pallina dalla prima urna, se esce croce si estrae una
pallina dalla seconda.
Sapendo che è stata estratta una pallina bianca, calcolare la probabilità che l’esito del
lancio della moneta sia stato testa.
T = “l’esito del lancio della moneta è testa” = “si sceglie la prima urna”,
C = “l’esito del lancio della moneta è croce” = “si sceglie la seconda urna” = T c ,
B = “si estrae una pallina bianca”,
R = “si estrae una pallina rossa” = B c .
6
Con riferimento al diagramma ad albero, il nodo A è un “figlio” del nodo B.
21
La probabilità richiesta è la seguente probabilità condizionale
P(T |B),
P(B|T ) P(T )
P(T |B) = .
P(B)
Le due probabilità a numeratore sono note, mentre (come accade spesso quando si usa la
formula di Bayes) il denominatore va calcolato con la formula delle probabilità totali:
Quindi
1 1
P(B|T ) P(T ) ·
3 2 7
P(T |B) = = 1 1 = .
P(B|T ) P(T ) + P(B|C) P(C) 3
· 2
+ 27 · 1
2
13
5 Esercizi e paradossi
Esercizio 5.1. In un’urna ci sono due palline che possono essere rosse (R) o bianche
(B). La composizione esatta non è nota, quindi le composizioni possibili sono:
Supponiamo che, in base alle informazioni a disposizione, sia ragionevole assegnare uguale
probabilità pari a 1/3 alle tre composizioni (ipotesi) possibili, che denotiamo H0 , H1 e H2 .
2) Si effettuano tre estrazioni con reimmissione: sapendo che le prime due palline
estratte sono bianche, qual è la probabilità che anche la terza pallina estratta sia
bianca?
22
P(R2 |H0 ∩ R1 ) = 1 R2
P(R1 |H0 ) = 1 R1
P(B2 |H0 ∩ R1 ) = 0 B2
H0
1
P(H0 ) = 3
P(B1 |H0 ) = 0 B1 1
P(R2 |H1 ∩ R1 ) = 2 R2
1
P(R1 |H1 ) = 2
R1
P(H1 ) = 1
P(B2 |H1 ∩ R1 ) = 1 B2
3 2
Ω H1 1
P(R2 |H1 ∩ B1 ) = 2 R2
1
P(B1 |H1 ) = 2 B1
P(B2 |H1 ∩ B1 ) = 1 B2
2
P(R1 |H2 ) = 0 R1
1
P(H2 ) = 3
H2
P(R2 |H2 ∩ B1 ) = 0 R2
P(B1 |H2 ) = 1 B1
P(B2 |H2 ∩ B1 ) = 1 B2
1) La probabilità richiesta è P(B1 ). Dalla formula delle probabilità totali (o, equivalente-
mente, dal diagramma ad albero), si ottiene
1
P(B1 ) = P(B1 |H0 ) P(H0 ) + P(B1 |H1 ) P(H1 ) + P(B1 |H2 ) P(H2 ) = .
2
Le probabilità a destra del segno di uguaglianza si calcolano con la regola della catena.
Si ottiene
23
e
Esercizio 5.2 (Paradosso delle tre carte). Giochiamo con tre carte. Una è bianca su
entrambi i lati, una è rossa su entrambi i lati e una è bianca da un lato e rossa dall’altro.
Ogni carta è nascosta in una scatoletta nera. Il giocatore sceglie una delle tre scatolette,
estrae la carta e la posa sul tavolo in modo che sia visibile un solo lato.
Sapendo che il lato superiore della carta è bianco, qual è la probabilità che l’altro lato sia
rosso?
Soluzione. Possiamo utilizzare gli stessi eventi introdotti nell’Esercizio 5.1 per descrivere
questo esperimento aleatorio:
Il diagramma ad albero dell’esperimento aleatorio è il seguente (si noti che nella terza
ramificazione le probabilità sui rami sono diverse rispetto all’albero dell’Esercizio 5.1;
sarebbero state le stesse se nell’Esercizio 5.1 l’estrazione fosse stata senza reimmissione):
24
P(R2 |H0 ∩ R1 ) = 1 R2
P(R1 |H0 ) = 1 R1
P(B2 |H0 ∩ R1 ) = 0 B2
H0
1
P(H0 ) = 3
P(B1 |H0 ) = 0 B1
P(R2 |H1 ∩ R1 ) = 0 R2
1
P(R1 |H1 ) = 2
R1
P(H1 ) = 1 P(B2 |H1 ∩ R1 ) = 1 B2
3
Ω H1
P(R2 |H1 ∩ B1 ) = 1 R2
1
P(B1 |H1 ) = 2 B1
P(B2 |H1 ∩ B1 ) = 0 B2
P(R1 |H2 ) = 0 R1
1
P(H2 ) = 3
H2
P(R2 |H2 ∩ B1 ) = 0 R2
P(B1 |H2 ) = 1 B1
P(B2 |H2 ∩ B1 ) = 1 B2
La probabilità richiesta è P(R2 |B1 ). Si procede dunque come al punto 2 dell’Esercizio 5.1.
Si ottiene quindi
P(B1 ∩ R2 )
P(R2 |B1 ) =
P(B1 )
P(B1 ∩ R2 ∩ H0 ) + P(B1 ∩ R2 ∩ H1 ) + P(B1 ∩ R2 ∩ H2 )
=
P(B1 )
1 1
0+1· 2 · 3 +0 1
= 1 = .
2
3
Esercizio 5.3 (Dilemma di Monty-Hall). Sei a un gioco a premi, e devi scegliere fra
tre porte. Dietro a una porta c’è un’automobile, mentre dietro alle altre troverai solo delle
capre. Tu scegli, diciamo, la porta no 1, e il presentatore, che sa dov’è l’automobile, ne
apre un’altra, dietro a cui c’è una capra. A questo punto, ti dà la possibilità di scegliere
tra il restare fedele alla porta no 1 o il passare all’altra.
Che cosa ti conviene fare?
25
C = “vinci passando all’altra porta non ancora aperta dal presentatore” = B c .
26
innanzitutto una congettura su P(A), a partire dalle informazioni in nostro possesso8 , poi
si esegue una singola prova e sulla base dell’esito ottenuto si “aggiorna” il valore di P(A)
tramite la formula di Bayes:
P(esito ottenuto | A)
P(A) dopo aver eseguito la prova := P(A | esito ottenuto) = P(A)
↑ P(esito ottenuto)
Bayes
in cui anche le probabilità P(esito ottenuto | A) e P(esito ottenuto) devono essere conget-
turate. Il rapporto
P(esito ottenuto | A)
P(esito ottenuto)
rappresenta l’impatto che quel particolare esito ha sulla probabilità dell’evento A.
Possiamo riassumere con il seguente schema l’approccio bayesiano:
8
Qui ci si avvale di vari elementi che possono presentarsi caso per caso (ragioni di simmetria come
per dadi, palline in un’urna, roulette, ecc.; esperienze statistiche su fenomeni simili; confronti, ecc.),
integrandole in genere con conoscenze, opinioni, ecc. relative al singolo caso in questione.
27
Calcolo delle Probabilità e Statistica 2019/2020
I problemi che rientrano nella situazione qui sopra descritta sono detti problemi di
conteggio, in quanto il calcolo della probabilità di un evento A si riduce al conteggio
del numero di casi favorevoli e del numero di casi possibili. Il calcolo combinatorio è lo
strumento matematico che permette di svolgere questi calcoli anche quando tali numeri
sono particolarmente elevati.
se, per definizione, esiste una funzione f : A → B biettiva, cioè iniettiva e suriettiva.
Ricordiamo dunque il seguente principio basilare:
2
Per determinare la cardinalità di un insieme A spesso si ricorre alla corrispondenza biuni-
voca, ovvero si determina un altro insieme B che si sa essere in corrispondenza biunivoca
con A, quindi |A| = |B|, e di cui è più facile calcolare la cardinalità.
n! = n(n − 1) · · · 1, ∀ n = 1, 2, . . .
Esempio 1.1. Quante password di otto caratteri, ognuno dei quali scelto tra trentasei
valori alfanumerici, possono essere generate?
Come cambia la risposta se gli otto caratteri devono essere tra loro distinti?
1
Una dimostrazione di carattere combinatorio della formula di Newton è la seguente: il prodotto
(a + b)(a + b) · · · (a + b) di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk
con 0 ≤ k ≤ n. Resta dunque da determinare il coefficiente di ciascun monomio an−k bk , ossia calcolare
quante volte compare facendo il prodotto (a + b)(a + b) · · · (a + b). Tale monomio si ottiene scegliendo il
valore b da k degli n fattori disponibili e, quindi, scegliendo a dai rimanenti n − k, ovvero in nk modi.
3
Soluzione.
Ω = {a, b, c, . . . , 8, 9}8 .
Come seguirà dal metodo delle scelte successive, la cardinalità di Ω è data dal prodotto
di questi otto numeri:
|Ω| = 36 × 36 × · · · × 36 = 368 .
2) Caratteri distinti. Sia Ω l’insieme di tutte le password di otto caratteri tra loro distinti.
Procedendo come prima possiamo determinare ogni password di Ω tramite le seguenti
scelte successive:
Formuliamo dunque il metodo delle scelte successive, che generalizza quanto appena visto
nell’esempio precedente.
4
• la seconda scelta viene effettuata tra n2 possibilità
• ···
|A| = n1 × n2 × · · · × nk .
Osservazione 1. Cosı̀ enunciato, il metodo delle scelte successive sembra essere un po’
vago. Una riformulazione matematica precisa (come teorema) è possibile, tuttavia essa
comporta notazioni piuttosto ingombranti e risulta di poco aiuto nelle applicazioni. Per
tale ragione nella pratica si fa tipicamente riferimento all’enunciato riportato qui sopra.
Osservazione 2. Il metodo delle scelte successive dice essenzialmente che l’insieme A
è in corrispondenza biunivoca con le sequenze di k scelte, il cui numero totale è appunto
pari a n1 × n2 × · · · × nk .
Osservazione 3. Gli errori più comuni che si commettono nell’utilizzo di tale metodo
sono:
• non contare tutti gli elementi di A (da qui l’importanza del termine “ciascun”
nell’enunciato del metodo delle scelte successive);
• contare più di una volta lo stesso elemento (da qui l’importanza del termine “una
e una sola” nell’enunciato del metodo delle scelte successive).
2) L’insieme delle doppie coppie; una doppia coppia è un sottoinsieme di 5 carte costi-
tuito da due coppie di tipi diversi, più una quinta carta di tipo diverso dai tipi delle
due coppie.
Soluzione.
1) Sia A l’insieme dei full. Ogni elemento di A può essere determinato tramite quattro
scelte successive:
• scelta del tipo del tris: 13 possibilità
• scelta del tipo della coppia: 12 possibilità (chiaramente il tipo della coppia deve
essere diverso dal tipo del tris perché non esistono cinque carte dello stesso tipo)
5
• scelta dei semi delle carte che compaiono nel tris: 4 possibilità
• scelta dei semi delle carte che compaiono nella coppia: 6 possibilità
Quindi
|A| = 13 × 12 × 4 × 6 = 3744.
2) Sia B l’insieme delle doppie coppie. Per calcolare |B| si potrebbe essere tentati di
procedere analogamente al caso dei full, attraverso sei scelte successive:
• scelta del tipo della prima coppia: 13 possibilità
• scelta del tipo della seconda coppia: 12 possibilità
• scelta del tipo della quinta carta: 11 possibilità
• scelta dei semi delle carte che compaiono nella prima coppia: 6 possibilità
• scelta dei semi delle carte che compaiono nella seconda coppia: 6 possibilità
• scelta del seme della quinta carta: 4 possibilità
Si otterrebbe dunque
|B| = 13 × 12 × 11 × 6 × 6 × 4 = 247104.
Tuttavia questo risultato è errato. Infatti, ogni doppia coppia non viene determinata
da una e una sola sequenza di 6 scelte, ma da esattamente due sequenze distinte.
La ragione è che le prime due scelte sono ambigue, dal momento che non esiste una
“prima” e una “seconda” coppia. Per esempio, la doppia coppia {5♥, 5♦, 6♥, 6♣, 7♠}
viene determinata sia compiendo come prima scelta 5 e come seconda scelta 6, sia
viceversa. Per tale ragione il risultato corretto è
247104
|B| = = 123552.
2
Un modo alternativo di ottenere il risultato corretto è di riunire le prime due scelte
nell’unica scelta seguente:
13×12
• scelta dei tipi delle due coppie: 2
= 78 possibilità.
Si ottiene
|B| = 78 × 11 × 6 × 6 × 4 = 123552.
2 Disposizioni e combinazioni
In questa sezione introduciamo le disposizioni con ripetizione, le disposizioni sempli-
ci (o senza ripetizione) e le combinazioni (semplici o senza ripetizione). Nel seguito
indicheremo con E un insieme di n elementi distinti:
E = {e1 , e2 , . . . , en }.
E sarà ad esempio l’insieme della carte che compongono un mazzo, oppure l’insieme delle
palline contenute in un’urna (in cui l’i-esima pallina ha come etichetta ei ).
6
2.1 Disposizioni con ripetizione
DRn,k = {(x1 , . . . , xk ) : xi ∈ E} = E
| ×E×
{z· · · × E} .
k volte
|DRn,k | = nk .
DR3,2 = {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.
i) Si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto
italiano.
a
Soluzioni: i) Ω = DR21,8 , quindi |Ω| = 218 ; ii) Ω = DR3,13 , quindi |Ω| = 313 ; iii) Ω = DR6,10 ,
quindi |Ω| = 610 .
7
ii) Si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere
tra 1, 2 o X.
n!
|Dn,k | = n(n − 1) · · · (n − k + 1) = .
(n − k)!
D3,2 = {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.
Esempio 2.6. Supponiamo di giocare un’unica cinquina (ad esempio la sequenza ordinata
13, 5, 45, 21, 34) al gioco del lotto, in cui si estraggono senza reimmissione cinque numeri
dai primi novanta naturali.
8
1) Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione)?
2) Qual è la probabilità di fare una cinquina semplice (per cui non conta l’ordine di
estrazione)?
|Pn | = |Dn,n | = n!
2.3 Combinazioni
9
Esempio 2.7. Siano E = {a, b, c} e k = 2. Allora |C3,2 | = 3 e precisamente
C3,2 = {a, b}, {a, c}, {b, c} .
aleatorio.
10
3 Tre esperimenti aleatori di riferimento
Estrazioni da un’urna
Negli Esempi 2.2, 2.5, 2.8 abbiamo introdotto gli spazi di probabilità che descrivono questi
tre esperimenti aleatori. Possiamo dunque completare la precedente tabella, riportando
anche gli spazi campionari e le loro cardinalità (ossia il numero di “casi possibili”).
2
Invece di “reimmissione” si utilizzano anche i termini “reimbussolamento”, “reinserimento”,
“reintroduzione”, “restituzione”, “rimpiazzo”.
11
aa
aa Ripetizione
aa
aa Senza Con
aa
aa ripetizione ripetizione
Ordine aa
aa
a
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk
Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k | n
|Ω| = k! = k
Osservazione 1. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sa-
rebbe sufficiente considerare solamente i primi due: l’estrazione senza reimmissione e
l’estrazione con reimmissione. Infatti l’estrazione simultanea può essere vista come un’e-
strazione senza reimmissione in cui non si tiene conto dell’ordine, ossia come un caso
particolare dell’estrazione senza reimmissione. Questo significa che, in alternativa a Cn,k ,
è possibile utilizzare Dn,k come spazio campionario. Ciò segue da |Dn,k | = k!|Cn,k | e, più
in generale, dal fatto che ad ogni elemento di Cn,k corrispondono k! elementi di Dn,k .
Più precisamente, vale la catena di uguaglianze:
con 0 ≤ k ≤ n.
12
Soluzione. Etichettiamo le b palline bianche con bianca1 , bianca2 , . . . , biancab ; analoga-
mente, le r palline rosse con rossa1 , rossa2 , . . . , rossar . Sia dunque
• scelta della sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche
estratte: |DRb,k | possibilità;
• scelta della sequenza (ordinata e con eventuali ripetizioni) delle n − k palline rosse
estratte: |DRr,n−k | possibilità;
• scelta delle k estrazioni in cui sono uscite le palline bianche: |Cn,k | possibilità3 .
In definitiva k n−k
|DRb,k ||DRr,n−k ||Cn,k | n b r
P(Ak ) = = ,
|DRb+r,n | k (b + r)n
o, equivalentemente,
n k
P(Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r
è la probabilità di estrarre una pallina bianca in una singola estrazione.
3
Infatti, sia In = {1, 2, . . . , n} e Cn,k l’insieme delle combinazioni di k elementi di In . Allora ogni
combinazione, ossia ogni sottoinsieme di cardinalità k di In , identifica k estrazioni delle n, e viceversa.
Per esempio, se n = 4 e k = 2, il sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a
estrazione, e viceversa.
13
Calcolo delle Probabilità e Statistica 2019/2020
VARIABILI ALEATORIE
INTRODUZIONE GENERALE
1 Introduzione
In questo capitolo studiamo una delle nozioni più importanti del Calcolo delle probabilità,
ossia la nozione di variabile aleatoria. Per introdurla, procediamo come per la nozione di
evento, quindi diamo prima una definizione come affermazione e successivamente fornia-
mo la corrispondente rappresentazione matematica all’interno del modello probabilistico
dell’esperimento aleatorio. È utile richiamare quanto già visto riguardo la nozione di
evento.
Un evento viene solitamente indicato con una lettera maiuscola dell’alfabeto. Spesso si
utilizzano le prime lettere dell’alfabeto: A, B, C, . . .
Definizione 1.2. Ogni evento (inteso come affermazione) è rappresentato dal sottoin-
sieme di Ω costituito dai casi favorevoli, ovvero dagli esiti per cui l’evento è vero (è
rappresentato dall’insieme vuoto ∅ se è sempre falso).
Un qualunque sottoinsieme di Ω lo chiameremo ancora evento.
Definizione 1.3. Una variabile aleatoria (anche detta numero aleatorio oppure,
in forma abbreviata, v.a.) è un’ affermazione riguardante l’ipotetico risultato dell’esperi-
mento aleatorio. Tale affermazione identifica uno e un solo numero reale una volta noto
l’esito dell’esperimento aleatorio.
Osservazione. In altre parole, mentre per un evento ha senso domandarsi “è vero
oppure no?”, per una variabile aleatoria ha senso chiedersi “quanto vale?”.
Una variabile aleatoria viene solitamente indicata con una lettera maiuscola dell’alfabeto.
Spesso si utilizzano le ultime lettere dell’alfabeto: . . . X, Y , Z.
2
Definizione 1.4. Ogni variabile aleatoria (intesa come affermazione) è rappresentata
dalla funzione da Ω in R il cui valore numerico, in corrispondenza di un qualunque esito
dell’esperimento aleatorio, coincide con quanto fornito dall’affermazione.
Una qualunquea funzione da Ω in R la chiameremo ancora variabile aleatoria.
a
Anche se noi non considereremo questa eventualità, ricordiamo che a volte è necessario definire la
probabilità P solamente su una sotto-famiglia F di sottoinsiemi di Ω (anziché su tutto l’insieme delle
parti P(Ω)). Si veda a tal proposito la nota 9 del primo Capitolo. In questo caso, non tutte le funzioni
da Ω in R sono variabili aleatorie, ma solo le funzioni X : Ω → R che verificano la proprietà che ora
enunciamo. Sia I un intervallo di R, quindi I è uguale ad uno dei seguenti insiemi:
[a, b], [a, b), (a, b], (a, b), (−∞, b], (−∞, b), [a, +∞), (a, +∞).
per ogni intervallo I di R. Se X verifica questa proprietà si dice che è una funzione F-misurabile. Nel
nostro caso, essendo F = P(Ω), questa proprietà è automaticamente verificata.
Ω = {1, 2, 3, 4, 5, 6}2 = (1, 1), (1, 2), (1, 3), . . . , (4, 6), (5, 6), (6, 6) .
X(ω1 , ω2 ) = ω1 + ω2 , ∀ (ω1 , ω2 ) ∈ Ω,
Y (ω1 , ω2 ) = ω1 · ω2 , ∀ (ω1 , ω2 ) ∈ Ω,
Z(ω1 , ω2 ) = ω1 , ∀ (ω1 , ω2 ) ∈ Ω.
a
Si noti che in questo caso il generico elemento ω dello spazio campionario Ω è dato da una coppia
ordinata ω = (ω1 , ω2 ).
3
Variabili aleatorie costanti. Una variabile aleatoria X si dice costante se assume
sempre lo stesso valore numerico qualunque sia l’esito dell’esperimento aleatorio. In tal
caso, se indichiamo con a il valore numerico assunto dalla variabile aleatoria, allora X è
la seguente funzione:
X(ω) = a, ∀ ω ∈ Ω.
Nel seguito indicheremo la variabile aleatoria X semplicemente con a, ovvero a denoterà
sia una costante sia una variabile aleatoria (la variabile aleatoria costante uguale ad a
stessa).
X(ω) = 1A (ω), ∀ ω ∈ Ω.
4
Esempio 2.1. Si lanciano due dadi. Consideriamo la variabile aleatoria
Intuitivamente, gli eventi associati ad X sono tutti e soli gli eventi riguardanti la somma
dei due risultati. Ad esempio:
Notiamo che tali eventi possono essere scritti nel modo seguente:
E1 = {ω ∈ Ω : X(ω) = 3},
E2 = {ω ∈ Ω : X(ω) ≤ 5},
E3 = {ω ∈ Ω : X(ω) ∈ {2, 4, 6, 8, 10, 12}}.
E1 = {ω ∈ Ω : X(ω) ∈ {3}},
E2 = {ω ∈ Ω : X(ω) ∈ (−∞, 5]}.
Si noti che E2 può anche essere scritto come segue (se teniamo conto che in questo esempio
specifico la v.a. X assume solo i valori interi 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12):
E1 = {ω ∈ Ω : X(ω) ∈ B1 },
E2 = {ω ∈ Ω : X(ω) ∈ B2 },
E3 = {ω ∈ Ω : X(ω) ∈ B3 }.
Diamo dunque la definizione di evento associato ad (o generato da) una variabile aleatoria.
5
Definizione 2.1. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleato-
ria. Si dice che E ⊂ Ω è un evento associato ad (o generato da) X se esiste un
sottoinsieme B dell’insieme dei numeri reali R tale che
E = {ω ∈ Ω : X(ω) ∈ B}
= “sottoinsieme di Ω costituito da tutti e soli gli esiti ω per cui X(ω) ∈ B”.
{ω ∈ Ω : X(ω) ∈ B}
{ω ∈ Ω : X(ω) ∈ B}
{X ∈ ∅} = ∅, {X ∈ R} = Ω.
{X ∈ {x}} = {X = x}
{X ∈ (−∞, x)} = {X < x}
{X ∈ (−∞, x]} = {X ≤ x}
{X ∈ (x, +∞)} = {X > x}
{X ∈ [x, +∞)} = {X ≥ x}
{X ∈ (x, y)} = {x < X < y}
{X ∈ [x, y)} = {x ≤ X < y}
{X ∈ (x, y]} = {x < X ≤ y}
{X ∈ [x, y]} = {x ≤ X ≤ y}
P({X ∈ B}),
P(X ∈ B).
6
Esempio 2.2. Siano (Ω, P) uno spazio di probabilità, a un numero reale ed A un evento.
Determinare gli eventi generati dalle seguenti variabili aleatorie:
1) X(ω) = a, ∀ ω ∈ Ω;
2) X = 1A .
Soluzione.
1) Sia B un sottoinsieme di R. Distinguiamo due casi:
• se a ∈ B allora {X ∈ B} = Ω;
• se a ∈
/ B allora {X ∈ B} = ∅.
Quindi (
Ω, se a ∈ B,
{X ∈ B} =
∅, se a ∈
/ B.
• se 1 ∈ B e 0 ∈
/ B allora {X ∈ B} = A;
/ B e 0 ∈ B allora {X ∈ B} = Ac ;
• se 1 ∈
• se 1 ∈ B e 0 ∈ B allora {X ∈ B} = Ω;
• se 1 ∈
/B e0∈
/ B allora {X ∈ B} = ∅.
Quindi
A,
se 1∈B e 0∈/ B,
Ac ,
se 1∈
/B e 0 ∈ B,
{X ∈ B} =
Ω, se 1∈B e 0 ∈ B,
∅, 1∈ 0∈
se /B e / B.
Esercizio 2.1. Siano (Ω, P) uno spazio di probabilità, X una variabile aleatoria e x un
numero reale. Mostrare che
{X ≤ x} = {X < x} ∪ {X = x}.
7
sono disgiunti (infatti non esiste alcun ω per cui valgono simultaneamente X(ω) < x e
X(ω) = x), per l’additività della probabilità si ottiene
P(X ≤ x) = P(X < x) + P(X = x).
Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
Si chiama distribuzione o legge di X la probabilitàa
PX : P(R) → [0, 1]
definita da
PX (B) = P(X ∈ B), ∀ B ⊂ R.
Per dire che X ha distribuzione o legge PX scriveremo
X ∼ PX .
a
Ricordiamo che P(R) è l’insieme delle parti di R.
8
Quindi
P(A), se 1∈B e 0∈/ B,
P(Ac ),
se 1∈
/B e 0 ∈ B,
PX (B) = P(X ∈ B) =
P(Ω), se 1∈B e 0 ∈ B,
1∈ 0∈
P(∅), se /B e / B.
Dato che P(Ac ) = 1 − P(A), P(Ω) = 1 e P(∅) = 0, si ottiene
P(A), se 1∈B e 0∈/ B,
1 − P(A), se 1∈
/B e 0 ∈ B,
PX (B) =
1,
se 1∈B e 0 ∈ B,
1∈ 0∈
0, se /B e / B.
X ∼ (1 − P(A)) δ0 + P(A) δ1 .
9
per ogni B ⊂ R. In conclusione, conoscere PX (B), per ogni B ⊂ R, è equivalente a
conoscere PX ((−∞, x]), per ogni x ∈ R. Poniamo
Definizione 2.3. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
Si chiama funzione di ripartizione o funzione di distribuzione cumulativa o
CDF di X la funzione
FX : R → [0, 1]
definita da
FX (x) = P(X ≤ x) = PX ((−∞, x]), ∀ x ∈ R.
Per dire che X ha funzione di ripartizione FX scriveremo
X ∼ FX .
• ma vale anche il viceversa, cioè se conosco FX allora conosco PX (B) per ogni
sottoinsieme B di R (omettiamo la dimostrazione di questo risultato).
Come affermato nel seguente teorema, la funzione di ripartizione verifica certe proprietà
che sono caratterizzanti, ovvero se una funzione verifica queste proprietà allora è neces-
sariamente la funzione di ripartizione di una qualche variabile aleatoria.
2
Dall’inglese cumulative distribution function (funzione di distribuzione cumulativa).
10
Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e X : Ω → R una variabile aleatoria.
La funzione di ripartizione FX di X verifica le seguenti proprietà:
3) limx→−∞ FX (x) = 0.
4) limx→+∞ FX (x) = 1.
e, analogamente,
N.B. Per la proprietà 2) del Teorema 2.1, per ogni x ∈ R il limite da destra di FX in x
esiste ed è pari a
lim FX (y) = FX (x) = P(X ≤ x).
y→x+
11
ovvero
FX (x−) = FX (x).
Poiché FX (x−) = P(X < x) e FX (x) = P(X ≤ x), segue che FX è continua in x se e
solo se
P(X < x) = P(X ≤ x)
ovvero (ricordando la formula P(X ≤ x) = P(X < x) + P(X = x) dell’Esercizio 2.1)
P(X = x) = 0.
12
Calcolo delle Probabilità e Statistica 2019/2020
VARIABILI ALEATORIE
DISCRETE
1 Introduzione
In questo capitolo studiamo una particolare classe di variabili aleatorie, le variabili alea-
torie discrete. In breve, una variabile aleatoria si dice discreta se assume un numero finito
(o al più un’infinità numerabile) di valori. Prima di dare la definizione vera e propria di
variabile aleatoria discreta, è necessario introdurre la nozione di densità discreta.
Definizione 1.1. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. La
funzione pX : R → [0, 1], data da
Si noti che pX (x) è la probabilità che la variabile aleatoria X assuma il valore x. Per tale
ragione, pX (x) verifica necessariamente le disuguaglianze
0 ≤ pX (x) ≤ 1, ∀ x ∈ R.
Definizione 1.2. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Si dice
che X è una variabile aleatoria discreta (in breve v.a.d.) se esiste un sottoinsieme
SX di R, finito o al più infinito numerabile, quindi
tale chea X
pX (xi ) > 0 e pX (xi ) = 1. (1.1)
i
Osservazione 1. La (1.1) equivale a dire che la variabile aleatoria X assume con pro-
babilità positiva tutti e soli i valori in SX . In particolare, X assume il valore xi con
probabilità pX (xi ) > 0.
2
Tabella della densità discreta. Nel caso in cui SX sia un insieme finito, quindi
SX = {x1 , . . . , xn },
X x1 x2 ··· xn
(1.2)
pX pX (x1 ) pX (x2 ) ··· pX (xn )
Ω = (1, 1), (1, 2), (1, 3), . . . , (5, 6), (6, 6) = {1, 2, 3, 4, 5, 6}2
X(1, 1) = min(1, 1) = 1,
X(1, 2) = min(1, 2) = 1,
X(1, 3) = min(1, 3) = 1,
..
.
X(5, 6) = min(5, 6) = 5,
X(6, 6) = min(6, 6) = 6.
3
L’evento {X = x} è dato da
Quindi, se x ∈
/ {1, 2, 3, 4, 5, 6} è chiaro che
{X = x} = ∅ =⇒ pX (x) = P(∅) = 0.
Quindi
6 1
pX (1) = = ,
36 6
5
pX (2) = ,
36
4 1
pX (3) = = ,
36 9
3 1
pX (4) = = ,
36 12
2 1
pX (5) = = ,
36 18
1
pX (6) = .
36
In conclusione, X è una variabile aleatoria discreta2 con supporto SX = {1, 2, 3, 4, 5, 6} e
densità discreta data da
X 1 2 3 4 5 6
pX 16 36 5 1
9
1
12
1
18
1
36
4
Variabili aleatorie indicatrici. Sia A un evento e X = 1A la variabile aleatoria
indicatrice relativa all’evento A. Allora X è una variabile aleatoria discreta con supporto
SX = {0, 1} e densità discreta
X 0 1
pX 1 − P(A) P(A)
Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Le seguenti
affermazioni sono equivalenti tra loro:
2) FX è una funzione costante a tratti: FX è una funzione costante tranne nei punti
x1 , x2 , . . . di SX , in cui FX salta (verso l’alto) con ampiezza del salto pari a
Non riportiamo la dimostrazione del Teorema 2.1. Notiamo solamente che la formula (2.1),
la quale fornisce il valore della funzione di ripartizione in x ∈ R, è un caso particolare
della formula (2.2), ricordando che per definizione di FX si ha
5
Esercizio 2.1. Sia G : R → [0, 1] una
funzione data da
0, x < 0,
1/2, 0 ≤ x < 1,
G(x) = 2/3, 1 ≤ x < 2,
11/12, 2 ≤ x < 3,
1, x ≥ 3.
(d) Calcolare P(X > 1/2), P(2 < X ≤ 4), P(1 < X < 2), P(X < 3).
Soluzione.
1) G è monotona crescente.
2) G è continua a destra.
3) limx→−∞ G(x) = 0.
4) limx→+∞ G(x) = 1.
(b) Dato che G è costante a tratti, segue direttamente dal Teorema 2.1 che X è una
variabile aleatoria discreta. Inoltre, dal Teorema 2.1 sappiamo che i punti di salto
di G sono gli elementi del supporto SX di X, mentre l’ampiezza di ogni salto è la
probabilità che X assuma quel valore. Perciò, SX = {0, 1, 2, 3} e
X 0 1 2 3
pX 1/2 1/6 1/4 1/12
6
X 1
P(2 < X ≤ 4) = pX (xi ) = pX (3) =
2<xi ≤4
12
X
P(1 < X < 2) = pX (xi ) = 0,
1<xi <2
X 11
P(X < 3) = pX (xi ) = pX (0) + pX (1) + pX (2) = 1 − pX (3) = .
xi <3
12
(e) Determiniamo pY . Dato che pY (y) = P(Y = y), iniziamo col determinare l’evento
{Y = y} al variare di y ∈ R:
Dato che SX = {0, 1, 2, 3}, è chiaro che (X − 2)2 può essere uguale solo a 0, 1, 4. In
particolare, si ha che
{Y = 0} = {X = 2},
{Y = 1} = {X = 1} ∪ {X = 3},
{Y = 4} = {X = 0}.
Perciò
1
pY (0) = pX (2) = ,
4
1
pY (1) = pX (1) + pX (3) = ,
4
1
pY (4) = pX (0) =
2
In conclusione, Y è una variabile aleatoria discreta con supporto SY = {0, 1, 4} e
densità discreta data da
Y 0 1 4
pY 1/4 1/4 1/2
7
3 Indici di sintesi di una distribuzione: µ e σ 2
La distribuzione o legge di una variabile aleatoria può essere descritta in maniera sintetica
tramite due quantità numeriche, la media (o valore atteso) e la varianza.
La media è un indice di posizione, ovvero indica qual è il valore “centrale” del-
la distribuzione. Essa è una generalizzazione della media aritmetica di n numeri reali
x1 , . . . , x n :
x1 + · · · + xn
µAritm = .
n
In questa formula tutti i numeri xi hanno lo stesso “peso” pari a n1 , mentre la media che
andremo a definire sarà una media pesata (con le probabilità degli xi ).
La varianza è un indice di dispersione, ossia dice quanto la distribuzione si con-
centra attorno alla media. È una generalizzazione della media aritmetica delle distanze
al quadrato degli xi da µ:
(x1 − µ)2 + · · · + (xn − µ)2
.
n
Definizione 3.1. Sia X una variabile aleatoria discreta con supporto SX = {x1 , x2 , . . .}.
La media (o valore atteso) di X è data daa
X
E[X] = xi pX (xi ).
i
Esercizio 3.1.
Soluzione.
1) Ricordiamo che a denota ovviamente una costante, ma anche una variabile aleatoria
(la variabile aleatoria costante uguale ad a stessa). Come variabile aleatoria, sappiamo
che è una variabile aleatoria discreta con supporto Sa = {a} e densità discreta pa che
verifica
pa (a) = 1.
Quindi, dalla definizione di valore atteso, otteniamo
E[a] = a pa (a) = a.
8
2) Ricordiamo che la variabile aleatoria 1A è una variabile aleatoria discreta con supporto
S1A = {0, 1} e densità discreta
1A 0 1
p1 A 1 − P(A) P(A)
Nel seguito capiterà spesso di dover calcolare il valore atteso di una funzione di X:
Y = h(X).
Teorema 3.1. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. Inoltre, siano h : R → R e Y = h(X). Allora
X
E[Y ] = E[h(X)] = h(xi ) pX (xi ).
i
Si noti che gli insiemi Sy1 , . . . , Sym sono disgiunti e la loro unione è uguale a SX , ossia
Sy1 , . . . , Sym sono una partizione di SX .
Possiamo dunque scrivere E[Y ] come segue, partendo dalla sua definizione, (nelle
tre uguaglianze intermedie sono evidenziate in blu le differenze rispetto alla formula
precedente)
m
X m
X X m
X X
E[Y ] = yj pY (yj ) = yj pX (xi ) = yj pX (xi )
j=1 j=1 i=1,...,n j=1 i=1,...,n
h(xi )=yj xi ∈Syj
m X
X m X
X n
X
= yj pX (xi ) = h(xi ) pX (xi ) = h(xi ) pX (xi ),
j=1 i=1,...,n j=1 i=1,...,n i=1
xi ∈Syj xi ∈Syj
dove l’ultima uguaglianza segue dal fatto che Sy1 , . . . , Sym sono una partizione di SX ,
quindi ogni xi compare in una e una sola sommatoria interna.
9
Un’importante proprietà del valore atteso è la linearità.
Teorema 3.2 (Linearità del valore atteso). Sia X una variabile aleatoria discreta.
Inoltre, siano h : R → R, g : R → R e a, b ∈ R costanti. Allora
e, più in generale,
3.2 Varianza
Definizione 3.2. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. La varianza di X è data da
X
Var(X) = E[(X − E[X])2 ] = (xi − E[X])2 pX (xi ).
i
Teorema 3.3. Sia X una variabile aleatoria discreta con densità discreta pX e supporto
SX = {x1 , x2 , . . .}. Vale che
X
Var(X) = E[X 2 ] − E[X]2 = x2i pX (xi ) − E[X]2 . (3.3)
i
10
Dimostrazione. Dimostriamo la prima uguaglianza, dato che la seconda è una conse-
guenza del Teorema 3.1.
Si ha che
Var(X) = E (X − E[X])2 = E X 2 − 2 X E[X] + E[X]2 .
Dalla linearità del valore atteso, si ottiene (si noti che E[X] è una costante)
A differenza del valore atteso, la varianza non è lineare. Più precisamente, la varianza
possiede le seguenti proprietà.
Teorema 3.4 (Proprietà della varianza). Siano X una variabile aleatoria discreta e
a, b ∈ R costanti. Allora
1) Var(X) ≥ 0.
3) Var(aX + b) = a2 Var(X).
Dimostrazione.
Dato che ogni addendo è maggiore o uguale di zero, segue che la somma (ovvero la
varianza di X) è anch’essa maggiore o uguale di zero.
Ricordando che il valore atteso di una costante è pari alla costante stessa, otteniamo
E[b2 ] − E[b]2 = b2 − b2 = 0.
Quindi Var(b) = 0.
Viceversa, sia X una generica variabile aleatoria discreta, di cui sappiamo che
X
Var(X) = (xi − E[X])2 pX (xi ) = 0.
i
Dato che ogni addendo è maggiore o uguale di zero, la somma è nulla se e solo se
ciascun addendo è nullo. Quindi
11
Tale prodotto è nullo se e solo se pX (xi ) = 0 oppure (xi − E[X])2 = 0 (che significa
xi =PE[X]). Non è possibile che pX (xi ) = 0 per ogni i, altrimenti non sarebbe vero
che i pX (xi ) = 1. D’altra parte, essendo i valori xi distinti tra loro, esiste solo un i
per cui vale che xi = E[X] (si noti che E[X] è una costante). Quindi il supporto della
variabile aleatoria X è costituito da un unico valore, SX = {E[X]}, da cui segue che
X è la variabile aleatoria costante uguale a E[X].
3) Ricordiamo che vale la formula Var(X) = E[X 2 ]−E[X]2 , la quale vale per una generica
variabile aleatoria, quindi anche per Y = aX + b. Perciò
X x1 x2 ··· xn
1 1 1
pX n n
··· n
X 0 1
pX 1−p p
12
Le variabili aleatorie di Bernoulli sono tutte e sole variabili aleatorie indicatrici. Infatti
X = 1A , con A = {X = 1}.
Si noti che
E[X] = p,
Var(X) = p(1 − p).
dove successo significa che l’evento A si è verificato, quindi X è il numero di volte che A
si è verificato negli n esperimenti. Notiamo che
X = X1 + · · · + Xn .
13
Si noti che l’evento Ak ha la seguente interpretazione:
E[X] = np,
Var(X) = np(1 − p).
Dimostrazione.
n n n
X X n k n−k
X n!
E[X] = k pX (k) = k p (1 − p) = k pk (1 − p)n−k
k=0 k=1
k k=1
k! (n − k)!
n n
X n! k n−k
X (n − 1)!
= p (1 − p) = np pk−1 (1 − p)n−k
k=1
(k − 1)! (n − k)! k=1
(k − 1)! (n − k)!
14
n−1
X (n − 1)! h
= np p (1 − p)n−h = n p.
↑
h=0
h! (n − h)! ↑
h=k−1 (4.1)
Per quanto riguarda la varianza, dato che Var(X) = E[X 2 ] − E[X]2 = E[X 2 ] − n2 p2 , resta
da calcolare E[X 2 ]. Inoltre, E[X 2 ] = E[X(X − 1)] + E[X] = E[X(X − 1)] + np, quindi
dobbiamo calcolare E[X(X − 1)]. Si ha che
n n
X X n k
E[X(X − 1)] = k (k − 1) pX (k) = k (k − 1) p (1 − p)n−k
k=0 k=2
k
n n
X n! k n−k
X n!
= k (k − 1) p (1 − p) = pk (1 − p)n−k
k=2
k! (n − k)! k=2
(k − 2)! (n − k)!
n
2
X (n − 2)!
= n (n − 1) p pk−2 (1 − p)n−k
k=2
(k − 2)! (n − k)!
n−2
X
2 (n − 2)! h
= n (n − 1) p p (1 − p)n−h = n (n − 1) p2 .
↑
h=0
h! (n − h)! ↑
h=k−2 (4.1)
Quindi E[X 2 ] = E[X(X − 1)] + np = n(n − 1)p2 + np, perciò Var(X) = E[X 2 ] − n2 p2 =
np(1 − p).
15
Proposizione 4.2. Siano λ > 0 e X ∼ Poisson(λ). Allora
E[X] = λ,
Var(X) = λ.
Dimostrazione.
+∞ k +∞ +∞ +∞
X
−λ λ −λ
X λk −λ
X λk −λ
X λk−1
E[X] = ke = e k = e = λe
k=0
k! k=1
k! k=1
(k − 1)! k=1
(k − 1)!
+∞ h
−λ
X λ
= λe = λ.
↑
h=0
h! ↑
h=k−1 (4.2)
• Ad ogni copia ritirata ma non venduta corrisponde invece una perdita di e 1.25.
a
Le copie non vendute giorno per giorno non possono essere rese, perdono dunque ogni valore.
16
Per risolvere questo problema il giornalaio dovrà innanzitutto valutare quali probabilità
attribuisce al fatto di poter vendere un numero di copie pari a 0, 1, 2, 3, ecc. A tal propo-
sito, potrebbe essere conveniente raccogliere informazioni o effettuare sperimentazioni per
avere una migliore base di giudizio. Per semplicità, supponiamo che il giornalaio decida
solamente di osservare cosa accade nei primi 50 giorni. Riportiamo nella tabella che segue
i dati riguardanti questo periodo di prova:
La colonna centrale riporta il numero di giorni (su un totale di cinquanta) in cui il numero
totale di copie richieste è stato pari a quanto riportato sulla stessa riga della prima colonna.
Si noti che in nessun giorno sono state vendute più di 10 copie. L’ultima colonna riporta
la frequenza relativa, ovvero la frazione (o percentuale) di giorni in cui è stato venduto un
numero di copie pari a 0, 1, 2, 3, ecc.
Come abbiamo già detto, supponiamo per semplicità che il giornalaio abbia ragione di
credere che questi dati siano significativi, ovvero che in futuro l’andamento delle richieste
non se ne scosterà significativamente. Introduciamo dunque la variabile aleatoria
SX = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
Supponiamo ora che il giornalaio decida di acquistare k copie, per qualche k = 1, . . . , 10.
Consideriamo dunque la variabile aleatoria
17
L’obiettivo del giornalaio è trovare il numero k che massimizza il “guadagno atteso”,
ovvero
Perciò
guadagno atteso avendo acquistato 3 copie = E[Y3 ] = 0.51.
Ripetendo il ragionamento fatto nel caso k = 3 anche per gli altri valori di k, si ottiene
la seguente tabella:
k E[Yk ]
1 0.22
2 0.41
3 0.51
4 0.43
5 0.05
6 −0.66
7 −1.64
8 −2.71
9 −3.87
10 −5.09
18
Calcolo delle Probabilità e Statistica 2019/2020
VARIABILI ALEATORIE
CONTINUE
1 Introduzione
Le variabili aleatorie discrete descrivono quantità che possono assumere un numero finito
o al più un’infinità numerabile di valori. Ci sono però quantità che assumono un’infinità
continua di valori.
In tal caso è naturale supporre che X possa assumere qualsiasi valore maggiore o uguale
a zero, quindi “SX = [0, +∞)”.
Per descrivere tali quantità introduciamo le variabili aleatorie continue. Prima di for-
nire la definizione precisa di variabile aleatoria continua, premettiamo alcune osservazioni
facendo riferimento alla variabile aleatoria X dell’Esempio 1.1.
Innanzitutto, poiché X può assumere un’infinità continua di valori, l’eventualità che ne
assuma esattamente uno in particolare (ad esempio il numero x = 3.45362) è praticamente
impossibile. Quindi, si dovrà avere che
pX (x) = P(X = x) = 0, ∀ x ∈ R.
In altri termini, la densità discreta pX per una variabile aleatoria continua è sempre
identicamente uguale a zero, non gioca dunque alcun ruolo.
Tuttavia, se invece di considerare un singolo valore x si considera un intervallo di valori
[a, b] ⊂ R, con a < b, allora ci aspettiamo che
dove la richiesta [a, b] ⊂ [0, +∞) deriva dal fatto che nell’Esempio 1.1 la v.a. X è un
“tempo”, quindi “SX = [0, +∞)”.
In conclusione, facendo sempre riferimento alla v.a. X dell’Esempio 1.1, ci troviamo
di fronte al problema di conciliare queste due ragionevoli richieste:
(ii) P(a ≤ X ≤ b) > 0, per ogni [a, b] ⊂ [0, +∞), con a < b.
2
È allora chiaro che le proprietà (i) e (ii) sono verificate. Infatti, ad esempio, per quanto
riguarda la proprietà (i) si ha che
Z x
pX (x) = P(X = x) = fX (y) dy = 0, ∀ x ∈ R.
↑ x
P(X=x)=P(x≤X≤x)
0 ≤ f (x), ∀ x ∈ R.
Al contrario, si può benissimo avere f (x) > 1 per qualche x ∈ R. L’importante è che
R +∞
−∞
f (x) dx = 1.
La definizione di variabile aleatoria continua fa intervenire la densità continua.
Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e X una variabile aleatoria. Si
dice che X è una variabile aleatoria continua (in breve v.a.c.) se esiste una densità
continua, indicata con fX , tale che
Z b
P(a ≤ X ≤ b) = fX (x) dx, ∀ [a, b] ⊂ R
a
e, più in generale, Z
P(X ∈ B) = fX (x) dx, ∀ B ⊂ R. (2.1)
B
3
Z b
P(a < X ≤ b) = fX (x) dx, B = (a, b] ,
Za x
P(X < x) = fX (x) dx, B = (−∞, x) ,
Z−∞
x
P(X ≤ x) = fX (x) dx, B = (−∞, x] ,
−∞
Z +∞
P(X > x) = fX (x) dx, B = (x, +∞) ,
Zx +∞
P(X ≥ x) = fX (x) dx, B = [x, +∞) .
x
Altri casi in cui utilizzeremo la formula (2.1) sono quelli in cui B è unione di più intervalli.
Ad esempio, se B = [−1, 0] ∪ (2, 3] ∪ [5, +∞) allora
Z 0 Z 3 Z +∞
P(X ∈ B) = fX dx + fX dx + fX dx.
−1 2 5
Nonostante la non unicità di fX , in molti casi esiste una versione “canonica” della den-
sità (si veda l’osservazione precedente) e dunque esiste anche una versione “canonica” di
supporto, definito come in (2.3) scegliendo come fX la versione canonica. In questi casi
diremo, impropriamente, che l’insieme SX è il supporto di X.
Dalla definizione di variabile aleatoria continua seguono le seguenti proprietà.
4
Teorema 2.1. Sia X una variabile aleatoria continua con densità fX .
pX (x) = 0, ∀ x ∈ R.
Dimostrazione.
1) Dalla definizione di pX , abbiamo che
Z x
pX (x) = P(X = x) = fX (y) dy = 0, ∀ x ∈ R,
x
Resta da dimostrare che FX è continua e non solo continua a destra. Quindi resta da
dimostrare che
FX (x) = FX (x−), ∀ x ∈ R.
Ricordando che FX (x−) = P(X < x), si ha
Z x
FX (x−) = P(X < x) = fX (y) dy = FX (x), ∀ x ∈ R.
−∞
Osservazione 1. Dal Teorema 2.1 segue che la funzione di ripartizione di una variabile
aleatoria continua è una funzione integrale. Le funzioni integrali costituiscono una
particolare sotto-famiglia delle funzioni continue. Esse sono anche dette funzioni asso-
lutamente continue. Per tale ragione le variabili aleatorie continue sono anche dette
variabili aleatorie assolutamente continue.
Osservazione 2. Grazie alla continuità della funzione di ripartizione FX , notiamo che
le probabilità
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b),
che come abbiamo già visto sono tutte uguali, sono in particolare date da
Z b
FX (b) − FX (a) = fX (x) dx.
a
5
Analogamente
Z a
P(X < a) = P(X ≤ a) = fX (x) dx = FX (a)
−∞
e Z +∞
P(X > a) = P(X ≥ a) = fX (x) dx = 1 − FX (a).
a
Possiamo dunque riassumere nel seguente schema le differenze principali tra variabili
aleatorie discrete e continue:
X Z
P(X ∈ B) = pX (xi ) P(X ∈ B) = fX (x) dx
xi ∈B B
Si noti infine che queste due classi di variabili aleatorie non esauriscono tutte le possi-
bilità, infatti ci sono ad esempio le variabili aleatorie miste. Quest’ultime hanno come
“supporto” un insieme infinito più che numerabile, ad esempio un intervallo [a, b], ma
all’interno del supporto esistono un numero finito (o al più infinito numerabile) di valori
con probabilità strettamente positiva. Per descrivere la legge di una variabile aleatoria
mista è necessario utilizzare sia la densità discreta che la densità continua. Un esempio
di variabile aleatoria mista è il seguente.
P(X = 0) ∈ (0, 1)
mentre
P(X = x) = 0, ∀ x 6= 0.
a
Probabilità che il componente sia rotto, a causa di un difetto di fabbricazione.
6
Si noti che:
• X non è una v.a. continua, infatti P(X = 0) > 0, in contraddizione con quanto
affermato nel Teorema 2.1.
1) Che proprietà1 deve verificare FX affinché X sia una variabile aleatoria continua?
2) Una volta stabilito che X è una variabile aleatoria continua, come si trova fX a partire
da FX ?
Per quanto riguarda il punto 1), come abbiamo visto nella sezione precedente, si ha che
Nella pratica, non è semplice verificare2 che FX è una funzione integrale. Per tale ragione,
nel seguito studieremo solo casi in cui sarà già noto che X è una v.a. continua. Per quanto
riguarda invece il punto 2), vale il seguente risultato.
1
Ricordiamo che, per quanto riguarda le variabili aleatorie discrete, vale il seguente risultato:
2
Segnaliamo però che una condizione sufficiente affinché FX sia una funzione integrale è la seguente
condizione di facile verifica: FX è C 1 a tratti , cioè
• FX è continua in ogni punto x ∈ R;
• esiste un sottoinsieme finito D ⊂ R tale che FX è derivabile in ogni punto x ∈ R\D;
0
• la derivata FX è una funzione continua in ogni punto x ∈ R\D.
7
Proposizione 2.1. Sia X una variabile aleatoria e indichiamo con FX la sua funzione
di ripartizione. Supponiamo di sapere già che X è una variabile aleatoria continua
(quindi sappiamo già che FX è una funzione integrale). Allora la sua densità fX è
data da
fX (x) = FX0 (x), ∀ x in cui FX è derivabile.
Nei punti in cui FX non è derivabile, fX è definita in modo arbitrario.
Esercizio 2.1. Sia X una variabile aleatoria continuaa con funzione di ripartizione
(
0, x ≤ 0,
FX (x) = −x 2
(1 − e ) , x ≥ 0.
Determinare:
(a) la densità di X,
Soluzione.
Abbiamo dunque specificato fX per ogni x ∈ R\{0}. Nel punto x = 0 non è neces-
sario verificare se FX è derivabile, infatti possiamo comunque definire fX in modo
arbitrario, ad esempio ponendo fX (0) = 0. Ciò è una conseguenza dell’osservazione
in cui compare l’uguaglianza (2.2). In tale osservazione si dice infatti che è possi-
bile modificare il valore di fX in un numero finito (o infinito numerabile) di punti.
Assegnando dunque il valore arbitrario fX (0) = 0, otteniamo
(
0, x ≤ 0,
fX (x) = −x −x
2 (1 − e ) e , x > 0.
8
(b)
P(X > 1) = 1 − FX (1) = 1 − (1 − e−1 )2 ' 0.6.
(c)
P(1 < X < 2) = FX (2) − FX (1) = (1 − e−2 )2 − (1 − e−1 )2 ' 0.348.
Esercizio 2.2. Sia X una variabile aleatoria continua con funzione di ripartizione
0, x ≤ 0,
0 ≤ x ≤ 41 ,
x,
FX (x) = 2
x − 14 + 14 , 1
4
≤ x ≤ 1,
3 −(x−1)
13
16
1−e + 16 , x ≥ 1.
Determinare la densità di X.
Y = h(X).
9
La situazione più semplice si ha quando la variabile aleatoria Y è discreta. Si è in tale
situazione quando Y assume un numero finito o al più infinito numerabile di valori. Ad
esempio, se h(x) = 1{x>10} allora
(
1, se X > 10,
Y = 1{X>10} =
0, se X ≤ 0.
Y ∼ B(p).
Supponiamo invece che Y non assuma un numero finito o al più numerabile di valori.
Supponiamo inoltre di sapere già3 che Y è una variabile aleatoria continua. Come si
trovano funzione di ripartizione e/o densità di Y ?
Per risolvere questo problema, si procede determinando innanzitutto la funzione di
ripartizione di Y . Nel caso in cui siamo interessati alla densità di Y , la otteniamo suc-
cessivamente derivando la funzione di ripartizione FY , applicando dunque la Proposizione
2.1.
Per trovare la funzione di ripartizione di Y , i primi passaggi che si fanno sono sempre
i seguenti:
FY (y) = P(Y ≤ y) = P(h(X) ≤ y).
Si cerca dunque di esprimere P(h(X) ≤ y) in termini della funzione di ripartizione di X.
Per fare questo è necessario risolvere la disuguaglianza h(X) ≤ y. Vediamo un esempio.
Esempio 2.2. Sia X una variabile aleatoria continua con funzione di ripartizione
(
0, x ≤ 0,
FX (x) = −x
1−e , x ≥ 0.
10
Quindi P(eX ≤ y) = P(∅) = 0. Perciò
FY (y) = 0 ∀ y ≤ 0.
Definizione 3.1. Sia X una variabile aleatoria continua. La media (o valore atteso)
di X è data da Z +∞
E[X] = x fX (x) dx.
−∞
Nel seguito capiterà spesso di dover calcolare il valore atteso di una funzione di X:
Y = h(X).
11
Teorema 3.1. Sia X una variabile aleatoria continua. Inoltre, siano h : R → R e Y =
h(X). Allora Z +∞
E[Y ] = E[h(X)] = h(x) fX (x) dx.
−∞
Ricordiamo infine la proprietà di linearità del valore atteso, già dimostrata nel caso
discreto (la dimostrazione segue dalla formula del Teorema 3.1).
Teorema 3.2 (Linearità del valore atteso). Sia X una variabile aleatoria continua.
Inoltre, siano h : R → R, g : R → R e a, b ∈ R costanti. Allora
E[a X + b] = a E[X] + b
e, più in generale,
3.2 Varianza
Per calcolare la varianza di una variabile aleatoria è utile, come nel caso discreto, la
seguente formula.
12
Teorema 3.4 (Proprietà della varianza). Siano X una variabile aleatoria continua e
a, b ∈ R costanti. Allora
1) Var(X) ≥ 0.
2) Var(aX + b) = a2 Var(X).
Inoltre
Z b
x a+b
E[X] = dx = ,
a b−a 2
Z b 2 2
(b − a)2
2 2 x a+b
Var(X) = E[X ] − E[X] = dx − = .
a b−a 2 12
13
Si noti che (
0, x ≤ 0,
FX (x) =
1 − e−λx , x ≥ 0.
Inoltre
Z +∞
1
E[X] = x e−λx dx = ,
0 λ
Z +∞
1 1
Var(X) = E[X 2 ] − E[X]2 = x2 e−λx dx − 2
= 2.
0 λ λ
La distribuzione esponenziale si usa ad esempio per descrivere il tempo di vita di un
macchinario oppure di un componente elettronico (si veda l’Esempio 1.1).
X ∼ N (0, 1),
14
Rx 1 2
Anche se non è possibile calcolare esplicitamente l’integrale −∞ √12π e− 2 y dy per un
generico valore x, è possibile farlo in alcuni casi particolari. Ad esempio, quando x = +∞,
come affermato nel seguente lemma.
dove la seconda uguaglianza discende dal fatto che, essendo la variabile d’integrazione
muta, possiamo indicarla con un’altra lettera, ad esempio y, anziché x. Il prodotto dei
due ultimi integrali è in effetti uguale all’integrale doppio
Z +∞ Z +∞ Z +∞ Z +∞
−x2 −y 2 2 2
e dx e dy = e−(x +y ) dx dy.
0 0 0 0
5
È chiaro che fX (x) ≥ 0 per ogni x ∈ R.
15
Quindi Z +∞ Z +∞
2 +y 2 )
I 2
= 4 e−(x dx dy.
0 0
Nell’integrale interno (in cui x compare come un parametro fissato maggiore di zero),
Z +∞
2 2
e−(x +y ) dy,
0
eseguiamo il cambio di variabile y = xz, con x > 0 fissato. Quindi dy = x dz, perciò
Z +∞ Z +∞
−(x2 +y 2 ) 2 2
e dy = e−x (1+z ) x dz.
0 0
Di conseguenza, I 2 diventa
Z +∞ Z +∞
2 −x2 (1+z 2 )
I = 4 e x dz dx.
0 0
In conclusione, si ottiene
Z +∞
2 1 +∞
I = 4 dz = 2 arctan z 0
= π.
0 2(1 + z 2 )
1) E[X] = µ.
2) Var(X) = σ 2 .
16
Dimostrazione.
1) Dalla definizione di valore atteso, abbiamo che
Z +∞ Z +∞
1 1 (x−µ)
2
E[X] = x fX (x) dx = x √ e− 2 σ2 dx
−∞ −∞ σ 2π
Z +∞ √ 1 −z2
= µ + zσ 2 √ e dz
↑
x−µ
−∞ π
z= √
σ 2
1 −z2
Z +∞√ Z +∞ 1 −z2
= µ √ e dz + σ 2 z √ e dz
−∞ π −∞ π
√ Z +∞
1 2
= µ+σ 2 z √ e−z dz,
R +∞
↑
2
−∞ π
√1 e−z dz=1
−∞ π
2
dove nell’ultima uguaglianza abbiamo usato (4.1). Infine, essendo z 7→ z √1π e−z una
funzione dispari, si ha che
Z +∞
1 2
z √ e−z dz = 0.
−∞ π
Quindi E[X] = µ.
2) Dalla definizione di varianza, abbiamo che
Z +∞ Z +∞
1 1 (x−µ)
2
Var(X) = 2
(x − µ) fX (x) dx = (x − µ)2 √ e− 2 σ2 dx
−∞ −∞ σ 2π
Z +∞
2 2
= σ2 z 2 √ e−z dz.
↑
x−µ
−∞ π
z= √
σ 2
X −µ
Z =
σ
è una variabile aleatoria normale standard, quindi Z ∼ N (0, 1).
17
Dimostrazione. Mostriamo che Z ammette densità continua data da (ricordiamo che
generalmente la densità della variabile aleatoria normale standard si indica con ϕ anziché
fZ )
1 1 2
ϕ(x) = √ e− 2 x , ∀ x ∈ R.
2π
Iniziamo col determinare la funzione di ripartizione di Z:
X −µ
FZ (x) = P(Z ≤ x) = P ≤ x = P(X ≤ µ + σ x) = FX (µ + σ x).
σ
Derivando, si ottiene
fZ (x) = σ fX (µ + σ x).
Sapendo che X ∼ N (µ, σ 2 ), si ha che
1 1 (µ+σ x−µ)
2
1 1 2
σ fX (µ + σ x) = √ e− 2 σ2 = √ e− 2 x .
2π 2π
Quindi abbiamo dimostrato che Z ha densità ϕ, ovvero Z ∼ N (0, 1).
1) Φ(0) = 21 .
Φ(0) = 1 − Φ(0),
18
1 2
2) Dato che y 7→ √1 e− 2 y è una funzione pari, si ha che
2π
Z −x Z +∞
1 1 2 1 1 2
√ e− 2 y dy = √ e− 2 y dy, ∀ x > 0.
−∞ 2π x 2π
Questo fornisce l’uguaglianza voluta, infatti il primo integrale è Φ(−x), mentre il
secondo integrale è pari a 1 − Φ(x).
Esercizio 4.1. Un apparecchio dosatore riempie delle provette da 10 cl. Assumiamo che
la quantità di liquido versata in una provetta (misurata in cl), indicata con X, abbia una
distribuzione N (9.99, (0.012)2 ), ovvero X è una variabile aleatoria continua con densità
1 (x−9.99)2
−1
fX (x) = √ e 2 (0.012)2 , ∀ x ∈ R.
0.012 2π
(a) Trovare la percentuale di provette fatte traboccare dal dosatore. [Si esprima il risultato
nella formaa 1 − Φ(x), per qualche x > 0]
(b) Determinare ` in modo tale che la percentuale di provette che contengono una quantità
di liquido inferiore a ` sia pari al 10% delle provette. [Si usib che Φ−1 (0.1) ' −1.282,
dove Φ−1 denota la funzione inversa di Φ]
a
Un’approssimazione di Φ(x) può essere ottenuta utilizzando WolframAlpha, si veda
www.wolframalpha.com, tramite il comando CDF[NormalDistribution[0,1],x].
b
Il valore di Φ−1 (0.1) è stato ottenuto con WolframAlpha tramite il comando
InverseCDF[NormalDistribution[0,1],0.1].
Soluzione.
(a) Si noti che l’evento “il dosatore fa traboccare la provetta” è dato da
{X > 10}.
19
Quest’ultima uguaglianza può essere riscritta in termini di Φ, la funzione di riparti-
zione di Z:
` − 9.99 ` − 9.99 ` − 9.99
Φ = P Z≤ = P Z< = 0.1,
0.012 0.012 0.012
dove la seconda uguaglianza deriva dal fatto che Z è una variabile aleatoria continua.
Quindi
` − 9.99
= Φ−1 (0.1) ' −1.282,
0.012
da cui si ottiene ` ' 9.9746.
5 Generatori aleatori
In diverse aree della matematica applicata, ad esempio nell’ambito della simulazione nu-
merica o in crittografia, si richiede a un computer di produrre una sequenza di numeri
casuali con distribuzione assegnata. La maggior parte dei software di calcolo scientifico
(come ad esempio MATLAB oppure R) possiede comandi (o, meglio, generatori alea-
tori, anche detti generatori di numeri casuali) che forniscono tali sequenze di numeri
casuali, almeno per le distribuzioni più comuni. In C, ad esempio, si trova un gene-
ratore aleatorio che fornisce una sequenza di numeri casuali con distribuzione uniforme
su [0, RAND MAX], dove RAND MAX è una costante che, secondo gli standard di C,
deve essere maggiore o uguale di 32767. In questa sezione affronteremo le due seguenti
questioni.
2) Come si genera una variabile aleatoria con distribuzione non necessariamente uniforme?
20
• Generatori algoritmici. Un generatore algoritmico consiste in un algoritmo (com-
pletamente deterministico) in grado di produrre lunghe sequenze di numeri appa-
rentemente casuali. Tali numeri si chiamano pseudo-casuali. Fornendo all’algoritmo
lo stesso valore iniziale (seme) si ottiene dunque la medesima sequenza.
Tra i generatori algoritmici più conosciuti troviamo i generatori lineari congruen-
ziali (LCG). In tal caso, la sequenza di numeri pseudo-casuali è in generale data
da un’espressione del tipo seguente:
xn = (a xn−1 + c) mod m,
e funzione di ripartizione
0,
x ≤ 0,
FU (x) = x, 0 ≤ x ≤ 1,
1, x ≥ 1.
21
Allora
X = G(U )
Infatti, sia
X = G(U ).
Allora SX = {2, 3, 5} e
X 2 3 5
1 3 1
pX P(G(U ) = 2) = 5 P(G(U ) = 3) = 10 P(G(U ) = 5) = 2
22
In generale, sia pX la densità discreta associata alla funzione di ripartizione F . Allora, F
è data da
0, x < x1 ,
x1 ≤ x < x2 ,
pX (x1 ),
pX (x1 ) + pX (x2 ), x2 ≤ x < x3 ,
F (x) = pX (x1 ) + pX (x2 ) + pX (x3 ), x3 ≤ x < x4 ,
· · ·
pX (x1 ) + · · · + pX (xn−1 ), xn−1 ≤ x < xn ,
1, x ≥ xn .
In tal caso, una possibile scelta per la funzione G : (0, 1) → R è la seguente:
x1 , 0 < u ≤ pX (x1 ),
pX (x1 ) < u ≤ pX (x2 ),
x 2 ,
x 3 , pX (x2 ) < u ≤ pX (x3 ),
G(u) = x4 , pX (x3 ) < u ≤ pX (x4 ),
···
xn−1 ,
pX (xn−1 ) < u ≤ pX (xn ),
x ,
n pX (xn ) < u < 1.
23
Calcolo delle Probabilità e Statistica 2019/2020
VETTORI ALEATORI
INTRODUZIONE GENERALE
e
CASO DISCRETO
1 Introduzione
In questo capitolo studiamo i vettori aleatori. Essi intervengono ogni volta che si è interes-
sati a due o più variabili aleatorie che riguardano lo stesso esperimento aleatorio oppure
quando la quantità d’interesse è essa stessa vettoriale.
In termini matematici, ciò significa che sullo stesso spazio di probabilità (Ω, P) sono
definite due (o più) variabili aleatorie X : Ω → R e Y : Ω → R. Risulta allora naturale
considerare la coppia (X, Y ), che è una variabile aleatoria definita su Ω a valori nello
spazio prodotto R × R = R2 . Chiameremo (X, Y ) vettore aleatorio (bidimensionale).
(X1 , X2 , . . . , Xn ) : Ω → Rn
definita da
P(X,Y ) (B) = P((X, Y ) ∈ B), ∀ B ⊂ R2 .
Per dire che (X, Y ) ha distribuzione o legge P(X,Y ) scriveremo
(X, Y ) ∼ P(X,Y ) .
a
Ricordiamo che P(R2 ) è l’insieme delle parti di R2 .
Osservazione 1. Si noti che andrebbe verificato che P(X,Y ) è effettivamente una proba-
bilità, ovvero che P(X,Y ) verifica gli Assiomi I-II-III.
Osservazione 2. Se B ⊂ R2 è il prodotto cartesiano di due sottoinsiemi di R, quindi
B = B1 × B2 ,
2
per qualche B1 , B2 ∈ R, allora
{(X, Y ) ∈ B1 × B2 } = {X ∈ B1 } ∩ {Y ∈ B2 }.
P({X ∈ B1 } ∩ {Y ∈ B2 }).
F(X,Y ) (x, y) = P({X ≤ x}∩{Y ≤ y}) = P((X, Y ) ∈ (−∞, x]×(−∞, y]), ∀ (x, y) ∈ R2 ,
3
sono indipendenti. Riportiamo prima la definizione per due variabili aleatorie, poi per n
variabili aleatorie.
Definizione 1.3. Sia (Ω, P) uno spazio di probabilità. Due variabili aleatorie X e Y si
dicono indipendenti se
|=
Osservazione. Si dice anche che due variabili aleatorie sono indipendenti se la distri-
buzione congiunta si fattorizza nel prodotto delle marginali.
per ogni B1 , . . . , Bn ⊂ R.
Concludiamo questa sezione con il seguente risultato, in cui si afferma che funzioni di
variabili aleatorie indipendenti sono indipendenti.
f (X) e g(Y )
sono indipendenti.
4
Quindi
|=
X Y
Y = f (X).
Infatti, supponiamo per assurdo che una tale funzione esista. Allora, applicando la Pro-
posizione 1.1 con questa funzione f e g : R → R funzione identità, quindi
g(y) = y, ∀ y ∈ R,
5
2 Vettori aleatori discreti
In questa sezione studiamo una particolare classe di vettori aleatori, i vettori aleatori
discreti (bidimensionali).
Definizione 2.1. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio. Si
dice che (X, Y ) è un vettore aleatorio discreto se sia X che Y sono variabili aleatorie
discrete.
Dalla definizione di vettore aleatorio discreto si intuisce che il vettore (X, Y ) assume solo
un numero finito (o al più infinito numerabile) di valori, dati al più da tutte le coppie
dell’insieme SX × SY . In altre parole, il2 “supporto” di (X, Y ) è un sottoinsieme di
SX × SY .
Come abbiamo visto per le variabili aleatorie discrete, anche nello studio dei vettori
aleatori discreti risulta particolarmente utile la densità discreta, che ora introduciamo.
Definizione 2.2. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio. La
funzione p(X,Y ) : R2 → [0, 1], data da
Si noti che p(X,Y ) (x, y) è la probabilità che il vettore aleatorio (X, Y ) assuma il valore
(x, y). Per tale ragione, p(X,Y ) (x, y) verifica necessariamente le disuguaglianze
Osservazione. In certi casi, come vedremo, è utile calcolare p(X,Y ) (x, y) tramite la regola
della catena:
p(X,Y ) (x, y) = P(X = x | Y = y) P(Y = y)
oppure
p(X,Y ) (x, y) = P(Y = y | X = x) P(X = x).
6
Teorema 2.1. Sia (Ω, P) uno spazio di probabilità e (X, Y ) un vettore aleatorio discreto.
Siano inoltre SX e SY i supporti di X e Y , rispettivamente. Valgono le seguenti proprietà.
3) Vale la formula
X
P((X, Y ) ∈ B) = p(X,Y ) (xi , yj ), ∀ B ⊂ R2 . (2.1)
(xi ,yj )∈B
P P
Notazione. La notazione xi ∈SX yj ∈SY p(X,Y ) (xi , yj ) indica una doppia sommatoria,
in cui prima si somma rispetto a yj , tenendo xi fissato, dopodiché si somma il risultato
cosı̀ ottenuto rispetto a xi .
Il risultato finale non cambia se si scambia l’ordine delle sommatorie, come conseguenza
della proprietà commutativa dell’addizione:
X X X X
p(X,Y ) (xi , yj ) = p(X,Y ) (xi , yj ).
xi ∈SX yj ∈SY yj ∈SY xi ∈SX
Come conseguenza di tale invarianza, questa doppia sommatoria è anche indicata come
segue: X
p(X,Y ) (xi , yj ).
(xi ,yj )∈SX ×SY
Infine, se è chiaro dal testo quale sia l’insieme SX × SY a cui appartengono le coppie
(xi , yj ), allora si scrive semplicemente
X
p(X,Y ) (xi , yj ),
i,j
7
pY (yj ) = P(Y = yj ),
p(X,Y ) (xi , yj ) = P(X = xi , Y = yj ).
Dalla formula delle probabilità totali otteniamo il seguente risultato.
Poniamo
A = {X = xi }, Bj = {Y = yj }, ∀ j = 1, . . . , m.
Gli eventi B1 , . . . , Bm sono una partizione di Ω. Quindi, dalla formula delle probabilità
totali abbiamo che m
X
P(A) = P(A ∩ Bj ),
j=i
Tabella della densità discreta congiunta. Nel caso in cui sia SX che SY sono
insiemi finiti, quindi
SX = {x1 , . . . , xn },
SY = {y1 , . . . , ym },
possiamo riportare i valori di p(X,Y ) in una tabella:
aa
Y
X aaa y1 y2 ··· ym pX
a
x1 p(X,Y ) (x1 , y1 ) p(X,Y ) (x1 , y2 ) ··· p(X,Y ) (x1 , ym ) pX (x1 )
x2 p(X,Y ) (x2 , y1 ) p(X,Y ) (x2 , y2 ) ··· p(X,Y ) (x2 , ym ) pX (x2 )
.. .. .. .. .. ..
. . . . . .
xn p(X,Y ) (xn , y1 ) p(X,Y ) (xn , y2 ) ··· p(X,Y ) (xn , ym ) pX (xn )
pY pY (y1 ) pY (y2 ) ··· pY (ym ) 1
8
Ai margini della tabella compaiono appunto le densità discrete marginali. Per il Teorema
2.2 si ha che i valori di pX si ottengono sommando i valori di p(X,Y ) che compaiono sulla
stessa riga. Analogamente, i valori di pY si ottengono sommando i valori di p(X,Y ) che
compaiono sulla stessa colonna. Infine, sommando i valori dell’ultima colonna (quindi i
valori di pX ) si ottiene 1. Analogamente, sommando i valori dell’ultima riga (quindi i
valori di pY ) si ottiene ancora 1. Questo spiega la presenza del numero 1 nell’angolo in
basso a destra della tabella.
Osservazione. Si dice anche che due variabili aleatorie discrete sono indipendenti se
la densità discreta congiunta si fattorizza nel prodotto delle marginali. Ad
esempio, se si considerano le due tabelle in (2.3), in quella di sinistra X e Y non sono
indipendenti, mentre in quella di destra sono indipendenti. Dunque, la tabella di destra è
l’unica possibile affinché X e Y abbiamo quelle marginali e siano anche indipendenti.
Dimostrazione del Teorema 2.3. Dividiamo la dimostrazione in due passi.
1) Se vale (2.4) allora X e Y sono indipendenti. Siano B1 e B2 sottoinsiemi di R.
Dobbiamo mostrare che
9
dove l’ultima uguaglianza segue dal fatto che essendo B1 × B2 un prodotto cartesiano,
possiamo prima sommare rispetto a yj e poi rispetto a xi , e viceversa.
Dalla (2.4) segue che
X X
P(X ∈ B1 , Y ∈ B2 ) = pX (xi ) pY (yj ).
xi ∈B1 yj ∈B2
Quindi
X
P(X ∈ B1 , Y ∈ B2 ) = P (Y ∈ B2 ) pX (xi ) = P(X ∈ B1 ) P(Y ∈ B2 ).
xi ∈B1
Esercizio 2.1. Siano X e Y variabili aleatorie discrete con densità discreta congiunta
parzialmente data da
X aYa −1
aa
5 10 pX
0 0.12 0.4
5
pY 0.3 1
Soluzione.
(a) Sappiamo che l’ultima colonna deve avere come somma 1, quindi si ottiene
X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 1
Dal Teorema 2.3 sappiamo che affinché X e Y siano indipendenti la densità discreta
congiunta deve essere il prodotto delle marginali. In particolare, si ha che
p(X,Y ) (0, 5) 0.12
p(X,Y ) (0, 5) = pX (0) pY (5) =⇒ pY (5) = = = 0.3.
pX (0) 0.4
10
Quindi
X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 0.3 1
Poiché l’ultima riga deve avere come somma 1, otteniamo
X aYa −1
aa
5 10 pX
0 0.12 0.4
5 0.6
pY 0.3 0.3 0.4 1
Le coppie (xi , yj ) che verificano la condizione xi < yj sono: (0, 5), (0, 10), (5, 10).
Quindi
P(X < Y ) = p(X,Y ) (0, 5) + p(X,Y ) (0, 10) + p(X,Y ) (5, 10) = 0.52.
P(|XY | ≥ 5) = p(X,Y ) (5, −1) + p(X,Y ) (5, 5) + p(X,Y ) (5, 10) = pX (5) = 0.6,
P(X + Y > 5) = p(X,Y ) (0, 10) + p(X,Y ) (5, 5) + p(X,Y ) (5, 10) = 0.58.
(d) Iniziamo col determinare i valori di (U, V ) per ciascuna coppia di valori di (X, Y ). Si
ha che
11
Quindi SU = {0, 5, 25, 50} e SV = {−1, 4, 5, 10, 15}. Determiniamo ora p(U,V ) . Per
quanto visto qui sopra, abbiamo che
e
2 X
Var(h(X, Y )) = E h(X, Y ) − E[h(X, Y )] = h(xi , yj ) − E[h(X, Y )] p(X,Y ) (xi , yj ).
i,j
12
Dalla formula del valore atteso di h(X, Y ) discendono i seguenti due risultati, riguardanti
il valore atteso della somma e del prodotto di (X, Y ), che corrispondono dunque ai casi
in cui h(x, y) = x + y e h(x, y) = xy. Il primo risultato, che riguarda appunto la somma
di X e Y , esprime la proprietà di linearità del valore atteso.
Corollario 2.1. Siano X e Y variabili aleatorie discrete. Siano inoltre a e b due numeri
reali fissati. Allora
E[aX + bY ] = aE[X] + bE[Y ].
13
2.4 Indici di sintesi della distribuzione di un vettore aleatorio
discreto
La distribuzione o legge di un vettore aleatorio bidimensionale (X, Y ) può essere descritta
in maniera sintetica tramite le seguenti quantità:
Quindi la seconda uguaglianza nella Definizione 2.3 di covarianza è una conseguenza del
Teorema 2.4.
Osservazione 2. Si noti che
Cov(X, X) = Var(X).
14
Dalla linearità del valore atteso, si ottiene (si noti che E[X] e E[Y ] sono costanti)
Cov(X, Y ) = E[XY ] − E[X] E[Y ] − E[X] E[Y ] + E[X] E[Y ] = E[XY ] − E[X] E[Y ].
Infine se le variabili aleatorie X e Y sono indipendenti allora dal Corollario 2.2 si ha che
ρX,Y = ±1 ⇐⇒ Y = a X + b.
15
che non esiste una dipendenza lineare tra X e Y . Ricordiamo invece che se X e Y sono
indipendenti allora non esiste alcuna dipendenza funzionale tra X e Y (non solo di tipo
lineare). Perciò se sappiamo solamente che Cov(X, Y ) = 0 non possiamo dire che X e Y
sono indipendenti. Riassumendo:
X Y =⇒ Cov(X, Y ) = 0,
|=
invece
X Y ⇐=
6 Cov(X, Y ) = 0.
|=
Esercizio 2.2. Siano X ed Y variabili aleatorie discrete indipendenti entrambe con
distribuzione di Bernoulli di parametro p = 12 , quindi
X ∼ B 12 , Y ∼ B 21 ,
X Y.
|=
Siano U = X + Y e V = |X − Y |.
Soluzione.
16
Quindi
V
aa
U aaa 0 1 pU
1 1
0 4 0 4
1 1
1 0 2 2
1 1
2 4 0 4
1 1
pV 2 2 1
Le densità marginali di U e V si ottengono sommando rispettivamente lungo le righe
e lungo le colonne.
Le coppie (ui , vj ) che verificano la condizione vj < ui sono: (1, 0), (2, 0), (2, 1). Quindi
1
P(V < U ) = p(U,V ) (1, 0) + p(U,V ) (2, 0) + p(U,V ) (2, 1) = p(U,V ) (2, 0) = .
4
17
(d) No, infatti, ad esempio, p(U,V ) (0, 1) 6= pU (0) pV (1). Quindi U e V non possono
essere indipendenti per il Teorema 2.3. (A conferma della non indipendenza di U e
V , notiamo che esiste una dipendenza funzionale tra queste due variabili aleatorie,
infatti: V = U mod 2)
18
Calcolo delle Probabilità e Statistica 2019/2020
TEOREMI LIMITE
1 Introduzione
L’argomento di questo capitolo ha come principale motivazione le applicazioni alla Sta-
tistica. Più precisamente, supponiamo di essere interessati ad un esperimento aleatorio
e, in particolare, ad una variabile aleatoria ad esso collegata. Indichiamo tale variabile
aleatoria con X. Come possiamo determinare, o meglio “stimare”, la distribuzione di X?
Per stimare la distribuzione di X, un buon punto di partenza consiste nello stimare la
media di tale distribuzione, cioè E[X]. In questo capitolo forniremo le basi teoriche per
lo studio del seguente problema: data una qualunque variabile aleatoria X, come si stima
E[X]?
Si noti che saper stimare il valore atteso di una qualunque variabile aleatoria X, signi-
fica non solo saper stimare E[X] ma anche E[f (X)] con f : R → R funzione arbitraria. Si
può dimostrare che la conoscenza di tutti i valori attesi E[f (X)], con f funzione arbitraria,
sono equivalenti alla conoscenza della distribuzione di X. In altre parole, saper stimare
E[X], con X arbitraria, permette di risolvere, per lo meno a livello teorico, il problema
che abbiamo posto all’inizio: data una qualunque variabile aleatoria X, come si stima la
distribuzione di X?
Notiamo che saper stimare il valore atteso di una qualunque variabile aleatoria X
significa anche saper stimare la probabilità di un qualunque evento A. Infatti, è sufficiente
scegliere X = 1A , la variabile aleatoria indicatrice relativa all’evento A, e ricordare che
P(A) = E[1A ].
Sia dunque X una generica variabile aleatoria di cui si vuole stimare il valore atteso.
Per ottenere una “stima” si segue questo classico procedimento della Statistica: si ripete
un numero “elevato” di volte l’esperimento aleatorio, ogni volta registrando quale valore
ha assunto la variabile aleatoria X. Si ottiene dunque una sequenza di valori numerici1 :
x1 x2 x3 ··· xn
Una sequenza ottenuta in questo modo si chiama un campione di dati. Come otteniamo
a partire da x1 , x2 , x3 , . . . , xn una stima di E[X]? Come vedremo in questo capitolo, una
scelta naturale è quella di considerare la media aritmetica di x1 , x2 , x3 , . . . , xn :
x1 + x2 + x3 + · · · + xn
E[X] ' . (1.1)
n
La media aritmetica del campione x1 , x2 , x3 , . . . , xn si chiama anche media campionaria e
si indica con il simbolo x̄n , quindi
x1 + x2 + x3 + · · · + xn
x̄n = .
n
Come motivazione della stima (1.1) è utile ricordare quanto visto nel problema del gior-
nalaio (si veda il capitolo riguardante le variabili aleatorie discrete). Nella risoluzione di
tale problema si introduce la variabile aleatoria
2
Per determinare la distribuzione di X si “ripete l’esperimento aleatorio 50 volte”, ovvero
si osserva cosa accade in cinquanta giorni. Supponiamo ad esempio che questi siano i dati
ottenuti (qui xi indica il no di copie richieste l’i-esimo giorno):
x1 = 6, x2 = 3, x3 = 5, x4 = 8, x5 = 4, x6 = 7, x7 = 3, x8 = 5,
x9 = 2, x10 = 1, x11 = 9, x12 = 3, x13 = 5, x14 = 6, x15 = 6, x16 = 4,
x17 = 5, x18 = 5, x19 = 7, x20 = 2, x21 = 8, x22 = 4, x23 = 0, x24 = 3,
x25 = 3, x26 = 9, x27 = 8, x28 = 4, x29 = 4, x30 = 6, x31 = 5, x32 = 10,
x33 = 6, x34 = 5, x35 = 4, x36 = 7, x37 = 6, x38 = 4, x39 = 5, x40 = 6,
x41 = 5, x42 = 4, x43 = 3, x44 = 2, x45 = 4, x46 = 6, x47 = 4, x48 = 5,
x49 = 6, x50 = 5.
Riportiamo tali dati in forma aggregata nella seguente tabella:
no copie richieste no giorni frequenza relativa
1
0 1 50
1
1 1 50
3
2 3 50
6
3 6 50
10
4 10 50
11
5 11 50
9
6 9 50
3
7 3 50
3
8 3 50
2
9 2 50
1
10 1 50
Supponendo che tali dati siano significativi (ovvero che in futuro l’andamento delle richie-
ste non si scosterà significativamente da quanto riportato in tabella), risulta ragionevole
supporre che X sia una variabile aleatoria discreta con supporto
SX = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
e densità discreta data da
X 0 1 2 3 4 5 6 7 8 9 10
1 1 3 6 10 11 9 3 3 2 1
pX 50 50 50 50 50 50 50 50 50 50 50
Abbiamo dunque “determinato”, o meglio stimato, direttamente la distribuzione di X,
quindi in particolare anche la sua media E[X]. Infatti
1 1 3 6 10 11 9 3 3 2 1
E[X] = 0 · +1· +2· +3· +4· +5· +6· +7· +8· +9· + 10 ·
50 50 50 50 50 50 50 50 50 50 50
x1 + x2 + x3 + · · · + x50
= .
50
In conclusione, come si vede da questo esempio, la formula (1.1) coincide con quanto si
ottiene stimando direttamente la distribuzione di X tramite le frequenze relative.
3
2 Successioni di variabili aleatorie i.i.d.
Iniziamo a formalizzare il problema presentato nella sezione precedente, ovvero data una
qualunque variabile aleatoria X, come si stima E[X]? Immaginiamo dunque di ripete-
re l’esperimento aleatorio a cui siamo interessati infinite 2 volte. Prima di eseguire tali
esperimenti, il valore assunto dalla variabile aleatoria di interesse è da ritenersi aleatorio.
Quindi è naturale considerare una successione di variabili aleatorie che rappresenta gli
ipotetici valori assunti dalla variabile aleatoria di interesse nei vari esperimenti:
X1 X2 X3 ··· Xn ···
La lettera maiuscola sta dunque ad indicare che gli esperimenti devono ancora essere svolti
e le quantità sono quindi aleatorie. Solo dopo aver eseguito gli esperimenti conosceremo
i valori da esse assunti, che saranno indicati con le lettere minuscole x1 , x2 , x3 , . . . , xn , . . .
La successione X1 , X2 , X3 , . . . , Xn , . . . verrà indicata anche con il simbolo
(Xn )n .
Infatti sono repliche della variabile aleatoria X, quindi hanno tutte la stessa distribuzione
di X. In particolare, hanno lo stesso valore atteso pari a E[X] (ma anche ad esempio la
stessa varianza).
Un’altra richiesta naturale è la seguente.
Tale proprietà equivale a dire che le varie ripetizioni dell’esperimento aleatorio sono ese-
guite in modo tale che non ci siano influenze tra di loro. La prossima definizione chiarisce
il significato di successione di variabili aleatorie indipendenti.
Nel seguito considereremo sempre successioni di variabili aleatorie che verificano le pro-
prietà 1) e 2). Risulta quindi utile la seguente definizione.
2
Chiaramente nella realtà potremo fare solo un numero finito, anche se “elevato”, di ripetizioni.
4
Definizione 2.2. (Xn )n è una successione di variabili aleatorie i.i.d.a se valgono
le seguenti due proprietà:
Dimostrazione. Sia
(
1, se |Y − µ| > ε,
Z = 1{|Y −µ|>ε} =
0, altrimenti.
In altre parole, Z è la variabile aleatoria indicatrice relativa all’evento {|Y − µ| > ε}.
Quindi, in particolare, Z ∼ B(p) con
p = P |Y − µ| > ε .
Si noti che
Var(Y ) = E (Y − µ)2
Var(Y ) ≥ ε2 P |Y − µ| > ε .
Passiamo ora alla Legge dei grandi numeri. Consideriamo dunque una successione di
variabili aleatorie i.i.d.
X1 X2 X3 ··· Xn ···
5
o, più sinteticamente, (Xn )n . Indichiamo con µ e σ 2 rispettivamente la loro media e la
loro varianza. Per ogni n fissato, definiamo la media campionaria delle prime n variabili
aleatorie come segue:
X1 + · · · + Xn
X̄n = .
n
Si noti che X̄n è anch’essa una variabile aleatoria, infatti il suo valore non è ancora noto.
Sarà noto solo dopo aver svolto i primi n esperimenti. A quel punto indicheremo il suo
valore con la lettera minuscola x̄n .
Come abbiamo sottolineato all’inizio, la media campionaria si usa in Statistica per
stimare la vera media µ delle variabili aleatorie X1 , . . . , Xn , . . .. Questa è una conseguenza
della Legge dei grandi numeri, la quale stabilisce che X̄n “converge” verso µ quando n
tende all’infinito.
Teorema 3.2 (Legge dei grandi numeri). Sia (Xn )n una successione di variabili
aleatorie i.i.d. con media µ e varianza σ 2 . Allora, posto
X1 + · · · + Xn
X̄n = ,
n
si ha
∀ ε > 0, lim P |X̄n − µ| > ε = 0. (3.1)
n→+∞
si dice che X̄n converge in probabilità a µ quando n tende all’infinito. In tal caso, si
scrive
P
X̄n −→ µ.
n→+∞
6
Quindi anche X̄n ha media µ.
Per quanto riguarda la varianza, grazie all’indipendenza di X1 , . . . , Xn si ha che
X1 + · · · + Xn 1
Var(X̄n ) = Var = 2 Var(X1 + · · · + Xn )
n n
1
= Var(X 1 ) + · · · + Var(X n )
↑ n2
indipendenza
1 2 σ2
= n σ = .
↑ n2 n
ident. distr.
Adesso, per ogni ε > 0 fissato, applicando la disuguaglianza di Chebyshev alla variabile
aleatoria X̄n , otteniamo
Var(X̄n ) σ2
P(|X̄n − µ| > ε) ≤ = ,
ε2 ε2 n
che dimostra la formula (3.2). Dimostriamo infine la formula (3.1). Poiché
σ2
0 ≤ P(|X̄n − µ| > ε) ≤ −→ 0,
ε2 n n→+∞
concludiamo che
lim P |X̄n − µ| > ε = 0.
n→+∞
7
3.1 Metodo Monte Carlo
La Legge dei grandi numeri è alla base di un metodo numerico probabilistico molto
importante, noto come metodo Monte Carlo 3 . Consideriamo il seguente problema.
Z b
Come si può approssimare f (x) dx, con f funzione integrabile?
a
R1
Per semplicità, consideriamo il caso a = 0 e b = 1, quindi l’integrale diventa 0
f (x) dx.
Possiamo riscrivere questo integrale come valore atteso:
Z 1
f (x) dx = E[f (U )],
0
dove U ∼ Unif (0, 1). Ci siamo dunque ricondotti al problema di stimare il valore atteso
della variabile aleatoria X = f (U ). Il metodo Monte Carlo consiste nell’approssima-
re numericamente il valore atteso E[f (U )] facendo uso della Legge dei grandi numeri.
Più precisamente, sia (Un )n una successione di variabili aleatorie i.i.d. con la medesima
distribuzione di U , quindi uniforme su (0, 1). Definiamo
Xn = f (Un ), ∀ n.
Allora (Xn )n è ancora una successione di variabili aleatorie i.i.d., con la medesima distri-
buzione di f (U ). Quindi, per la Legge dei grandi numeri,
Z 1
f (U1 ) + · · · + f (Un ) P
−→ E[f (U )] = f (x) dx.
n n→+∞ 0
L’implementazione del metodo Monte Carlo si basa sull’utilizzo dei generatori aleatori.
Nell’esempio qui considerato, per approssimare E[f (U )] si genera una sequenza di numeri
3
Il metodo Monte Carlo è stato sviluppato nell’ambito della ricerca nucleare. La sua nascita si at-
tribuisce in particolare al matematico polacco Stanislaw Ulam, che lavorava nell’ambito del progetto
Manhattan. Anche il fisico italiano Enrico Fermi e il matematico ungherese John von Neumann hanno
contribuito alla nascita di questo metodo. Il nome è stato coniato successivamente dal matematico statu-
nitense Nicholas Metropolis (anch’egli all’interno del progetto Manhattan), facendo proprio riferimento
alla città di Monte Carlo e al suo casinò. Nella sua autobiografia Ulam descrive come l’idea gli sia venuta
cercando di calcolare la probabilità di vincere al solitario. Più precisamente, si consideri un mazzo di 52
carte. La riuscita o meno del solitario dipende solamente da come sono ordinate le carte nel mazzo. In
totale ci sono 52! ordinamenti. Quindi
numero di solitari riusciti
P(“vincere”) = .
52!
Come racconta egli stesso: “L’idea del metodo Monte Carlo mi è venuta giocando a carte un solitario
durante un periodo di convalescenza, nel 1946. Avevo sprecato un mucchio di tempo per calcolare, senza
successo, con tecniche combinatorie, la probabilità di riuscita del solitario. Pensai allora che, giocando
un centinaio di volte il solitario, avrei potuto stimare questa probabilità con la frequenza delle volte con
cui era riuscito, aggirando cosı̀ con la pratica il pensiero astratto. Questo metodo era ormai possibile,
visto l’avvento dei calcolatori veloci. Era ovvio pensare anche a soluzioni simili per problemi legati alla
diffusione dei neutroni o di fisica matematica e, più in generale, a come scambiare processi descritti
da certe equazioni differenziali con un modello equivalente interpretabile come successione di operazioni
aleatorie. In seguito descrissi l’idea a John von Neumann e cominciammo a realizzare veri e propri calcoli
matematici al riguardo.”
8
casuali con distribuzione uniforme su (0, 1), quindi
u1 u2 ··· un
Tali numeri sono scritti con la lettera minuscola in quanto sono noti, infatti sono i numeri
forniti dal generatore aleatorio. Dopodiché, si calcola la quantità
f (u1 ) + · · · + f (un )
.
n
R1
Se n è “elevato” si ottiene una buona approssimazione dell’integrale 0 f (x) dx.
I principali vantaggi rispetto ai metodi deterministici di integrazione numerica sono i
seguenti:
• non si richiedono ipotesi di regolarità sulla funzione integranda f ;
• l’ordine di convergenza del metodo, che è √1n come seguirà dal Teorema centra-
le del limite, è indipendente dalla dimensione e l’implementazione del metodo in
dimensione maggiore di uno non comporta alcuna difficoltà aggiuntiva.
9
• al passo 0, si sceglie in modo arbitrario un punto di partenza x0 ∈ Rd ;
xk+1 = xk + αk v k , (3.4)
dove:
La direzione ottimale lungo cui muoversi ad ogni passo k è quella che congiunge xk a x∗ ,
che tuttavia non è ovviamente nota a priori. Dato che x∗ è un punto di minimo, l’idea
più naturale è prendere come direzione quella di massima decrescita, data da −∇f (xk ).
Per tale ragione, il metodo del gradiente corrisponde al seguente schema iterativo:
xk+1 = xk − βk ∇f (xk ).
∇f (xk )
α k = βk .
lunghezza di ∇f (xk )
Se n è molto elevato può essere particolarmente oneroso determinare xk+1 . Il metodo del
gradiente stocastico consiste dunque nell’individuare, ad ogni passo k, un sottoinsieme di
addendi in modo casuale; sono tali addendi i soli che vengono utilizzati al passo k per
determinare xk+1 .
10
4 Teorema centrale del limite (TCL)
Come nel caso della Legge dei grandi numeri, consideriamo una successione (Xn )n di
variabili aleatorie i.i.d. e indichiamo con µ e σ 2 media e varianza di ciascuna variabile
aleatoria Xn . Sia inoltre
X1 + · · · + Xn
X̄n = .
n
Grazie alla Legge dei grandi numeri sappiamo che vale la convergenza
P
X̄n −→ µ.
n→+∞
Il Teorema centrale del limite5 descrive come avviene questa convergenza, o più precisa-
mente, ci dice qual è approssimativamente la distribuzione di X̄n per n grande.
Prima di enunciare il Teorema centrale del limite, è utile introdurre la variabile aleatoria
Z̄n data da
X̄n − µ
Z̄n = σ .
√
n
Si noti che
E[Z̄n ] = 0, Var(Z̄n ) = 1.
La variabile aleatoria Z̄n si chiama media campionaria standardizzata.
Teorema 4.1 (Teorema centrale del limite). Sia (Xn )n una successione di variabili
aleatorie i.i.d. con media µ e varianza σ 2 . Supponiamo che σ > 0. Allora, posto
X̄n − µ
Z̄n = ,
√σ
n
si ha
lim P(Z̄n ≤ x) = lim FZ̄n (x) = Φ(x), ∀ x ∈ R,
n→+∞ n→+∞
Rx 1 2
dove Φ(x) = −∞
√1
2π
e− 2 y dy è la funzione di ripartizione della distribuzione normale
standard.
Osservazione 1. Se σ = 0, il Teorema centrale del limite non vale. Tuttavia, in tal caso
possiamo dire molto di più sulla successione X̄n . Infatti, se σ = 0 allora ciascuna variabile
aleatoria Xn è costante e inoltre Xn = µ. Di conseguenza, anche X̄n = µ, mentre Z̄n = 0,
per ogni n.
Osservazione 2. Se vale che
5
Il nome “Teorema centrale del limite” (o “Teorema limite centrale”) è stato dato dal matematico
ungherese George Pólya per sottolineare come tale teorema abbia un ruolo centrale in Probabilità e
Statistica.
11
si dice che Z̄n converge in legge (o in distribuzione) ad una variabile aleatoria
normale standard quando n tende all’infinito. In tal caso, si scrive
L
Z̄n −→ Z ∼ N (0, 1).
n→+∞
si ha
σ σ
X̄n = µ + √ Z̄n ≈ µ + √ Z.
n n
2
Poiché µ + √σn Z ∼ N µ, σn , si deduce che X̄n ha approssimativamente distribuzione
precisa ed esplicita il risultato di convergenza della Legge dei grandi numeri. In particolare,
fornisce l’ordine di convergenza √1n . Infatti, l’errore (aleatorio) di approssimazione è dato
da
σ
|X̄n − µ| ≈ √ |Z|.
n
Quindi l’errore medio è pari a
r
σ σ 2
E[|X̄n − µ|] ' √ E[|Z|] = √ ,
n n π
12
Esercizio 4.1. Supponiamo di lanciare un milione di volte una moneta non truccata.
Qual è la probabilità di ottenere un numero di teste compreso fra 499500 e 501000? Si
calcoli tale probabilità in modo approssimato, facendo uso del Teorema centrale del limite.
[Si esprima il risultato nella forma Φ(x) − Φ(−y), con x, y > 0 da determinarsi]
Soluzione. Il risultato è Φ(2) − Φ(−1) ' 0.9773 − 0.1587 = 0.8186. Infatti, sia
Siano
X1 + · · · + X n
X̄n = ,
n
X̄n − µ
Z̄n = √ .
σ/ n
Dal Teorema centrale del limite sappiamo che Z̄n ha approssimativamente distribuzione
normale standard (cioè X̄n ha approssimativamente distribuzione normale di media µ =
1/2 e varianza σ 2 /n = 1/(4n)). Quindi
499500 501000
P 499500 ≤ X1 + · · · + X1000000 ≤ 501000 = P ≤ X̄1000000 ≤
1000000 1000000
= P 0.4995 ≤ X̄1000000 ≤ 0.5010
0.4995 − µ 0.5010 − µ
= P √ ≤ Z̄1000000 ≤ √
↑ σ/ 1000000 σ/ 1000000
standardizzazione
0.4995 − 0.5 0.5010 − 0.5
= P √ ≤ Z̄1000000 ≤ √
0.5/ 1000000 0.5/ 1000000
' P − 1 ≤ Z̄1000000 ≤ 2 = Φ(2) − Φ(−1) ' 0.9773 − 0.1587 = 0.8186.
13
Calcolo delle Probabilità e Statistica 2019/2020
CATENE DI MARKOV
A TEMPO DISCRETO
1 Processi stocastici
Iniziamo con l’introdurre una generalizzazione del concetto di variabile aleatoria, che si
chiama processo stocastico 1 (o anche processo casuale o processo aleatorio).
Supponiamo di voler descrivere matematicamente una quantità numerica incerta il
cui valore evolve nel tempo. Questo corrisponde ad una famiglia di variabili aleatorie
indicizzate mediante un parametro che è appunto il “tempo”. Vediamo due esempi, a
seconda che il tempo sia “discreto” o “continuo”.
Esempio 1.1. Un’urna contiene 90 palline numerate da 1 a 90. Si estrae una pallina dal-
l’urna, si registra il suo numero e la si reintroduce nell’urna. Quindi si itera la procedura.
Poniamo
La quantità numerica (numero della pallina) che varia nel “tempo” (dato dall’ordine di
estrazione) è rappresentata dalla famiglia (in tal caso, successione) di variabili aleatorie
(Xn )n , indicizzate dal parametro n ∈ N.
per ogni numero reale t ≥ 0. In tal caso la quantità numerica (temperatura) che varia nel
tempo è rappresentata dalla famiglia di variabili aleatorie (Xt )t , indicizzate dal parametro
t ≥ 0.
2
finito. Un esempio importante di processo stocastico a tempo discreto, che abbiamo già
incontrato nello studio dei teoremi limite, è il seguente.
Il nostro obiettivo è studiare successioni (Xn )n più generali delle successioni i.i.d., in
cui le due ipotesi (“indipendenti” e “identicamente distribuite”) verranno indebolite. In
particolare, per quanto riguarda la prima ipotesi (“indipendenti”), considereremo succes-
sioni (Xn )n in cui ci potrà essere una dipendenza tra le variabili aleatorie, anche se tale
dipendenza dovrà avere una struttura particolare detta “a catena”: la variabile aleatoria
Xn+1 sarà influenzata direttamente solo da quella che la precede, ovvero Xn , e tramite
essa sarà influenzata da tutte le variabili aleatorie precedenti. Più precisamente, una vol-
ta nota Xn , la conoscenza supplementare dei valori di X1 , X2 , . . . , Xn−1 non darà alcuna
ulteriore informazione riguardo il valore di Xn+1 .
2
Andrej Andreevic Markov (1856-1922) è stato un matematico russo, allievo di Chebyshev. Markov
è noto soprattutto per essere stato uno dei primi matematici ad indagare a fondo i processi stocastici,
introducendo in particolare i processi che oggi portano il suo nome.
3
La quantità
πij (n) = P(Xn+1 = j|Xn = i)
si chiama probabilità di transizione all’istante n dallo stato i allo stato j.
Osservazione 1. Per semplicità nel seguito utilizzeremo sempre e solo S invece dei sup-
porti delle singole variabili aleatorie X1 , . . . , Xn , . . ., anche se ciascuna variabile aleatoria
non assumerà necessariamente tutti i valori contenuti in S.
Osservazione 2. La proprietà di Markov afferma che le variabili aleatorie X1 , . . . , Xn , . . .
non sono necessariamente indipendenti (come accade nel caso i.i.d.), tuttavia la struttura
di dipendenza è abbastanza semplice dato che è appunto a “catena”.
Per comprendere meglio la proprietà di Markov, supponiamo di essere all’istante n,
quindi di conoscere il valore che è stato assunto dalle variabili aleatorie X1 , . . . , Xn−1 , Xn .
Indichiamo tali valori con i1 , . . . , in−1 , i, quindi
X1 = i 1 , X2 = i2 , ··· Xn−1 = in−1 , Xn = i.
I valori i1 , . . . , in−1 , i rappresentano la storia del processo fino all’istante n; inoltre i1 , . . . , in−1
sono i valori passati, mentre i è il valore presente; infine Xn+1 è il valore futuro. Utilizzando
questa terminologia, possiamo riscrivere la proprietà di Markov come segue:
P(“il valore futuro è j”|“il valore presente è i e i valori passati sono i1 , . . . , in−1 ”)
= P(“il valore futuro è j”|“il valore presente è i”)
o, in modo ancora più sintetico,
P(“futuro”|“presente e passato”) = P(“futuro”|“presente”).
In altri termini, nelle catene di Markov la dipendenza dal passato dei valori futuri viene
riassunta dal valore presente. Chiaramente è possibile considerare processi stocastici con
strutture di dipendenza più complesse di quella delle catene di Markov, ma noi non ce ne
occuperemo.
• Si dice che (Xn )n è omogenea (nel tempo) se la probabilità di transizione non di-
pende da n. In tal caso, si scrive πij invece di πij (n) e si dice che πij è la probabilità
di transizione dallo stato i allo stato j.
• Si dice che (Xn )n è a stati finiti se lo spazio di stato S è un insieme finito. In tal
caso indicheremo con N la cardinalità di S. Spesso supporremo che S sia dato da
S = {1, 2, . . . , N } oppure S = {0, 1, . . . , N − 1}.
4
Notazione. Nel seguito, anche se non esplicitamente indicato, quando scriveremo catena
di Markov intenderemo sempre catena di Markov omogenea e a stati finiti.
La struttura di dipendenza a catena di (Xn )n , nel caso omogeneo e a stati fini-
ti, è completamente descritta da una matrice quadrata di ordine N , detta matrice di
transizione.
Definizione 3.2. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Si chiama
matrice di transizione la matrice N × N (dove N è la cardinalità di S), indicata con
Π, le cui componenti sono le probabilità di transizione:
Osservazione. Se lo spazio degli stati S non è l’insieme {1, . . . , N }, per scrivere una
matrice di transizione Π bisogna prima fissare un ordinamento degli stati in S (ossia
decidere quale stato corrisponde alla prima riga, quale alla seconda, e cosı̀ via).
Si noti che ogni riga di Π corrisponde alle probabilità (si pensi ad esempio alla riga i):
P(Xn+1 = 1|Xn = i), ··· P(Xn+1 = j|Xn = i), ··· P(Xn+1 = N |Xn = i).
La riga i di Π corrisponde quindi alla “densità discreta di Xn+1 sapendo che Xn = i”.
Questo implica che ogni elemento di Π deve essere un numero appartenente all’intervallo
[0, 1] (in quanto corrisponde ad una probabilità condizionale), inoltre la somma degli
elementi di una qualsiasi riga deve essere uguale a 1. In altri termini, Π deve verificare le
proprietà riportate nel seguente teorema.
Teorema 3.1. Sia Π una matrice di transizione di una catena di Markov (Xn )n . Allora
Π è tale che:
5
Allora gli eventi B1 , . . . , BN costituiscono una partizione di Ω. Quindi, per la formula
delle probabilità totali, si ha
N
X
P(A) = P(A ∩ Bj ),
j=1
Utilizziamo quest’ultima uguaglianza, indicata con (∗), per dimostrare la proprietà 2).
Abbiamo che
N N N
X X X P(Xn+1 = j, Xn = i)
πij = P(Xn+1 = j|Xn = i) =
j=1 j=1 j=1
P(Xn = i)
N
1 X
= P(Xn+1 = j, Xn = i)
P(Xn = i) j=1
P(Xn = i)
= = 1.
↑ P(Xn = i)
(∗)
In tal caso si dice che la successione di variabili aleatorie (Xn )n è una passeggiata aleatoria
(in inglese random walk ) sul grafo. Vediamo due esempi.
Esempio 3.1. Si consideri una catena di Markov (Xn )n con spazio degli stati S = {1, 2}
e matrice di transizione
1−α α
Π =
β 1−β
dove 0 ≤ α ≤ 1 e 0 ≤ β ≤ 1 sono due parametri fissati. Questa è la matrice di transizione
più generale possibile per una catena di Markov a due stati.
6
Il grafo ad essa associato è il seguente:
α
1−α 1 2 1−β
Esempio 3.2. Si consideri una catena di Markov (Xn )n con spazio degli stati S = {1, 2, 3}
e matrice di transizione
0 1 0
Π = 0 1/2 1/2 .
1/2 0 1/2
Il grafo ad essa associato è il seguente:
1/2 1
1/2 3 2 1/2
1/2
P(Xn+2 = j|Xn = i) ?
7
Definizione 3.3. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Per ogni
intero m ≥ 0, poniamo (con n qualsiasi)
(m)
πij = P(Xn+m = j|Xn = i), per ogni i, j ∈ S.
(m)
πij si chiama probabilità di transizione dallo stato i allo stato j in m passi.
Proposizione 3.1. Sia (Xn )n una catena di Markov omogenea e a stati finiti.
(0)
• Per m = 0, πij è data da:
1, se i = j,
(0)
πij =
0, se i 6= j.
(0)
Quindi la matrice di componenti πij corrisponde alla matrice identità N × N ,
indicata con IN .
(1)
• Per m = 1, πij è data da:
(1)
πij = πij .
(1)
Quindi la matrice di componenti πij corrisponde alla matrice di transizione Π.
Dimostrazione.
• Sia m = 0, allora
(0)
πij = P(Xn = j|Xn = i),
dove n è un istante qualsiasi, dato che la catena di Markov è omogenea. Per
definizione di probabilità condizionale, abbiamo che
Si noti che
{Xn = i}, se i = j,
{Xn = j} ∩ {Xn = i} =
∅, se i 6= j.
Quindi
P(Xn = i)
, se i = j,
P({Xn = j} ∩ {Xn = i})
P(Xn = i) 1, se i = j,
= =
P(Xn = i) P(∅) 0, se i 6= j.
, se i 6= j,
P(Xn = i)
8
(1)
• Sia m = 1. Segue direttamente dalle definizioni di πij e πij che tali probabilità
(condizionali) coincidono.
(m)
Il seguente teorema fornisce una formula per il calcolo di πij .
Teorema 3.2. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Per ogni intero
(m)
m, la matrice di componenti πij è data da
· · Π} = Πm .
| ·{z
Π
m volte
Osservazione. Si noti che, in particolare, il Teorema 3.2 vale anche per m = 1, dato
che Π1 = Π, e per m = 0, dato che Π0 = IN .
(2)
Dimostrazione del Teorema 3.2 nel caso m = 2. Dobbiamo dimostrare che πij
coincide con l’elemento nella i-esima riga e j-esima colonna della matrice Π2 , quindi
N
X
(2)
πij = πik πkj .
k=1
Per mostrare la validità di questa formula, consideriamo tutti i cammini che portano da
i a j in due passi. Ci sono esattamente N cammini di questo tipo, che sono dati da:
i → 1 → j; i → 2 → j; ··· i → N → j.
Consideriamo uno qualunque di questi cammini, ad esempio quello passante per lo stato
k, ovvero i → k → j. La probabilità di percorrerlo è pari al prodotto delle probabilità
πik πkj . Infatti
(2)
Infine, πij è dato dalla somma delle probabilità dei cammini che portano da i a j in due
passi. Quindi
XN
(2)
πij = πik πkj .
k=1
9
(m) (m)
Calcolo diretto di πij . Dal Teorema 3.2 sappiamo che per calcolare πij dobbiamo
(m)
prima trovare la matrice Πm , dopodiché πij è l’elemento nella riga i e colonna j di questa
(m)
matrice. Vediamo ora invece un modo alternativo per il calcolo di πij , più diretto, che
si basa sull’utilizzo del grafo orientato associato a (Xn )n . Vediamolo nel caso m = 2.
(2)
Sappiamo che πij è dato dalla formula
N
X
(2)
πij = πik πkj .
k=1
Il prodotto πik πkj corrisponde alla probabilità di andare da i a j in due passi passando
per il nodo k, cioè di percorrere il cammino che indichiamo brevemente con i → k → j.
Generalmente, solo alcuni di questi cammini hanno probabilità positiva (cioè solo per
alcuni si ha che πik πkj > 0). Per individuarli, il modo più facile è utilizzare il grafo
associato alla catena di Markov, sfruttando il fatto che sul grafo non sono riportate le
frecce corrispondenti a probabilità nulle. Se ad esempio vediamo dal grafo che esistono
solo due cammini possibili, dati da i → k1 → j e i → k2 → j, allora
(2)
πij = πik1 πk1 j + πik2 πk2 j .
(m)
In generale, per calcolare πij , con m qualunque, si procede come segue:
• la probabilità di ogni cammino è il prodotto delle probabilità lungo gli archi del
cammino stesso;
(m)
• πij è la somma delle probabilità dei cammini che portano da i a j in m passi.
(0)
Osservazione. Dato che, per definizione, πii = 1, è sempre vero che i è accessibile da
i stesso. Infatti è banalmente vero che se parto dalla stato i allora accedo allo stato i in
m = 0 passi. Quindi vale sempre che i i.
10
Nel caso i 6= j, come chiarito nel teorema che segue, si ha che i j se e solo se
esiste un cammino di probabilità positiva (che dunque può essere determinato a partire
dal grafo) che conduce da i a j.
a) i j;
Definizione 3.5. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Fissiamo
due stati i, j ∈ S (non necessariamente i 6= j).
Gli stati i e j si dicono comunicanti se i j ej i. In tal caso scriviamo
i ! j.
a) i ! j;
11
b) esiste un cammino chiuso che passa per i e j (per cammino chiuso si intende un
cammino in cui stato di partenza e stato di arrivo coincidono).
• simmetria: se i ! j allora j ! i;
• transitività: se i ! j e j ! k allora i ! k.
Infatti, è riflessiva per l’ Osservazione 1 riportata qui sopra. Inoltre, utilizzando quanto
affermato nell’ Osservazione 2, è facile verificare che è anche simmetrica e transitiva.
Dunque l’insieme S può essere partizionato nelle corrispondenti classi di equivalenza, che
sono appunto le classi comunicanti. Da ciò segue che ogni stato i ∈ S appartiene
ad una e una sola classe comunicante (non è in particolare possibile che uno stesso
stato appartenga contemporaneamente a due classi distinte).
Definizione 3.6. Sia (Xn )n una catena di Markov omogenea e a stati finiti.
Si dice che (Xn )n è irriducibile se esiste un’unica classe comunicante, che è quindi data
dall’insieme S stesso.
3.3 Legge di Xn
Sia (Xn )n una catena di Markov (omogenea e a stati finiti) con matrice di transizione Π.
Ci poniamo ora il seguente problema.
Sappiamo che Xn è una variabile aleatoria discreta, quindi è sufficiente determinare sup-
porto e densità discreta di Xn . Come abbiamo detto in precedenza, come supporto pren-
diamo S (anche se, in generale, S contiene più valori di quelli che effettivamente Xn
assume). Resta da determinare la densità discreta pXn . Supponiamo che lo spazio degli
stati S sia dato dall’insieme {1, 2, . . . , N }. Allora determinare la densità discreta pXn
significa conoscere la tabella
Xn 1 2 ··· N
pXn pXn (1) pXn (2) ··· pXn (N )
Più precisamente, determinare la densità discreta pXn significa conoscere il vettore riga
#» dato da
p Xn
#»
p Xn = pXn (1) pXn (2) · · · pXn (N ) = P(Xn = 1) P(Xn = 2) · · · P(Xn = N ) .
Notazione. Nel seguito, anche se non esplicitamente detto, quando parleremo di distri-
#» , che come abbiamo visto
buzione (o legge) di Xn ci riferiremo sempre al vettore riga p Xn
descrive completamente la densità discreta di Xn , e quindi anche la sua distribuzione.
12
Torniamo al problema che ci siamo posti inizialmente, ovvero determinare la distri-
buzione di Xn (quindi p #» ). Per trovare tale distribuzione non è sufficiente conoscere
Xn
la matrice di transizione Π, dobbiamo anche sapere qual è la distribuzione iniziale della
#» ).
catena di Markov, cioè la distribuzione di X1 (quindi p X1
Teorema 3.4. Sia (Xn )n una catena di Markov omogenea e a stati finiti. Allora la
distribuzione di Xn è data dalla seguente formula:
#»
p #» n−1
Xn = pX1 Π , per ogni n = 1, 2, . . .
per ogni j ∈ S.
Tale formula è vera in quanto è una diretta conseguenza della formula delle probabilità
totali. Infatti
XN
P(Xn = j) = P(X = j|X = i) P(X1 = i) .
| n {z 1 } | {z }
i=1
π
(n−1) pX1 (i)
ij
13
Il termine “invariante” deriva dal seguente teorema, in cui si dimostra che se la distribu-
zione iniziale della catena di Markov è invariante allora le variabili aleatorie X1 , . . . , Xn , . . .
sono identicamente distribuite.
Teorema 3.5. Sia (Xn )n una catena di Markov omogenea e a stati finiti con matrice di
transizione Π.
Supponiamo che la distribuzione di X1 sia invariante, ovvero
#»
p #»
X1 = pX1 Π.
#» .
Allora la distribuzione di Xn (qualunque sia n) è ancora data da p X1
Dimostrazione. Dal Teorema 3.4, sappiamo che la distribuzione (intesa come densità
discreta) di Xn è data da
#»
p #» n−1 #» Πn−2 = · · · = p
#» Π Πn−2 = p #» .
Xn = pX1 Π = p
| X{z1 } X1 X1
#»
=p
X1
4 Algoritmo PageRank
In questa sezione finale vogliamo descrivere come funziona il motore di ricerca Google
(nella sua prima versione del 1997), o meglio come funziona l’algoritmo PageRank. Prima
però abbiamo bisogno di introdurre ancora alcuni strumenti della teoria delle catene di
Markov.
Definizione 4.1. Sia (Xn )n una catena di Markov omogenea e a stati finiti con matrice
di transizione Π.
Si dice che (Xn )n è regolare se esiste n0 tale che
(n )
πij 0 > 0, ∀ i, j ∈ S
ovvero se la matrice
· · Π} = Πn0
| ·{z
Π
n0 volte
Osservazione. Si noti che se una catena di Markov è regolare allora si può andare da
(n )
un qualunque stato i ad un qualunque altro stato j in al più n0 passi (dato che πij 0 > 0
14
per ogni i, j ∈ S). Dunque, in tal caso, (Xn )n ha un’unica classe comunicante (che è
quindi S). In altri termini, se una catena di Markov è regolare allora è irriducibile.
Se una catena di Markov è regolare vale il seguente risultato fondamentale.
Teorema 4.1 (di convergenza all’equilibrio o ergodico). Sia (Xn )n una catena di Markov
omogenea e a stati finiti con matrice di transizione Π.
#» tale che, qualunque
Se (Xn )n è regolare allora esiste un’unica distribuzione invariante π
sia i ∈ S,
(n)
lim πij = πj , ∀ j ∈ S.
n→+∞
(n)
Il Teorema 4.1 fornisce un collegamento tra πj e la probabilità di transizione πij
(che corrisponde alla probabilità condizionale P(Xn+1 = j|X1 = i) o, più in generale, a
P(Xn+k = j|Xk = i)).
(n)
Più precisamente, il Teorema 4.1 ci dice che πj è approssimativamente uguale a πij
per n >> 1, qualunque sia i. Ciò fornisce la seguente interpretazione di πj : la probabilità
πj rappresenta, approssimativamente, la probabilità (condizionale) P(Xn+1 = j|X1 = i)
di essere nello stato j al passo n, indipendentemente da quale sia lo stato di partenza i.
Di conseguenza, gli stati j per cui la probabilità πj è elevata sono quelli più facilmente
raggiungibili dagli altri stati. In altri termini, sono gli stati che vengono più spesso
“visitati” se si immagina di partire da un qualunque stato i e di percorrere una passeggiata
aleatoria lungo il grafo orientato associato alla catena di Markov.
Ordinando gli stati in modo crescente in base ai valori contenuti in π, #» si ottiene quindi
un ordinamento degli stati in base a quanto sono più o meno facilmente “visitabili”.
Come spiegato in questo articolo, il nome Google è stato scelto da Brin e Page in
quanto rimanda al nome googol, che è il termine matematico con cui si indica il numero
10100 : il motivo è che questo numero rende l’idea della scala dei problemi che un motore
di ricerca deve affrontare.
Google, e in particolare l’algoritmo PageRank, si basa sulla struttura “topologica” del
web, intesa come grafo orientato in cui ogni nodo corrisponde ad una pagina e ogni freccia
15
rappresenta un link. Tale struttura permette di ordinare le pagine, ovvero creare un ran-
king delle pagine che è appunto il compito dell’algoritmo PageRank. Questo ordinamento
viene utilizzato per rispondere in maniera rapida e soddisfacente a ciascuna singola query.
L’algoritmo PageRank nella sua forma attuale non è chiaramente noto (essendo ov-
viamente tutelato da copyright), però l’idea originale del metodo è chiara. L’ordinamento
delle pagine web fornito dall’algoritmo PageRank si basa sull’assegnazione di un indice di
significatività a ciascuna pagina. Per una generica pagina web A, denotiamo tale indice
con PR(A). La procedura di assegnazione dell’indice di significatività prescinde dall’ef-
fettivo contenuto della pagina, mentre tiene conto di quanto e da chi è citata (ovvero, di
quanti e quali link conducono a quella pagina). In particolare, l’indice di significatività
deve soddisfare i due requisiti seguenti:
2) risultare elevato se riferito ad una pagina citata da (eventualmente poche) pagine molto
significative.
Dunque il solo conteggio dei link ad una pagina non può essere un buon indice di signi-
ficatività (in quanto non soddisfa il secondo requisito). L’indice di significatività di una
pagina A deve essere invece proporzionale agli indici di significatività delle pagine che
conducono ad A.
3 2 1
16
Supponiamo di partire dalla pagina numero 1 e di effettuare una passeggiata aleatoria
nel web, scegliendo ad ogni passo un link a caso dalla pagina in cui ci troviamo (più
precisamente, si suppongano equiprobabili tra loro i link uscenti da una data pagina). Sia
(Xn )n la catena di Markov che descrive tale passeggiata aleatoria.
(a) Qual è la distribuzione iniziale della catena di Markov, ovvero qual è la densità discreta
di X1 ?
(b) Si rappresenti graficamente la catena di Markov tramite un grafo orientato.
(c) Qual è la matrice di transizione di (Xn )n ?
Nella realtà, la dimensione della matrice Π è gigantesca; si pensi che già nel 1997 si
stimava la presenza di circa 100 milioni di pagine web.
Si noti che gli elementi non nulli della i-esima riga di Π corrispondono alle pagine che
hanno un link che conduce alla pagina i; se tali elementi sono in numero pari a mi , il loro
valore è dato da 1/mi (per l’ipotesi di equiprobabilità, tutti hanno lo stesso valore). Si
noti inoltre che gli elementi non nulli della j-esima colonna sono le pagine a cui si può
accedere partendo dalla pagina j.
PR(j) = πj .
per ogni pagina web j. Vediamo con un esempio perché πj è un buon indice di significati-
vità (ovvero verifica i due requisiti precedentemente riportati sopra). Per farlo riprendiamo
l’Esercizio 4.1 e determiniamo in tal caso la distribuzione invariante π. #»
#» Dato che
Esercizio 4.1 (continuazione). Dobbiamo determinare π.
#» = π
π #» Π
e
0 1/2 0 1/2
1/3 0 1/3 1/3
Π =
0
,
0 0 1
0 1 0 0
si ottiene il sistema di equazioni seguente:
π1 = 13 π2 ,
π = 1 π + π ,
2 2 1 4
1
π3 = 3 π2 ,
π4 = 12 π1 + 13 π2 + π3 .
17
#» è un vettore densità discreta, quindi deve verificare anche le due proprietà
Si noti che π
seguenti:
1) 0 ≤ πj ≤ 1, per ogni j = 1, 2, 3, 4;
P4
2) j=1 πj = 1.
L’ordinamento delle pagine ottenuto in tal modo è: Pag2 > Pag4 > Pag1 = Pag3 .
dove C(Ti ) è il numero di link che partono dalla pagina Ti . In conclusione, come richiesto,
l’indice di significatività di A è proporzionale agli indici di significatività delle pagine che
conducono ad A.
Concludiamo infine osservando che quanto detto finora si basa sul Teorema 4.1, che
però vale solo quando (Xn )n è regolare. In generale, non è assolutamente garantito che
questa ipotesi valga. Per tale ragione vanno presi degli accorgimenti, modificando op-
portunamente la matrice di transizione Π del web. Vediamo come si affronta questo
problema.
Nel web ci sono pagine da cui non si può accedere ad alcuna altra pagina. Una pagina
web di questo tipo si chiama pagina dangling e la riga corrispondente sulla matrice di
transizione è costituita solo da zeri, dunque Π in tal caso non è neppure una vera matrice
di transizione dato che la somma degli elementi di una riga dovrebbe sempre essere uguale
a 1.
Per risolvere questo problema una possibilità è quella di ipotizzare che ciascuna pagina
dangling punti ad ogni altra pagina del web (ciò è giustificato dal fatto che si passa da
una pagina all’altra non solo tramite i link, ma anche con la barra degli indirizzi): questo
equivale a sostituire alla riga di una pagina dangling, formata da tutti zeri, il vettore riga
1 1
· · · N1 .
N N
Indichiamo con Πe la nuova matrice cosı̀ ottenuta a partire da Π. Si noti che N è talmente
grande che 1/N è pressoché zero, quindi Πe ' Π. Tuttavia, con questa modifica la nuova
matrice Π
e è una vera matrice di transizione.
18
Nonostante questa modifica la catena di Markov associata a Π e non è ancora regolare
(quindi non è ancora possibile applicare il Teorema ergodico). Per ottenere tale proprietà
è sufficiente perturbare la matrice Π
e come segue:
1
ΠPR = (1 − d) 1N + d Π,
e
N
dove:
19