Sei sulla pagina 1di 71

Probabilità e Statistica

Laurea in Informatica

Federica Giummolè
AA. 2018/19
Probabilità elementare
Un problema difficile

Un sistema di comunicazione è formato da n antenne allineate


di cui m sono difettose. Il sistema funziona correttamente se
non ci sono due antenne difettose consecutive. Quante sono le
configurazioni in cui il sistema risulta funzionante?

2
Consideriamo n = 4 e m = 2. Le possibili configurazioni del
sistema sono le seguenti (indicando con 0 un’antenna difettosa
e con 1 un’antenna funzionante):

1 1 0 0 -> non funzionante


0 1 1 0
1 0 1 0
0 0 1 1 -> non funzionante
0 1 0 1
1 0 0 1 -> non funzionante

In totale, in 3 casi su 6 possibili il sistema funziona correttamente.

E se n = 20 e m = 8? O ancora più grandi?

3
Contare le possibilità

Principio fondamentale del calcolo combinatorio: se una scelta


può essere fatta in m1 modi diversi e un’altra scelta può esse-
re fatta in m2 modi diversi, allora esistono in totale m1 × m2
possibilità di scelta.

• Esempio: 10 cavalieri e 12 dame partecipano a un ballo. Ci


sono 10 × 12 = 120 possibili coppie danzanti.

Principio fondamentale generalizzato: se ciascuna di r scelte


successive può essere fatta in mi modi rispettivamente, allora
esistono in totale
r
Y
m i = m1 × . . . × mr
i=1
possibilità di scelta.
4
• Esempio: una commissione parlamentare deve essere composta
da un membro del partito A, che conta 10 rappresentanti, da un
membro del partito B, che conta 15 rappresentanti, e da un
membro del partito C, che conta 2 rappresentanti. Ci sono in
totale 10 × 15 × 2 = 300 possibili commissioni parlamentari.

5
Disposizioni

Consideriamo un insieme di n elementi. Una disposizione di r


di essi è una scelta ordinata di r elementi tra quegli n.

Si distinguono le disposizioni con ripetizione da quelle semplici


(senza ripetizione), a seconda o meno che uno stesso elemento
possa essere scelto più di una volta.

Le disposizioni con ripetizione di n elementi presi r alla volta


sono in numero di
r
n = nr .
Y

i=1

6
• Esempio: le parole lunghe due lettere che si possono comporre
con le lettere I, L, A sono 32 = 9: II, IL, IA, LI, LL, LA, AI, AL, AA.

• Esempio: un bit può assumere i valori 0 o 1. Un byte è una


fila di otto bit. Quanti byte ci sono?

7
Disposizioni semplici

Le disposizioni semplici di n elementi presi r alla volta sono in


numero di
n × (n − 1) . . . × (n − r + 1).

• Esempio: le parole di due lettere diverse che si possono com-


porre con le lettere I, L, A sono 3 × 2 = 6: IL, IA, LI, LA, AI, AL.

• Esempio: di 10 concorrenti in una gara ciclistica vengono


classificati solo i primi 3 arrivati. Quante possibili classifiche
ci sono?

8
Campionamento da un’urna

Il campionamento casuale da un’urna è un’estrazione di palle


da un’urna. Può essere fatto con o senza reintroduzione.

Per casuale si intende dire che prima di ogni estrazione l’urna vie-
ne mescolata appropriatamente per essere riportata a una con-
dizione di irriconoscibilità delle palle. Un’operazione del genere
viene fatta per le estrazioni del lotto.

La reintroduzione fa invece riferimento al fatto di rimettere nel-


l’urna ciascuna palla subito dopo averla estratta e averne regi-
strate le caratteristiche di interesse, per esempio il suo numero
o il suo colore.
9
Dunque:

• se un’urna contiene n palle distinguibili (per esempio numera-


te da 1 a n) e r palle vengono estratte con reintroduzione, le
estrazioni possibili sono in numero di nr .

• se un’urna contiene n palle distinguibili e r palle vengono estrat-


te senza reintroduzione, le estrazioni possibili sono in numero
di
n × (n − 1) . . . × (n − r + 1).

10
Permutazioni

Le disposizioni semplici di n elementi presi n alla volta si chia-


mano anche permutazioni perché rappresentano tutti i modi in
cui n elementi possono essere messi in fila. Esse sono in numero
di
n × (n − 1) . . . × 2 × 1,
una quantità per cui esiste il simbolo speciale n! che si legge n
fattoriale.

11
• Esempio: le permutazioni delle lettere I, L, A sono 3 × 2 × 1 =
3! = 6:
ILA, IAL, LIA, LAI, AIL, ALI.

• Esempio: le possibili file che si possono fare con 10 bambini


dell’asilo sono 10! = ?

• Esempio (più difficile): supponiamo di fare due file, maschietti


a destra e femminucce a sinistra. Ci sono 6! possibili file di
maschietti e 4! file di femminucce possibili. In tutto ci sono
quindi 6! × 4! = 17280 possibili file.

12
Combinazioni

Quanti sono i sottoinsiemi di 3 lettere dell’insieme di 5 lettere


{A, B, C, D, E}?

Finora sappiamo che ci sono 5 × 4 × 3 = 60 parole di tre lettere


diverse.

Ma, per esempio, le parole ABC e BCA rappresentano lo stes-


so sottoinsieme, perché nella definizione di sottoinsieme l’ordine
non conta. Ci sono 3! = 6 parole equivalenti per ogni scel-
ta, e ci sono quindi 60/6 = 10 sottoinsiemi cercati. Essi sono:
ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE, CDE.

13
In generale, un sottoinsieme di numerosità r scelto da un insieme
con n elementi si chiama combinazione di n elementi presi r alla
volta.

Il numero di combinazioni di n elementi r alla volta è


n × (n − 1) . . . (n − r + 1) n
=:
r! r
e si chiama anche coefficiente binomiale n su r.

• Esempio: la professoressa di matematica interroga


  ogni lunedı̀
10 studenti da una classe di 25. Esistono per lei 25
10 = 3.268.760
possibilità di scelta.

14
Binomio di Newton

Il nome coefficiente binomiale deriva dalla seguente espressione:


n  
n
(a + b)n = an−k bk ,
X

k=0
k
detta formula del binomio di Newton.

• Esempio:
2 2 2
2
(a + b) = 2 0
a b + ab + a0b2
0 1 2
= a2 + 2ab + b2.

15
Esempio delle antenne

Adesso che sappiamo contare...

Le configurazioni funzionanti si possono rappresentare come una


sequenza del tipo
* 1 * 1 * 1 * 1 ....* 1 * 1 * 1 *

dove gli 1 rappresentano le n − m antenne funzionanti e gli *


sono spazi che possono essere liberi o occupati da non più di
un’antenna guasta, cioè da al più uno 0.

Ora, gli m zeri vanno posizionati in uno degli n − m + 1 spazi, e


questo può essere fatto in tanti modi quanti
n − m + 1 
.
m
16
Fenomeni aleatori

La logica del certo è la logica della teoria degli insiemi e del


calcolo su proposizioni (o eventi) che possono assumere il valore
di vero o falso.

Il calcolo delle probabilità è invece la logica dell’incerto.

La probabilità si usa per ragionare sui possibili risultati di un fe-


nomeno aleatorio o casuale, del quale cioè non si può prevedere
con certezza l’esito.

Aleatorio = opposto di deterministico.

17
Esempi di fenomeni aleatori

1. Il lancio di un dado.

2. Il lancio di una stessa moneta 4 volte.

3. La classificazione di 10 pezzi prodotti da una macchina in


conformi o non conformi alle specifiche di progetto.

4. L’estrazione di una mano di poker, cioè un insieme di cinque


carte, da un mazzo di 52.

5. L’osservazione del tempo di guasto [min] di un circuito elet-


trico formato da tre resistenze in serie.

6. La registrazione giornaliera dei livelli massimi di polveri [mcg/mc]


nell’aria alla centralina del Parco di San Giuliano nel Gennaio
2015.
18
Spazio campionario, risultati, eventi

Ω = spazio campionario = insieme dei possibili risultati di un


fenomeno aleatorio. Un generico risultato si può indicare con
ω ∈ Ω.

Un evento è un sottoinsieme A ⊂ Ω.
Di un evento si può dire se sia vero o falso una volta che il
fenomeno aleatorio di interesse è stato osservato.

I possibili risultati {ω}, visti come singoletti, cioè insiemi con-


tenenti un solo elemento, sono anch’essi eventi, detti eventi
elementari.

Ω viene anche chiamato l’evento certo, perché sicuramente si


verificherà.
19
Esempi di spazi campionari

1. Ω = {1, 2, 3, 4, 5, 6}.

2. Ω = le sedici possibili sequenze di quattro dei simboli T e C,


dove T indica “testa” e C indica “croce” (un possibile risultato
è ω = T CCC, cioè una testa seguita da tre croci).

3. Ω = le 210 possibili sequenze di dieci dei simboli C e N ,


dove C indica ’conforme’ e N indica ’non conforme’ (un possibile
risultato per esempio ω = CCCN CCCN CC).

52
 
4. Ω = i 5possibili sottoinsiemi delle 52 carte (uno dei quali
è il poker d’assi più il tre di picche).
20
5. Ω = R+ := [0, ∞), cioè i numeri non negativi, visto che il
tempo di guasto è un numero non negativo.

6. Ω = tutte le possibili sequenze di 31 numeri non negativi (la


maggior parte contenuti tra 10 e 350).
Esempi di eventi

1. Il dado dà un punteggio superiore a quattro: A = {5, 6}.

2. Otteniamo almeno tre teste sui quattro lanci:


A = {T T T C, T T CT, T CT T, CT T T, T T T T }.

3. Tutti i pezzi sono conformi:


A = {CCCCCCCCCC} (questo è anche un singoletto).

4. Si ottiene un poker: l’evento di interesse dato da tutte le


possibili mani contenenti un poker, che sono in numero di 13x48
perché 13 sono i possibili poker e 48 sono, per ogni dato poker,
i modi di scegliere la quinta carta.
21
5. Il circuito ha una durata di meno di 50 ore : A = [0, 50).

6. In nessun giorno si è superato il limite di 300 [mcg/mc]:


A = {(x1, . . . , x31) : 0 ≤ xi ≤ 300, i = 1, . . . , 31}.
Operazioni logiche sugli eventi

La negazione o complementare di un evento A, indicato con


Ā, è l’evento che è vero quando A è falso ed è falso quando A è
vero.

La negazione dell’evento certo è l’evento impossibile: Ω̄ = ∅


(evento impossibile = insieme vuoto).

L’intersezione di due eventi A e B, indicata con A∩B, è l’evento


che è vero quando sia A che B sono veri.

L’unione di due eventi A e B, indicata con A ∪ B, è l’evento che


è vero quando o A oppure B oppure entrambi sono veri.

L’evento A è incluso nell’evento B, in simboli A ⊂ B, se il


verificarsi di A implica il verificarsi di B.
22
Partizioni

Due eventi A e B si dicono incompatibili, o disgiunti, se non è


possibile che siano entrambi veri, cioè se A ∩ B = ∅.

Una famiglia di eventi si dice una partizione dello spazio cam-


pionario se ogni coppia di insiemi della famiglia ha intersezione
vuota e l’unione di tutti i componenti della famiglia è Ω stesso.

23
Partizione numerabile C1, C2, . . .:

Ci ∩ Cj = ∅ ∀i, j

[
Ci = Ω.
i=1

Un qualsiasi evento A si può scrivere come unione delle sue


intersezioni con gli elementi di una partizione:

[
A= (A ∩ Ci)
i=1

24
Diagrammi di Venn
intersezione unione

A A∩ B B A B

A∪ B

inclusione partizione

C1
C2
A∩ C 1

A B A∩ C2 C3

A∩ C3

A Ω

25
Esempio

Fenomeno aleatorio: lancio di un dado.


Eventi:

A = {5, 6} = il risultato del lancio è superiore a 4


B = {2, 4, 6} = il risultato del lancio è pari.

Allora
il risultato del lancio è pari
A ∩ B = {6} =
e superiore a 4
il risultato del lancio è pari
A ∪ B = {2, 4, 5, 6} =
oppure superiore a 4

26
Partizione dei numeri divisibili per 3 e non:

C1 = {3, 6}
C2 = {1, 2, 4, 5}
Abbiamo quindi

A = (A ∩ C1) ∪ (A ∩ C2) = {6} ∪ {5}


Definizione assiomatica di probabilità

La probabilità è una funzione degli eventi di uno spazio cam-


pionario, a valori in R+, definita tramite i seguenti assiomi:

(i) 0 ≤ P(A) ≤ 1

(ii) P(Ω) = 1

(iii) Se A1, A2, . . . sono una sequenza di eventi incompatibili, cioè


se Ai ∩ Aj = ∅ ∀i 6= j, allora

[ ∞
X
P( An ) = P(An)
n=1 n=1

27
La probabilità dell’evento A, P(A), è un numero tra 0 e 1 che
indica il grado di fiducia del ricercatore nell’avverarsi dell’evento
A. Più P(A) è vicina a 1, più ci aspettiamo che l’evento si avveri.
Una volta osservato il fenomeno aleatorio, sappiamo se A si è
verificato o meno, e la sua probabilità non serve più.

Si può pensare alla probabilità come a una massa unitaria (in


virtù della condizione di normalizzazione (ii)) da spargere sullo
spazio campionario.

La massa che va a finire su eventi disgiunti è la somma delle


masse sui singoli eventi.

28
Alcune proprietà della probabilità

Probabilità del complementare: dato un evento A,

P(Ā) = 1 − P(A).

Probabilità dell’evento impossibile:

P(∅) = P(Ω̄) = 1 − P(Ω) = 0.

Probabilità dell’unione: dati due eventi A e B,

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

29
Probabilità di una partizione: se C1, C2, . . . sono una partizione,
allora

[
P( Ci) = P(Ω) = 1.
i=1
Spazi campionari finiti

Se lo spazio campionario costituisce un insieme finito, Ω =


{ω1, . . . , ωn}, allora un’assegnazione di probabilità è data da n
valori p1, . . . , pn tali che:

(i) pi ∈ [0, 1], ∀i = 1, . . . , n;

Pn
(ii) i=1 pi = 1;

(iii) pi = P({ωi}), ∀i = 1, . . . , n.

30
Dato che ogni evento A ⊂ Ω si può scrivere come unione (finita)
degli eventi elementari (disgiunti) che lo costituiscono,
r
[
A = {ωi1 , . . . , ωir } = {ωik },
k=1
si ha che
r
X r
X
P(A) = P({ωik }) = pi k .
k=1 k=1
Eventi elementari equiprobabili

In particolare, se possiamo supporre (per ragioni di simmetria)


che tutti gli eventi elementari abbiano la stessa probabilità, allora
1
pi = P({ωi}) = , ∀i = 1, . . . , n.
n

Per ogni evento A = {ωi1 , . . . , ωir } si può dunque scrivere


r #A numero casi favorevoli
P(A) = = = .
n #Ω numero casi possibili

Attenzione! Questa formula vale solo se gli eventi elementari


sono equiprobabili.

31
Esempio

Qual è la probabilità che il risultato del lancio di un dado equili-


brato sia un numero divisibile per 3?

Dato che il dado non è truccato, si può assumere che ognuno


dei 6 possibili risultati abbia la stessa probabilità pari a 1/6.

I casi favorevoli al nostro evento sono 2, {3} e {6}, mentre quelli


possibili sono 6. Il risultato è dunque 2/6 = 1/3.

Se il dado fosse truccato questo procedimento di calcolo non


sarebbe corretto.

32
Esempio delle antenne

Un sistema di comunicazione è formato da n antenne allineate di


cui m sono difettose. Il sistema funziona correttamente se non
ci sono due antenne difettose consecutive. Qual è la probabilità
che il sistema sia funzionante?

In questo caso tutte le configurazioni possibili hanno la stessa


n
 
probabilità di presentarsi e sono in tutto m .

Abbiamo  già contato il numero di configurazioni funzionanti,


n−m+1

m .

Perciò la probabilità richiesta è


n−m+1
 

P(sistema funzionante) = m


n
m

33
Esempio dell’urna

Si consideri un’urna composta da quattro palle bianche nume-


rate da 1 a 4 e tre palle nere numerate da 1 a 3. Si campioni
casualmente una palla dall’urna.

È ragionevole assumere che ciascuna palla abbia probabilità 1/7


di essere estratta.

Consideriamo gli eventi


B =“viene estratta una palla bianca”;
N =“viene estratta una palla nera”
(nota: N = B̄);
Ci =“viene estratto il numero i”, i = 1, 2, 3, 4;
D =“viene estratto un numero dispari”.
34
Probabilità nell’esempio

P(B) = 4/7
P(N ) = 1 − P(B) = 3/7
P(Ci) = 2/7, i = 1, 2, 3
P(C4) = 1/7,
P(D) = 4/7
P(B ∩ D) = 2/7
P(B ∪ D) = P(B) + P(D) − P(B ∩ D) = 6/7
P(B ∩ C4) = P(C4) = 1/7 (C4 implica B)
P(B ∩ C2) = 1/7 (C2 non implica B)

35
Popolazioni e sottopopolazioni

Consideriamo una popolazione con N elementi suddivisi, a se-


conda che possiedano o meno una certa caratteristica, in due
sottopopolazioni rispettivamente di K e N − K elementi.

Qual è la probabilità che su n elementi estratti casualmente


esattamente k abbiano quella caratteristica (e i rimanenti n − k
no)?

36
Ω = {(x1, . . . , xn), xi ∈ popolazione ∀i}, dove ogni n-upla ha la
stessa probabilità di essere estratta (estrazioni casuali).

La cardinalità di Ω cambia a seconda che le estrazioni avvengano


con o senza reinserimento.

Ak =“k elementi su n hanno la caratteristica richiesta”.

Anche la cardinalità di Ak dipende dalla modalità di campiona-


mento.

37
• Con reinserimento
#Ω = N n
n
#Ak = K k (N − K)n−k
k
n  K k  N − K n−k
⇒ P(Ak ) =
k N N

• Senza reinserimento (n < N )


#Ω = N (N − 1)(N − 2) . . . (N − n + 1)
n
#Ak = K(K − 1) . . . (N − K)(N − K − 1) . . .
k
K N −K
  
k
⇒ P(Ak ) =  n−k
N

n
38
Probabilità condizionata

Sia B un evento di probabilità positiva.


La probabilità condizionata dell’evento A dato l’evento B è
P(A ∩ B)
P(A|B) = , P(B) > 0.
P(B)

Altre espressioni equivalenti: P(A|B) è la probabilità subordinata


(a volte anche condizionale) di A subordinatamente a B. Da
notare l’uso della sbarra verticale |.

P(A|B) rappresenta la probabilità di A valutata in presenza del-


l’informazione aggiuntiva che B si verifichi.

Intuitivamente, si restringe il campo delle possibilità non alla


totalità dei possibili risultati Ω ma ad un suo sottoinsieme proprio
B ⊂ Ω.
39
Esempio dell’urna

Si consideri l’urna dell’esempio.

Si valutino le probabilità condizionate di estrarre 1 dato che la


palla è bianca, di estrarre 1 dato che la palla è nera e di estrarre
una palla nera dato che si estrae 1.

Formalmente:
P(C1 ∩ B)
P(C1|B) = = 1/4
P(B)
P(C1 ∩ N )
P(C1|N ) = = 1/3
P(N )
P(N ∩ C1)
P(N |C1) = = 1/2.
P(C1)
40
Nota: P(N |C1) e P(C1|N ) significano cose molto diverse e non
sono in relazione diretta. Invece, per esempio, P(N |C1) = 1 −
P(B|C1) = 1/2, perché le probabilità condizionate allo stesso
evento obbediscono alle leggi della probabilità (fare per eserci-
zio!).
La formula delle probabilità composte

La definizione di probabilità condizionata si può anche usare


come formula pratica per la fattorizzazione della probabilità di
un’intersezione:
P(A ∩ B) = P(A|B) P(B),

sempre che P(A|B) sia ben definita.

Questa formula si generalizza ad un qualsiasi numero di eventi


A1, . . . , An e viene anche chiamata la formula delle probabilità
composte:
P(A1 ∩ A2 ∩ · · · ∩ An) = P(An|A1 ∩ · · · ∩ An−1) . . .
. . . P(A3|A1 ∩ A2) P(A2|A1) P(A1).

41
Esempio dell’urna

Si consideri ora l’esperimento che consiste nell’estrazione di 3


palline senza reinserimento dalla solita urna. Qual è la probabilità
che le prime due siano bianche e la terza nera?

Siano
Bi = “pallina bianca all’i-esima estrazione”
Ni = “pallina nera all’i-esima estrazione”

Si ha che (probabilità composte)


P(B1 ∩ B2 ∩ N3) = P(N3|B1 ∩ B2) P(B2|B1) P(B1)
334 6
= = .
567 35

Qual è la probabilità che siano tutte tre nere?


42
Eventi indipendenti

Nel caso particolare in cui


P(A|B) = P(A)
si dice che A e B sono indipendenti.

Si ha allora
P(A ∩ B) = P(A) P(B)
che può anche essere presa come definizione di eventi indipen-
denti.

La definizione si estende cosı̀: gli eventi A1, . . . , An si dicono


indipendenti se, comunque si prendono k > 1 di essi, si ha
P(Ai1 ∩ · · · ∩ Aik ) = P(Ai1 ) . . . P(Aik ).
43
• Esempio (urna): se le estrazioni dell’esempio al lucido prece-
dente si effettuano con reinserimento, allora i tre eventi B1, B2
e N3 sono indipendenti e si ha:
443
P(B1 ∩ B2 ∩ N3) = P(B1) P(B2) P(N3) = .
777

Nota: eventi indipendenti e eventi disgiunti sono cose molto


diverse. Due eventi sono disgiunti o meno a prescindere dalle
loro probabilità.
Esempio

Si consideri l’esperimento di lanciare un dado equo due volte.

Si definiscano i seguenti eventi:


A = “la somma dei dadi 6”
B =“la somma dei dadi 7”
C =“il primo dado d 4”

Si ha
5 1 1
P(A) = , P(B) = , P(C) = .
36 6 6

Poiché
1
P(A ∩ C) = P((4, 2)) = ,
36
44
allora A e C non sono indipendenti.

B e C sono invece indipendenti, ma non disgiunti. Infatti,


1
P(B ∩ C) = = P(B) P(C).
36

Infine, A e B sono disgiunti ma non indipendenti:

P(A ∩ B) = P(∅) = 0.
Sistemi in serie

Un sistema formato da n componenti separati si dice in serie se


funziona quando tutti gli n componenti funzionano.

in C1 C2 ··· Cn out

45
Sistemi in serie

Si supponga che i componenti del sistema si guastino in mo-


do indipendente e che la probabilità di guasto del componen-
te i−esimo sia pi. Sia inoltre Ai l’evento in cui il componente
i−esimo funziona e A l’evento in cui l’intero sistema funziona.

Allora
 
n
\ n
Y n
Y
P (A) = P  Ai  = P (Ai) = (1 − pi),
i=1 i=1 i=1

dove abbiamo usato l’ipotesi di indipendenza dei componenti.

46
Sistemi in parallelo

Un sistema formato da n componenti separati si dice in parallelo


se funziona quando almeno uno degli n componenti funziona.

C1

C2

in ... out

Cn

47
Sistemi in parallelo

Si supponga che i componenti del sistema si guastino in mo-


do indipendente e che la probabilità di guasto del componen-
te i−esimo sia pi. Sia inoltre Ai l’evento in cui il componente
i−esimo funziona e A l’evento in cui l’intero sistema funziona.

Allora
 
n
\ n
Y n
Y
P (A) = 1 − P (Ā) = 1 − P  Āi = 1 − P (Āi) = 1 − pi ,
i=1 i=1 i=1

dove abbiamo usato l’ipotesi di indipendenza dei componenti.

48
Test diagnostici

La frazione dei soggetti affetti da una certa malattia (per esem-


pio, la sieropositività HIV oppure la tubercolosi) in una popola-
zione si chiama prevalenza.

Si consideri un test diagnostico per la malattia.

La sensitività di un test è la probabilità che il test, somministrato


a un malato, sia positivo.

La specificità di un test è la probabilità che il test, somministrato


a un non malato, sia negativo.

Situazione ideale: sensitività = specificità = 1. La situazione


ideale non è raggiungibile, e i test reali sono imperfetti, cioè con
sensitività < 1 e specificità < 1.
49
Falsi positivi e falsi negativi

Si immagini di somministrare un test diagnostico non perfetto a


una persona estratta a caso dalla popolazione e si considerino
gli eventi:

M = la persona estratta è malata


+ = il test dà risultato positivo
− = il test dà risultato negativo
M̄ ∩ + = il test dà un falso positivo
M ∩ − = il test dà un falso negativo

50
Si ha allora

P(M ) = prevalenza
P(+|M ) = sensitività
P(−|M̄ ) = specificità

Probabilità di un falso positivo:

P(M̄ ∩ +) = P(M̄ ) P(+|M̄ )


= (1 − prevalenza) × (1 − specificità).
Probabilità di un falso negativo:

P(M ∩ −) = P(M ) P(−|M )


= prevalenza × (1 − sensitività).
Esempio di test diagnostico

Si studi un nuovo test per l’HIV.

Sia
prevalenza = P(HIV ) = 0.001
la proporzione di HIV nella popolazione studiata.

Sia inoltre:

P(+|HIV ) = .95 sensitività


P(−|HIV ) = .98 specificità

51
La probabilità di falso positivo è

P(HIV ∩ +) = P(HIV ) P(+|HIV )


= (1 − 0.001)(1 − 0.98) = 0.01998.
La probabilità di falso negativo è

P(HIV ∩ −) = P(HIV ) P(−|HIV )


= 0.001(1 − 0.95) = 0.00005.
La legge della probabilità totale

Se C1, C2, . . . sono una partizione dell’evento certo, la probabilità


di un qualsiasi evento A può essere scritta come
X X
P(A) = P(A ∩ Ci) = P(Ci) P(A|Ci)
i i
che si dice legge della probabilità totale.

La prima uguaglianza viene dal fatto che


[
A= (A ∩ Ci),
i
che sono eventi a due a due disgiunti. La seconda uguaglianza
segue dalla definizione di probabilità condizionata, sempre che
P(Ci) > 0, ∀i = 1, 2, . . . .
52
Esempio HIV

Nell’esempio di prima, HIV e HIV costituiscono una semplice


partizione formata da due “piastrelle”.

Calcoliamo la probabilità che il test, somministrato ad una per-


sona campionata a caso dalla popolazione, sia positivo:

P(+) = P(+|HIV ) P(HIV ) + P(+|HIV ) P(HIV )


= 0.95 × 0.001 + (1 − 0.98) × (1 − 0.001)
= 0.02093
cioè in pratica avremo, a lungo andare, il 2 per cento di positivi,
siano essi veri positivi o falsi positivi.

53
La formula di Bayes (1702-1761)

Sia data la partizione C1, C2, . . . e tutti i suoi elementi abbiano


probabilità positiva. Sia A un ulteriore evento, anch’esso con
probabilità positiva.

Fissiamo l’attenzione su uno specifico elemento Cm della parti-


zione. Abbiamo allora
P(Cm ∩ A)
P(Cm|A) =
P(A)
(definizione di probabilità condizionata)
P(A|Cm) P(Cm)
=P
i P(A|Ci ) P(Ci )
(legge della probabilità totale).
54
Esempio del test diagnostico

Perché dovremmo essere interessati alla probabilità condizionata


di un singolo elemento Cm?

Riconsideriamo l’esempio HIV. È di primario interesse l’evento


che una persona risultata positiva sia effettivamente malata.

Usando i numeri di prima:

P(HIV ) P(+|HIV )
P(HIV |+) = = ....
P(HIV ) P(+|HIV ) + P(HIV ) P(+|HIV )

Nel campo della diagnostica, P(malattia|+) viene chiamata va-


lore predittivo positivo.
55
Interpretazione

Il teorema di Bayes permette di aggiornare l’assegnazione di


probabilità data a priori a certi eventi Cm, alla luce di nuova
informazione (A si è verificato).

Il risultato di questa operazione di aggiornamento sono le nuove


probabilità P(Cm|A), dette anche a posteriori.

Le probabilità a posteriori costituiscono una sintesi dell’informa-


zione disponibile a priori su un certo fenomeno e dell’informazione
empirica.

56
Filtri per la posta elettronica

Consideriamo un filtro automatico che blocchi i messaggi spam


in arrivo alla mia casella di posta elettronica.

Il metodo per selezionare i messaggi spam si basa sulla presen-


za di alcune parole chiave all’interno del messaggio stesso (ad
esempio viagra, vi@gra, v1@gr@, V.iagra, ecc.).

S = il messaggio è spam
W = il messaggio contiene determinate parole chiave

Per il teorema di Bayes possiamo fissare a priori la probabilità


che un messaggio sia spam e poi aggiornarla nel caso in cui il
messaggio contenga le parole chiave considerate.
57
In formula (Bayes):
P(W |S) P(S)
P(S|W ) = ,
P(W |S) P(S) + P(W |S̄) P(S̄)
dove:

P(S), in mancanza di ulteriore informazione, possiamo fissarla


pari a 1/2, cioè a priori possiamo immaginare di avere la stessa
probabilità di ricevere un messaggio spam o uno buono;

P(W |S) e P(W |S̄) possiamo stimarle utilizzando l’esperienza,


cioè i dati. Ad esempio, immaginiamo di aver analizzato un
campione di 2000 messaggi spam e di aver trovato le parole
chiave in 250 di questi. Mentre su 1000 messaggi non spam
solo 5 contenevano le parole chiave. Allora, possiamo fissare
P(W |S) ' 250/2000 e P(W |S̄) ' 5/1000.
58
Allora possiamo calcolare
0.125 × 0.5
P(S|W ) = = 0.962.
0.125 × 0.5 + 0.005 × 0.5

Il filtro automatico confronta questa probabilità con una soglia


prefissata.

Se P(S|W ) supera la soglia allora il messaggio viene classificato


come spam e dunque bloccato.

Se invece P(S|W ) sta sotto la soglia, allora il messaggio viene


consegnato nella mia casella di posta.
59
Il valore della soglia dipende da quanto sono infastidito dai mes-
saggi spam (soglia bassa) e quanto invece mi preoccupa perdere
un messaggio importante (soglia alta).

Se nell’esempio fissiamo una soglia pari a 0.9, allora il messaggio


considerato viene bloccato come spam: P(S|W ) = 0.962 > 0.9.

60