Sei sulla pagina 1di 16

Elementi di teoria della probabilità

Leonardo Gariboldi

29 settembre 2016

1 La probabilità classica

Presenteremo nelle prime sezioni alcune formulazioni della probabilità che hanno prece- duto la formulazione che svilupperemo in maggiore dettaglio, quella della probabilità soggettiva. La più antica teoria della probabilità è quella classica. Questa teoria è nata nel contesto

dei classici giochi d’azzardo: lanci di monete o di dadi, estrazioni di carte, ecc. Dato un tipo

di gioco, si individuano gli eventi elementari che indichiamo genericamente con le lettere

ω 1 , ω 2 ,

che possiamo indicare come ω 1 = testa = T e ω 2 = croce = C. Nel gioco del lancio di un dado

a sei facce gli eventi elementari sono sei e corrispondono alle sei facce: ω 1 = 1, ω 2 = 2, ω 6 = 6. Con un mazzo di carte, ogni carta rappresenta un evento elementare: ω 1 = asso di cuori, ω 2 = 2 di cuori, ecc. L’insieme di tutti gli eventi elementari si chiama spazio degli eventi elementari op- pure spazio campionario e si indica con la lettera . Possiamo pertanto scrivere: per il

lancio di una moneta = {T, C}, per il lancio di un dado a sei facce = {1, 2, 3, 4, 5, 6}, ecc. Un evento è formato da uno o più eventi elementari. Ad esempio, nel gioco del lancio

di un dado possiamo considerare l’uscita di una faccia in particolare, ad esempio il 3, cioè di

un evento elementare; in tale caso E = {3}. Possiamo però considerare anche una situazione più complicata come l’uscita di una faccia con un numero pari; in tale caso l’evento non è elementare ma è dato dall’unione di più eventi elementari: E = {2, 4, 6} = {2}{4}{6}. Nella teoria della probabilità classica si procede a definire la probabilità per gli eventi elementari, per poi ricavare formule che permettono di determinare la probabilità di eventi non elementari. La probabilità di un evento elementare è definita dalla formula

,

Il gioco del lancio di una moneta è caratterizzato da soli due eventi elementari

P(ω) = 1

N

dove N è il numero totale di eventi elementari. Se lancio una moneta (N = 2 eventi elementari) la probabilità che esca testa è 1/2; se lancio un dado a sei facce (N = 6 eventi elementari) la probabilità che esca il 5 è 1/6; se estraggo una carta da un mazzo (N = 52 eventi elementari) la probabilità che esca il 9 di fiori è 1/52. Non ricaviamo qui le formule per la probabilità degli eventi non elementari (lo fare- mo con la probabilità soggettiva), ma diamo comunque alcune definizioni utili anche nelle formulazioni successive a quella classica. Dato un evento E, si dice evento complementare di E l’evento E c = E. Nel lancio di una moneta, il complementare di T è C. Nel lancio di un dado a sei facce, il complementare di {1, 4} è {2, 3, 5, 6}. È facile osservare che se E c è il complementare di E, a sua volta E è il complementare

di E c .

1

Il complementare dell’insieme degli eventi è lo spazio vuoto (senza eventi), e viceversa:

c = e c = .

Un evento si dice certo se sicuramente si verifica. Nel lancio di una moneta si verifica sicuramente l’evento E = {T, C} (stiamo ignorando, ovviamente, il caso che la moneta resti

in piedi di taglio), così come nel lancio di un dado a sei facce si verifica sicuramente l’evento

E = {1, 2, 3, 4, 5, 6}. L’evento certo coincide con lo spazio degli eventi elementari . Un evento si dice impossibile se sicuramente non si verifica mai. Nel lancio di un dado

a sei facce sicuramente non si verifica mai l’evento E = {7}; nell’estrazione di una carta da un mazzo sicuramente non si verifica mai l’evento E = {23 di picche}.

Due eventi E 1 e E 2 si dicono incompatibili se non hanno alcun evento elementare in

comune. Se si verifica E 1 allora siamo certi che non si è verificato E 2 e viceversa. Nel lancio

di una moneta T e C sono due eventi (elementari) incompatibili. Nel lancio di un dado a sei

facce l’evento {1} è incompatibile con l’evento {2, 3}. Come caso particolare, osserviamo che ogni evento E è incompatibile con il suo comple- mentare E c . Attenzione: con due eventi incompatibili sappiamo che se si verifica E 1 allora non si verifica E 2 , mentre se non si verifica E 1 allora non possiamo dire che si verifica E 2 ; può accadere, ma può anche accadere che si verifichi un terzo evento E 3 (incompatibile sia con E 1 sia con E 2 ). Ad esempio, nel lancio del dado a sei facce siano E 1 = {1,2} e E 2 = {3,4,5}. Se esce l’1 oppure il 2 (cioè l’evento E 1 ) allora siamo certi che non escono il 3, il 4 o il 5

(l’evento E 2 ); ma se l’1 o il 2 non escono, non possiamo affermare che siano usciti il 3, il 4 o

il 5 (l’evento E 2 ); potrebbe essere uscito il 6.

Due eventi E 1 e E 2 si dicono compatibili se hanno almeno un evento elementare in comune. Ad esempio, nel lancio di un dado a sei facce sono compatibili gli eventi E 1 =

{1,2,3,5,6} e E 2 = {4, 5, 6} perché hanno in comune gli eventi elementari {5} e {6}.

La probabilità classica si presta bene ad essere utilizzata nei giochi d’azzardo con mo- nete, dadi, carte, ecc. non truccati. Fallisce completamente se ci poniamo in altri contesti. Consideriamo i due esempi seguenti:

1) consideriamo gli studenti iscritti al primo anno del corso di laurea in fisica del nostro ateneo. Supponiamo che gli studenti siano 300 e che lo studente più basso sia alto 151 cm mentre quello più alto sia alto 210 cm. Le altezze possibili (arrotondate al centimetro), tra

151 cm e 210 cm, sono N = 60, cioè lo spazio è costituito da 60 eventi elementari: ω 1 = {151

, ω 60 = {210 cm}. Usando la definizione di probabilità classica di un

evento elementare, la probabilità che uno studente preso a caso sia alto 205 cm è pertanto 1/60 1, 67%. Su 300 studenti, vuol dire che ci aspettiamo in media 5 studenti alti 205 cm. Di fatto, ci aspettiamo 5 studenti in media per ogni classe di altezza, dato che ad ogni altezza associamo una probabilità di 1/60. In realtà, nella popolazione di riferimento altezze come 205 cm sono molto più rare di 1/60. A parte lo studente alto 210 cm, verosimilmente

ce ne saranno pochissimi (e forse nessun altro) più alti di 190 cm. 2) determiniamo la probabilità che il 30 giugno nevichi a Milano. Gli eventi elementari sono due: ω 1 = {il 30 giugno a Milano nevica} e ω 2 = {il 30 giugno a Milano non nevica}. Applicando la definizione della probabilità classica ricaviamo che la probabilità che il 30 giugno nevichi a Milano è 1/2 = 50%. Sappiamo però che una nevicata a fine giugno a Milano è un evento eccezionalmente raro. Associare ad esso una probabilità del 50% ci appare assurdo. Si può obiettare a questi due esempi sostenendo che gli eventi elementari considerati non si comportano allo stesso modo. Nell’esempio della nevicata, ω 1 è molto più raro di ω 2 , mentre nel caso delle altezze degli studenti le varie classi di altezze seguono una distribu-

cm}, ω 2 = {152 cm},

2

zione che privilegia le altezze “centrali”. È vero; però nella definizione di probabilità non si faceva alcuna menzione a un “comportamento diverso” dei differenti eventi elementari. Potremmo quindi provare a modificare la formula della probabilità di un evento elementare richiedendo che gli eventi elementari avvengano “allo stesso modo”. Con un linguaggio più preciso, richiediamo che gli eventi elementari siano equiprobabili. Per dare una nuova, più soddisfacente, definizione di probabilità abbiamo quindi bisogno di avere a disposizio- ne la definizione di equiprobabilità che, come possiamo facilmente immaginare, richiede di avere già in nostro possesso la definizione di probabilità!

2 La probabilità statistica

Per risolvere problemi come quello dell’altezza degli studenti è stata sviluppata la teoria della probabilità statistica. Questa teoria conduce allo stesso formulario della probabilità classica, ma differisce nella definizione di probabilità. Si considera una popolazione di rife- rimento formata da N “individui” che chiamiamo unità statistiche. Dato un evento E si va a contare il numero di unità statistiche N E per cui vale l’evento E. Si definisce probabilità statistica di un evento E il rapporto tra il numero di uni- tà statistiche per cui vale E e il numero totale di unità statistiche (cioè, la numerosità o cardinalità della popolazione): P(E) = N E

N

Se tra i 300 studenti, 24 sono alti 175 cm, allora possiamo affermare che la probabilità che uno studente, estratto a caso, sia alto 175 cm è 24/300 = 8%; se nessuno è alto 205 cm, allora siamo certi che la probabilità che uno studente, estratto a caso, sia alto 205 cm è 0. Anche la definizione di probabilità statistica ha un problema: non sempre possiamo la- vorare con una popolazione, oppure le informazioni che abbiamo su una popolazione possono essere addirittura inutili. La popolazione degli studenti del corso di laurea in fisica è ben individuata: esiste un elenco con i loro nomi e possiamo decidere con certezza se una per- sona è uno studente di fisica oppure no. Ci sono casi in cui l’insieme dei dati che individua una popolazione non è altrettanto utile. Consideriamo ad esempio la prossima partita di calcio tra le due squadre di Milano. Qual è la probabilità che vinca l’Inter, quella che vinca il Milan, o che ci sia un pareggio? La popolazione in questo caso è ben definita perché abbia- mo a nostra disposizione l’elenco di tutte le partite già disputate nel passato. Considerando tutte le partite di competizioni nazionali e internazionali, ufficiali e non ufficiali, sappiamo che sono state disputate N = 303 partite, con N I = 108 vittorie dell’Inter, N M = 115 vittorie del Milan, e N P = 80 pareggi. Questo ci autorizza ad affermare che l’Inter ha il 108/303 (= N I /N) 35, 6% di probabilità di vincere la prossima sfida? No, perché nel corso degli anni le due squadre sono cambiate continuamente e una valutazione della probabilità di vittoria nella prossima partita si deve basare sulle due squadre che scenderanno in campo. Pur avendo a disposizione una popolazione ben definita, la formula della probabilità statistica è sostanzialmente inutile in tale caso e dovremo usare la probabilità soggettiva.

3 La probabilità empirica e la probabilità frequentista

Se consideriamo l’esempio della nevicata a Milano a fine giugno, il problema di individuare una popolazione si complica. Mentre l’insieme degli studenti o quello delle partite tra l’In- ter e il Milan sono insiemi ben determinati, nel caso delle nevicate ci troviamo di fronte a una situazione molto diversa. Infatti, come popolazione dovremmo considerare l’insieme dei dati sulle precipitazioni nevose a Milano di tutti i 30 giugno del passato. La serie dei dati

3

meteorologici di Milano è disponibile a partire dal 1763; le cronache dei secoli precedenti potrebbero eventualmente permetterci di integrare le informazioni sulle eventuali nevicate del 30 giugno anche per un po’ di anni nei quali ancora non esisteva un osservatorio meteo- rologico a Milano, ma la popolazione da considerare di fatto resta indefinita: fino a quanto

indietro nel passato dovremmo spingerci per individuare la popolazione di riferimento? Am- messo che si riesca a definire un calendario per eventi molto remoti nel passato, se anche riuscimmo a scoprire che un 30 giugno di 300.000 anni fa ha nevicato nella zona dove oggi sorge Milano, che valore potrebbe mai avere questo dato così lontano nel tempo, in situa- zioni climatiche differenti da quelle attuali, nel determinare la probabilità che nevichi il prossimo 30 giugno a Milano? Quando non abbiamo una popolazione ben definita, ma abbiamo comunque un insieme

di

n dati osservativi o sperimentali, possiamo stimare la probabilità di un evento usando

la

probabilità empirica andando a contare in quante unità statistiche osservate n E si è

verificato l’evento. Questa è la situazione più comune nella scienza sperimentale: quando

misuriamo, ad esempio, la massa dell’elettrone, facciamo questa misura su un numero finito

di

elettroni e non sull’intera popolazione di elettroni dell’universo. Si definisce probabilità empirica di un evento E il rapporto tra il numero di unità

di

statistiche osservate per cui vale E e il numero totale di unità statistiche osservate:

P(E) = n E

n

Osserviamo che, usando la definizione di probabilità empirica, il risultato dipende dal numero di osservazioni fatte e non dalla popolazione intera (sempre che sia possibile defi- nirla). La probabilità empirica viene, così, a dipendere da una scelta fatta dall’osservatore. Potremmo applicare la probabilità empirica ai casi trattati dalla probabilità classica. Potremmo, ad esempio, lanciare una moneta n = 100 volte e vedere che la testa è uscita 54 volte; in questo caso dovremmo affermare che la probabilità che esca testa è del 54%, invece del 50% atteso (assumiamo che la moneta non sia truccata). Si potrebbe obiettare che n = 100 è un numero piccolo (perché?) e che aumentando il numero di lanci si arriva al 50%. Provando con n = 1000 lanci potremmo osservare testa per 492 volte, assegnando così una probabilità del 49,2%. Va meglio del 54% ma ancora non è il 50%. Con n = 1.000.000 di lanci potremmo osservare testa per 500.173 volte, con una probabilità del 50.0173%. E via così. Questa procedura sta alla base della definizione frequentista (Von Mises) della probabilità, per cui la probabilità di un evento E viene definita come:

P(E) = lim

n→∞

n E

n

Operativamente occorre determinare il rapporto n E /n per ogni valore di n e vedere cosa succede. Ad esempio, nel lancio di una moneta si deve analizzare, lancio dopo lancio, il rap- porto delle uscite T sul totale parziale dei lanci costruendo una tabella simile alla seguente:

n

1

2

3

4

5

6

7

8

9

10

ω

C

C

T

C

T

T

T

T

T

C

n

E

0

0

1

1

2

3

4

5

6

6

n

E /n

0

0

1/3

1/4

2/5

1/2

4/7

5/8

2/3

3/5

%

0%

0%

33, 3%

25, 0%

40, 0%

50, 0%

57, 1%

62, 5%

66, 7%

60, 0%

4

n

11

12

13

14

15

16

17

18

19

20

ω

C

C

T

C

C

C

T

C

T

C

n

E

6

6

7

7

7

7

8

8

9

9

n

E /n

6/11

1/2

7/13

1/2

7/15

7/16

8/17

4/9

9/19

9/20

%

54, 5%

50, 0%

53, 8%

50, 0%

46, 7%

43, 8%

47, 0%

44, 4%

47, 4%

45, 0%

Limitandoci a riportare i risultati dei primi 20 lanci, osserviamo come si venga a costrui- re una successione di valori di n E /n con un andamento estremamente irregolare, crescente e decrescente senza uno schema particolare. Dal punto di vista matematico, si pone pertanto il grave inconveniente che non abbiamo alcuna certezza sul fatto che questa successione con- verga verso un valore limite. Continuando a lanciare la moneta anche dopo i primi 20 lanci, osserviamo che la successione continua a presentare un andamento irregolare, senza la mi- nima garanzia di poter applicare un teorema che ci permetta di determinarne l’eventuale limite. Dal punto di vista operativo, la definizione di von Mieses ha però un ulteriore incon- veniente: presupporre la possibilità materiale di poter eseguire un sufficiente numero di osservazioni che mostrino una convergenza verso il limite; questo numero sufficiente può però essere impraticabilmente elevato, e idealmente è di fatto infinito.

Ci sono numerosi casi di interesse scientifico in cui non è possibile ripetere le osser- vazioni oppure, addirittura, in cui non è possibile farne neanche una. Ad esempio, in un giacimento in Germania è stato trovato l’unico esemplare fossile di una specie estinta di pangolino (Euromanis krebsi). Questo fossile non presenta le scaglie di cheratina che rico- prono il corpo dei pangolini odierni. L’assenza di scaglie era una caratteristica della specie? Oppure erano una caratteristica variabile tra gli individui: alcuni le avevano altri no, come l’unico esemplare fossilizzatosi? Oppure, ancora, in quel particolare caso il meccanismo di fossilizzazione non ha agito sulle scaglie che erano presenti nell’esemplare vivo? Insomma, possiamo porci tante domande che rendono difficile valutare quale sia la probabilità che l’Euromanis krebsi fosse coperto o meno da scaglie di cheratina. Di sicuro, con un unico esemplare, non possiamo applicare la probabilità classica, statistica, empirica o frequenti- stica, eppure i paleontologi devono effettuare una stima di probabilità anche in casi come questo. Altro problema: chiediamoci quale sia la probabilità che esistano forme di vita al di fuori della Terra. A differenza del caso dell’Euromanis krebsi, qui non abbiamo neppure una osservazione a favore (la formazione simile a un batterio nell’asteroide ALH 84001 - il cosiddetto “batterio marziano” - è in realtà una struttura minerale di origine non biologica). Qual è la probabilità che la vita (qualunque cosa si intenda con “vita”) esista in altre parti dell’Universo? A domande come queste, di indubbio interesse scientifico, possiamo rispondere soltanto usando la probabilità soggettiva.

4 La probabilità soggettiva

La teoria della probabilità soggettiva tratta la valutazione della probabilità degli esiti di esperienze aleatorie in ogni caso, riproducibile o meno, una o più volte. La probabilità soggettiva di un evento E è un numero che esprime la fiducia che il soggetto ripone nel fatto che accada l’evento E. Secondo questa impostazione, la probabilità non è un’infor-

5

mazione sulla reale natura del mondo, ma è un’informazione sulla conoscenza che il soggetto ha del mondo. Secondo la teoria della probabilità soggettiva, in realtà, tutte le formulazioni precedenti sono affette da un aspetto irriducibilmente soggettivo. Consideriamo i casi del lancio di una moneta e della nevicata: in entrambi i casi gli eventi sono due e la definizione classica ci porta a una probabilità associata ad ogni evento del 50%. Perché questo risultato ci va bene per la moneta (dove associamo il 50% a T e il 50% a C) ma non per la nevicata? È la nostra soggettiva conoscenza del mondo che ci porta a differenziare la natura dei due problemi. Con la probabilità empirica, dovendo il soggetto decidere quanti (n) casi considerare, il ruolo della soggettività è ancor più evidente.

Il primo problema che ci poniamo con la probabilità soggettiva è: come facciamo ad at- tribuire un numero al grado di fiducia che riponiamo nell’evento E? Il metodo seguito da uno dei teorici dell’impostazione soggettivistica, Bruno De Finetti, è quello della scommes- sa. Dobbiamo immaginare di scommettere contro il banco nel modo seguente: per parte- cipare alla scommessa paghiamo una puntata P(E) che riteniamo, sulla base della nostra conoscenza del mondo, corrispondere alla probabilità che avvenga l’evento E. Se l’evento E avviene, allora il banco ci paga 1, mentre se l’evento E non avviene, il banco non ci dà niente. Una formulazione più generale pone la posta pari a un valore qualsiasi (positivo) S e il prezzo da pagare per partecipare alla scommessa è P = S × P(E). Dividendo entrambi i valori per S ci riduciamo al caso della posta pari a 1 con prezzo P(E). Definiamo nel modo seguente il guadagno che abbiamo dal partecipare alla scommessa sull’evento E:

- se accade l’evento E, abbiamo pagato P(E) e ricavato 1, per cui G(E) = 1 P(E);

- se non accade l’evento E, abbiamo pagato P(E) e ricavato 0, per cui G(E) = −P(E).

G(E) =

1 P(E)

P(E)

se accade l’evento E

se non accade l’evento E

La cosa importante da notare è che in questa definizione non abbiamo posto alcuna re- strizione sui valori della puntata da pagare P(E), cioè la probabilità, in questa fase iniziale, può assumere qualsiasi valore. Se, ad esempio, partecipo a una scommessa scegliendo di pa- gare P(E) = 5, il guadagno sarà 4 se accade E e 5 se non accade E, cioè perdo in entrambi i casi.

5 Il principio di coerenza

Nel partecipare alla scommessa su un evento E, sia il soggetto sia il banco devono sottostare al principio di coerenza formulato da De Finetti:

un individuo è coerente nel valutare la probabilità di un evento E se, qualunque sia il valore della puntata pagata su E, non è possibile che il suo guadagno G(E) sia in ogni caso positivo.

Che cosa implica il principio di coerenza per quanto riguarda il guadagno? Se fossimo as- solutamente sempre certi di vincere, indipendentemente dalla puntata P(E) pagata, allora entrambe le espressioni di G(E) devono essere maggiori o uguali a zero, in quanto sia che accada E sia che non accada E alla fine dobbiamo averci guadagnato qualcosa (o, almeno,

6

dobbiamo non aver perso niente). Se, invece, fossimo assolutamente certi di perdere, allora entrambe le espressioni di G(E) devono essere minori o uguali a zero.

Di conseguenza, le due espressioni di G(E) devono avere segno diverso. Il loro prodotto,

pertanto, deve essere negativo (o, al più, uguale a zero):

P(E)× 1P(E) 0

Questa disequazione è facilmente risolvibile, e otteniamo il risultato

0 P(E) 1

la probabilità di un qualsiasi evento E è compresa tra 0 e 1.

Equivalentemente, espresso con le percentuali: la probabilità di un qualsiasi evento E è compresa tra lo 0% e il 100%. Questo risultato è una conseguenza del principio di coerenza, e non una caratteristica definitoria della probabilità né una sua caratteristica intuitiva.

La probabilità 1 (il 100%) corrisponde all’evento certo, cioè all’insieme degli eventi ele-

mentari . In questo caso, infatti, scommettendo su saremmo certi di vincere, violando il principio di coerenza. L’unico modo per realizzare una tale scommessa è che il banco ci chieda di pagare una posta esattamente pari a 1. In tal modo, noi non guadagniamo niente (paghiamo 1 e riotteniamo 1) e il banco non guadagna niente (riceve 1 e paga 1). Abbiamo così dimostrato che:

P(Ω) = 1
P(Ω) = 1

Con un ragionamento analogo si dimostra che la probabilità dell’evento impossibile è P( ) = 0.

6 Il teorema delle probabilità totali

N }, supponendo che

gli eventi elementari siano tra loro incompatibili. Per ogni evento elementare ω i , sulla base delle nostre conoscenze del mondo, possiamo stabilire quale sia la probabilità che esso accada: P(ω i ). Possiamo stabilire il nostro guadagno a seconda di quale evento ω i accada con una scommessa sull’intero (stiamo scommettendo su tutti i risultati, non su uno solo):

Consideriamo ora lo spazio degli eventi elementari = {ω 1 ,ω 2 ,

,ω

G() =

  1P(ω 1 ) P(ω 2 )P(ω 3 )−···−P(ω N )

 

P(ω 1 ) 1P(ω 2 ) P(ω 3 )−···−P(ω N )

P(ω 1 )P(ω 2 ) 1P(ω 3 ) −···−P(ω N )

P(ω 1 )P(ω 2 )P(ω 3 )−···− 1P(ω N )

se

accade l’evento ω 1

se

accade l’evento ω 2

se

accade l’evento ω 3

se

accade l’evento ω N

Osserviamo come tutte le righe siano uguali tra loro: qualunque sia l’evento elementare ω i che accade, il guadagno per la scommessa sull’intero è sempre lo stesso:

G() = 1

N

i=1

P(ω i )

Per essere assolutamente certi di avere un guadagno positivo (violando il principio di coerenza), dovremmo proporre di pagare delle puntate tali che N i=1 P(ω i ) < 1; in tal modo,

7

qualunque evento elementare ω i accada, avremmo sicuramente un guadagno G() > 0. In modo del tutto analogo, anche il banco per essere assolutamente certo di avere un guadagno positivo proporrebbe di far pagare delle puntate tali che N i=1 P(ω i ) > 1. L’unica soluzione possibile è che paghiamo una puntata pari a 1 per ricevere 1 (guadagnando zero) e che il banco riceva una puntata pari a 1 per pagare 1 (guadagnando zero):

N

i=1

P(ω i ) = 1

Se ricordiamo che la totalità degli eventi elementari corrisponde allo spazio degli eventi

elementari = {ω 1 ,ω 2 ,

,ω

N }, e che P() = 1, allora dalle relazioni:

N

i=1

P(ω i ) = 1

P() = 1

=

N

i=1

ω i

ricaviamo la fondamentale relazione

N

N

i=1 ω i

i=1 P(ω i ) = P

Vediamo ora come questo risultato possa essere esteso a qualsiasi insieme di eventi

incompatibili (teorema delle

tibili. Osserviamo come possiamo limitare il nostro ragionamento al caso in cui = N i=1 E i . Se gli eventi incompatibili, non esaurissero tutto lo spazio degli eventi elementari, sarebbe sufficiente aggiungere ad essi l’evento complementare ad essi: E 0 = N i=1 ω i e applicare il nostro ragionamento agli eventi E 0 , E 1 , ecc.

, E N eventi incompa-

probabilità totali). Siamo E 1 , E 2 ,

Scommettendo sugli eventi E i troviamo un’espressione per il guadagno simile a quella ricavata sopra:

G() =

  1P(E 1 ) P(E 2 )P(E 3 )−···−P(E N )

 

P(E 1 ) 1P(E 2 ) P(E 3 )−···−P(E N )

P(E 1 )P(E 2 ) 1P(E 3 ) −···−P(E N )

P(E 1 )P(E 2 )P(E 3 )−···− 1P(E N )

se

accade

l’evento

se

accade

l’evento

se

accade

l’evento

se

accade

l’evento

E

E

E

1

2

3

E N

Con lo stesso ragionamento adottato per gli eventi elementari, giungiamo così alla rela- zione che esprime il teorema delle probabilità totali:

la probabilità dell’unione di eventi incompatibili è uguale alla somma delle loro probabilità

N

N

i=1 E i

i=1 P(E i ) = P

Ad esempio, nell’estrazione delle carte da un mazzo da 52, consideriamo i due eventi incompatibili:

8

E 1 = estrazione di una carta con un numero dispari (20 carte); E 2 = estrazione di un fante (4 carte). Possiamo associare all’evento E 1 la probabilità 20/52 38, 5% e all’evento E 2 la proba- bilità 4/52 7, 7%. La probabilità di estrarre una carta con un numero dispari oppure un fante è 20/52 + 4/52 = 24/52 46, 2%. In questo esempio abbiamo usato i valori della probabilità classica, per comodità: nei giochi d’azzardo non truccati, le valutazioni soggettive della probabilità si accordano con i valori classici proprio sulla base della nostra conoscenza soggettiva del funzionamento di questi giochi. In generale, nella stima della probabilità soggettiva conviene sempre essere sinceri e onesti. Lo schema della scommessa richiede che lo scommettitore e il banco pos- sano scambiarsi di posto: un comportamento disonesto a proprio vantaggio in uno dei due ruoli diventa automaticamente a proprio svantaggio quando si assume l’altro ruolo.

Come corollario al teorema delle probabilità totali, abbiamo l’espressione della probabi- lità dell’evento complementare:

la probabilità dell’evento complementare E c è:

P(E c ) = 1P(E)

Questo corollario ci permette di formulare meglio il problema sopra accennato della valutazione onesta della probabilità soggettiva. Una regola di punteggio ci permette di determinare la nostra perdita nel caso di una valutazione disonesta della probabilità di un evento andando a confrontare la probabilità P(E) con l’effettivo verificarsi dell’evento. Ci sono diverse regole di punteggio. Una delle più utilizzate è la regola stabilita da Glenn Brier per le previsioni meteorologiche (BS = Brier Score):

BS =

P(E)1 2

P(E) 2

se accade l’evento E

se non accade l’evento E

Supponiamo di essere certi dell’evento E per cui scommettiamo con P(E) = 1. In tal caso BS = 0 se realmente accade E, mentre siamo puniti con una perdita BS = 1 se E non accade. Scommettendo più volte sull’evento E, possiamo calcolare il valor medio delle perdite BS usando la definizione di valor medio della teoria delle distribuzioni:

BS = BS(E)× P(E)+BS(E c )×P(E c ) = P(E)1 2 ×P(E)+P(E) 2 × 1P(E)

Supponiamo che l’evento E si realizzi realmente con una probabilità Π diversa da quella valutata P(E). In tale caso il valor medio del punteggio di Brier varrebbe:

BS = BS(E)×Π+BS(E c )× 1Π = P(E)1 2 ×Π+P(E) 2 × 1Π

Per trovare il valore minimo della perdita determinata dal punteggio di Brier calcoliamo

la derivata prima e seconda di BS rispetto alla probabilità valutata soggettivamente P(E):

dBS dP(E) = 2 P(E)1 ×Π+2P(E) 1Π = 2P(E)2Π

d 2 BS dP(E) 2 = 2

9

La derivata prima si annulla per P(E) = Π e la derivata seconda è positiva, per cui si ha un

minimo di BS: la perdita è minima se scommettiamo con una probabilità soggettiva P(E) uguale all’effettiva probabilità Π di accadimento di E; ci conviene, pertanto, scommettere sempre in modo onesto sulla base della nostra conoscenza del mondo.

Nella teoria della probabilità soggettiva, il teorema delle probabilità totali è estendibile

al

caso in cui lo spazio degli eventi elementari fosse numerabile nella seguente forma:

P

i=1 ω i i=1

P(ω i )

Con la teoria della probabilità soggettiva abbiamo ricavato, a partire dal solo principio

di

coerenza, tre importanti risultati che conviene richiamare:

1) 0 P(E) 1 per ogni evento E; 2) P() = 1;

3) N i=1 P(E i ) = P N i=1 E i per eventi incompatibili

Tutte le altre formulazioni delle probabilità non sono in grado di dimostrare questi risul- tati, ma devono assumerli come assiomi. Di fatto, una formulazione alternativa, la teoria assiomatica della probabilità di Kolmogorov, definisce la probabilità come una qualsiasi funzione P : P () R che goda di queste tre proprietà.

7 La probabilità della composizione di eventi compatibili

Consideriamo due eventi E 1 e E 2 compatibili. Ricordiamo che ciò vuol dire che hanno

almeno un evento elementare in comune, cioè E 1 E 2

Per determinare la probabilità dell’evento composto E = E 1 E 2 non possiamo applicare direttamente il teorema delle probabilità totali (che vale soltanto per eventi incompatibi- li). Dobbiamo cercare, pertanto, di esprimere gli eventi E 1 e E 2 come unione di eventi

incompatibili. L’evento E 1 è formato da due insiemi incompatibili di eventi elementari: gli eventi in comune con E 2 (cioè da E 1 E 2 ) e gli eventi non in comune con E 2 (cioè E 1 E 2 ):

= .

c

E 1 =

E 1 E 2 E 1 E

c

2

a cui corrisponde la probabilità

P(E 1 ) = P E 1 E 2 +P E 1 E

c

2

Da questa espressione di P(E 1 ) ricaviamo la seguente espressione che ci tornerà comodo tra poco:

P E 1 E 2 = P(E 1 )P E 1 E

c

2

(1)

Lo stesso discorso può essere fatto per l’evento E 2 :

E 2 =

E 2 E 1 E 2 E c

1

a cui corrisponde la probabilità

P(E 2 ) = P E 2 E 1 +P E 2 E c

1

10

e da cui ricaviamo l’espressione:

P(E 2 E c

1 = P(E 2 )P E 1 E 2

(2)

L’evento E può così essere scritto come unione di tre eventi incompatibili:

E = E 1 E 2 E 1 E

2 c E 2 E c

1

Utilizzando le espressioni (1) e (2) sopra ricavate, possiamo ottenere la probabilità del- l’evento E:

P(E) = P E 1 E 2 +P E 1 E

2 +P E 2 E 1 c =

c

= P(E 1 )P E 1 E

c

2

+P E 1 E 2 +P(E 2 )P E 1 E 2 =

c

= P(E 1 )+P(E 2 )P E 1 E 2

Abbiamo così dimostratore il teorema della probabilità composta:

La probabilità di un evento composto E = E 1 E 2 è:

P(E 1 E 2 ) = P(E 1 )+P(E 2 )P E 1 E 2

La formula che esprime la probabilità composta è sufficientemente intuitiva: sommando P(E 1 ) a P(E 2 ) andiamo a contare due volte gli eventi che hanno in comune, per cui occorre sottrarre P E 1 E 2 . Determineremo più avanti una formula per esprimere P E 1 E 2 co- noscendo P(E 1 ) e P(E 2 ).

Ad esempio, nell’estrazione di una carta da un mazzo di 52 consideriamo i seguenti eventi:

E 1 = estrazione di una carta di segno nero (26 carte); E 2 = estrazione di un fante (4 carte). Gli eventi sono compatibili perché hanno in comune 2 carte (i fanti di fiori e di picche). La probabilità di estrarre una carta di segno nero oppure un fante è: 26/52 + 4/52 2/52 = 28/52 53, 8%.

8 La probabilità condizionata

Supponiamo di voler valutare la probabilità che accada un evento E. Nella formulazione soggettivistica, questa probabilità si basa sulla nostra conoscenza del mondo. Supponiamo, però, di essere anche a conoscenza del fatto che si è già verificato un altro evento A. Questa conoscenza ulteriore modifica la nostra conoscenza del mondo e ci costringe a considerare in modo diverso la probabilità che accada l’evento E. Vediamolo con un semplice esempio. Stiamo giocando al lancio dei dati nel seguente modo: lanciamo il dado e un’altra persona lo guarda per comunicarci il risultato. Per una scommessa, valutiamo la probabilità che esca il 5. Se sappiamo che il dado non è truccato, allora la nostra conoscenza del mondo ci può portare ad affermare che P(5) = 1/6 16, 7%. Ora supponiamo che dopo aver lanciato il dado, l’altra persona non ci dica il risultato ma si limiti a dirci che è uscito un numero dispari. Questo è l’evento A che ci fornisce una nuova informazione, che va ad aggiungersi alla nostra conoscenza del mondo, e che ci può portare

11

a

modificare la probabilità P(5) indicandola ora come P(5) = 1/3 33, 3%.

Definiamo la probabilità di E condizionata da A la probabilità che accada l’evento

E

sapendo che è già accaduto l’evento A.

Nella formulazione frequentistica, tutte le probabilità sono condizionate dalle scelte fat-

te

dall’osservatore. Se, nel lancio di una moneta, scegliamo di lanciare la moneta 100 volte

e

otteniamo 54 teste allora P(T) = 54%; se, invece, scegliamo di lanciarla 200 volte e otte-

niamo 98 teste allora P(T) = 49%, e così via per ogni scelta del numero di lanci, scelta che

condiziona la probabilità ottenuta. Nella teoria soggettivistica, la probabilità è sempre condizionata dalla nostra conoscen-

za del mondo: non esistono probabilità non condizionate. Questo aspetto della proba-

bilità fa sì che la probabilità condizionata sia il concetto centrale della teoria soggettivistica della probabilità. Essendo questo fatto valido per la probabilità di ogni evento, conveniamo

di parlare di probabilità condizionata di un evento E quando, alla nostra conoscenza del

mondo, aggiungiamo un’ulteriore informazione su un altro evento A che può portarci a mo- dificare la nostra stima di P(E).

La formula della probabilità di E condizionata da A è la seguente:

Probabilità dell’evento E condizionata dall’evento A

P(E|A) = P(E A) P(A)

Prima di dimostrarla, osserviamo come questa formula abbia senso soltanto se l’evento

A

condizionante ha P(A)

= 0. In altre parole: gli eventi impossibili non possono condiziona-

re

la nostra valutazione della probabilità di altri eventi.

Vediamo come sia possibile dedurre la formula della probabilità condizionata sulla base dell’assioma di coerenza. Per valutare il guadagno nel caso di una scommessa condizionata, per cui paghiamo una puntata P(E|A), andiamo a vedere quanto riscuoteremmo nei vari casi esposti in questo schema:

il banco paga =

1

0

P(E|A)

se accade l’evento E A

se accade l’evento E c A

se accade l’evento A c

Il banco ci paga normalmente 1 se accade l’evento E e 0 se non accade E, a patto che sia accaduto l’evento A. Nel caso in cui l’evento A non dovesse accadere, non avrebbe alcun senso parlare di probabilità condizionata da A, per cui il banco restituisce la puntata pagata per annullare la scommessa. La puntata pagata dal banco corrisponde allo schema del nostro guadagno (ricavo meno puntata):

G =

  se accade l’evento E A

1 P(E|A)

se accade l’evento E c A

P(E|A)

 
se accade l’evento A c

0

12

Lo schema di questa scommessa equivale allo schema di una coppia di scommesse sugli eventi E A e A c che sono incompatibili tra loro:

il banco paga =

1

0

0

se accade l’evento E A

se accade l’evento E c A

se accade l’evento A c

il banco paga =

0 se accade l’evento E A

0 se accade l’evento E c A

P(E|A)

se accade l’evento A c

La prima è una scommessa, in cui il banco paga 1, se avviene l’evento E A. Ciò avviene con una probabilità P(E A), per cui, secondo il principio di coerenza, dobbiamo valutare la puntata della prima scommessa come 1×P(E A) = P(E A). La seconda è una scommessa,

in cui il banco paga P(E|A), se avviene l’evento A c . Ciò avviene con una probabilità P(A c ),

per cui, applicando il principio di coerenza, dobbiamo valutare la puntata della seconda scommessa come P(E|A) × P(A c ). La puntata da pagare è quindi la somma di queste due puntate in quanto E A e A c sono eventi incompatibili:

P(E|A) = P(E A)+P(E|A)×P(A c ) =

= P(E A)+P(E|A)× 1P(A)

da

cui otteniamo con un semplice passaggio algebrico la formula:

P(E|A)×P(A) = P(E A)

da

cui segue la formula della probabilità condizionata.

Come esempio, consideriamo un mazzo di 52 carte. Siano:

E

= estrazione di una figura (12 carte);

A

= estrazione di una carta diversa dalla regina (48 carte);

E

A = estrazione di una figura che non sia una regina (8 carte).

La probabilità P(E) di estrarre a caso una figura dal mazzo è P(E) = 12/52 23, 1%. La probabilità P(E|A) di estrarre a caso una figura dal mazzo, condizionata dal fatto che non è stata estratta una regina, è P(E|A) = (8/52)/(48/52) = 1/8 12, 5%.

9 La legge della probabilità totale

La probabilità condizionata ci permette di esprimere in una nuova forma la probabilità

di un evento E. La probabilità P(E) può essere modificata a condizione che alla nostra

conoscenza del mondo si aggiunga un’informazione sull’accadimento oppure no di un altro evento A. Se l’evento A accade abbiamo la probabilità condizionata P(E|A) mentre se non accade abbiamo la probabilità condizionata P(E|A c ). Possiamo così esprimere la probabilità dell’evento E come somma delle probabilità che si verifichi l’evento E a condizione sia che si verifichi sia che non si verifichi un altro evento A:

P(E) = P(E|A)×P(A)+P(E|A c )×P(A c )

13

Possiamo anche non limitarci a un solo evento A, ed estendere le nostre informazioni aggiuntive a una successione di eventi {A n }, a patto che siano incompatibili tra loro:

P(E) = P(E|A 1 )×P(A 1 )+P(E|A 2 )×P(A 2 )+··· = P(E|A n )×P(A n )

Chiamiamo questa espressione, la legge della probabilità totale. La probabilità non condizionato di un evento E è data quindi dalla somma delle proba- bilità di E condizionate da altri eventi A n , tra loro incompatibili, pesate dalle probabilità P(A n ) di questi eventi.

10 Il teorema di Bayes

Abbiamo considerato la probabilità che si verifichi l’evento E a condizione che si verifichi l’evento A. Possiamo, ovviamente, invertire il ruolo dei due eventi e considerare la proba- bilità che si verifichi l’evento A a condizione che si verifichi l’evento E, a patto che anche E non sia l’evento impossibile: P(A|E) = P(A E)

P(E)

Con un semplice passaggio algebrico, dall’espressione di P(E|A) ricaviamo l’espressione P(E A) = P(E|A) × P(A) e, analogamente, da P(A|E) ricaviamo P(A E) = P(A|E) × P(E). Essendo uguali i membri a sinistra delle due espressioni così ricavate, possiamo porre l’uguaglianza dei membri a destra:

P(E|A)×P(A) = P(A|E)×P(E)

Da qui ricaviamo l’espressione della formula di Bayes per la probabilità di E condizionata da A:

P(E|A) = P(A|E)×P(E) P(A)

Applichiamo la legge della probabilità totale a P(A) e otteniamo un’espressione equiva- lente per la formula di Bayes:

formula di Bayes

P(E|A) =

P(A|E)×P(E)

P(A|E)×P(E)+P(A|E c )×P(E c )

La formula di Bayes ci permette di ricavare la probabilità condizionata P(E|A) se siamo nella condizione di saper determinare tutte e quattro le probabilità contenute nell’espres- sione a destra; di fatto è sufficiente conoscerne due: P(E) da cui si ricava P(E c ) (o viceversa) e P(A|E) da cui si ricava P(A|E c ) (o viceversa).

Vediamo un esempio di applicazione della formula di Bayes. Consideriamo una malattia virale che colpisca in media lo 0, 1% della popolazione. Supponiamo che esista un esame che consenta di individuare il virus con un risultato corretto nel 95% dei casi. Se, come risultato dell’esame, ci viene comunicato che abbiamo contratto la malattia, qual è la probabilità di essere veramente malati?

14

Sappiamo di non essere sicuri di essere malati; l’esame può aver fornito un risultato er- rato. Dobbiamo valuta la probabilità di essere malati a condizione che il risultato dell’esame sia stato positivo. Indichiamo con E l’evento “essere malato” e con A l’evento condizionale “risultato positivo dell’esame”. Vogliamo trovare la probabilità condizionata P(E|A). Appli- chiamo la formula di Bayes con le seguenti probabilità che conosciamo:

- P(E) = 0, 1%, probabilità di essere malato;

- P(E c ) = 99, 9%, probabilità di essere sano;

- P(A|E) = 95%, probabilità di un risultato positivo a condizione di essere malato;

- P(A|E c ) = 5%, probabilità di un risultato positivo a condizione di essere sano. Inserendo questi valori nella formula di Bayes, otteniamo:

P(E|A) =

95% × 0, 1% 95% × 0, 1% + 5% × 99, 9% = 1, 87%

Pertanto, in questo caso, anche se l’esame indica che siamo malati, è poco probabile che lo siamo davvero! Come spesso accade nell’applicazione della formula di Bayes, non solo siamo riusciti a trovare la probabilità ignota P(E|A), ma abbiamo anche ottenuto un valore (corretto) decisamente contro-intuitivo (a dimostrazione che non è sempre bene fidarsi del proprio intuito, soprattutto in materia di probabilità). Nel caso in esame, la probabilità di riuscita dell’esame (95%) ci porta spontaneamente a stimare un valore molto elevato per P(E|A) ignorando il ruolo che può giocare la probabilità di essere malati (0, 1%).

Vediamo, più in dettaglio, con i numeri assoluti, come sia strutturata questa situazione solo in apparenza paradossale. La popolazione italiana ammonta ad approssimativamente 60.000.000 di persone. Se la malattia colpisce lo 0, 1% della popolazione, i malati in Italia sono circa 60.000, mentre i sani sono circa 59.940.000. Se tutti gli italiani fossero sottoposti all’esame, che dà un risultato corretto nel 95% dei casi, quali sarebbero i risultati? Distin- guiamo i quattro casi combinando essere malato/sano con risultato positivo/negativo:

A) il 95% dei malati, cioè 57.000, sono correttamente individuati come malati dal risul-

tato positivo dell’esame: sono “vero positivo”;

B) il 5% dei malati, cioè 3.000, sono erroneamente individuati come sani dal risultato nega-

tivo dell’esame: sono “falso negativo”;

C) il 95% dei sani, cioè 56.943.000, sono correttamente individuati come sani dal risultato

negativo dell’esame: sono “vero negativo”;

D) il 5% dei sani, cioè 2.997.000, sono erroneamente individuati come malati dal risultato

positivo dell’esame: sono “falso positivo”.

Facendo l’esame, quindi, ben 2.997.000 + 57.000 = 3.054.000 persone sono dichiarate malate, mentre solo 57.000 di queste lo sono realmente. Queste 57.000 persone sono l’1, 87% del totale dei 3.054.000 dichiarati malati. Il nostro intuito in genere fallisce quando associa i 57.000 malati al totale di 60.000 malati (riottenendo il 95%) e non al totale di 3.054.000 dichiarati malati.

11 La probabilità di eventi indipendenti congiunti

Due eventi E 1 e E 2 si dicono indipendenti se la probabilità dell’uno non ha alcun effetto condizionante sulla probabilità dell’altro:

P(E 1 |E 2 ) = P(E 1 )

15

P(E 2 |E 1 ) = P(E 2 )

Dalla formula della probabilità condizionata sappiamo che

P E 1 E 2 = P(E 1 |E 2 )×P(E 2 )

per cui, nel caso di eventi indipendenti congiunti, si ha:

P E 1 E 2 = P(E 1 )×P(E 2 )

In generale, dati N eventi indipendenti congiunti, la probabilità che si verifichino tutti

è:

P

n=1 E n = n=1

N

N

P(E n )

Useremo questa formula in alcune dimostrazioni nelle quali andremo a valutare la probabi- lità di aver ottenuto l’insieme dei risultati delle operazioni di misura che abbiamo effettuato in un dato esperimento.

16