Sei sulla pagina 1di 18

Alcune definizioni

• Esperimento aleatorio – un processo che porta ad un


risultato incerto

• Evento elementare – un possibile risultato di un


Probabilità esperimento aleatorio

Cicchitelli Cap. 12 • Spazio campionario – l’insieme di tutti i possibili


risultati di un esperimento aleatorio

• Evento – qualsiasi sottoinsieme di eventi elementari di


uno spazio campionario

Statistica 2010/2011 1 Statistica 2010/2011 2

Esperimento aleatorio Spazio campionario


• Un esperimento aleatorio descrive una situazione il cui • Dato un esperimento aleatorio, si dice spazio campionario
esito è incerto l'insieme S di tutti i possibili risultati, esaustivi e
– giochi di sorte (come il lancio di una moneta, l’estrazione di mutualmente esclusivi, dell'esperimento stesso. Tali
un numero al lotto, l’estrazione di un numero alla roulette), possibili risultati sono detti punti campionari o eventi
– esperimenti di laboratorio (come il test di durata di un elementari
pneumatico, la somministrazione di un principio attivo ad una
cavia) – Es. lanciando una moneta S = {T, C}
– misurazioni fisiche (come la temperatura minima di domani in
una certa stazione meteorologica)
• Se l’esperimento aleatorio viene ripetuto k volte, lo spazio
– fenomeni economici e sociali (come il numero di computer
prodotti da un’impresa del settore, il PIL italiano fra 5 anni o il campionario complessivo è dato dal prodotto cartesiano S ×
ROE di un impresa nel prossimo esercizio) S ×... × S k volte
– in generale tutte le prove, operazioni, attività o fenomeni il cui – Es. lanciando due volte una moneta lo spazio campionario
esito non è prevedibile con certezza. complessivo è {T, C} × {T, C}, i cui punti campionari sono TT, TC,
CT, CC
Statistica 2010/2011 3 Statistica 2010/2011 4
Spazio campionario - esempi Eventi

• Un soggetto chiede un finanziamento ad una banca • Dato uno spazio campionario S, un evento è un
Æ S = {concesso, rifiutato} sottoinsieme di S, quindi è costituito da uno o più punti
campionari (a parte il caso dell’evento impossibile, denotato
con il simbolo dell’insieme vuoto ∅)
• Estrazione di un numero al lotto
• Un evento E si verifica (si realizza) quando il risultato
Æ S = {1, 2, …, 90} (cardinalità finita)
dell’esperimento casuale è un qualsiasi punto campionario
di E; in caso contrario E non si verifica
• Numero di casi di influenza nel prossimo anno
• Esempio: lanciando un dado S = {1, 2, …,6}, alcuni dei
Æ S = {0, 1, 2, …} (cardinalità infinita numerabile) possibili eventi sono:
– A = {Numero pari} = {2,4,6}
• Tempo di attesa per essere serviti ad un sportello bancario – B = {Numero minore o uguale a 3} = {1,2,3}
Æ S = [0, +∞) (cardinalità infinita non numerabile) se ad es. esce il 4 Æ A si verifica, mentre B non si verifica

Statistica 2010/2011 5 Statistica 2010/2011 6

Diagramma di Venn Diagramma di Venn - esempio

• Logica delle proposizioni (eventi) ⇔ Operazioni sugli insiemi


• Es. Lancio di un dado
• Lo spazio campione S è rappresentato da un rettangolo e un
evento E è rappresentato da una figura ivi contenuta

S S
E 1 3 5
B = {Numero minore o uguale a 3} 2 4 6

Se il risultato dell’esperimento Se il risultato dell’esperimento


aleatorio è un punto incluso in aleatorio è un punto non
E Æ E si verifica incluso in E Æ E non si verifica

Statistica 2010/2011 7 Statistica 2010/2011 8


Tipi di eventi Evento complementare
• Due o più eventi si dicono disgiunti o incompatibili o mutuamente
esclusivi quando la realizzazione di uno esclude la realizzazione
• Il complementare di un evento E è rappresentato dall’insieme
dell’altro\i. (due eventi elementari sono sempre incompatibili) di tutti gli altri elementi dello spazio campionario, e viene
indicato con E’ (oppure con Ē)
S
Es. Nell’estrazione di una carta,
A={picche} e B={fiori} sono
incompatibili S
• Due o più eventi si dicono collettivamente esaustivi quando almeno E
uno di loro si verifica sicuramente E’
• Due o più eventi formano una partizione quando sono
contemporaneamente disgiunti e collettivamente esaustivi Es. Nel lancio di un dado, posto E ={numero pari} si ha
E’ ={numero dispari}
S Es. Nell’estrazione di una carta,
A={picche}, B={fiori}, C={quadri},
♠ ♣ ♦ ♥ D={cuori} formano una partizione Un evento e il suo complementare formano una partizione
Statistica 2010/2011 9 Statistica 2010/2011 10

Unione ed intersezione Unione ed intersezione - esempio


Le operazioni di unione e intersezione producono nuovi eventi
Unione di eventi: Intersezione di eventi: Es. nel lancio di un dado, poniamo
• Produce un nuovo evento • Produce un nuovo evento che è A = {Numero pari} = {2,4,6}
che si verifica quando vero quando tutti gli eventi in B = {Numero minore o uguale a 3} = {1,2,3}
almeno uno degli eventi considerazione si verificano
uniti si verifica contemporaneamente Unione di eventi: Intersezione di eventi:
• È indicata dalla simbologia • È indicata dalla simbologia C = A∪B D = A∩B
C=A∪B D=A∩B = {1,2,3,4,6} = {2}
• Lettura logica: “o” • Lettura logica: “e”
1 3 5 1 3 5
D 2 4 6 2 4 6
A B
A B
C
Statistica 2010/2011 11 Statistica 2010/2011 12
Eventi disgiunti, eventi esaustivi Probabilità
• Usando le nozioni di unione e intersezione due
eventi A e B sono
• Probabilità – la possibilità che Certo
1
un evento incerto si manifesti
– Disgiunti (incompatibili) quando A∩B= ∅
(sempre tra 0 e 1)

– Collettivamente esaustivi quando A∪B= S


0 ≤ P(A) ≤ 1 Per qualsiasi evento A 0.5

0 Impossibile

Statistica 2010/2011 13 Statistica 2010/2011 14

Probabilità: definizioni Probabilità classica


Assumendo che S abbia un numero finito di punti campionari
CLASSICA: FREQUENTISTA: con uguale probabilità, la probabilità di E è calcolata come
Probabilità come rapporto tra casi È basato sulla sola
favorevoli su casi possibili osservazione dei dati, in Numero di punti campionari in E casi favorevoli
P( E ) = =
assenza di informazioni Numero di punti campionari in S casi possibili
È basata su una conoscenza delle
preesistenti sulle modalità
caratteristiche dell’esperimento
dell’esperimento Es. nel lancio di un dado, posto A = {Numero pari} = {2,4,6}
indipendentemente dalla sua
effettiva realizzazione Approccio classico a priori: assumendo che tutti i punti campione abbiano la
stessa probabilità (cioè che il dado sia bilanciato)
3
SOGGETTIVA: P( A) = = 0.5
6
Probabilità è il grado di fiducia associato
L’assunzione che tutti i punti campione abbiano la stessa probabilità (cioè che il
al verificarsi di un certo evento di
dado sia bilanciato) è cruciale: se è vera il valore 0.5 è ben calcolato, se è falsa
interesse espresso dal soggetto che il valore 0.5 non va bene. Tuttavia, per verificare la plausibilità di tale
esprime la valutazione probabilità assunzione bisogna ripetere più volte l’esperimento
Statistica 2010/2011 15 Statistica 2010/2011 16
Probabilità frequentista/1 Probabilità frequentista/2
Quando si osserva una serie di prove e si assume che le prove
siano ripetizioni indipendenti e in identiche condizioni di un • Osservando altre prove la stima si modifica
certo esperimento aleatorio Æ la probabilità di E è calcolata – Per esempio, lanciando il dado altre 50 volte l’evento A si
potrebbe verificare 26 volte
come
– quindi la nuova stima sarebbe (23+26)/(50+50)=0.49.
Numero di prove in cui si è verificato E
P( E ) =
Numero totale di prove • Per fortuna al crescere del numero di prove la stima
diventa sempre più precisa e converge ad un valore
– in questo esempio, se il dado è bilanciato converge a 0.5
Lancio di un dado, posto A = {Numero pari} = {2,4,6}
• l’esperimento aleatorio “lancio del dado” viene ripetuto 50 volte, in 23
delle quali è uscito un numero pari e quindi si è verificato A.
• Î P(A) = 23/50=0.46.
Formalmente P(E) è definita come il limite a cui
tende la proporzione di prove in cui si verifica E
quando il numero di prove tende a infinito
Statistica 2010/2011 17 Statistica 2010/2011 18

Verifica empirica della probabilità /1 Verifica empirica della probabilità /2


• L’approccio classico è solo apparentemente oggettivo, perché si • Indicando con n il numero di ripetizioni dell’esperimento
basa sull’ipotesi di equiprobabilità degli eventi elementari: aleatorio, se il valore ipotizzato della probabilità è
credere in tale ipotesi è soggettivo, perché dipende dalla corretto, al crescere di n la frequenza relativa osservata
conoscenza a priori del fenomeno (dado bilanciato, lanciatore converge alla probabilità.
onesto …) • Attenzione: per n piccolo la discrepanza può essere
• Nel caso in cui l’esperimento sia ripetibile più volte nelle stesse notevole anche se il modello è corretto.
identiche condizioni si può stimare la probabilità come frequenza, – Esempio: ipotizziamo che una moneta sia bilanciata, cioè
per cui l’adeguatezza delle ipotesi può essere valutata ipotizziamo che P(T)=0.5, e per verificare tale modello
probabilistico lanciamo la moneta n volte.
empiricamente (nel senso che si possono raccogliere prove
– Vogliamo valutare l’evidenza empirica contro tale modello nel
contro di essa). caso in cui esca sempre testa, cioè la frequenza relativa
• Se ad es. dopo un grande numero di ripetizioni in identiche osservata di T è 1.
condizioni la frequenza relativa con cui si è presentata testa è – Chiaramente 1 è molto lontano da 0.5, tuttavia se n è molto
lontana da 0.5, allora l’ipotesi di equiprobabilità non tiene, per cui piccolo l’evidenza empirica contro il modello ipotizzato è
va sostituita con un'altra. comunque debole. Infatti, se il modello ipotizzato è vero, la
probabilità di osservare n teste su n lanci è 1/2n e quindi, ad es., è
– grande e lontana sono termini vaghi ma possono (e devono!) essere 1/4 per n=2, 1/16 per n=4, 1/256 per n=8.
resi precisi, cioè sostituiti con numeri (come vedremo più avanti)
Statistica 2010/2011 19 Statistica 2010/2011 20
Probabilità soggettiva Probabilità soggettiva/2

La probabilità di un evento E è definita come il grado di • Questo approccio si può usare sempre, in tutte le
fiducia che un individuo razionale attribuisce al verificarsi di situazioni, ma è davvero importante quando gli
un evento approcci classico e frequentista non sono utilizzabili
perché
– Lo spazio campione S non è costituito da un insieme
• La misura (soggettiva) di probabilità si deriva ponendo finito di punti equiprobabili Æ l’approccio classico è
l'individuo (razionale) di fronte ad un'operazione di inutilizzabile
scommessa chiedendo quanto è disposto a puntare per
– Non si dispone di osservazioni indipendenti e in
ricevere 1 nel caso in cui l'evento in questione si realizzi
identiche condizioni Æ l’approccio frequentista è
inutilizzabile

es. Qual è la probabilità che il governo adotti un certo provvedimento?


Qual è la probabilità che la Fiorentina vinca la prossima partita?

Statistica 2010/2011 21 Statistica 2010/2011 22

Definizione assiomatica della probabilità Conseguenze degli assiomi

La probabilità è una funzione d’insieme, P(⋅), definita • P(∅) = 0


nello spazio campione S, con le seguenti proprietà: • P(A) ≤ 1
• Se A∪B=S allora P(A∪B)=1
1. P(S) = 1
• Se A∩B=∅ allora P(A∪B)=P(A)+P(B)

2. P(A) ≥ 0 per ogni evento A • Se S è formato da N eventi elementari ugualmente


possibili E1, E2, …,EN, allora P(Ei)=1/N

3. P ( A1 ∪ A2 ∪ K) = P ( A1 ) + P ( A2 ) + K • Se S è formato da N eventi elementari ugualmente


possibili e l’evento A è costituito da NA di questi
per ogni successione di eventi di S a due a due elementi, allora P(A)= NA /N
incompatibili

Statistica 2010/2011 23 Statistica 2010/2011 24


Regole della probabilità Tabella delle probabilità /1
• La Regola dell’evento complementare: Probabilità congiunte per due eventi A e B:

P ( A) = 1 − P( A) ovvero P(A) + P(A) = 1 B B

• La Regola della somma (o additiva): A P(A ∩ B) P(A ∩ B ) ?


– La probabilità dell’unione di due eventi è
A P(A ∩ B) P(A ∩ B )
??
P( A ∪ B) = P( A) + P( B) − P( A ∩ B)
– Se A e B sono incompatibili P(A∩B)=P(∅)=0, quindi
l’espressione si semplifica in
P ( A ∩ B ) + P( A ∩ B ) = P ( ( A ∩ B) ∪ ( A ∩ B ) ) = P( A)
P( A ∪ B) = P( A) + P( B)
P ( A ∩ B ) + P ( A ∩ B ) = P ( ( A ∩ B ) ∪ ( A ∩ B ) ) = P ( A)
Statistica 2010/2011 25 Statistica 2010/2011 26

Tabella delle probabilità /2 Regola additiva – esempio


Probabilità congiunte e marginali per due eventi A e B: Considera un mazzo di 52 carte, con i quattro semi: ♥ ♣ ♦ ♠
Evento A = la carta è un asso Evento B = la carta è rossa
B B
P(Rossa U Asso) = P(Rossa) + P(Asso) - P(Rossa ∩ Asso)
A P(A ∩ B) P(A ∩ B ) P(A)
= 26/52 + 4/52 - 2/52 = 28/52
Non contare
A P(A ∩ B) P(A ∩ B ) P(A) due volte i
Colore due assi rossi!
Tipo Rossa Nera Totale
P(B) P( B ) P(S) = 1
Asso 2 2 4
Non-Asso 24 24 48
P ( A) + P ( A) = P ( S ) = 1 (probabilità
classica: casi
Totale 26 26 52 favorevoli su
Statistica 2010/2011 27 Statistica 2010/2011 casi possibili)28
Contare i possibili risultati Calcolo combinatorio

• Si considerano n oggetti
• Probabilità classica: casi favorevoli su casi possibili presi k alla volta AB BA AA
• Es. abbiamo le lettere A,
• Talvolta è difficile contare i casi perché sono molti e B e C e ne prendiamo 2 AC CA BB
non è pratico elencarli tutti, uno ad uno alla volta (quindi n=3 e
k=2) BC CB CC
• Soluzione: usare il calcolo combinatorio
Combinazioni C3,2 = 3

Disposizioni D3,2 = 6

Disposizioni con ripetizione


(r )
D3,2 =9

Statistica 2010/2011 29 Due aspetti: Conta l’ordine?


Statistica 2010/2011 Contano le ripetizioni? 30

Disposizioni con ripetizione Disposizioni con ripetizione - esempio


• Disposizioni con ripetizione di n oggetti di classe k (cioè Il poeta francese Raymond Queneau pubblicò un libro intitolato Cent
presi a k a k) mille milliards de poèmes, consistente in un sonetto su ognuna delle 10
pagine. Le pagine erano tagliate in modo che le 14 righe di ciascun
sonetto potessero essere girate separatamente.
Dn( r,k) = n ⋅ n K ⋅ n = n k 1……………
2…………
3……………
4…………… Queneau affermò che tutti i
Esempio: quante password di 5 caratteri si possono creare con: i) un 5………… risultanti 1014 sonetti (centomila
alfabeto di 26 lettere; ii) un alfabeto di 26 lettere dove maiuscole 6……………… miliardi, appunto) avevano un
minuscole sono caratteri diversi; iii) alfabeto + numeri; iv) con il vincolo
7…………
senso, sebbene sia ragionevole
8……………
che i primi 3 caratteri sono alfabetici e gli altri 2 numerici pensare che tale affermazione non
9…………
sarà mai controllata!
Con riferimento all’ultimo caso: estraendo una password a caso, qual è 10 … … … … …
11 … … … … …
la probabilità che i numeri siano tutti inferiori a 5?
12 … … … … … …
13 … … … …
14 … … … … …
Statistica 2010/2011 31 Statistica 2010/2011 32
Disposizioni semplici e permutazioni Combinazioni
• Disposizioni di n oggetti di classe k • Combinazioni di n oggetti di classe k

n! ⎛n⎞ n!
Dn ,k = n(n − 1)(n − 2)K (n − k + 1) = Cn , k = ⎜ ⎟ =
(n − k )! k !(n − k )!
⎝k ⎠
n ! = n(n − 1)(n − 2)K 3 ⋅ 2 ⋅1 Binomio di Newton
• Dimostrazione:
0! = 1 (per definizione)
n!
Dn ,k (n − k )! n!
Cn , k = = =
Pkk k !(n − k )!
• Caso speciale k=n Æ permutazioni: Pn = Dn ,n = n ! k!

Esempio del compleanno: qual è la probabilità che in un insieme ⎛n⎞ n! ⎛ n ⎞ ⎛n⎞ ⎛n⎞
Oss: ⎜ ⎟ = =⎜ ⎟ in particolare, ⎜ ⎟ = ⎜ ⎟ = 1
di k persone almeno due compiano gli anni lo stesso giorno? ⎝ k ⎠ k !(n − k )! ⎝ n − k ⎠ ⎝0⎠ ⎝n⎠
Statistica 2010/2011 33 Statistica 2010/2011 34

Combinazioni - esempi Probabilità condizionata /1


• Consideriamo due eventi A e B e supponiamo di sapere
• Esempio della tavola di Galton che l’evento B si è verificato (quindi su B non vi è più
• Estrazione senza reimbussolamento da un’urna con N incertezza)
palline di cui R rosse: qual è la probabilità che – In generale questa conoscenza modifica la probabilità dell’evento A
estraendo n palline ve ne siano r rosse? (n<N, r≤R )
⎛ R ⎞⎛ N − R ⎞ • Nell’approccio classico condizionarsi a B significa che i
⎜ ⎟⎜ ⎟
⎝ r ⎠⎝ n − r ⎠ punti campione (casi possibili) da considerare al
⎛N⎞ denominatore della probabilità non sono tutti quelli dello
⎜ ⎟
⎝n⎠ 1 spazio campionario S, ma solo quelli contenuti in B
⎛ 90 ⎞ – in altri termini, lo spazio campionario va modificato alla luce delle
– Probabilità di fare cinquina al gioco del lotto
⎜ ⎟ informazioni sopraggiunte Æ B è il nuovo spazio campionario
⎝5⎠
⎛ 5 ⎞ ⎛ 85 ⎞ dell’esperimento
⎜ ⎟⎜ ⎟
⎝ 3⎠ ⎝ 2 ⎠
– Probabilità di fare terno al gioco del lotto
⎛ 90 ⎞
⎜ ⎟
Statistica 2010/2011 ⎝5⎠ 35 Statistica 2010/2011 36
Probabilità condizionata /2 Probabilità condizionata – es. 1
• La probabilità di A condizionatamente a B, detta anche Riprendiamo l’esempio del lancio di un dado, ponendo
probabilità di A dato B e scritta P(A | B), consiste nella A = {Numero pari} = {2,4,6} Æ P(A)=1/2
valutazione della probabilità di un evento A valutato B = {Numero minore o uguale a 3} = {1,2,3} Æ P(B)=1/2
subordinatamente allo spazio campionario generato
dall’evento B Si noti che A∩B = {2} Æ P(A∩B)=1/6
• Approccio classico: P(A | B) è il rapporto tra il numero di
casi favorevoli (punti campione per cui si verificano A e 1 3 5 P( A ∩ B) 1/ 6 1 ⎛ punti campionari in A∩ B ⎞
P( A | B) = = = ⎜=
⎜ punti campionari in B ⎟⎠

B) ed il numero di casi possibili (punti campione per cui 2 4 6 P( B) 3/ 6 3 ⎝

si verifica B):
Probabilità congiunta
P( A ∩ B) P(A | B) ≠ P(A) Æ l’informazione che B si è verificato
P( A | B) = Probabilità marginale cambia la probabilità di A, in questo esempio diminuisce
P( B)
[la definizione richiede che P(B)>0]
Probabilità condizionata Statistica 2010/2011 37 Statistica 2010/2011 38

Probabilità condizionata – es. 2 Probabilità condizionata – es. 3


Continuiamo l’esempio del lancio di un dado, ponendo Continuiamo l’esempio del lancio di un dado, ponendo
A = {Numero pari} = {2,4,6} Æ P(A)=1/2 A = {Numero pari} = {2,4,6} Æ P(A)=1/2
C = {Numero tra 2 e 4} = {2,3,4} Æ P(C)=1/2 D = {Numero minore o uguale a 2} = {1,2} Æ P(C)=1/3
Si noti che A∩C = {2,4} Æ P(A∩C)=2/6=1/3 Si noti che A∩D = {2} Æ P(A∩D)=1/6

1 3 5 P( A ∩ C ) 2 / 6 2 ⎛ punti campionari in A∩C ⎞ 1 3 5 P( A ∩ D) 1/ 6 1 ⎛ punti campionari in A∩ D ⎞


P( A | C ) = = = ⎜=


punti campionari in C ⎟⎠
P( A | D) = = = ⎜=
⎜ punti campionari in D ⎟⎠

2 4 6 P(C ) 3/ 6 3 ⎝ 2 4 6 P( D) 2/6 2 ⎝

P(A | C) ≠ P(A) Æ l’informazione che C si è verificato P(A | D) = P(A) Æ l’informazione che D si è verificato non
cambia la probabilità di A, in questo esempio aumenta cambia la probabilità di A Æ A è indipendente da D

Statistica 2010/2011 39 Statistica 2010/2011 40


Probabilità condizionata – es. 4 A dato B oppure B dato A?
Negli esempi precedenti
In generale P(A| B) ≠ P(B | A)
P(A) = 1/2 = 0.50
P(A | B) = 1/3 = 0.33 diminuisce Ad es. P( A) = 0.8 P( B) = 0.4 P( A ∩ B) = 0.2
P(A | C) = 2/3 = 0.67 aumenta P( A ∩ B) 0.2
P(A | D) = 1/2 = 0.50 invariata (indipendenza) P( A | B) = = = 0.5
P( B) 0.4
P( A ∩ B) 0.2
Osservazione: con riferimento alla probabilità di A, il P( B | A) = = = 0.25
P( A) 0.8
condizionamento a B ha un effetto opposto al
condizionamento a C anche se P(B)=P(C) Æ il valore L’errore di pensare che le due condizionate siano uguali è
della probabilità dell’evento condizionante non ha niente noto in ambito giudiziario come fallacia dell’accusatore
a che fare con l’effetto del condizionamento Es. A = “il DNA di Tizio è compatibile con quello dell’assassino”, B =
“Tizio è innocente”, P(A | B) = 1/100000000, P(B | A) = ?
Statistica 2010/2011 41 Statistica 2010/2011 42

Regola moltiplicativa Indipendenza statistica /1

• Applicando la definizione di probabilità condizionata, è • Si parla di indipendenza statistica (o stocastica) quando la


anche possibile formulare la probabilità congiunta conoscenza dell’evento B non modifica la probabilità che si
tramite le condizionate: verifichi l’evento A, cioè

P( A ∩ B) P( A ∩ B) P( A | B ) = P( A)
P( A | B) = P( B | A) =
P( B) P( A)

Probabilità condizionata Probabilità marginale


P ( A | B) P( B) = P( A ∩ B) = P ( B | A) P( A) • La realizzazione dell’evento B è ininfluente per
determinare la probabilità dell’evento A
Statistica 2010/2011 43 Statistica 2010/2011 44
Indipendenza statistica /2 Moltiplicare le probabilità?
• La probabilità congiunta di due eventi (= probabilità
Dalle relazioni P ( A | B ) P ( B ) = P ( A ∩ B ) = P ( B | A) P ( A) dell’intersezione) è uguale al prodotto delle probabilità
marginali se e solo se i due eventi sono indipendenti
viste in precedenza segue che l’indipendenza statistica può
essere espressa in 3 modi equivalenti (si assuma che A e B • Moltiplicare le probabilità quando non vi è indipendenza
siano eventi di probabilità non nulla): è un errore comune
Esempio: un testimone ha visto una persona sul luogo del delitto, e ne ricorda alcune
caratteristiche: capelli neri, occhi neri, barba. Qual è la probabilità che una persona presa
P( A | B ) = P( A) P( B | A) = P( B ) a caso dalla popolazione abbia le caratteristiche indicate? Supponiamo che le probabilità
siano le seguenti:

A = (capelli neri) P(A) = 5/10


B = (occhi neri) P(B) = 3/10 P(B|A) = 6/10
P ( A ∩ B ) = P ( A) P( B ) C = (barba) P(C) = 1/10 P(C|A,B) = 5/10

La probabilità corretta è P(A∩B∩C) = P(A) P(B|A) P(C|A,B) = 150/1000 = 0.15

Statistica 2010/2011 45 Mentre con la regola del prodotto si ottiene P(A) P(B) P(C) = 15/1000 = 0.015
Statistica 2010/2011 46

Dai dati alle probabilità • Probabilità = frequenza relativa associata a ciascuna modalità
(evento elementare) della variabile di interesse
• Seguendo l’approccio frequentista, una distribuzione Modalità di acquisto di un televisore Frequenza assoluta Frequenza relativa
di frequenza può fornire stime di probabilità di alcuni Grande magazzino (A) 183 0.61 = P(A)
eventi Internet (B) 87 0.29 = P(B)
Posta (C) 30 0.10 = P(C)
• Assunzione fondamentale: le probabilità devono essere Totale (S ) 300 1= P(S)
stabili nel tempo e nello spazio, per cui la stima fatta in
base a ciò che è accaduto ieri a alcuni soggetti (la
Gli eventi elementari (punti campione) costituiscono una
distribuzione di frequenza) è valida anche per ciò che
partizione: A∩B ∩ C=∅ e A∪B ∪C=S
accadrà domani ad altri soggetti
Domanda: 0.29 è una buona stima della probabilità che un consumatore
italiano acquisti oggi un televisore via internet?
Risposta: dipende da dove e quando sono stati rilevati i dati in tabella; siccome
si tratta di dati USA di qualche anno fa e il fenomeno degli acquisti via Internet
è in fase di rapida crescita e varia molto da paese a paese, l’applicazione ad un
caso italiano oggi appare azzardata.
Statistica 2010/2011 47 Statistica 2010/2011 48
• Considerando la distribuzione delle frequenze relative, si
• Nel caso in cui gli eventi di interesse siano relativi a due o ottengono le probabilità di interesse
più caratteristiche, la situazione è rappresentata da una
distribuzione multipla di frequenze (doppia, se le
caratteristiche sono solo due) Acquisto effettivo
Acquisto pianificato Sì (B) No (B’) Totale
Acquisto effettivo Sì (A) 0.20 = P(A∩B) 0.05 = P (A∩B’) 0.25 = P (A)
Acquisto pianificato Si No Totale No (A’) 0.10 = P (A’∩B) 0.65 = P (A’∩B’) 0.75 = P (A’)
Si 200 50 250 Totale 0.30 = P (B) 0.70= P (B’) 1 = P(S)
No 100 650 750
Totale 300 700 1000 probabilità marginale:
acquisto effettivo
probabilità marginale:
Frequenza congiunta assoluta Frequenza marginale assoluta probabilità congiunta: acquisto non pianificato
acquisto non pianificato e acquisto effettivo
(probabilità dell’intersezione A’∩B)
Statistica 2010/2011 49 Statistica 2010/2011 50

Esempio: P(A∪B) Esempio: probabilità condizionata


• Supponiamo di essere interessati alla
probabilità dell’evento d’interesse: C = A A∩B
B Qual è la probabilità che un consumatore che ha pianificato
{acquisto pianificato o acquisto 0.25 0.20
0.30
l’acquisto lo abbia poi effettuato?
effettivo}:

Acquisto effettivo
Acquisto pianificato Si No Totale
Acquisto effettivo Si 200 50 250
Acquisto pianificato Sì (B) No (B’) Totale No 100 650 750
Sì (A) 0.20 = P(A∩B) 0.05 = P (A∩B’) 0.25 = P (A) Totale 300 700 1000
No (A’) 0.10 = P (A’∩B) 0.65 = P (A’∩B’) 0.75 = P (A’)
Totale 0.30 = P (B) 0.70= P (B’) 1 = P(S)
Facendo riferimento alla prima riga della tabella (i 250
Due modi per calcolare P(C)= P(A∪B) consumatori che hanno pianificato l’acquisto) la riposta è
200/250 = 0.80
⎧ P( A ∩ B ) + P( A ∩ B ') + P( A '∩ B) = 0.20 + 0.05 + 0.10 = 0.35
P( A ∪ B) = ⎨
⎩ P( A) + P( B) − P( A ∩ B) = 0.25 + 0.30 − 0.20 = 0.35
Statistica 2010/2011 51 Statistica 2010/2011 52
Esempio: P(B|A) Esempio: P(A|B)

Partendo dalla tabella delle frequenze relative (viste come Un altra domanda è: qual è la probabilità che un cliente che
probabilità) la domanda può essere posta come: qual è la ha effettivamente acquistato avesse pianificato l’acquisto?
probabilità di B (acquisto effettivo) condizionatamente a A Ovvero: qual è la probabilità di A (acquisto pianificato)
(acquisto pianificato)? condizionatamente a B (acquisto effettivo)?
Acquisto effettivo Acquisto effettivo
Acquisto pianificato Sì (B) No (B’) Totale Acquisto pianificato Sì (B) No (B’) Totale
Sì (A) 0.20 = P(A∩B) 0.05 = P (A∩B’) 0.25 = P (A) Sì (A) 0.20 = P(A∩B) 0.05 = P (A∩B’) 0.25 = P (A)
No (A’) 0.10 = P (A’∩B) 0.65 = P (A’∩B’) 0.75 = P (A’) No (A’) 0.10 = P (A’∩B) 0.65 = P (A’∩B’) 0.75 = P (A’)
Totale 0.30 = P (B) 0.70= P (B’) 1 = P(S) Totale 0.30 = P (B) 0.70= P (B’) 1 = P(S)

P(A∩B) 0.20 P( A∩ B) 0.20


P(B | A) = = = 0.80 P( A| B) = = = 0.67
P(A) 0.25 P(B) 0.30
Statistica 2010/2011 53 Statistica 2010/2011 54

Esempio: A e B indipendenti? Probabilità marginale


Acquisto effettivo
Data una partizione B1, B2,…, Bk, e dato un evento A di cui si
Acquisto pianificato Sì (B) No (B’) Totale conoscono le probabilità delle intersezioni con gli elementi
Sì (A) 0.20 = P(A∩B) 0.05 = P (A∩B’) 0.25 = P (A) della partizione, la probabilità di A è
No (A’) 0.10 = P (A’∩B) 0.65 = P (A’∩B’) 0.75 = P (A’)
Totale 0.30 = P (B) 0.70= P (B’) 1 = P(S) P ( A ) = P ( A ∩ S ) = P ( A ∩ ( B1 ∪ B 2 ∪ K ∪ B k ) )
In precedenza abbiamo calcolato = P ( ( A ∩ B1 ) ∪ ( A ∩ B 2 ) ∪ K ∪ ( A ∩ B k ) )
P(A | B) = 0.67 e P(B | A) = 0.80 = P ( A ∩ B1 ) + P ( A ∩ B 2 ) + K + P ( A ∩ B k )
Per stabilire che A e B non sono indipendenti basta fare una
delle seguenti verifiche (è sufficiente una sola):
• P(A | B) ≠ P(A ) poiché 0.67 ≠ 0.25
• P(B | A) ≠ P(B ) poiché 0.80 ≠ 0.30
B1 B2 Bk
Questo metodo si chiama marginalizzazione perché è proprio quello che si
• P(A ∩ B) ≠ P(A ) P(B ) poiché 0.20 ≠ 0.25 × 0.30 usa nelle tabelle doppie per calcolare le frequenze marginali
Statistica 2010/2011 55 Statistica 2010/2011 56
Formula delle probabilità totali Esempio: probabilità totali

Riprendendo la formula della probabilità marginale Posto

P( A) = P( A ∩ B1 ) + P( A ∩ B2 ) + K + P( A ∩ Bk ) A = {acquisto pianificato}

e applicando la regola moltiplicativa si ottiene B1 = B = {acquisto effettuato}


B2 = B’ = {acquisto non effettuato}
P( A) = P( A | B1 ) P( B1 ) + P( A | B2 ) P( B2 ) + K + P( A | Bk ) P( Bk )
k
P( A) = P( A | B1 ) P( B1 ) + P( A | B2 ) P( B2 )
= ∑ P( A | Bi ) P( Bi ) ⎛ 200 ⎞ ⎛ 300 ⎞ ⎛ 50 ⎞ ⎛ 700 ⎞
i =1 =⎜ ⎟⎜ ⎟+⎜ ⎟⎜ ⎟
⎝ 300 ⎠ ⎝ 1000 ⎠ ⎝ 700 ⎠ ⎝ 1000 ⎠
La prob di A si ottiene come media pesata delle prob di A dato Bi, = 0.20 + 0.05 = 0.25
con pesi pari alle prob di Bi
Statistica 2010/2011 57 Statistica 2010/2011 58

Ragionamento per scenari Formula di Bayes /1


• La formula delle probabilità totali corrisponde ad P( A | Bi ) P( Bi )
P( Bi | A) =
un ragionamento per scenari usato molto spesso P( A)
P( A | Bi ) P( Bi )
• Es. A={l’anno prossimo il fatturato della mia azienda aumenta} e B1, =
B2, B3 sono 3 scenari relativi all’andamento del settore economico in P ( A | B1 ) P( B1 ) + P( A | B2 ) P( B2 ) + K + P( A | Bk ) P( Bk )
cui opera l’azienda (crescita, stazionario, recessione). Ragionare per
scenari significa attribuire la probabilità non direttamente ad A, ma ad
dove Bi è l’i-mo di k eventi costituenti una partizione
A dato B1, A dato B2 ecc. (perché l’attribuzione è più facile) e poi
derivare la probabilità di A tramite la formula delle probabilità totali Interpretazione: gli eventi della partizione B1,…,Bk sono i
– Supponiamo di attribuire le seguenti probabilità: P(A|B1)=0.8, possibili stati di natura, mentre A è un nuovo fatto (evidenza
P(A|B2)=0.5, P(A|B3)=0.1 empirica)
– E’ necessario attribuire una probabilità anche agli scenari,
Prima di osservare il fatto A, gli stati di natura hanno certe
supponiamo P(B1)=0.1, P(B2)=0.7, P(B3)=0.2 (ovviamente la
somma è 1) probabilità P(Bi), dette a priori. La formula di Bayes consente
di aggiornare tali probabilità alla luce del fatto A, ottenendo le
– Pertanto P(A)= 0.8×0.1+0.5×0.7+0.1×0.2 = 0.45
probabilità P(Bi | A), dette a posteriori
Statistica 2010/2011 59 Statistica 2010/2011 60
Formula di Bayes /2 Esempio: chi è il colpevole?

P ( A | Bi ) P ( Bi ) • In un problema di investigazione per omicidio


P( Bi | A) = – B1 = {il colpevole è Tizio}
P( A | B1 ) P( B1 ) + P( A | B2 ) P( B2 ) + K + P( A | Bk ) P( Bk )
– B2 = {il colpevole è Caio}
– B3 = {il colpevole non è né Tizio, né Caio}
La formula è utile quando si dispone delle
– A = {uno specifico indizio}
• probabilità marginali P(Bi), dette probabilità a priori, e
• B1, B2, B3 costituiscono una partizione
• probabilità condizionate P(A | Bi), dette verosimiglianze.
• L’investigatore attribuisce a B1, B2, B3 delle probabilità a
priori (cioè prima di osservare l’indizio A)
La formula è detta anche “della probabilità inversa” perché • Se l’indizio è rilevante le probabilità si modificano, cioè
consente di invertire il verso del condizionamento nei casi in cui P(Bi | A) ≠ P(Bi), e la formula di Bayes consente di
si dispone di P(A | Bi) ma siamo invece interessati a P(Bi | A) calcolarle
Statistica 2010/2011 61 Statistica 2010/2011 62

Esempio: test diagnostico /1 Esempio: test diagnostico /2


• Tipica applicazione in medicina • Fino a che non si conosce l’esito del test, il soggetto
– D = soggetto affetto da una certa malattia (Disease) ha una probabilità P(D) di avere la malattia in
– D’= soggetto non affetto da quella malattia questione. Tale probabilità viene stimata tramite la
prevalenza nella popolazione
– T = Test positivo (cioè segnala la malattia)
– Supponiamo che la prevalenza sia di 3 persone ogni 100:
– T’ = Test negativo pertanto la probabilità che il soggetto abbia la malattia è P(D)
= 0.03, mentre la probabilità che sia sano (nel senso che non
• Si vuole determinare P(D | T) = probabilità che un
ha quella malattia) è P(D’) = 0.97
soggetto per il quale il test dà esito positivo sia
effettivamente affetto dalla malattia in questione

Statistica 2010/2011 63 Statistica 2010/2011 64


Esempio: test diagnostico /3 Esempio: test diagnostico /4

• Il secondo elemento necessario per il calcolo è costituito Tipi di errore:


dalla capacità del test di segnalare correttamente chi è sano
e chi è malato: Esito test
Realtà Sano (T’) Malato (T)
– Sensitività: probabilità di segnalare correttamente che un soggetto
ha quella malattia: P(T | D) = 0.90
OK Falso positivo
• da ciò segue P(T’ | D) = 0.10 (nel 10% dei soggetti malati il test Sano (D’)
P(T’|D’)=0.98 P(T|D’)=0.02
sbaglia perché non rivela la malattia – falso negativo)

– Specificità: probabilità di segnalare correttamente che un soggetto Falso negativo OK


Malato (D)
non ha quella malattia: P(T’ | D’) = 0.98 P(T’|D)=0.10 P(T|D)=0.90

• da ciò segue P(T | D’) = 0.02 (nel 2% dei soggetti sani il test
sbaglia perché segnala la malattia – falso positivo) I due tipi di errore sono ben diversi, sia
concettualmente che per le conseguenze!
Statistica 2010/2011 65 Statistica 2010/2011 66

Esempio: test diagnostico /5 Esempio: test diagnostico /6


P(T | D ) P( D )
Applicando la formula di Bayes

P( D | T ) =
P(T | D ) P( D ) + P(T | D ') P( D ') Probabilità a priori
Probabilità
Probabilità congiunta
Probabilità
Evento Di condizionata aggiornata
P(Di) P(T|Di) P(Di)
(0.90)(0.03) P(T|Di) P(Di|T)
= D = soggetto malato 0.03 0.90 0.0270 0.582
(0.90)(0.03) + (0.02)(0.97) D’ = soggetto sano 0.97 0.02 0.0194 0.418

0.0270 0.0270
= = = 0.582
0.0270 + 0.0194 0.0464
P(D e T)= P(T |D) P(D)
=0.90×0.03=0.0270

P(D)=0.03
P(D e T’)= P(T’ |D) P(D)
che è molto più grande di P(D)=0.03 =0.10×0.03=0.0030

ma molto più piccolo di P(T | D) = 0.90 P(D’ e T)= P(T |D’) P(D’)
=0.02×0.97=0.0194
Talvolta i medici confondono P(D | T) con P(T | D), P(D’)=0.97
affermando che il paziente positivo al test ha una prob. 0.90 P(D’ e T’)= P(T’ |D’) P(D’)
=0.98×0.97=0.9506
di avere la malattia in questione
Statistica 2010/2011 67 Statistica 2010/2011 68
A chi è incuriosito dalla probabilità e vuole capire il suo ruolo nella
Esempio: test diagnostico /7 vita quotidiana, suggerisco due eccellenti libri divulgativi

Cosa succederebbe se lo stesso test fosse usato per una


malattia piuttosto rara, con prevalenza di 3 su 1000?
Applicando la formula di Bayes con P(D)=0.003:

(0.90)(0.003)
P( D | T ) = = 0.119
(0.90)(0.003) + (0.02)(0.997)

Il test produrrebbe una quantità enorme di falsi positivi, cioè


soggetti sani per i quali il test segnala la malattia (questo fa
capire perché gli screening di massa siano problematici)
Statistica 2010/2011 69 Statistica 2010/2011 70