Sei sulla pagina 1di 11

1

Eventi

Consideriamo solo eventi decidibili per i quali si possa dire che sono o veri o
falsi. Gli eventi aleatori non sono determinabili con certezza
Esempio - Esperimenti aleatori
1 Lancio di una moneta (T,C);
2 Lancio di un dado (1,2,3,4,5,6).
Indichiamo con levento certo (accade sempre). Esso `e formato dalla
partizione di eventi elementari.
Esempio - e gli i
1 {1 = T, 2 = C};
2 {1 = 1, 2 = 2, . . . , 6 = 6}.

algebra e i tre assiomi della probabilit`


a

Su si definisce un insieme di eventi ai quali si vuole assegnare una probabilit`


a.
Tale insieme che `e chiuso rispetto alle operazioni di negazione, intersezione (e
prende il nome
quindi unione grazie alla legge di DeMorgan: A B = A B)
di algebra degli eventi o algebra.
Esempio - A
1 A = {T, C, , };
2 A = {1, 2, 3, 4, 5, 6, Tutte le intersezioni, Tutte le unioni, , }.
La probabilit`
a non `e definita univocamente ed esistono tre definizioni:
definizione razionalista La probabilit`
a `e il quoziente tra i casi favorevoli
e quelli possibili. Utile per giocare a carte, ma poco utile se si vuole
calcolare la probabilit`
a che un aereo precipiti.
definizione frequentista In infinite prove sperimentali tutte uguali, la
probabilit`
a di un esito sperimentale `e il limite del quoziente tra il numero
di successi e numero di prove. Utile per capire se un dado `e truccato
ed `e molto utilizzata nellanalisi di simulazione di numeri pseudo casuali.
Tuttavia `e di scarso interesse se volessi calcolare la probabilit`
a che precipiti
laereo su cui sto per salire.
definizione soggettivistica La probabilit`
a `e il grado di fiducia che un
individuo attribuisce ad un evento. Esso `e collegato al concetto epistemico
di probabilit`
a, in cui la probabilit`
a `e la quantit`
a di moneta disposto a
pagare per scommettere su un evento e quindi ricevere un premio pari a
1 unit`
a di moneta.

I calcoli di probabilit`
a sugli eventi si basano su 3 assiomi per il calcolo delle
probabilit`
a utilizzati nel corso sono i seguenti.
1 A A, `e associato un numero reale 0 Pr(A) 1;
2 Pr() = 1;
3 A, B A, con A B = , Pr(A B) = Pr(A) + Pr(B).
Tale sistema di assiomi si completano con la definizione di probabilit`
a condizionata per gli eventi A, B A, con Pr(B) > 0. Si definisce probabilit`
a di A
condizionata allaccadere di B o, pi
u semplicemente, di A dato B il rapporto
Pr(A | B) =

Pr(A B)
,
Pr(B)

che nella versione


Pr(A B) = Pr(A | B) Pr(B)
prende il nome di teorema delle probabilit`
a composte.
La terna {, A, P } `e detta spazio di probabilit`
a.

Indipendenza

Due eventi si dicono indipendenti stocasticamente se


Pr(A | B) = Pr(A).
A parole la definizione pu`
o avere la seguente interpretazione: la conoscenza
di B non ci apporta nulla sulla conoscenza di A. La dipendenza stocastica
non `e insita negli eventi, ma nellassegnazione della probabilit`
a agli eventi.
Dallindipendenza discende che
Pr(A B) = Pr(A) Pr(B).

Teorema di Bayes

La seguente formula permette di ricostruire la probabilit`


a di un evento a partire
dalle probabilit`
a condizionate:
Pr(E | H),
H, E .
Pr(E) = Pr(H) Pr(E | H) + Pr(H)
Il Teorema di Bayes ci permette di aggiornare la nostra credenza a priori su
unipotesi H in seguito allesito E dellesperimento. Dato levento E e la
partizione dellevento certo {Hj , j = 1, . . . , k}, con Pr(E) > 0 e Pr(Hj ) > 0, j,
si ha
Pr(Hj | E) = Pr(Hj )

Pr(E | Hj )
Pr(Hj ) Pr(E | Hj )
.
= Pk
Pr(E)
i=1 Pr(Hi ) Pr(E | Hi )
2

E conveniente rappresentare il teorema di Bayes tramite un albero.


Esempio - Teorema di Bayes
Supponiamo che una malattia rara,H abbia una certa incidenza sulla popolazio = 1 Pr(H) = 1 104 ) e che esista una procedura
ne Pr(H)=1
(quindi Pr(H)
104
di test che rileva la malattia E (E rappresenta lesito del test, levidenza empirica) con le seguenti probabilit`
a: quando il soggetto `e malato la probabilit`
a
che il test sia positivo `e Pr(E | H) = 0.9, mentre se `e sano lerrore del test `e
= 0.1. Calcolare la probabilit`
Pr(E | H)
a che una persona sia malata quando il
test `e positivo.

Pr(H | E) =
=

Pr(E | H) Pr(H)
Pr(H)

Pr(E | H) Pr(H) + Pr(E | H)


0.9 104
4
0.9 10 + 0.1 (1 104 )

9 104 ,

Ovvero la nostra credenza sul fatto che la persona abbia la malattia `e aumentata
di circa 9 volte, tuttavia `e sempre una probabilit`
a relativamente piccola.

Variabili Aleatorie

Per un dato spazio di probabilit`


a {, A, P }, La variabile aleatoria (v.a.) X X
`e una applicazione X() su . A seconda di X , la v.a. pu`
o essere quantitativa
(continua, discreta) o qualitativa (ordinabile/non ordinabile). Indichiamo con
x la realizzazione della v.a. La legge di probabilit`
a di X `e quella indotta da P
su A.

Alcuni risultati elementari

Alcuni risultati elementari per il calcolo delle probabilit`


a
= 1.
A A, Pr(A) + Pr(A)
Pr() = 0.
A A, Pr(A) 1.
Se A B Pr(A) Pr(B).
A, B A si ha Pr(A B) = Pr(A) + Pr(B) Pr(A B).
S
P
Per ogni collezione A1 , A2 , . . . , An A si ha Pr( nj=1 Aj ) nj=1 Pr(Aj ).
A, B A si ha Pr(A B) Pr(A) + Pr(B) 1.

Teorema delle probabilit`


a totali. Per ogni collezione
di eventi
Sn
Pn mutuamente incompatibili A1 , A2 , . . . , An A si ha Pr( j=1 Aj ) = j=1 Pr(Aj ).
3

Esempio - Variabile Aleatoria


1 A = {T, C, , }, supponiamo che Pr(T ) = Pr(C), allora la v.a. X come
vale 1 se = T e 0 altrimenti ha la seguente legge di probabilit`
a: Pr(X =
1) = Pr(X = 0) = 0.5;
2a A = {1, 2, 3, 4, 5, 6, , }, supponiamo che il dado sia equilibrato e che
X conti il punteggio in 1 lancio del dado. Allora Pr(X = x) = 1/6, x =
1, . . . , 6.
2b A = {1, 2, 3, 4, 5, 6, , }, supponiamo che il dado sia equilibrato allora
la v.a. X definita come vale 1 se il risultato `e pari e 0 altrimenti ha la
seguente legge di probabilit`
a: Pr(X = 1) = Pr(X = 0) = 0.5.

Funzione di ripartizione e densit`


a

Si definisce funzione di ripartizione (in sigla f.r.) o funzione cumulata di probabilit`a


della v.a. X X la funzione F (x) = Pr(X < x).
Valgono le intuitive propriet`
a: (i) limx F (x) = 0, limx+ F (x) = 1;
` facile vedere che
(ii) x1 < x2 F (x1 ) F (x2 ); (iii) F (x) = F (x ). E
Pr(x X < x + h) = F (x + h) F P
(x), h > 0.
P
Se la v.a. X `e discreta siP
ha F (x) = u<x Pr(X = u) = u<x f (u), essendo
f (u) = Pr(X = u), inoltre xX f (x) = 1. Se la v.a. X assume valori reali ed
esiste il limite
lim
h0

Pr(x X < x + h)
F (x + h) F (x)
= lim
= f (x) ,
h0
h
h

x X,

la v.a. X `e detta assolutamente continua (in sigla a.c.) in x. Il limite f (x)


prende il nome di funzione di densit`a di probabilit`a (in sigla f.d.p.) della v.a. X.
La f.r. F (x) `e una funzione integrale, potendosi
rappresentare come integrale
Rx
di una certa funzione f (x) 0: F (x) = f (u) du. Ed ancora: dF (x) =
R x+dx
R
f (x)dx
f (u)du = Pr(x X < x + dx), Pr(X E) = xE f (x)dx,
= x
R
f (x)dx = 1, etc.
xX

Speranza matematica, Varianza e Momenti

Si definisce speranza matematica


a cerP della funzione aleatoria (X), la quantit`
(x)
f
(x),
nel
caso
discreto,
e
E[(X)]
=
ta
(se
esiste)
E[(X)]
=
xX
R
(x)
f
(x)dx,
nel
caso
continuo.
X
P
La speranza matematica di (X)
= X k , k N, k = E(X k ) = xX xk f (x),
R
caso discreto, e k = E(X k ) = X xk f (x)dx, caso continuo, prende il nome di
momento kesimo della v.a. X.
Se k = 1, si ha 1 = = E(X), che prende il nome di media. La speranza
matematica di (X) = (X )2 , indicata con 2 = V ar(X) = E[(X )2 ],
4


prende il nome di varianza della v.a. X. La quantit`
a = 2 prende il nome
di s.q.m. o s.d. della v.a. X.
Se la v.a. X ha momento kesimo, k N, allora essa possiede tutti i
momenti di ordine inferiore a k. Non `e detto il viceversa.
s
Si definisce coefficiente di variazione della la v.a. X > 0 il rapporto V = .

I momenti godono di utili propriet`


a in parte gi`a viste in precedenza:
V ar(X) = E(X 2 ) [E(X)]2
E(aX + b) = a E(X) + b.
V ar(aX + b) = a2 V ar(X).
E(c) = c, V ar(c) = 0, E[(X a)2 ] = V ar(X) + ( a)2 .
La diseguaglianza di Tchebycheff (1821-1894) `e di estrema importanza nel
calcolo delle probabilit`
a e nellanalisi statistica: per ogni k > 0 reale si ha che
Pr(|X | k)

1
.
k2

Esempio: supponiamo di non conoscere la distribuzione di X, ma sappiamo solo


la media = 100 e la varianza 2 = 4, allora la Pr(|X 100| 3) 0.44.

Modelli Probabilistici

I modelli introdotti di seguito trovano amplia applicazione in statistica. Con il


simbolo X p(x | ) si simboleggia il fatto che la v.a. X `e distribuita secondo la
legge p conoscendone gli opportuni parametri . Distingueremo tra leggi discrete
e continue. Tra loro `e possibile trovare delle relazioni che le accomunano. In
particolare si vedr`
a in seguito il teorema del limite centrale.

10
10.1

Leggi discrete
Uniforme Discreta

Consideriamo X partizionato in k < classi e assegniamo ad ogni classe la


probabilit`
a p = 1/k. La legge dice che ogni classe `e equiprobabile. Esempio: il
punteggio nel lancio di un dado equilibrato segue una legge uniforme discreta
sullinsieme X = {1, 2, 3, 4, 5, 6} con p = 1/6.

10.2

Bernoulli Bin(1, p)

Questo modello determina la probabilit`


a di successo o insuccesso in 1 prova
essendo p la probabilit`
a di successo. X = 1 se si `e verificato un successo.

Consideriamo X = {{0}, {1}} e p = Pr(X = 1) rappresenta la probabilit`


a di
successo. La legge di Bernoulli ha la seguente forma
Pr(X = x | p) = px (1 p)1x .

La media `e = p e la varianza `e 2 = p(1 p). Esempio: Lancio di una moneta


equilibrata dove T rappresenta il successo. Pertanto Pr(X = x) = 0.5x 0.51x .
Il punteggio medio `e 0.5 e la varianza `e 0.25. Si noti che per p = 0.5 la varianza
`e massima e la distribuzione `e simmetrica.

10.3

Binomiale Bin(n, p)

Questo modello determina la probabilit`


a di successo o insuccesso in n prove
bernoulliane indipendenti e identicamente distribuite con probabilit`
a di successo p. X conta il numero di successi in n prove. La somma di n v.a. di Bernoulli indipendenti e identicamente distribuite (nel seguito iid) segue la legge
Binomiale
 
n x
Pr(X = x | p) =
p (1 p)nx , X X = {0, 1, 2, . . . , n},
x

dove nx `e il coefficiente binomiale
 
n!
n
.
=
x!(n x)!
x
La media della somma di n v.a. di bernoulli `e la media della binomiale = np
e la varianza della somma di n v.a. bernoulliane indipendenti `e 2 = np(1 p).
Esempio: in 10 lanci di una moneta la probabilit`
a di osservare pi`
u di 2 teste `e

Pr(X > 2) = 1Pr(X 1) = 1Pr(X = 0)Pr(X = 1) = 10.000970.00986 = 0.9892.

10.4

Geometrica G(p)

Questo modello determina la probabilit`


a di ottenere 1 successo in X prove. X
conta il numero delle prove necessarie per ottenere 1 successo, cio`e il successo `e
ottenuto alla x-esima prova.
Pr(X = x | p) = p(1 p)x1 .

E(X) = 1/p, V ar(X) = (1 p)/p2 .

10.5

Pascal

Questo modello determina la probabilit`


a di ottenere k 1 successi in X prove.
X conta il numero delle prove necessarie per ottenere k successi, cio`e il successo
k-esimo `e ottenuto alla x-esima prova.


(x 1) k
Pr(X = x | p) =
p (1 p)xk .
k1
E(X) = k/p, V ar(X) = k(1 p)/p2 .

10.6

Binomiale negativa BiNeg(p)

Questo modello determina la probabilit`


a di ottenere k 1 successi dopo Y
insuccessi. Y conta il numero di insuccessi necessari per ottenere k successi,
cio`e il successo k-esimo `e ottenuto dopo ly-esimo insuccesso. Il modello si
ottiene dal modello Pascal sostituendo x = k + y


(k + y 1) k
Pr(Y = y | p) =
p (1 p)y .
k1
E(Y ) = k(1 p)/p, V ar(Y ) = k(1 p)/p2 .

10.7

Ipergeometrica

Questo modello determina la probabilit`


a di X successi in n estrazioni da un urna
che contiene N oggetti di cui D determinano successi e N D insuccessi. La
composizione le urne precedenti corrispondono al caso N = . La probabilit`
a
di X
=
x
`
e
data
dal
quoziente
tra
il
numero
di
casi
favorevoli
su
quelli
possibili

N
n

Pr(X = x | D, N ) =

D
D
e la varianza `e n N
1
La media `e n N

10.8

D
N

D
x

N D
nx

N
n

  N n 
N 1 .

Poisson P oisson()

Questo modello determina la probabilit`


a di X eventi rari in un numero infinito
di prove. Si ottiene come limite per n , np > 0 della legge binomiale:
Pr(X = x | )

=
=
=

n!
px (1 p)nx
x!(n x)!

 x 
nx

1
n
n

n 
x
x

n(n 1) (n x + 1)
1
1
nx
x!
n
n
x
e
x!
n(n 1) (n x + 1)
x!

Questa legge ha la caratteristica che la media e la varianza sono uguali e pari


a . Il parametro `e anche chiamata intensit`a del processo di Poisson nellintervallo di tempo unitario. Esempio1: il numero di chiamate ad un centralino
telefonico `e pari a 5 allora. Calcolare la probabilit`
a che ci siano esattamente 5
chiamate in 2 ore. Lintensit`a del processo in 2 ore `e pari a 2 = 10, dunque
la probabilit`
a cercata `e Pr(X = 5) = 105 /5!e 10 = 0.0378. Esempio2: Supponiamo nellesempio precedente che la probabilit`
a di ricevere una chiamata al
minuto sia p = 5/60. Calcoliamo la probabilit`
a di ricevere 5 chiamate in 2 ore.
7

Utilizzando il modello binomiale n = 60 2 = 120 si ottiene Pr(X = 5) = 0.0345


simile a quella ottenuta con il modello di Poisson che approssima la probabilit`
a
ottenuta con il modello Binomiale. Quando n `e elevato non `e possibile calcolare
la probabilit`
a di successo con il modello Binomiale (numericamente difficile per
via del coefficiente binomiale) e occorre utilizzare il modello di Poisson come
approssimazione.

11

Leggi continue

Le leggi qui presentate fanno riferimento a una v.a. X X R.

11.1

Uniforme U(0, 1)

La variabile X ha legge uniforme nellintervallo di lunghezza finita [a, b] assegna


ad ogni punto in [a, b] la stessa densit`
a
f (x | a, b) =
La media `e

11.2

a+b
2

e la varianza `e

1
.
ba

(ab)2
12

Normale N(, )

La variabile < X < `e distribuita con legge normale con media e


varianza 2 se possiede la seguente densit`
a
2
1 1 (x)
f (x | , ) =
e 22 .
2

Questa legge `e molto importante in quanto `e la legge limite del teorema del teorema del limite centrale. Una v.a. normale X con media e sd pu`
o essere
trasformata in unaltra v.a. normale Z applicando la seguente trasformazione
(detta standardizzazione)
Z=

X
N (0, 1) = (z).

La v.a. Z ha media 0 e varianza 1.

11.3

Esponenziale Exp()

La variabile X > 0 `e distribuita con legge esponenziale con media e varianza


2 se possiede la seguente densit`
a
f (x | ) =

1 x
e
.

Il tempo di attesa tra due eventi in un processo di Poisson segue la legge esponenziale di parametro . La seguente propriet`
a `e caratterizzante della legge
esponenziale ed `e nota come assenza di memoria della legge esponenziale
Pr(X < t + t | X > t ) = Pr(X < t).
La media della esponenziale `e e la varianza 2 .

11.4

Gamma Gamma(a, )

La v.a. X > 0 `e distribuita con legge Gamma di parametri a, s se possiede la


seguente densit`
a:
a a1 x
f (x | a, ) =
x e
.
(a)
con media a/ e varianza a/2 . La somma di n v.a. Gamma indipendenti
Pn di
parametri
a
,

,
i
=
1,
.
.
.
,
n
`
e
ancora
una
gamma
con
parametro
a
=
i
i
i=1 ai ,
Pn
= i=1 i . Tale propriet`
a `e nota come propriet`
a riproduttiva della Gamma.
Casi particolari della Gamma sono:
distribuzione esponenziale = Gamma(1,);

distribuzione 2 con n gradi di libert`


a (vedi prossima sezione)= Gamma( 2 , 21 ).

11.5

Chi-Quadrato 2

La distribuzione 2 con parametro (gradi di libert`


a) `e una Gamma( 2 , 21 ). La
media `e e la varianza 2. La somma di n v.a. normali standardizzate ( = 0,
= 1) ha una distribuzione 2 con = n gdl. Esempio, sia X N (, 2 )
allora la v.a. Z 2 = (X )2 / 2 ha una distribuzione 2 con 1 gdl.

11.6

T -Student t

Consideriamo due v.a. indipendenti: Z, normale standard e C 2 allora la


v.a.
Z
T := p
t = n,
Cn /n

`e distribuita T -Student con gradi di libert`


a (gdl). Per 50 la T-student
coincide numericamente con la distribuzione normale standard.

11.7

F -Fisher n, m

Consideriamo due v.a. indipendenti: Cn 2n , Cm 2m , allora la v.a.


F :=

Cn /n
Fn,m ,
Cm /m

`e distribuita con legge F -Fisher con n gradi di libert`


a al numeratore e m gradi
di libert`
a al denominatore. Si noti che il quantile di F,n,m = 1/F1,m,n . Si
dimostra inoltre che se Tn tn allora Tn2 F1,n .
9

12

Teorema del limite centrale (TLC, CLT)

Assieme alla diseguaglianza di Tchebycheff questo teorema permette di caratterizzare il comportamento di v.a. per le quali non si assume un modello probabilistico. In particolareP
questo teorema riguarda la somma di v.a.. Lenunciato `e
il seguente: sia Sn = ni=1 Xi la somma di v.a. i.i.d. con media e varianza 2
allora per n Sn N (n, n 2 ). Pertanto se abbiamo la somma di n v.a.
indipendenti e identicamente distribuite, di cui non conosciamo la distribuzione,
possiamo applicare il teorema del limite centrale. La versione pi`
u utilizzata del
TLC `e la seguente:
Sn
N (0, 1).

= Sn /n allora la media
Se invece di considerare Sn considerassimo la media X
`e sempre , ma la varianza `e 2 /n. Applicando il TLC si ha che
di X

X
p
N (0, 2 /n 0) Dirac(0),
2
/n

tende in probabilit`
cio`e la media X
a alla media della popolazione . Tale
risultato che si pu`
o ottenere come applicazione del TLC o della diseguaglianza
di Tchebycheff `e noto come legge debole dei grandi numeri.
Il TLC ha anche unimportanza pratica per approssimare la distribuzione
di v.a.. Consideriamo, ad esempio, la somma, Sn , di n v.a. Bernoulli i.i.d. di
parametro p, allora Sn Bin(n, p). Tuttavia per n molto grande non possiamo
calcolare il coefficiente binomiale e ricorriamo allapprossimazione di Poisson
con parametro = limn np. Possiamo inoltre ricorrere alla distribuzione
normale per approssimare Bin(n, p). Lo facciamo utilizzando il teorema del
limite centrale:
Sn np
p
N (0, 1).
np(1 p)

13

Distribuzione di media e varianza campionaria per popolazioni normali

In questo paragrafo studiamo la distribuzione della media e della varianza campionaria nel caso di popolazioni normali. Tali distribuzioni sono utili sia nel
caso in cui la popolazione che produce le v.a. sia normale, sia quando non sia
normale, ma possa essere approssimata dalla legge normale grazie al TLC. Consideriamo n v.a. normali Xi per i = 1, 2, . . . , n i.i.d con media e varianza 2
e definiamo le v.a. media e varianza campionaria (diversa dalla varianza della
popolazione, 2 , che non `e una v.a. aleatoria, ma una costante)
n

X
1 X
= 1

X
Xi , e S 2 =
(Xi X).
n i=1
n 1 i=1

10

e S 2 sono v.a. indipendenti con


E possibile dimostrare che X
2
2
N (, ), (n 1) S 2 .
X
n1
2
n

Da tale risultato discende limportante corollario (corollario delle casse di


birra... dal racconto su Gosset):

X
tn1 .
S/ n
Limportanza di questo corollario risiede nel fatto che se non conoscessimo la
varianza della popolazione 2 , allora possiamo sostituirla con S 2 e la standar ha una distribuzione conosciuta.
dizzazione della v.a. X

11