Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Dispense
INDICE
1. Probabilità generale
Calcolo combinatorio (Permutazioni, Disposizioni, Combinazioni)
Spazio campionario
Insieme delle parti, Evento, Spazio degli eventi
Funzione di probabilità, Spazio di probabilità
Assiomi di Kolmogorov, Regola additiva generale
Probabilità uniforme
Probabilità complementare
Leggi di De Morgan
Definizione di probabilità condizionata (e corollari)
Teorema delle probabilità totali
Teorema di Bayes (e corollario)
Indipendenza di eventi
2. Variabili casuali
Variabili casuali discrete e continue
Funzioni di densità e ripartizione
Valore atteso
Varianza
Momenti e funzione generatrice
Probabilità congiunta e marginale
Indipendeza di variabili casuali
Mediana, Moda, Mediana, Quantili
Variabili Uniformi (discreta e continua)
Variabile di Bernoulli
Variabile Binomiale
Variabile di Poisson
Variabile Esponenziale
Relazione Poisson-Esponenziale
Variabile Geometrica
Variabile Normale e Normale Standard
Considerazioni sulla Normale
Considerazioni sulla Normale Standard
Calcolo delle aree
Approssimazioni alla Normale Standard
Disuguaglianze (Markov e Chebyshev)
3. Stimatori
Definizioni: Campione casuale, Statistica, Stimatore
Media campionaria (valore atteso e varianza)
Varianza campionaria
Proprietà degli, Errore quadratico medio
Legge debole dei grandi numeri
Teorema del limite centrale
Probabilità generale
Calcolo combinatorio
Evento
È un sottoinsieme di . L’insieme di tutti gli eventi si chiama Spazio degli eventi, e corrisponde all’insieme
delle parti di , cioè , che è l’insieme di tutti i sottoinsiemi di .
Evento qualsiasi A oppure A
Evento elementare dove è un sottoinsieme di che contiene un solo oggetto di
Funzione di probabilità
È una funzione P : 0,1 , quindi che associa ad ogni evento un numero reale compreso tra 0 e 1.
Questo numero rela indica infatti la proabilità che avvenga un certo evento.
Spazio di probabilità
È una tripla , , P dove è lo spazio campionario, A è lo spazio degli eventi, e P è la funzione
di probabilità.
Assiomi di Kolmogorov
Indicano le proprietà della funzione di probabilità
1) P A 0 A Per qualsiasi evento esiste una probabilità positiva o nulla (negativa non ha senso)
2) P 1 Evento certo
3) PØ 0 Evento impossibile
4) P A B P A PB solo se A e B sono incompatibili
N.B.: se A B Ø allora A e B sono eventi incompatibili, cioè non hanno elementi in comune.
Probabilità uniforme
ampiezza di A
È una funzione di probabilità particolare, tale che, dato l’evento A , P A
ampiezza di
Probabilità complementare
Poiché vale sempre che: P A P A 1 Allora vale anche che: P A 1 P A
Leggi di De Morgan
AB AB AB AB
Definizione di probabilità condizionata
P A B P A B
P A | B e PB | A
PB P A
Teorema di Bayes
È un’estensione della probabilità condizionata e delle probabilità totali.
Alle stesse ipotesi delle probabilità totali, vale che:
P A | Bk P Bk P A | Bk PB k
P Bk A n
P A
P A | Bi P Bi
i 1
Corollario di Bayes
Indipendenza di eventi
Variabile casuale
È una funzione X : R dove è lo spazio campionario e R è l’insieme dei numeri reali. Quindi la
variabile associa ad ogni risultato dell’esperimento un numero reale.
Esempio:
Nel lancio di un dado la variabile casuale può assumere i valori {1,2,3,4,5,6} che sono gli stessi valori restituiti,
in quanto numeri reali. Nel lancio di una moneta i valori {Testa,Croce} sono i valori che assume la variabile, la
quale restituisce due valori reali, ad esempio 0 e 1.
Caso continuo:
La funzione di densità è definita f (x ) tale che f x dx 1 . Quindi è come dire P 1 .
Si noti che nel caso continuo la probabilità che la variabile X assuma un valore x è nulla, in quanto il dominio
non è numerabile (vedi definizione di variabile casuale continua) quindi: P X x 0 .
Nel caso continuo ha più senso chiedersi qual è la probabilità che X assuma un certo intervallo di valori.
Funzione di ripartizione
È una funzione che descrive la probabilità che una variabile casuale sia minore o uguale a un certo valore.
Quindi in generale si indica F ( x) P X x .
Inoltre vale la regola generale che lim F x 0 e lim F x 1 .
x x
Caso discreto:
F ( x) f x
xi x
i
1)
Dati due lanci di una moneta {Testa,Croce}, diciamo che X è la variabile “somma” dei due valori codificati
come Testa=1 e Croce=0.
- I valori o risultati possibili quindi sono, cioè i valori che può assumere X sono:
0 (Croce-Croce), 1 (Testa-Croce o Croce-Testa), 2 (Testa-Testa)
- Le densità (o masse) sono:
1 1 1 1 1
P ( X 0) , P( X 1) , P( X 2)
4 4 4 2 4
- Le ripartizioni sono:
1
P ( X 0) P ( X 0)
4
1 1 3
P( X 1) P( X 0) P ( X 1)
4 2 4
1 1 1
P( X 2) P( X 0) P( X 1) P ( X 2) 1
4 2 4
N.B.: la funzione ripartizione del valore più alto (2 nell’esempio) è sempre 1, perché è la somma di tutte le
probabilità.
2)
x/8 0 x 4
f x { 0 altrimenti
4 4
x x 2 16
è una funzione densità, infatti f ( x) 0 e f x dx dx
0 1
8
0 0
16 16
Valore atteso EX
Il valore atteso (o valore medio) è il baricentro della distribuzione. Il valore atteso di una variabile casuale
rappresenta la previsione teorica del valore che tale variabile assumerà nell’ipotesi di eseguire un numero
elevato di prove.
EX x f x dx (caso continuo)
x
E Xr i
r
f xi (caso discreto)
i
x
E Xr r
f x dx (caso continuo)
E g X g x f x i i (caso discreto)
i
E g X g x f x dx (caso continuo)
Per poter avere una buona rappresentatività del valore atteso è necessario un indice che misuri di quanto il
valore atteso si discosta dai dati, cioè la varianza. Essa quindi rappresenta la variabilità dei valori su tutta la
distribuzione.
Definizione di varianza:
2
Var X x i E X f x i (caso discreto)
i
2
Var X x E X f x dx (caso continuo)
E a 2 X 2 E b 2 E 2abX a 2 E 2 X b 2 2abE X
a 2
E X b 2abE X a E X b 2abE X
2 2 2 2 2
a2 E X a E X a E X E X a Var X
2 2 2 2 2 2 2
Deviazione standard:
2
Covarianza.
Cov X E X Y E X E Y
se X Y allora: Cov X 0 e Var X Y Var X Var Y Cov X , Y Var X Var Y
Coefficiente di correlazione:
Cov X , Y
XY
X Y
se X Y allora: Cov X 0 XY 0
Momenti e Funzione generatrice dei momenti
Derivata prima della funzione gen. dei momenti, calcolata in zero: mX/ 0 E X
Derivata seconda della funzione gen. dei momenti, calcolata in zero:
mX// 0 E X 2
Derivata terza della funzione gen. dei momenti, calcolata in zero: mX/// 0 E X
3
…
Derivata r-esima della funzione gen. dei momenti, calcolata in zero:
mXr esima 0 E X r
Date le variabili casuali X 1,...X k , allora la variabile X 1,...X k si definisce variabile k-dimensionale. La
variabile casuale X 1,...X k è definita variabile casuale k-dimensionale che assume x 1 ,...x k valori dello
spazio a “k” dimensioni. Le variabili casuali X 1,...X k vengono chiamate variabili congiunte.
Se X 1,...X k è una variabile casule k-dimensionale, la funzione di densità congiunta di X 1,...X k indicata
f X 1,... X k x 1 ,...x k viene definita: f X 1,... X k x1 ,...x k P X 1 x1 ;...; X k x k1 .
X Y P X , Y P X PY f X x f Y x
dove P X , Y è la probabilità congiunta.
e vale anche che:
E X Y E X E Y
Var X Y Var X Var Y
Cov X , Y XY 0
Media di una variabile casuale
È semplicemente il valore atteso, già descritto e calcolato nella pagine precedenti.
F X P X Me 0,5
Quantili
Si definisce "quantile di ordine alfa" o, più brevemente, quantile alfa, un valore della distribuzione che è
maggiore di una percentuale alfa della popolazione.
Per esempio:
- il quantile 0,5 è la mediana (maggiore del 50% della popolazione)
- il quantile 0,25 è il primo quartile (maggiore del 25% della popolazione, cioè un quarto)
- il quantile 0,99 è il novantanovesimo percentile (maggiore del 99% della popolazione)
Di qui si può vedere che quartili, decili e percentili sono semplicemente casi particolari di quantili.
Variabili uniformi
Uniforme Discreta
Probabilità di un evento su n eventi equiprobabili.
Dominio: X { 0,1,2 ,...n}
1
Densità: f X x per x 1,2...n
n
1
Ripartizione: FX x x
n
n
n 1 n2 1 1
E X Var X m X t e it
2 12 i 1 n
Uniforme Continua
Probabilità di un evento su un intervallo di eventi equiprobabili.
Dominio: X {a,..., b}
1
Densità: f X x per a x b
ba
xa
Ripartizione: FX x per a x b 0 per x a 1 per x b
ba
E X
ab
Var X
b a 2 m X t
e bt e at
2 12 b a t
Variabile di Bernoulli
X ~ Bep
È la probabilità di successo/insuccesso su una prova. È un esperimento casuale che consiste in una singola
prova, i cui risultati possibili sono soltanto due: successo o insuccesso.
Dominio: X { 0 ,1} in quanto i risultati possibili sono solo due.
1 x
Densità: P X x p x 1 p
Poiché i valori sono solol due, la densità la possiamo già calcolare per tutti i casi possibili:
P X 0 1 p q NB: per convenzione si usa q per indicare 1 p q
P X 1 p
0 x0
Ripartizione: P X x
m X t p e t q
Dimostrazione:
1
e
m X t E e tX t xi
f xi e t 0 1 p e t 1 p 1 p e t p p e t q
i 0
Valore atteso:
EX p
Dimostrazione:
1
E X x i f xi 0 1 p 1 p p
i 0
Varianza:
Var X pq
Dimostrazione:
Var X E X 2 E 2 X 0 2 1 p 12 p p 2 p p 2 p1 p pq
Grafici:
Variabile Binomiale
X ~ Bin, p
È la probabilità di avere x successi su n prove. È un esperimento casuale che consiste in un insieme di n prove
ripetute con le seguenti caratteristiche:
1) Ad ogni singola prova si hanno solo due esiti possibili: ‘successo’ o ‘insuccesso’.
2) La probabilità p di ‘successo’ è costante.
3) Le prove sono indipendenti.
La variabile Binomiale e quella di Bernoulli sono praticamente uguali, l’unica differenza è che:
n =1 Variabile Casuale di Bernoulli
n >1 Variabile Casuale Binomiale
dove n è il numero di prove.
Dominio: X { 0,1,2 ,..., n} dove ogni singolo numero corrisponde al numero di successi x su n prove.
Il numero di successi x dev’essere per forza minore o uguale a n che è il numero totale di prove. Inoltre il
numero di successi è per forza maggiore o uguale a zero, perché logicamente non ci possono essere meno
di zero successi.
0 xn x
n nx
Densità: P X x p x 1 p
x
x
n i
Ripartizione: P X x p 1 p n i
i0 i
Moda: Mo X np Per i grafici è utile conoscere la moda, ovvero il valore più probabile.
x 0 x 0 x x 0
n
n n
L’ultimo passaggio è giustificato dalla regola del Binomio di Newton: k a k
b n x a b
k 0
Avendo trovato la funzione generatrice dei momenti:
E X mX/ 0 ... np Var X m X// 0 ... npq
Queste ultime due dimostrazioni sono molto lunghe e richiedono molti passaggi algebrici.
Grafici:
NB: nel grafico della Ripartizione c’è un “flesso” nel gradino corrispondente alla moda.
Variabile di Poisson
X ~ Po
Si consideri una prova che può avere solo due possibili esiti: successo e insuccesso. Siamo interessato a
contare quante volte si verifica l’evento “successo” in un arco di tempo prestabilito. La variabile di Poisson
descrive quindi la probabilità di x successi su n prove bernoulliane, in un intervallo di tempo, con media-
successi . Quindi è probabilità di v eventi in un intervallo di tempo di unità d, con media-eventi v d .
Dominio: X 0 , 0
e x
Densità: f X x per x 0 0 per x 0
x!
x
e i
Ripartizione: P X x per x 0 0 per x 0
i 0 i!
Dimostrazione:
e
m X t E e tX
tx e x
e e tx
x
e
et
x
e e e e e 1
t t
x0 x!
x 0 x!
x 0 x!
k x ek
poiché vale che :
x 0 x!
Valore atteso:
EX
Dimostrazione:
E X m X/ 0 e e 1 e t e 11 e t e 0 e 0
t
Varianza:
Var X
Dimostrazione:
Var X m X// 0
Grafici:
Variabile Esponenziale
X ~ Expv
Si supponga di essere interessati al tempo che è necessario per compiere un certo processo. Dato che non è
possibile sapere con certezza il momento esatto in cui il processo terminerà, si calcola il tempo che può
intercorrere tra due eventi, ovvero il tempo di un singolo evento, come ad esempio l’inizio e la fine di un
processo. Quindi la variabile esponenziale è la probabilità del tempo di un evento. Ricorda che v è il numero
di eventi, infatti il valore atteso è E X 1 v . Ad esempio se 4 eventi avvengono nel tempo di 1 minuto,
allora ogni evento avverrà in media in un tempo pari a 1 4 del totale (1 minuto), perciò 15 secondi.
Dominio: X 0 , v0
Densità: f X x v e v x per x 0 0 per x 0
Ripartizione: F x P X x 1 e v x
per x 0 0 per x 0
x
dF x
Si noti che, essendo una variabile continua, vale che f X x e che FX x f t dt
dx
Dimostrazioni:
x x
FX x
v e vt v e vt e vt
x
0
e v x e 0 1 e v x
0
dF x
f X x e v x v v e v x
dx
Grafici:
Il conteggio del numero di eventi in un intervallo di tempo ha una distribuzione di Poisson. Supponiamo che
si sia appena verificato un evento: la distribuzione dell’intervallo di tempo X che dovrà trascorrere fino al
prossimo evento è P X t P(nessun evento avvenga nell’intervallo t)= e vt dove v è il numero di eventi
nell’unità di tempo.
La correlazione si nota anche dal parametro: nella Poisson il parametro v d è la media di v eventi in un
tempo di unità d; nella Esponenziale il parametro v è inteso come il numero di eventi come nella Poisson.
Infatti per la Poisson il valore atteso è proprio , quindi è un numero di eventi nel tempo, mentre per
l’Esponenziale il valore atteso è il reciproco 1 v , quindi la quantità di tempo per un singolo evento.
Variabile Geometrica
X ~ Gep
È la probabilità di x insuccessi bernoulliani per ottenere il primo successo.
Immaginiamo una serie di prove bernoulliane con probabilità di successo "p", ma invece di considerare il
numero di successi ottenuti in queste prove, guardiamo al numero di prove necessarie per ottenere il primo
successo.
Indichiamo con X il numero di insuccessi prima di arrivare al primo successo. Ovviamente: X=0,1,2,…, fino ad
infinito. Il problema è come assegnare la probabilità P(X=x).
Consideriamo ad esempio: X=3. L'evento che ci interessa è I I I S : cioè una serie di tre "insuccessi"
ed un "successo". Poiché le prove sono indipendenti e le probabilità costanti avremo:
3
P X 3 PI I I S 1 p 1 p 1 p p 1 p p
x
Generalizzando: P X x p1 p
Dominio: X 0
x
Densità: P X x p1 p per x 0 0 per x 0
x
i
Ripartizione: P X x p1 p per x 0 0 per x 0
i0
Funzione generatrice dei momenti, Valore atteso, Varianza:
p 1 p 1 p
m X t E e tX t
E X
p
Var X 2
1 q e p
Grafici:
Normale
X ~ N , 2
Dominio: X R
2 t 2
t
Funzione generatrice dei momenti: m X t E e e
tX 2
2 2
x x 1 t
1 1
Densità: f X x
2 2
2
2
e Ripartizione: F X ( x)
2
e
0
dt
Normale standard
Z ~ N 0,1
X
Standardizzazione: Z
con X ~ N , 2
t2
Funzione generatrice dei momenti: m X t E e
tX
e 2
2 2
1
z
1 t
z
f Z z 2 e 2 dt
Densità:
2
e Ripartizione: FZ ( z )
2
(uso delle tavole)
Una proprietà importante da ricordare è che l’area del grafico è sempre uguale a 1. Questa è una proprietà di
qualsiasi funzione continua, ma è bene e utile ricordarlo soprattutto per la normale. Una proprietà ulteriore
che appartiene solo alla normale è che la retta verticale passante per il valore atteso posizionato al centro
della distribuzione (grafico di densità) divide il grafico in due parti simmetriche identiche: questo significa che
le aree a sinistra e a destra della retta verticale passate per sono entrambe uguali a 1 2 .
Per disegnare i grafici bisogna fare attenazione al valore atteso e alla deviazione standard .
Nel caso di funzione di densità, la deviazione standard (cioè la radice della varianza) modella l’altezza e la
larghezza del grafico. Pensando al significato di varianza, che è la “variabilità” dei valori della distribuzione,
più essa è grande più i valori saranno distribuiti, perciò vuol dire che l’area dovrà essere alta anche ai lati del
grafico, e questo provoca un effetto di larghezza: poiché l’area totale non può cambiare, di conseguenza il
grafico sarà più “basso”.
Quindi, quando la varianza è piccola la “campana” del grafico sarà alta e stretta, mentre quando la varianza è
grande la “campana” sarà bassa e larga.
Il significato del valore atteso è molto più semplice: indica semplicemente il centro della distribuzione;
perciò se si cambia il valore atteso ma la varianza rimane la stessa, l’effetto è che si trasla il grafico a destra
(se aumenta) o a sinistra (se diminuisce).
Certe proprietà si possono riscontrare anche sul grafico della ripartizione: il valore atteso ha sempre lo stesso
significato (se cambia, il grafico trasla); all’aumentare della deviazione standard, il grafico “sale in anticipo” e
“scende in ritardo”, e viceversa al diminuire “sale in ritardo” e scende in anticipo”. Questo per lo stesso
motivo di prima, cioè se la varianza è grande, i valori lontano dal centro saranno più alti.
Un’ultima proprietà che si nota è che i “flessi”, che cambiano il grafico da convesso a concavo e viceversa, si
trovano esattamente in corrispondenza dei punti e .
Considerazioni sulla Normale Standard
La normale standard gode di tutte le proprietà di una qualsiasi normale. Nel caso della normale standard, ci
sono ulteriori proprietà: una su tutte è quella della simmetria rispetto allo zero, cioè all’asse y delle ordinate.
Questo significa che i valori opposti sono alla stessa distanza dal centro, e quindi l’area da 0 a x è uguale
all’area da –x a 0.
Una domanda molto frequente è quella di calcolare l’area della normale compresa tra due punti a e b. Si
capisce che è uguale alla ripartizione in b meno la ripartizione in a. Per cui la formula è F b F a .
Nel caso di una normale standard, una domanda ricorrente è quella di calcolare l’area tra due punti
simmetrici rispetto allo zero. Anche in questo caso vale F b F a , che è in particolare uguale a
F b F b e nel nostro esempio in figura è F 2 F 2 . Nella normale strandard si nota inoltre che
F 2 1 F 2 poiché il grafico è simmetrico e l’area totale vale 1. In conclusione, per una normale
standard, l’area compresa tra due punti simmetrici è F k F k F k 1 F k 2 F k 1 .
Quest’ultima formula vale solo se il grafico è simmetrico rispetto allo zero (e la normale standard ne è un
esempio classico).
Attenzione, perché quest’ultima formula non vale in generale: la normale generale è simmetrica rispetto al
proprio asse, ma non è sempre centrata in zero, perciò in generale F k F k . Nel nostro esempio
(figura 3) si vede che i punti equidistanti sono 0 e 4 e si noti che F 4 1 F 0 1 F 4 .
Infine, si noti che se la variabile qualsiasi ma è centrata rispetto allo zero ma non è simmetrica, di nuovo
F k F k , come si nota dalla quarta figura.
Approssimazioni alla Normale Standard
Disuguaglianza di Markov
Ipotesi: Data la v.c. X che assume solo valori maggiori o uguali a zero, e dato un valore reale z 0
EX
Tesi: P X z )
z
Dimostrazione: Fissiamo un valore k tale che x k 1 z e x k z
Caso discreto:
E X x i f xi x i f x i
x i f x i x i f x i z f x z f x z P X z
i i
i ik ik ik ik ik
Caso continuo:
z
E X x f x
x f x x f x x f x z f x z f x z P X z
z
z
z z
Disuguaglianza di Chebyshev
Ipotesi: Data la v.c. X e R
Var X Var X
Tesi: P X E X 2
oppure P X E X 1
2
E X E X Var X
2
Dimostrazione: P X E X P X E X 2
2
2 2
DEFINIZIONI
Data la variabile casuale X si definisce X 1, X 2,..., Xn un campione casuale di ampiezza n della distribuzione
X. Anche un campione casuale è una variabile casuale.
Una statistica è una qualsiasi funzione delle componenti del campione, cioè è una funzione
T f X 1, X 2,..., Xn della variabile casuale X 1, X 2,..., Xn . Ogni statistica è a sua volta una variabile casuale
con una distribuzione, un valore atteso e una varianza.
Uno stimatore è una statistica Tn le cui determinazioni servono a fornire delle stime del parametro ignoto
della variabile casuale X in cui sono state effettuate le n prove.
LA MEDIA CAMPIONARIA
Se è ignoto il valore atteso della distribuzione, si usa come stimatore la media campionaria X , cioè la
media delle variabili per stimare il valore atteso, quindi:
1 n
X
Xi
n i 1
La media campionaria è una statistica T f X 1, X 2,..., Xn della variabile casuale X 1, X 2,..., Xn . Essendo
una statistica, la media campionaria ha una distribuzione, un valore atteso e una varianza.
LA VARIANZA CAMPIONARIA
Se è ignota la varianza 2 della distribuzione, si usa come stimatore la varianza campionaria:
n
1
X X
2
Sn2 i
n 1 i 1
Attenzione a non confondere la varianza campionaria con la varianza della media campionaria.
Proprietà degli stimatori
Uno stimatore Tn si dice corretto o non distorto quando il valore atteso dello stimatore coincide con il
parametro stimato della distribuzione: E Tn . La media campionaria è un esempio di stimatore corretto
per il valore atteso, mentre la varianza campionaria è uno stimatore corretto per la varianza.
1 n 1 n 1 1
Media campionaria: E X E
n n
X i E X i n E X n
n n
i 1 i 1
Stimatore distorto
Se lo stimatore Tn non è corretto vuol dire che c’è una distorsione, indicata BiasTn :
BiasTn E Tn
Ovviamente se lo stimatore è corretto la distorsione è uguale a zero.
Infatti nel caso della media campionaria: E Tn E X 0
L’efficienza di uno stimatore Tn si controlla calcolando EQM Tn : più è basso EQM Tn e più è efficiente lo
stimatore Tn . Un modo per cercare di avere EQM Tn basso è cercare di avere una distorsione bassa, in
quanto EQM Tn è la somma tra varianza e il quadrato della distorsione.
Stimatore consistente
Uno stimatore è consistente se EQM Tn tende a (0) per n che tende a infinito. Nel caso quindi di uno
stimatore non distorto EQM Tn Var Tn , quindi la Varianza deve tendere a (0) per n che tende a infinito.
La media campionaria è un esempio di stimatore non distorto e consistente.
1 2 2
Var X
n
Var X
n
infatti:
n
0 per n
Teoremi sulla Media Campionaria
2 2
quindi se 1 1 allora
n 2 n 2