Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Indice
3 Errori di misura 25
3.1 Il modello di Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 L'ipotesi gaussiana della distribuzione degli errori . . . . . . . . . 25
1
4 Stima dei parametri di una distribuzione 27
4.1 Gli estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Proprietà degli estimatori . . . . . . . . . . . . . . . . . . . . . . 27
4.3 L'estimatore media aritmetica e scarto quadratico medio . . . . . 28
4.4 La legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 29
4.5 Il metodo di massima verosimiglianza . . . . . . . . . . . . . . . 31
4.5.1 La funzione di verosimiglianza . . . . . . . . . . . . . . . 31
4.5.2 Il metodo di massima verosimiglianza applicato alla di-
stribuzione di Gauss . . . . . . . . . . . . . . . . . . . . . 32
4.5.3 Il metodo di massima verosimiglianza applicato alla di-
stribuzione di Poisson . . . . . . . . . . . . . . . . . . . . 33
4.5.4 Il metodo di massima verosimiglianza applicato alla di-
stribuzione esponenziale . . . . . . . . . . . . . . . . . . . 34
4.5.5 Metodi graci per il metodo di massima verosimiglianza . 35
4.6 Il metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . 38
4.6.1 Descrizione del metodo . . . . . . . . . . . . . . . . . . . 38
4.6.2 Il metodo dei minimi quadrati per una dipendenza lineare 39
5 Test d'ipotesi 43
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2 Test del χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3 La distribuzioni t-student ed F-student . . . . . . . . . . . . . . . 48
5.3.1 La distribuzione T-student . . . . . . . . . . . . . . . . . 48
5.3.2 La distribuzione F-student . . . . . . . . . . . . . . . . . . 49
2
1 Elementi di probabilità e statistica
1.1 La probabilità
Esistono più denizioni del concetto di probabilità ; nelle nostre considerazioni
sfrutteremo due formulazioni, una di natura sica e una di natura matemati-
ca.
Si consideri un determinato evento sico che possa manifestarsi in più mo-
dalità possibili, e si consideri un particolare esitoE . Indicheremo probabilità
di avvenimento dell'evento E , indicata con il simbolo P(E), il rapporto tra il
numero di casi in cui si presenta l'evento E e il numero di casi possibili, purché
tutti i casi siano equiprobabili. Così com'è denita, la probabilità assume la
forma di un numero, in particolare compreso tra 0 (nell'ipotesi in cui l'evento
E non si verichi mai) ed 1 (nell'ipotesi in cui l'evento E si verica sempre, e
dunque il numero di casi favorevoli coincide con il numero di casi possibili).
La denizione precedente assume una struttura prettamente matematica,
ed è denita a priori. D'altra parte, nell'ipotesi in cui il fenomeno analizzato
sia sconosciuto, potrebbe risultare più utile una denizione di natura sica:
si consideri allora una sequenza di esperimenti ripetuti nelle stesse modalità
n volte, e sia r il numero di volte in cui si presenti un particolare evento E;
deniremo allora la probabilità P (E) la quantità
r
P (E) = lim (1.1)
n→∞ n
Indicheremo inoltre con il termine di spazio dei campioni l'insieme di tutti i
possibili risultati di un esperimento.
P (X = xi ) = Pi (1.2)
X
Pi = 1 (1.3)
i
3
denire, più che la probabilità di osservazione di un unico punto x, la probabilità
di osservazione del valore x in un certo intervallo di valori. E' allora utile
denire una funzione densità di probabilità f (x), cioè una probabilità per unità
di variabile x per cui valga:
nAB nA
P (A ∩ B) = P (A ∩ B̄) =
N N
nB n0
P (B ∩ Ā) = P (Ā ∩ B̄) =
N N
nAB + nA nAB + nB
P (A) = P (B) = (1.6)
N N
Con, ovviamente,
nAB + nA + nB
P (A ∪ B) = (1.7)
N
Addizionando e sottraendo nAB otteniamo allora:
4
la formula di sopra restituisce la probabilità che avvenga un evento di A, B , o
di entrambi. Si osservi che essa si riduce alla semplice somma delle probabilità
nell'ipotesi in cui gli insiemi siano disgiunti, e non posseggano perciò eventi in
comune.
P (A ∩ B)
P (A|B) = (1.9)
P (B)
Infatti, poiché
nAB + nA nAB + nB
P (A) = P (B) = (1.10)
N N
...osserviamo come la probabilità condizionata che avvenga A datoB , risulti, in
particolare,
nAB nAB N P (A ∩ B)
P (A|B) = = = (1.11)
nAB + nB N nAB + nB P (B)
Analogamente, possiamo mostrare come:
P (A ∩ B)
P (B|A) = (1.12)
P (A)
Si dice che i due insiemi di eventi A e B sono indipendenti se la probabilità
condizionale di A relativa a B è indipendente da B, e coincide proprio con la
probabilità di A:
5
1.5 Proprietà della distribuzione di probabilità
1.5.1 La distribuzione cumulativa
Nelle prossime considerazioni supporremo la variabile casuale da noi analizzata
varii con continuità: tutte le nostre analisi possono tuttavia essere generalizzate
nel caso discreto sostituendo gli integrali con le sommatorie e la distribuzione
di probabilità con la probabilità.
Per ora, supporremo il nostro fenomeno possa dipendere da una sola variabile
casuale X, il cui dominio sarà lo spazio dei campioni Ω. In base a quanto detto
nei paragra precedenti,
Z
f (x)dx = 1 (1.16)
Ω
Possiamo innanzitutto osservare come, essendo f (x) una probabilità per unità di
lunghezza, dovrà essere necessariamente una quantità denita positiva. Inol-
tre, supporremo sia sucientemente regolare, in modo che l'integrale denito
sopra non diverga e sia possibile applicare un'operazione di derivata.
Spesso è utile sfruttare, in termini di probabilità, non la distribuzione di
probabilità di f (x), ma la cosiddetta distribuzione cumulativa F (x) così denita:
Z x
F (x) = f (x0 )dx0 (1.17)
xmin
6
così denita: Z
E[g(x)] = g(x)f (x)dx (1.19)
Ω
In questo senso la funzione f (x) pesa la funzione g(x) nell'integrazio-
ne. Dalla denizione di valore di aspettazione è possibile osservare come
E[a] = a (con a costante) e come E agisca su g(x) come un operatore li-
neare: dette infatti due funzioni g1 (x) e g2 (x) due funzioni della variaibile
casuale,
E[a1 g1 (x) + a2 g2 (x)] = a1 E[g1 (x)] + a2 E[g2 (x)] (1.20)
7
Si osservi come, nell'ipotesi in cui la distribuzione f (x) sia simmetrica ri-
spetto a µ, gli integrali associati a momenti di ordine dispari risultino nulli.
Un qualsiasi momento di ordine dispari non nullo può essere perciò preso co-
me indice dell'asimmetria della distribuzione di probabilità: si denisce allora
coeciente di asimmetria, o skewness, la quantità...
µ3
γ1 = 3/2
(1.27)
µ2
Si osservi come valori positivi di γ1 implichino una coda di f (x) più accentuata
verso i valori maggiori del valor medio, mentre per valor negativi avremo una
coda più accentuata per valori minori di µ.
Altro coeciente importante è il coeciente di piccatezza, o kurtosis, denito
come:
µ4
γ2 = −3 (1.28)
(µ2 )2
...che descrive quanto una distribuzione di probabilità risulti piccata attorno
al valor medio, rapportato ad una distribuzione di riferimento che analizzeremo
meglio in seguito (la distribuzione di Gauss) la cui kurtosis è pari a 3.
E' possibile denire in maniera del tutto analoga i concetti di valore di aspet-
tazione e varianza di una funzione della variabile n-dimensionale ~x come segue:
Z
E[g(~x)] = g(~x)f (~x)dn x (1.31)
Ω
Z
2
V [g(~x)] = (g(~x) − E[g(~x)]) f (~x)dn x (1.32)
Ω
8
1.6.2 Varianza e covarianza
Consideriamo il caso particolare in cui la funzione g(~x) di cui si vuol calcolare
il valore di aspettazione corrisponde con una delle variabili xi da cui dipende
il fenomeno, in modo che g(~x) = xi . In questo modo possiamo denire il valor
medio della variabile xi come segue:
Z
µi = E[xi ] = xi f (~x)dn x (1.33)
Ω
A questo punto è interessante generalizzare il concetto di varianza nel caso di una
distribuzione di probabilità dipendente da più variabili casuali. In particolare,
deniamo matrice di covarianza V (~x) la matrice i cui elementi Vij sono così
costruiti :
Z
Vij = E [(xi − µi )(xj − µj )] = (xi − µi )(xj − µj )f (~x)dn x (1.34)
Ω
Infatti,
Z
cov(xi , xj ) = (xi − µi )(xj − µj )f (~x)dn x
Ω
Z
= (xi xj − µi xj − µj xi − µi µj ) f (~x)dn x
Ω
Z Z
n
= E[xi xj ] − µi xj f (~x)d x − µj xi f (~x)dn x − E[xi ]E[xj ]
Ω Ω
= E[xi xj ] − E[xi ]E[xj ] − E[xj ]E[xi ] − E[xi ]E[xj ]
= E[xi xj ] − E[xi ]E[xj ] (1.37)
9
f (~x)dn x = 1. Si osservi come
R
...dove abbiamo sfruttato la condizione
Ω
la covarianza, a dierenza della varianza, possa assumere valori positivi o
negativi.
−1 ≤ ρ(xi , xj ) ≤ 1 (1.39)
Dividiamo allora ambo i membri per σi2 e poniamo α = aσj /σi , in modo da
ottenere:
1 + α2 + 2αρ ≥ 0 (1.43)
L'espressione di sopra può essere vista come una disequeazione di secondo gra-
do nella variabile α, che essendo maggiore o uguale di zero, deve ammettere
discriminante minore o uguale a zero; in questo modo dovrà valere:
ρ2 − 1 ≤ 0 ⇒ −1 ≤ ρ(xi , xj ) ≤ 1 (1.44)
10
1.6.3 Variabili indipendenti
Data una n-upla di variabili casuali x1 , x2 , ..., xn , queste ultime sono dette mu-
tuamente indipendenti se la densità di probabilità f (~x) può essere fattorizzata
come segue:
Si osservi come l'espressione di sopra non faccia altro che generalizzare la rela-
zione di indipendenza delle variabili nel caso continuo.
Un'importante proprietà associata alle variabili indipendenti è che la loro
covarianza, così come il coeciente di correlazione, è pari a zero. Per osservarlo,
consideriamo il valore di aspettazione di due variabili mutuamente indipendenti
xi ed xj :
Z Z
E[xi xj ] = xi xj f (xi , xj )dxi dxj = xi xj fi (xi )fj (xj )dxi dxj
Ω Ω
Z Z
= xi fi (xi )dxi xj fj (xj )dxj = E[xi ]E[xj ] (1.46)
Ωi Ωj
n
X
g(~x) = ai xi (1.48)
i=1
11
" n # " #!2
X n
X n
X
V ai xi = E ai xi − E ai xi
i=1 i=1 i=1
!2 !2
n
X n
X n
X
=E ai xi − ai µi =E ai (xi − µi )
i=1 i=1 i=1
n
X
=E ai aj (xi − µi )(xj − µj )
i,j=1
Xn n
X
=E a2i (xi − µi )2 + ai aj (xi − µi )(xj − µj ) (1.50)
i=1 i6=j
" n
# n n
X X X
a2i E (xi − µi )2 +
V ai xi = ai aj E[(xi − µi )(xj − µj )]
i=1 i=1 i6=j
Xn n
X
= a2i σi2 + ai aj cov(xi , xj )d (1.51)
i=1 i6=j
12
e la varianza della nuova variabile casuale y, funzione delle vecchie variabili
casuali.
Nell'ipotesi di conoscere la varianza e i valori di aspettazione delle singole
xi , supporremo la distribuzione di probabilità f (~x) sia tale da rendere
variabili
i valorixi non troppo distanti dai relativi µi ; in questa ipotesi è legittimo
eettuare, per y(~
x), uno sviluppo in serie di Taylor attorno ad ~x0 = µ~ , troncato
al primo ordine della serie:
n
X ∂y
y(~x) ∼ y(~
µ) + (xi − µi ) |~x=~µ (1.53)
i=1
∂xi
E[y(~x)] ∼ y(~
µ) (1.54)
Pn ∂y
Poiché, tuttavia, troncato al primo ordine vale y(~ µ) ∼ i=1 (xi −µi ) ∂x
x)−y(~ i
|~x=~µ ,
otteniamo:
!2
n
X ∂y
V [y(~x)] = E (xi − µi ) |~x=~µ
i=1
∂xi
n X n
X ∂y ∂y
= |~x=~µ |~x=~µ E[(xi − µi )(xj − µj )] (1.56)
i=1 j=1
∂xi ∂xj
n 2 n
X ∂y X ∂y ∂y
V [y(~x)] = |~x=~µ σi2 + |~x=~µ |~x=~µ cov(xi , xj ) (1.57)
i=1
∂xi ∂xi ∂xj
i,j,i6=j
13
2 Distribuzioni di probabilità notevoli
n n!
= (2.2)
r r!(n − r)!
In questo modo otteniamo allora la probabilità che il successo si manifesti r
volte e l'insuccesso n − r volte:
n! n!
B(r; p, q) = pr q n−r = pr (1 − p)n−r (2.3)
r!(n − r)! r!(n − r)!
L'espressione di sopra è detta distribuzione binomiale o distribuzione di Ber-
noulli, e, come si può osservare, è gia normalizzata in modo che la somma su r
di tutte le probabilità sia unitaria:
n
X n
pr q n−r = (p + q)n = 1n = 1 (2.4)
r
r
n
X n
(a + b)n = ar bn−r (2.5)
r
r
µ = E[r] = np (2.6)
14
σ 2 = V [r] = npq (2.7)
15
...dove si è imposto, come condizione al contorno, P (0; 0) = 1. Il caso di sopra
è limitato unicamente alla possibilità di avere zero eventi e non è dunque molto
fruttuoso, ma è un buon punto di partenza per la nostra generalizzazione.
Passiamo ora al caso di r eventi nell'intervallo (0, t): per l'assunzione 3),
possiamo avere, nell'intervallo dt, al massimo un'unica osservazione: ciò signica
che in dt possono esservi zero eventi o uno soltanto. Conseguentemente, la
probabilità di osservare r eventi nell'intervallo (0; t), dovrà essere pari a:
dP (r; t + dt) = P (r − 1; t)dP (1; dt) + P (r; t)dP (0; dt) (2.13)
dP (r; t)
= λP (r − 1; t) − λP (r; t) (2.15)
dt
L'equazione dierenziale di sopra, che risulta inevitabilmente accoppiata al-
le altre equazioni dierenziali al variare di r, può essere risolta itertivamente:
osserviamo infatti come, per diversi valori di r,
dP (0; t)
= −λP (0; t) ⇒ P (0; t) = e−λt (2.16)
dt
dP (1; t)
= λP (0; t) − λP (1; t) = λe−λt − λP (1; t) ⇒ P (1; t) = λte−λt (2.17)
dt
dP (2; t) λ2 t2 −λt
= λP (1; t) − λP (2; t) = λ2 te−λt − λP (2; t) ⇒ P (2; t) = e
dt 2
(2.18)
.
.
. (2.19)
(λt)r −λt
P (k; t) = e (2.20)
r!
Essendo λ costante per ipotesi, risulta conveniente denire un nuovo parametro
per la distribuzione di probabilità, che indicheremo con m = λt: in questo modo,
mr −m
P (r; m) = e (2.21)
r!
16
La distribuzione di sopra, dipendente unicamente dal parametro m, è detta
distribuzione di Poisson. Quest'ultima risulta già normalizzata, poiché:
∞ ∞
X mr −m −m
X mr
e =e = e−m em = 1 (2.22)
r=0
r! r=0
r!
...dove nell'ultimo passaggio abbiamo sfruttato la denizione di sviluppo in serie
della funzione esponenziale. Si può facilmente dimostrare come:
σ 2 = V [r] = m (2.24)
Il prodotto λt, dunque, descrive il numero medio di eventi nell'intervallo (0, t),
e la sua radice la varianza di questa distribuzione. Si può inoltre mostrare come
la curva assuma valore massimo per r = m.
√
n! ∼ 2πnnn e−n (2.25)
√
n! r n−r 1 2πnnn e−r m r m r
p (1 − p) ∼ p 1−
r!(n − r)! r! 2π(n − r)(n − r)n−r e−(n−r) n n
1 1 m
= mr (1 − )n (2.26)
r! (1 − nr )n er n
Nel limite in cui n → ∞ otteniamo allora la seguente distribuzione limite della
binomiale:
1 r −m
P (r; m) = m e (2.27)
r!
...che è proprio la distribuzione di Poisson.
17
2.3 La distribuzione uniforme
Un primo esempio di distribuzione di probabilità continua è la distribuzione uni-
forme : quest'ultima dipende da un'unica variabile casuale x rispetto alla quale
la densità di probabilità è costante lungo una regione (a, b) dove x è denita.
La distribuzione uniforme assume la seguente espressione già normalizzata:
1
f (x) = a≤x≤b (2.28)
b−a
Valore di aspettazione e varianza di x assumono la seguente forma:
Z b
1
µ = E[x] = xf (x)dx = (a + b) (2.29)
a 2
Z b
2 1
σ = V [x] = (x − E[x])2 f (x)dx = (b − a)2 (2.30)
a 12
1 − βx
f (x; β) = e 0 ≤ x ≤ ∞, β ≥ 0 (2.31)
β
Il calcolo diretto restituisce:
µ = E[x] = β (2.32)
σ 2 = V [x] = β 2 (2.33)
La probabilità per unità di t, che nel nostro caso diventa la densità di probabilità
di osservare un evento dopo t, diventa perciò:
18
f (t; λ) = λe−λt 0 ≤ t ≤ 1∞ (2.35)
Z t
F (t) = f (t0 ; λ)dt0 = 1 − e−λt (2.36)
0
Risultano dunque chiare le analogie e le dierenze tra la distribuzione di Poisson
e la distribuzione esponenziale: la prima descrive la probabilità di osservare r
eventi in un intervallo di tempo t ssato; la seconda la probabilità di osservare
un intervallo di tempo t tra due eventi ssati.
µ = E[x] = x0 (2.38)
σ 2 = V [x] = a2 (2.39)
1 (x−µ)2
N (x; µ, σ) = √ e− 2σ2 (2.40)
2πσ
La distribuzione verica inoltre le seguenti proprietà.
19
2. La distribuzione ha due punti di esso in corrispondenza dei punti µ+σ
ed µ − σ, dove dunque si ha d2 N (x; µ, σ)/dx2 = 0;
3. La distribuzione ammette un unico punto di massimo in
√ x = µ, dove
assume il valore N (x0 ; µ, σ) = 1/ 2πσ .
Z x (x0 −µ)2
1
G(x) = √ e− 2σ2 dx0 (2.41)
−∞ 2πσ
L'integrale di sopra è spesso riscritto in modo da risultare indipendente (almeno
esplicitamente) dai parametri σ e µ: in particolare, si eettua il seguente cambio
di variabile:
x0 − µ 1
= t0 ⇒ dt0 = dx0 (2.42)
σ σ
In questo modo, la funzione cumulativa assume la seguente forma, detta funzione
cumulativa standard :
Z t
1 t02
G(t) = √ e− 2 dt0 (2.43)
2π −∞
Infatti,
Z −t 02
Z +∞ 02
Z ∞
1 − t2 0 1 − t2 0 1 t02
G(−t) = √ e dt = √ e dt − √ e− 2 dt0
2π −∞ 2π −∞ 2π −t
Z t 0
1 t 2
=1− √ e− 2 dt0 = 1 − G(t) (2.45)
2π −∞
20
Figura 1:
P (a ≤ x ≤ b) = P (x ≤ b) − P (x ≤ a) (2.46)
x−µ b−µ x−µ a−µ
P (a ≤ x ≤ b) = P ≤ −P ≤
σ σ σ σ
Z (b−µ)/σ Z (a−µ)/σ
1 t 02 1 t02 b−µ a−µ
=√ e− 2 dt− √ e− 2 dt = G −G
2π −∞ 2π −∞ σ σ
(2.47)
Osserviamo allora come la quasi totalità delle misurazioni del parametro x ri-
cadrà per valori compresi entro 3σ del valore centrale µ, essendo in questo
intervallo la probabilità di osservazione quasi pari ad 1.
21
Poniamoci ora il problema inverso: supponiamo di voler determinare l'inter-
vallo la cui ampiezza sia in grado di restituire una probabilità ssata p che sia
simmetrico rispetto a µ 1 ; in base a quanto visto poco prima, avremo:
b−µ a−µ
p=G −G (2.51)
σ σ
Se però abbiamo scelto l'intervallo simmetrico, deve valere a − µ = µ − b, e
dunque:
b−µ b−µ b−µ
p=G −G − = 2G −1 (2.52)
σ σ σ
In questo modo si ottiene:
b−µ 1
G = (p + 1) (2.53)
σ 2
Basta quindi determinare, attraverso le tabelle, il parametro b che più è ingrado
1
di restituire la quantità
2 (p + 1) al secondo membro.
1 1
f (x1 , x2 ) = p e− 2 Q (2.54)
2πσ1 σ2 1− ρ2
...dove la quantità Q è denita come segue:
" 2 2 #
1 x1 − µ1 x2 − µ2 x1 − µ1 x2 − µ2
Q= + − 2ρ
1 − ρ2 σ1 σ2 σ1 σ2
(2.55)
La nomenclatura non è casuale: si può infatti mostrare come ρ rappresenti
l'indice di correlazione tra x1 ed x2 , e valga:
E' interessante il caso particolare in cui i parametri sono sono correali (ρ = 0),
e la distribuzione binormale si riduce al prodotto di due gaussiane:
2 2
1 1
x1 −µ1 x2 −µ2
−1 −1
f (x1 , x2 ) = √ e 2 σ1
√ e 2 σ2
(2.57)
2πσ1 2πσ2
L'espressione della distribuzione binormale è convenientemente riscritta in ter-
mini matriciali, introducendo la matrice di covarianza Vij : consideriamone
infatti l'inversa, la quale assume la sforma:
1 In generale esistono inniti intervalli in grado di restituire un dato valore della probabilità,
ma soltanto uno che sia simmetrico rispetto a µ.
22
σ12
cov(x1 , x2 )
Vij =
cov(x1 , x2 ) σ22
σ22
1 −cov(x1 , x2 )
⇒ Vij−1 =
σ12 σ22 − cov2 (x1 , x2 ) −cov(x1 , x2 ) σ12
− σ1ρσ2
1
!
1 σ12
= (2.58)
1 − ρ2 − σ1ρσ2 1
σ22
x1 − µ1
xi − µi = (2.59)
x2 − µ2
...osserviamo come Q possa essere scritto come segue:
− σ1ρσ2
1
!
1 σ12 x1 − µ1
Q= x1 − µ1 x2 − µ2
1 − ρ2 − σ1ρσ2 1
σ22
x2 − µ2
≡ (xi − µi )T Vij−1 (xi − µi ) (2.60)
p
Lo stesso denominatore 2πσ1 σ2 1 − ρ2 , come si può osservare, coincide, a meno
−1
del fattore 2π , con la radice del determinante di Vij . In questo modo otteniamo
la seguente forma più sintetica:
1 1 T −1
f (x1 , x2 ) = q e− 2 (xi −µi ) Vij (xi −µi )
(2.61)
−1
2π det(Vij )
n
X
yn = ai xi (2.62)
i=1
23
Un esempio notevole si può osservare nella media aritmetica di una n-upla di
variabili xi , cioè la quantità x̄ così denita:
n
1X
x̄ = xi (2.63)
n i=1
In base al teorema, per n → ∞ la quantità x̄ si distribuirà secondo una distribu-
zione gaussiana (indipendentemente dalla distribuzione delle xi ) caratterizzata
dai seguenti parametri:
n n
1X 2 1 X
µ̄ = µi σ̄ = 2 σi (2.64)
n i=1 n i=1
Nell'ipotesi in cui ogni variabile ha ugual valore medio e varianza, l'espressione
si riduce a...
1
µ̄ = µ σ̄ 2 = σ (2.65)
n
24
3 Errori di misura
N!
P (M, N ) = pM q N −M (3.2)
M !(N − M )!
25
Z
µ(εi ) = εi f (εi )dεi (3.3)
Z
σ(εi ) = (εi − µε )2 f (εi )dεi (3.4)
Se abbiamo a che fare con N sorgenti, ognuna delle quali aggiunge un errore εi
positivo o negativo, possiamo supporre il valore misurato x disti dal valore vero
x∗ come segue:
n
X
x = x∗ + εi (3.6)
i
Pn
Se deniamo allora con ε= i εi la somma di tutti gli errori, otteniamo una
nuova variabile casuale che, nell'ipotesi di n → ∞, secondo il teorema del limite
Pn
centrale si distribuirà in maniera gaussiana, con valor medio
Pn µε = i µ(εi ) = 0
e varianza σε2 = i σ 2 (εi ). La distribuzione di probabilità della somma di tutti
gli errori di misura è perciò nella forma:
2
1 − ε
f (ε) = √ e 2σε2 (3.7)
2πσε
26
4 Stima dei parametri di una distribuzione
In altre parole, la probabilità che la stima θ̂n dierisca di poco dal valore
reale θ deve essere molto piccola quando il numero di osservazioni è grande.
27
2. Invarianza sotto trasformazione - Un estimatore dev'essere in grado di
agire anche su funzioni di parametri incogniti, senza tuttavia trasformarli.
In altre parole, si vuole che, detta f una funzione di un parametro reale
θ, allora la stima della funzione f (θ) sia pari a f (θ̂).
3. Ecienza - La stima di un parametro, come vedremo, sarà caratterizzato
da una certa varianza, che come sappiamo descrive il range di valori che
dieriscono dal valor medio. Poiché vogliamo queste uttuazioni siano
basse in modo che la stima sia denita in un range molto basso, deniremo
eciente un estimatore caratterizzato da bassa varianza.
n n
1X 1X 1
E[x̄] = E[xi ] = µ = nµ = µ (4.4)
n i=1 n i=1 n
n n
1 X 1 X 2 1 2 σ 2 n→∞
V [x̄] = V [x i ] = σ = nσ = → 0 (4.5)
n2 i=1 n2 i=1 n2 n
28
del valore di aspettazione con minor varianza, ed è dunque più utilizzato.
Inoltre, ad esso è associata la legge dei grandi numeri che ne saggia l'alta
consistenza, come vedremo nel prossimo paragrafo.
" #
1 X 1 X
E[s2 ] = E (xi − µ)2 − E (xj − µ)2
n−1 i
(n − 1)n j
1 X 1 X
= E[(xi − µ)2 ] − E[(xi − µ)2 ]
n−1 i
(n − 1)n i
1 1
= nσ 2 − nσ 2 = σ 2 (4.10)
n−1 (n − 1)n
2 Non di rado è possibile trovare il seguente estimatore S 2 , che dierisce dallo scarto
quadratico medio per un fattore 1/n anziché un fattore 1/(n − 1) :
n
1X
S2 = (xi − x̄)2 (4.6)
n i=1
Com'è possibile vericare dal calcolo diretto, un simile estimatore si mostra meno ecace,
in quanto si rivela non distorto solo asintoticamente:
1
E[S 2 ] = 1− σ2 (4.7)
n
29
in linea con la losoa del metodo scientico, che un esperimento, ripetuto
un numero sucientemente alto di volte nelle condizioni opportune, restituisca
risultati del tutto attendibili. In questo senso si dimostra fondamentale la legge
dei grandi numeri, che enunciamo come segue nella sua formulazione debole:
Legge debole dei grandi numeri - Sia x1 , x2 , ... un insieme di
variabili casuali indipendenti le quali posseggano identica distribu-
Si osservi come la legge dei grandi numeri non dica nulla riguardo la varianza
della distribuzione. Infatti, il teorema rimane valido anche se la deviazione
caratterizzante gli xi è innita. Qualora σ2 esistesse nita, allora la legge dei
grandi numeri sarebbe un'immediata conseguenza della seguente disuguaglianza,
detta disuguaglianza di Byenaymé-Chebisev, che qui non dimostriamo:
1
P (|x − µ| > σλ) ≤ ∀λ > 0 (4.13)
λ2
Se infatti applichiamo la disuguaglianza alla variabile casuale x̄, la cui varianza,
come dimostrato nel paragrafo precedente, è pari a σ 2 /n, otteniamo:
σλ 1
P |x̄ − µ| > √ ≤ (4.14)
n λ2
√
Posto allora ε = σλ/ n, si ottiene:
σ2
P (|x̄ − µ| > ε) ≤ (4.15)
nε2
Perciò, ssato ε, la probabilità che |x̄ − µ| > ε può essere resa arbitrariamente
piccola rendendo n arbitrariamente grande.
30
4.5 Il metodo di massima verosimiglianza
4.5.1 La funzione di verosimiglianza
Il metodo di massima verosimiglianza, o di maximum-likelihood, è un potente
strumento grazie al quale determinare facilmente gli estimatori di una distribu-
zione la cui natura è nota, ma non sono conosciuti i parametri caratteristici.
Si consideri una generica distribuzione di probabilità ~ , caratterizzata
f (x; θ)
~
da k parametri incogniti raccolti nel vettore θ = (θ1 , θ2 , ..., θk ), e sia x1 , x2 , ..., xn
un insieme di punti sperimentali che rispettino la distribuzione f (x; θ). Denia-
mo la seguente funzione, detta funzione di verosimiglianza (o likelihood function,
abbreviato in LF ):
n
Y
~ =
L(x; θ) ~
f (xi ; θ) (4.16)
i=1
todo di massima verosimiglianza asserisce che la stima migliore θ̂~ del parametro
sconosciuto θ~ è quella che massimizza la funzione di verosimiglianza. Si può in-
fatti dimostrare come, in questo modo, sia possibile determinare un estimatore
di massima verosimilgianza che consistente, eciente, invariante e a distorsione
nulla.
Per determinare dunque la migliore stima del parametro ~
θ, è necessario
innanzitutto imporre l'annullarsi delle derivate di ~
L(x; θ) rispetto alle θi e la
condizione di massimo:
∂2L
∂L
=0 <0 (4.17)
∂θi ∂θi ∂θj ~
~ θ̂
θ=
Tuttavia, risulta più semplice applicare la relazione al logaritmo L, anziché ad
L: essendo il logaritmo una funzione monotona crescente, assumerà massimo
nello stesso punto in cui L assume massimo. Bisognerà perciò porre:
∂2
∂
log L = 0 log L <0 (4.18)
∂θi ∂θi ∂θj ~
~ θ̂
θ=
31
2
1
θ−θ̂
−1
L= √ e 2 σθ
(4.19)
2πσθ
Osserviamo come, applicando il logaritmo ambo i membri, si ottenga:
!2
1 1 θ − θ̂
log L = − log 2πσθ2 − (4.20)
2 2 σθ
Se allora deriviamo due volte ambo i membri rispetto a θ e valutiamo l'espres-
sione in θ = θ̂, otteniamo un'equazione da cui estrapolare σθ :
∂ 2 log L 1 1
2
|θ=θ̂ = − 2 ⇒ σθ̂2 = − ∂ 2 log L |θ=θ̂ (4.21)
∂θ σθ̂ 2 ∂θ
Nel caso di più parametri, come sappiamo, il concetto di varianza si estende alla
matrice di covarianza Vij : si può tuttavia dimostrare la seguente relazione:
∂ 2 log L
~
Vij−1 (θ̂) = − (4.22)
∂θi ∂θj ~
~ θ̂
θ=
n
n Y
1 (xi −µ)2
L(x; µ, σ) = √ e− 2σ 2 (4.23)
2πσ i=1
Come già sottolineato nel paragrafo precedente, converrà cercare massimi per il
logaritmo di L, e cioè per:
n 2
n 1X xi − µ
log L = − log 2πσ 2 − (4.24)
2 2 i=1 σ
Applichiamo dunque le derivate per determinare la migliore stima di σ e µ:
n n n
∂ log L X xi − µ X 1X
= =0⇒ xi = nµ̂ ⇒ µ̂ = xi = x̄ (4.25)
∂µ i=1
σ2 i=1
n i=1
32
1 1 σ̂ 2
σµ̂2 = − ∂ 2 log L |µ=µ̂,σ=σ̂ = Pn 1 = (4.26)
i=1 σ̂ 2 n
∂µ2
Che è un altro risultato ormai noto; per poter determinare σ̂ , che è la stima sul
secondo parametro della distribuzione gaussiana, riapplichiamo il metodo:
n n
∂ log L n 1 X 2 2 1X
=− + 3 (xi − µ) = 0 ⇒ σ̂ = (xi − µ̂)2 (4.27)
∂σ σ σ i=1 n i=1
...risultato ancora una volta in linea con il teorema del limite centrale. La
varianza sulla varianza sarà, invece,
1 2σ̂ 4
σσ̂2 2 = − ∂ 2 log L |µ=µ̂,σ=σ̂ = (4.28)
2 2
n
∂(σ )
n
∂ 2 log L n 1 X n n n
|µ=µ̂,σ=σ̂ = − 6 (xi − µ̂)2 = − 4 =− 4 (4.29)
∂(σ 2 )2 2σ̂ 4 σ̂ i=1 2σ̂ 4 σ̂ 2σ̂
n
n Y (xi −µ)2
1 −
2σ 2
L(x.σi ; µ) = √ e i (4.30)
2πσi i=1
n Pn xi
∂ log L X xi − µ i=1 σi2
= = 0 ⇒ µ̂ = Pn 1 (4.31)
∂µ i=1
σi2 i=1 σi2
In questo secondo caso, il valor medio assume la forma di una media pesata.
n
Y 1 −m ri
L(r; µ) = e m (4.32)
r
i=1 i
!
33
Calcolatone allora il logaritmo, si ha:
n n
X 1 −m ri X
log e−m + log mri − log ri !
log L = log e m =
i=1
ri ! i=1
n
X
= −mn + (ri log m − log ri !) (4.33)
i=1
n
∂ X ri
log L = 0 = −n + (4.34)
∂m i=1
m
Da cui la miglior stima di m:
Pn
i ri
m̂ = (4.35)
n
La relativa incertezza, in particolare, sarà:
2 1 m̂2 m̂2 m̂
σm̂ = − ∂ 2 log L |m=m̂ = Pn = = (4.36)
2 i ri nm̂ n
∂m
n
Y 1 − ti
L(t; τ ) = e τ (4.37)
i=1
τ
Ripetendo gli stessi ragionamenti dei precedenti paragra otteniamo:
n
1X ∂
log L = −n log τ − ti ⇒ log L = 0
τ i=1 ∂τ
n Pn
n 1 X ti
=− + 2 ti ⇒ τ̂ = i=1 (4.38)
τ τ i=1 n
1 1 1 τ̂ 2
στ̂2 = − ∂ 2 log L |τ =τ̂ = − n 2
Pn =− n 2n = (4.39)
∂τ 2 τ̂ 2 − τ̂ 3 i=1 ti τ̂ 2 − τ̂ 2
n
34
Figura 2:
35
Figura 3:
2 2
1 θ1 −θ̂1 θ2 −θ̂2 θ1 −θ̂1 θ1 −θ̂1
− 2(1−ρ 2) σ + σ −2ρ σ σ
L(θ1 , θ2 ) = Lmax e θ̂1 θ̂2 θ̂1 θ̂2
(4.40)
36
Figura 4:
!2 !2 ! !
1 θ1 − θ̂1 θ2 − θ̂2 θ1 − θ̂1 θ1 − θ̂1
+ − 2ρ =1
1 − ρ2 σθ̂1 σθ̂2 σθ̂1 σθ̂2
(4.41)
2ρσθ̂1 σθ̂2
tan 2α = (4.42)
σθ̂2 − σθ̂2
1 2
In gura sono tracciate diverse ellissi delle covarianze con gli stessi
parametri σθ̂1 , σθ̂2 , ma diversi valori di ρ: ciò che si osserva graca-
mente è che, per ogni valore di ρ tra −1 ed 1, le ellissi sono connate
nel rettangolo delimitato dalle rette θ1 = θ̂1 ± σθ̂ e θ2 = θ̂2 ± σθ̂ .
1 2
37
Figura 5:
38
...dove la quantità wi è un opportuno termine di peso associato all'osserva-
zione i-esima in grado di descriverne l'accuratezza. Nella maggior parte delle
situazioni si può assumere ogni misura yi abbia la stessa accuratezza, in modo
che wi sia uguale per ogni i: in questo secondo caso, la quantità da minimiz-
Pn
2
zare diventa il semplice termine i=1 (yi − fi ) . Se gli errori nelle dierenti
osservazioni sono diversi ma noti, il termine di peso dell'osservazione i-esima è
generalmente posto pari alla sua precisione, cioè la quantità...
1
wi = (4.45)
σi2
...dove σi è la varianza associata alla misura yi . In questo caso la quantità da
minimizzare diventa:
n 2
2
X yi − fi
X = (4.46)
i=1
σi
La ragione del perché si scelga una simile quantità da minimizzare aonda le
proprie radici nel metodo di massima verosimiglianza. Se si suppone infatti le
misure yi individuali siano distribuite gaussianamente attorno al valore vero ηi
con varianza σi2 , la funzione di verosimiglianza per la funzione di Gauss delle
variabili yi assume la seguente forma:
n (y −η ) 2 Pn (yi −ηi )2
Y 1 − i 2i − i=1 2σ 2
L= √ e 2σ
i ∝e i (4.47)
i=1
2πσi
Per il metodo di massima verosimiglianza, i migliori parametri (stavolta i termini
ηi , essendo σi noto) in grado di approssimare i valori reali ηi sono quelli in
grado di rendere massima la funzione L: essendo quest'ultima un esponenziale
decrescente, il valore massimo di L è assunto per il minimo valore possibile
dell'esponenziale, e cioé quando è minimo...
n 2
X yi − ηi
(4.48)
i=1
σi
...che è proprio quanto enunciato con il metodo dei minimi quadrati.
L
X
yi = f (θ1 , θ2 , ..., θL ; xi ) = gl (xi )θl (4.49)
l=1
39
n 2 n L
!2
2
X yi − fi X 1 X
X = = 2 yi − gl (xi )θl (4.50)
i=1
σi σ
i=1 i l=1
n L
!
∂X 2 X 1 X
= (−2)gk (xi ) 2 yi − gl (xi )θl =0 (4.51)
∂θk i=1
σi
l=1
n
X 1
Akl = 2 gk (xi )gl (xi ) (4.53)
σ
i=1 i
n
X 1
bk = gk (xi )yi (4.54)
σ2
i=1 i
A11 θ1 + A12 θ2 + ... + A1L θL = b1
A21 θ1 + A22 θ2 + ... + A2L θL = b2
. (4.55)
.
.
AN 1 θ1 + AN 2 θ2 + ... + AN L θL = bN
O, in forma matriciale,
~
θ̂ = A−1~b (4.57)
40
σθ2i = (A−1 )ii (4.59)
n X
X n
σy2ˆi = gl (xi )gm (xi )(A−1 )lm (4.61)
l=1 m=1
yi = θ1 + θ2 xi (4.62)
n n
X 1 X 1
A11 =
σ
g (x )g
2 1 i 1 i(x ) =
σ 2 ≡s (4.63)
i=1 i i=1 i
n n
X 1 X x2i
A22 = 2 g (x )g
2 i 2 i(x ) = ≡ sxx (4.64)
σ
i=1 i
σ2
i=1 i
n n
X 1 X xi
A12 = A21 =
σ 2 g1 (xi )g2 (xi ) = σ 2 ≡ sx (4.65)
i=1 i i=1 i
Perciò:
s sx
A= (4.66)
sx sxx
L'inversa della matrice A, necessaria per determinare i parametri θi , diventa
perciò:
1 sxx −sx
A−1 = (4.67)
ssxx − s2x −sx s
Il vettore ~b assume invece la seguente espressione:
n n
X 1 X 1
b1 =
σ 2 g1 (x i )y i =
σ 2 yi ≡ sy (4.68)
i=1 i i=1 i
41
n n
X 1 X 1
b2 =
σ 2 g2 (xi )yi = σ 2 xi yi ≡ sxy (4.69)
i=1 i i=1 i
Perciò, in conclusione,
~ 1 sxx −sx sy
θ̂ = A−1~b =
ssxx − s2x −sx s sxy
1 sxx sy − sx sxy
= (4.70)
ssxx − s2x ssxy − sx sy
sxx
σθ21 = (A−1 )11 = (4.71)
ssxx − s2x
s
σθ22 = (A−1 )22 = (4.72)
ssxx − s2x
Ottenuti θ̂1 ed θ̂2 e i relativi errori, è inne possibile determinare immediata-
mente i valori attesi di y1 ed y2 , oltre che i loro errori:
n X
X n
σy2ˆi = gl (xi )gm (xi )(A−1 )lm = (A−1 )11 + x2i (A−1 )22 + 2xi (A−1 )12
l=1 m=1
1
= (sxx + x2i s − 2xi sx ) (4.73)
ssxx − s2x
42
5 Test d'ipotesi
5.1 Introduzione
Nelle precedenti sezioni abbiamo sempre enfatizzato l'area riguadante la sti-
ma di parametri incogniti di una distribuzione di probabilità. In questa sezione
vorremo invece analizzare la bontà del modello matematico applicato ad un pro-
blema sico in esame. Abbiamo infatti sempre supposto i dati si distribuissero
secondo una particolare distribuzione di probabilità: chi assicura che, tuttavia,
la distribuzione di probabilità utilizzata sia valida per il problema in esame? E'
necessario, in questo caso, eettuare quello che prende il nome di test d'ipotesi.
Supponiamo di star analizzando un sistema sico, e di eettuare un'ipotesi
sulla natura della distribuzione che regola il fenomeno. Questa ipotesi, detta
ipotesi nulla, viene indicata con H0 . L'ipotesi alternativa, e che vede cioè H0
come falsa, è detta appunto ipotesi alternativa ed è indicata con H1 .
Cerchiamo di ssare le idee sulla natura delle due ipotesi con un esempio:
vogliamo analizzare la distribuzione di probabilità associata ai possibili risultati
del lancio di una moneta, che può restituire testa o croce, ma non sappiamo
se la moneta è in qualche modo truccata in modo da rendere più favorevole
un risultato rispetto ad un altro. Abbiamo due possibilità: o la moneta non è
truccata e la distribuzione associata è una bernoulliana (ipotesi H0 ) o, al con-
trario, la moneta è truccata e la distribuzione di probabilità assume una diversa
forma. Per vericare la bontà dell'ipotesi H0 , eettuiamo allora un certo nu-
mero di lanci, riportando la distribuzione dei risultati. Se la moneta non fosse
truccata, ci aspetteremo una distribuzione bernoulliana centrata attorno al va-
lore np = n/2. D'altra parte, la bontà della nostra ipotesi potrebbe rivelarsi un
semplice caso fortuito: magari la moneta è truccata, ma su venti lanci circa dieci
hanno risultato testa e circa dieci hanno risultato croce; viceversa, la moneta
non è truccata, ma per puro caso (seppur improbabile) per tutti e venti i tiri è
sempre risultato testa.
Nello scartare o accettare una certa ipotesi abbiamo perciò una certa proba-
bilità di fare una cattiva scelta. In particolare,
43
A titolo d'esempio consideriamo la situazione in cui abbiamo due ipotesi
completamente specicate da due diversi parametri θ0 e θ1 associati ad una
distribuzione di probabilità f (x; θ): non sappiamo, a priori, se la distribuzione
incognita dei nostri dati segue f (x; θ0 ) o f (x; θ1 ), ma è possibile scoprirlo, con un
certo margine di errore, attraverso i dati sperimentali. Associeremo all'ipotesi
nulla il parametro θ0 , mentre all'ipotesi alterantiva il parametro θ1 .
Se assumiamo l'ipotesi nulla H0 sia vera, possiamo trovare una regione R
dello spazio dei campioni Ω in cui una generica misura x ha una certa proba-
bilità, ssata ed arbitraria, di essere osservata. La regione in questione è detta
regione critica per H0 , mentre Ω\R è detta regione di accettazione per H0 ; le
due regioni sono separate da uno o più valori xC detti valori critici. Convenzio-
nalmente, la regione critica viene scelta sucientemente piccola da supporre H0
errata nell'ipotesi in cui x ∈ R: è infatti più ragionevole supporre una generica
misura x ricada nell'intervallo di Ω nella quale la probabilità di essere osservata
è maggiore. Ci verrebbe quindi da pensare, osservando x ∈ R, di dover rigettare
l'ipotesi H0 : d'altra parte, se la distribuzione cercata fosse davvero determinata
da H0 , staremmo commettendo un errore di prima specie, con una signicatività
α pari a...
Z
α= f (x; θ0 )dx (5.1)
R
Ad esempio, se supponiamo di rigettare tutti quei dati che cadono oltre un certo
valore xC , otteniamo:
Z ∞
α= f (x; θ0 )dx (5.2)
xC
Z Z xC
β= f (x; θ1 )dx = f (x; θ1 )dx (5.3)
Ω\R −∞
Z ∞
1−β = f (x; θ1 )dx (5.4)
xC
44
Figura 6:
n 2
2
X xi − µi
χ = (5.6)
i=1
σi
1 χ2 n
f (χ2 ; n) = e− 2 (χ2 ) 2 −1 (5.7)
2n/2 Γ(n/2)
La quantità Γ(n/2) descrive la funzione gamma di Eulero, la quale, ad n ssato,
risulta nita pern ≥ 0. In particolare, la distribuzione f (χ2 ; n) ammette il
seguente andamento graco per diversi valori di n:
2
Si possono dimostrare i seguenti risultati associati alla distribuzione χ :
45
Figura 7:
E[χ2 ] = n (5.8)
V [χ2 ] = 2n (5.9)
n n 2
2 1 X n−1 2 X xi − x̄
s = (xi − x̄)2 ⇒ s = = χ2 (5.10)
n − 1 i=1 σ2 i=1
σ
46
np0i (1 − p0i ): np0i è compa-
per vericare allora se l'insieme dei numeri previsti
tibile con l'insieme dei numeri ni n di dati sia
osservati, supponiamo il numero
sucientemente grade da poter considerare la distribuzione dei valori xi appros-
simativamente gaussiana. In questo modo, è possibile associare una variabile
χ2 alla distribuzione:
N
X (ni − np0i )2
χ2 = (5.12)
i=1
np0i (1 − p0i )
Quest'ultimo ammetterà una distribuzione f (χ2 ; N − 1): infatti, il numero di
PN
parametri analizzati è N , ma a questi dobbiamo sottrarre il vincolo i ni = n,
che riduce di uno i gradi di libertà.
Ora, supponiamo H0 χ2 dovrebbe resti-
sia vera; in questo caso, il calcolo del
2
tuire un valore non troppo dissimile dal valore medio E[χ ] = N −1, con possibili
2
uttuazioni nel range V [χ ] = 2(N − 1). Al contrario, se H0 fosse falsa, il valore
di aspettazione per ciascuno degli ni non sarebbe np0i : questo renderebbe lo
2
scarto ni − np0i relativamente grande, e dunque χ tenderebbe a valori medi più
grandi di quelli che si osserverebbero se H0 fosse vera. Comprendiamo dunque
2
sia ragionevole scartare un'ipotesi H0 se il χ osservato assuma valori troppi
grandi rispetto ai gradi di libertà N − 1: va solo stabilito, convenzionalmente,
il quanto grande risulti più o meno tollerabile.
Ciò che si fa, sperimentalmente, è ssare una certa signicatività ad un va-
lore tanto più piccolo quanto più è attendibile l'ipotesi del test. Un set di dati
in buon accordo con le previsioni sperimentali può, ad esempio, avere una signi-
catività di 0.05 o 0.1, condizione che descrive, da parte dello sperimentatore,
una consapevolezza del 5 ÷ 10% di poter sbagliare la propria ipotesi. In questo
modo, ad α ssato, si ottiene:
Z ∞
α= f (χ2 ; N − 1)dχ2 (5.13)
χ2C
47
5.3 La distribuzioni t-student ed F-student
Altre due importanti distribuzioni, che si riveleranno particolarmente utili nei
nostri test d'ipotesi , sono la distribuzione t-student e la distribuzione F-student.
x̄ − µ (n − 1)s2
√ (5.16)
σ/ n σ2
...risulteranno indipendenti. Ne risulta che, per denizione, la variabile...
x̄−µ
√
σ/ n x̄ − µ
t= q = √ (5.17)
(n−1)s2 s/ n
σ2 /(n − 1)
...sarà distribuita secondo una distribuzione t-student con ν = n − 1..
Come si può vericare dal calcolo diretto, la distribuzione t-student verica:
E[t] = 0 (5.18)
ν
V [t] = ν>2 (5.19)
ν−2
Inoltre, per ν → ∞, la distribuzione t-student assume un andamento gaussiano,
del tipo:
1 1 2
f (t; ν) = √ e− 2 t (5.20)
2π
48
5.3.2 La distribuzione F-student
Siano u1 ed u2 due variabili indipendenti distribuite secondo due distribuzioni
χ2 con gradi di libertà ν1 e ν2 rispettivamente. Deniamo la seguente variabile
F, con 0 ≤ F ≤ ∞:
u1 /ν1
F ≡ (5.21)
u2 /ν2
Si può allora dimostrare come la variabile F ametta distribuzione di probabilità
così costruita, detta distribuzione F-student :
ν21 ν1
−1
Γ((ν1 + ν2 )/2) ν1 F 2
f (F ; ν1 , ν2 ) = ν1 +ν (5.22)
Γ(ν1 /2)Γ(ν2 /2) ν2
ν1 2
2
1+ ν2 F
Ad esempio, il rapporto tra due scarti quadratici medi, associati a due set di
dati entrambi distribuiti gaussianamente secondo N (x; µ, σ), è una variabile che
si distribuisce secondo una distribuzione F-student. Per accorgercene, basti
ricordare che, dette...
n n
1 X 1 X
s21 = (xi − x̄)2 s22 = (yi − ȳ)2 (5.23)
n − 1 i=1 m − 1 i=1
n−1 2 m−1 2
s s (5.24)
σ2 1 σ2 2
Perciò, la variabile...
n−1 2
σ 2 s1 /(n − 1) s21
F = m−1 2 = (5.25)
σ 2 s2 /(m − 1)
s22
E', per denizione, distribuita secondo una distribuzione F-student.
49