Sei sulla pagina 1di 49

Appunti di Laboratorio IV

Indice

1 Elementi di probabilità e statistica 3


1.1 La probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Legge delle probabilità totali . . . . . . . . . . . . . . . . . . . . 4
1.4 Probabilità condizionate . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Proprietà della distribuzione di probabilità . . . . . . . . . . . . . 6
1.5.1 La distribuzione cumulativa . . . . . . . . . . . . . . . . . 6
1.5.2 Parametri caratteristici di una distribuzione di probabilità 6
1.6 Distribuzione di probabilità di più variabili . . . . . . . . . . . . 8
1.6.1 Variabili n-dimensionali . . . . . . . . . . . . . . . . . . . 8
1.6.2 Varianza e covarianza . . . . . . . . . . . . . . . . . . . . 9
1.6.3 Variabili indipendenti . . . . . . . . . . . . . . . . . . . . 11
1.7 Funzioni lineari di variabili casuali . . . . . . . . . . . . . . . . . 11
1.8 La propagazione degli errori . . . . . . . . . . . . . . . . . . . . 12

2 Distribuzioni di probabilità notevoli 14


2.1 La distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . 14
2.2 La distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 La distribuzione di Poisson determinata da un caso sico 15
2.2.2 La distribuzione di Poisson come limite della distribuzione
binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 La distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . 18
2.4 La distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . 18
2.5 La distribuzione di Gauss . . . . . . . . . . . . . . . . . . . . . . 19
2.5.1 Denizione e proprietà . . . . . . . . . . . . . . . . . . . . 19
2.5.2 Contenuto probabilistico di N (x; µ, σ) . . . . . . . . . . . 20
2.5.3 La distribuzione binormale . . . . . . . . . . . . . . . . . 22
2.5.4 Il teorema del limite centrale . . . . . . . . . . . . . . . . 23

3 Errori di misura 25
3.1 Il modello di Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 L'ipotesi gaussiana della distribuzione degli errori . . . . . . . . . 25

1
4 Stima dei parametri di una distribuzione 27
4.1 Gli estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Proprietà degli estimatori . . . . . . . . . . . . . . . . . . . . . . 27
4.3 L'estimatore media aritmetica e scarto quadratico medio . . . . . 28
4.4 La legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 29
4.5 Il metodo di massima verosimiglianza . . . . . . . . . . . . . . . 31
4.5.1 La funzione di verosimiglianza . . . . . . . . . . . . . . . 31
4.5.2 Il metodo di massima verosimiglianza applicato alla di-
stribuzione di Gauss . . . . . . . . . . . . . . . . . . . . . 32
4.5.3 Il metodo di massima verosimiglianza applicato alla di-
stribuzione di Poisson . . . . . . . . . . . . . . . . . . . . 33
4.5.4 Il metodo di massima verosimiglianza applicato alla di-
stribuzione esponenziale . . . . . . . . . . . . . . . . . . . 34
4.5.5 Metodi graci per il metodo di massima verosimiglianza . 35
4.6 Il metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . 38
4.6.1 Descrizione del metodo . . . . . . . . . . . . . . . . . . . 38
4.6.2 Il metodo dei minimi quadrati per una dipendenza lineare 39

5 Test d'ipotesi 43
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2 Test del χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3 La distribuzioni t-student ed F-student . . . . . . . . . . . . . . . 48
5.3.1 La distribuzione T-student . . . . . . . . . . . . . . . . . 48
5.3.2 La distribuzione F-student . . . . . . . . . . . . . . . . . . 49

2
1 Elementi di probabilità e statistica

1.1 La probabilità
Esistono più denizioni del concetto di probabilità ; nelle nostre considerazioni
sfrutteremo due formulazioni, una di natura sica e una di natura matemati-
ca.
Si consideri un determinato evento sico che possa manifestarsi in più mo-
dalità possibili, e si consideri un particolare esitoE . Indicheremo probabilità
di avvenimento dell'evento E , indicata con il simbolo P(E), il rapporto tra il
numero di casi in cui si presenta l'evento E e il numero di casi possibili, purché
tutti i casi siano equiprobabili. Così com'è denita, la probabilità assume la
forma di un numero, in particolare compreso tra 0 (nell'ipotesi in cui l'evento
E non si verichi mai) ed 1 (nell'ipotesi in cui l'evento E si verica sempre, e
dunque il numero di casi favorevoli coincide con il numero di casi possibili).
La denizione precedente assume una struttura prettamente matematica,
ed è denita a priori. D'altra parte, nell'ipotesi in cui il fenomeno analizzato
sia sconosciuto, potrebbe risultare più utile una denizione di natura sica:
si consideri allora una sequenza di esperimenti ripetuti nelle stesse modalità
n volte, e sia r il numero di volte in cui si presenti un particolare evento E;
deniremo allora la probabilità P (E) la quantità

r
P (E) = lim (1.1)
n→∞ n
Indicheremo inoltre con il termine di spazio dei campioni l'insieme di tutti i
possibili risultati di un esperimento.

1.2 Variabili casuali


Deniamo variabile casuale di un fenomeno una variabile che non può essere
determinata con certezza prima dell'osservazione dell'evento. Un esempio può
essere i valori assunti dal tiro di un dado, di cui non si può conoscere a priori il ri-
sultato. Nella nostra prima trattazione, analizzeremo variabili casuali esclusive,
cioè non in grado di vericarsi contemporaneamente.
Se indichiamo con X una variabile casuale, che può esplicitarsi in un nu-
mero discreto di possibili risultati xi , possiamo associarvi una probabilità di
avvenimento Pi così costruita:

P (X = xi ) = Pi (1.2)

Poiché in un dato esperimento deve esservi la certezza di avvenimento di almeno


un evento, dovrà risultare:

X
Pi = 1 (1.3)
i

Se la variabile casuale X ammette un continuo di possibili valori (come ad


esempio i valori ottenibili dalla misurazione di una lunghezza), diventa più logico

3
denire, più che la probabilità di osservazione di un unico punto x, la probabilità
di osservazione del valore x in un certo intervallo di valori. E' allora utile
denire una funzione densità di probabilità f (x), cioè una probabilità per unità
di variabile x per cui valga:

f (x)dx = P (x ≤ X ≤ x + dx) (1.4)

Ovviamente, in base alla denizione di probabilità, integrata su tutto lo spazio


dei campioni (che qui indicheremo con Ω) la funzione f (x) dovrà vericare la
seguente proprietà:
Z
f (x)dx = 1 (1.5)

Spesso la funzione densità di probabilità è anche detta funzione di distribuzione
di probabilità o p.d.f.: nella nostra trattazione utilizzeremo le tre terminologie
in maniera equivalente.

1.3 Legge delle probabilità totali


Considieramo lo spazio dei campioni Ω, e sianoA e B due sottoinsiemi dello
spazio dei campioni. Nella nostra notazione, P (A) e P (B) indicheranno le
probabilità che avvenga un evento del sottoinsieme A e B rispettivamente. E'
possibile A e B posseggano elementi in comune, e possano perciò vericarsi
eventi comuni ad entrambi gli insiemi: indicheremo con P (A ∪ B) la probabilità
che avvenga un evento di A, di B, o di entrambi, e con P (A ∩ B) la probabilità
che avvenga un elemento comune sia ad A che a B.
Per comprendere come queste quantità siano legate, consideriamo la proba-
bilità che si verichi nAB volte un evento sia di A che di B (P (A ∩ B)), nA volte
un evento di A ma non di B (P (A ∩ B̄)), nB volte un evento diB ma non di A
(P (B ∩ Ā)), e n0 volte un evento che non appartenga nè ad A che B (Ā ∩ B̄ ).
Detto N il numero di eventi complessivi osservati, ovviamente,

nAB nA
P (A ∩ B) = P (A ∩ B̄) =
N N
nB n0
P (B ∩ Ā) = P (Ā ∩ B̄) =
N N
nAB + nA nAB + nB
P (A) = P (B) = (1.6)
N N
Con, ovviamente,
nAB + nA + nB
P (A ∪ B) = (1.7)
N
Addizionando e sottraendo nAB otteniamo allora:

nAB + nA nAB + nB nAB


P (A ∪ B) = + − = P (A) + P (B) − P (A ∩ B) (1.8)
N N N

4
la formula di sopra restituisce la probabilità che avvenga un evento di A, B , o
di entrambi. Si osservi che essa si riduce alla semplice somma delle probabilità
nell'ipotesi in cui gli insiemi siano disgiunti, e non posseggano perciò eventi in
comune.

1.4 Probabilità condizionate


Deniamo probabilità condizionata P (A|B) la probabilità che avvenga un evento
di A nell'ipotesi in cui sia già avvenuto un evento B. Possiamo facilmente
mostrare la seguente relazione:

P (A ∩ B)
P (A|B) = (1.9)
P (B)
Infatti, poiché

nAB + nA nAB + nB
P (A) = P (B) = (1.10)
N N
...osserviamo come la probabilità condizionata che avvenga A datoB , risulti, in
particolare,

nAB nAB N P (A ∩ B)
P (A|B) = = = (1.11)
nAB + nB N nAB + nB P (B)
Analogamente, possiamo mostrare come:

P (A ∩ B)
P (B|A) = (1.12)
P (A)
Si dice che i due insiemi di eventi A e B sono indipendenti se la probabilità
condizionale di A relativa a B è indipendente da B, e coincide proprio con la
probabilità di A:

P (A|B) = P (A) (1.13)

Se due eventi sono indipendenti, perciò, la probabilità P (A ∩ B) che avvenga


un evento sia di A che di B può essere scritta come

P (A ∩ B) = P (A|B)P (B) = P (A)P (B) (1.14)

Perciò, se gli eventi sono indipendenti, la probabilità che avvengano entrambi è


pari al prodotto delle probabilità.
Ovviamente, qualora gli eventi siano esclusivi, avremmo P (A|B) = P (B|A) =
0 e dunque P (A ∩ B) = 0.

5
1.5 Proprietà della distribuzione di probabilità
1.5.1 La distribuzione cumulativa
Nelle prossime considerazioni supporremo la variabile casuale da noi analizzata
varii con continuità: tutte le nostre analisi possono tuttavia essere generalizzate
nel caso discreto sostituendo gli integrali con le sommatorie e la distribuzione
di probabilità con la probabilità.
Per ora, supporremo il nostro fenomeno possa dipendere da una sola variabile
casuale X, il cui dominio sarà lo spazio dei campioni Ω. In base a quanto detto
nei paragra precedenti,

f (x)dx = P (x ≤ X ≤ x + dx) (1.15)

Z
f (x)dx = 1 (1.16)

Possiamo innanzitutto osservare come, essendo f (x) una probabilità per unità di
lunghezza, dovrà essere necessariamente una quantità denita positiva. Inol-
tre, supporremo sia sucientemente regolare, in modo che l'integrale denito
sopra non diverga e sia possibile applicare un'operazione di derivata.
Spesso è utile sfruttare, in termini di probabilità, non la distribuzione di
probabilità di f (x), ma la cosiddetta distribuzione cumulativa F (x) così denita:
Z x
F (x) = f (x0 )dx0 (1.17)
xmin

...dove xmin descrive il più piccolo valore di x appartenente ad Ω. Essendo


f (x) non negativa, F (x) è chiaramente una funzione monotona crescente di x
nell'intervallo [xmin , xmax ] (dove si è indicato con xmax il più grande valore di x
appartente ad Ω). Inoltre, dovrà valere, per costruzione,

F (xmin ) = 0 F (xmax ) = 1 (1.18)

1.5.2 Parametri caratteristici di una distribuzione di probabilità


La distribuzione di probabilità f (x) e la distribuzione cumulativa F (x) contego-
no tutte le informazioni riguardo la variabile casuale x. E' allora utile riconoscere
alcuni parametri distintivi della distribuzione.

1. Deniamo moda di una distribuzione il valore di x per cui f (x) è massimo.


Se la moda è unica, la funzione è deta unimodulare.
2. Deniamo mediana di una distribuzione il valore di x per cui F (x) assume
il valore 1/2.
3. Detta g(x) una funzione della variabile casuale x, deniamo valore di aspet-
tazione della funzione g(x) per la distribuzione f (x) la quantità E[g(x)]

6
così denita: Z
E[g(x)] = g(x)f (x)dx (1.19)

In questo senso la funzione f (x) pesa la funzione g(x) nell'integrazio-
ne. Dalla denizione di valore di aspettazione è possibile osservare come
E[a] = a (con a costante) e come E agisca su g(x) come un operatore li-
neare: dette infatti due funzioni g1 (x) e g2 (x) due funzioni della variaibile
casuale,
E[a1 g1 (x) + a2 g2 (x)] = a1 E[g1 (x)] + a2 E[g2 (x)] (1.20)

4. Detta g(x) una funzione della variabile casuale x, deniamo varianza di


g(x) per la distribuzione f (x) la quantità V [g(x)] così denita:

V [g(x)] = E (g(x) − E[g(x)])2


 
(1.21)

Un caso particolare è quello in cui g(x) = x, dal quale è possibile ottenere il


valore di aspettazione della variabile casuale x, generalmente indicato con la
lettera µ e denominato valor medio :
Z
µ = E[x] = xf (x)dx (1.22)

Analogamente, viene denita varianza della variabile casuale x la seguente
quantità, generalmente indicata con σ2 :
Z
σ 2 = V [x] = E[(x − µ)2 ] = (x − µ)2 f (x)dx (1.23)

σ , e cioè la radice della quantità denita sopra, è anche detta deviazione standard
di x per la distribuzione f (x), e descrive una quantità non negativa. Si osservi
come, sfruttando la linearità di E , sia possibile mostrare la seguente relazione:

σ 2 = E[(x − µ)2 ] = E[x2 + µ2 − 2xµ] = E[x2 ] + µ2 − 2µE[x]


= E[x2 ] − µ2 = E[x2 ] − (E[x])2 (1.24)

Altrettanto importanti sono i valori di aspettazione delle funzioni g(x) = xk ,


detti momenti k-esimi rispetto all'origine di f (x) ed indicati con µk :
Z
µ0k = E[xk ] = xk f (x)dx (1.25)

Analogamente è possibile denire il valore di aspettazione della quantità (x−µ)k ,


detto invece momento k-esimo rispetto al valor medio di f (x):
Z
µk = E[(x − µ)k ] = (x − µ)k f (x)dx (1.26)

Valor medio e varianza sono perciò casi particolari di momenti di ordine 1 e 2
rispetto all'origine e a µ rispettivamente.

7
Si osservi come, nell'ipotesi in cui la distribuzione f (x) sia simmetrica ri-
spetto a µ, gli integrali associati a momenti di ordine dispari risultino nulli.
Un qualsiasi momento di ordine dispari non nullo può essere perciò preso co-
me indice dell'asimmetria della distribuzione di probabilità: si denisce allora
coeciente di asimmetria, o skewness, la quantità...
µ3
γ1 = 3/2
(1.27)
µ2
Si osservi come valori positivi di γ1 implichino una coda di f (x) più accentuata
verso i valori maggiori del valor medio, mentre per valor negativi avremo una
coda più accentuata per valori minori di µ.
Altro coeciente importante è il coeciente di piccatezza, o kurtosis, denito
come:

µ4
γ2 = −3 (1.28)
(µ2 )2
...che descrive quanto una distribuzione di probabilità risulti piccata attorno
al valor medio, rapportato ad una distribuzione di riferimento che analizzeremo
meglio in seguito (la distribuzione di Gauss) la cui kurtosis è pari a 3.

1.6 Distribuzione di probabilità di più variabili


1.6.1 Variabili n-dimensionali
Finora abbiamo sempre supposto la funzione di densità di probabilità dipendesse
da una sola variabile casuale. In generale, tuttavia, un fenomeno può dipendere
da più variabili x1 , x2 , ..., xn , per le quali, detto Ω lo spazio dei campioni n-
dimensionale, valga la seguente generalizzazione:
Z
f (x1 , x2 , ..., xn )dx1 dx2 ...dxn = 1 (1.29)

Alternativamente, possiamo riscrivere il tutto in forma vettoriale, introducendo
il vettore n-dimensionale ~x = (x1 , x2 , ..., xn ):
Z
f (~x)dn x = 1 (1.30)

E' possibile denire in maniera del tutto analoga i concetti di valore di aspet-
tazione e varianza di una funzione della variabile n-dimensionale ~x come segue:
Z
E[g(~x)] = g(~x)f (~x)dn x (1.31)

Z
2
V [g(~x)] = (g(~x) − E[g(~x)]) f (~x)dn x (1.32)

8
1.6.2 Varianza e covarianza
Consideriamo il caso particolare in cui la funzione g(~x) di cui si vuol calcolare
il valore di aspettazione corrisponde con una delle variabili xi da cui dipende
il fenomeno, in modo che g(~x) = xi . In questo modo possiamo denire il valor
medio della variabile xi come segue:
Z
µi = E[xi ] = xi f (~x)dn x (1.33)

A questo punto è interessante generalizzare il concetto di varianza nel caso di una
distribuzione di probabilità dipendente da più variabili casuali. In particolare,
deniamo matrice di covarianza V (~x) la matrice i cui elementi Vij sono così
costruiti :
Z
Vij = E [(xi − µi )(xj − µj )] = (xi − µi )(xj − µj )f (~x)dn x (1.34)

...dove, in accordo con l'equazione 1.33, µi e µj costituiscono i valori di aspet-


tazione delle variabili xi ed xj rispettivamente.
Per la matrice di covarianza, la cui importanza sica sarà maggiormente
chiara nelle prossime sezioni, eettuiamo le seguenti osservazioni:

1. La matrice Vij è simmetrica;

2. Gli elementi diagonali Vii della matrice di covarianza costituiscono la


varianza σi2 della variabile xi , cioè la quantità non negativa così denita:
Z
σi2 = Vii = E[(xi − µi ) ] = 2
(xi − µi )2 f (~x)dn x (1.35)

In maniera analoga al caso unidimensionale, si può inoltre mostrare come


σi2 = E[x2i ] − (E[xi ])2 .
3. Un elemento non diagonale Vij (con i 6= j ) della matrice di covarianza è
detto covarianza delle variabili xi ed xj , ed è indicata con cov(xi , xj ); si
può facilmente mostrare come:

cov(xi , xj ) = Vij = E[xi xj ] − E[xi ]E[xj ] (1.36)

Infatti,
Z
cov(xi , xj ) = (xi − µi )(xj − µj )f (~x)dn x

Z
= (xi xj − µi xj − µj xi − µi µj ) f (~x)dn x

Z Z
n
= E[xi xj ] − µi xj f (~x)d x − µj xi f (~x)dn x − E[xi ]E[xj ]
Ω Ω
= E[xi xj ] − E[xi ]E[xj ] − E[xj ]E[xi ] − E[xi ]E[xj ]
= E[xi xj ] − E[xi ]E[xj ] (1.37)

9
f (~x)dn x = 1. Si osservi come
R
...dove abbiamo sfruttato la condizione

la covarianza, a dierenza della varianza, possa assumere valori positivi o
negativi.

Nelle prossime considerazioni sarà particolarmente utile denire la seguente


quantità, detto coeciente di correlazione ρ(xi , xj ) delle variabili casuali xi
ed xj :
Vij cov(xi , xj )
ρ(xi , xj ) = 1 = (1.38)
(Vii Vjj ) 2 σi σj
E' possibile dimostrare la seguente peculiarità di ρ:

−1 ≤ ρ(xi , xj ) ≤ 1 (1.39)

In particolare, quando ρ = ±1 si dice che le variabili sono massimamente cor-


relate, mentre quando ρ = 0 si dice che non vi è correlazione tra le variabili.
Per dimostrare il risultato di sopra è necessario sfruttare la formula associata
alla varianza di funzioni lineari di variabili casuali, che vedremo nei prossimi
paragra: invitiamo quindi il lettore ad analizzare prima questa seconda parte
per poi ritornare a questa dimostrazione.
Costruiamo infatti la seguente variabile yij che sia combinazione lineare di
due generiche variabili di ~x, cioè xi ed xj , in modo che valga:

yij = xi + axj (1.40)

...dove a è un coeciente reale arbitrario; tenendopresente il risultato della 1.51,


otteniamo la seguente espressione per la varianza di yij :

σ 2 (xi + axj ) = σi2 + a2 σj2 + 2aσj cov(xi , xj ) (1.41)

Dividiamo allora ambo i membri per σi2 e poniamo α = aσj /σi , in modo da
ottenere:

σ 2 (xi + axj ) cov(xi , xj )


= 1 + α2 + 2α (1.42)
σi2 σi σj
L'espressione al secondo membro è certamente maggiore o uguale a zero, essendo
σ2 denita non negativa; riconoscendo allora in cov(xi , xj )/σi σj il coeciente
di correlazione, possiamo scrivere:

1 + α2 + 2αρ ≥ 0 (1.43)

L'espressione di sopra può essere vista come una disequeazione di secondo gra-
do nella variabile α, che essendo maggiore o uguale di zero, deve ammettere
discriminante minore o uguale a zero; in questo modo dovrà valere:

ρ2 − 1 ≤ 0 ⇒ −1 ≤ ρ(xi , xj ) ≤ 1 (1.44)

In questo modo abbiamo ottenuto la proprietà cercata.

10
1.6.3 Variabili indipendenti
Data una n-upla di variabili casuali x1 , x2 , ..., xn , queste ultime sono dette mu-
tuamente indipendenti se la densità di probabilità f (~x) può essere fattorizzata
come segue:

f (~x) = f1 (x1 )f2 (x2 )...fn (xn ) (1.45)

Si osservi come l'espressione di sopra non faccia altro che generalizzare la rela-
zione di indipendenza delle variabili nel caso continuo.
Un'importante proprietà associata alle variabili indipendenti è che la loro
covarianza, così come il coeciente di correlazione, è pari a zero. Per osservarlo,
consideriamo il valore di aspettazione di due variabili mutuamente indipendenti
xi ed xj :

Z Z
E[xi xj ] = xi xj f (xi , xj )dxi dxj = xi xj fi (xi )fj (xj )dxi dxj
Ω Ω
Z Z
= xi fi (xi )dxi xj fj (xj )dxj = E[xi ]E[xj ] (1.46)
Ωi Ωj

Questo ovviamente implica, in base alla relazione precedente,

cov(xi , xj ) = E[xi xj ] − E[xi ]E[xj ] = 0 (1.47)

...e conseguentemente ρ(xi , xj ) = 0.

1.7 Funzioni lineari di variabili casuali


Sia ~x = (x1 , x2 , ..., xn ) una n-upla di variabili casuali, e sia g(~x) una funzione
lineare di queste ultime così costruita:

n
X
g(~x) = ai xi (1.48)
i=1

...con ai opportuni coecienti costanti. E' interessante calcolare il valore di


aspettazione e la varianza associata a g(~x):
" n
# n n
X X X
E ai xi = E[ai xi ] = ai µi (1.49)
i=1 i=1 i=1

...dove negli ultimi passaggi abbiamo sfruttato le proprietà di linearità di E.


Analogamente,

11
" n #  " #!2 
X n
X n
X
V ai xi = E  ai xi − E ai xi 
i=1 i=1 i=1
 !2   !2 
n
X n
X n
X
=E ai xi − ai µi =E ai (xi − µi ) 
i=1 i=1 i=1
 
n
X
=E ai aj (xi − µi )(xj − µj )
i,j=1
 
Xn n
X
=E a2i (xi − µi )2 + ai aj (xi − µi )(xj − µj ) (1.50)
i=1 i6=j

...dove nell'ultimo passaggio abbiamo spezzato la parte diagonale dalla parte


non diagonale. Sfruttando allora la linearità di E otteniamo:

" n
# n n
X X  X
a2i E (xi − µi )2 +

V ai xi = ai aj E[(xi − µi )(xj − µj )]
i=1 i=1 i6=j
Xn n
X
= a2i σi2 + ai aj cov(xi , xj )d (1.51)
i=1 i6=j

Perciò, la varianza di una combinazione lineare di variabili casuali è composta


da due parti: la prima somma le varianze delle singole variabili pesandole con i
coecienti a2i , mentre la seconda somma tutti i termini di covarianza pesandoli
con i coecienti ai aj .
Un caso particolare è costituito dalla situazione in cui le variabili sono tra
loro mutamente indipendenti: in questo modo, in base a quanto mostrato nel
paragrafo precedente, cov(xi , xj ) =0 e dunque la varianza della combinazione
lineare è descritta da una semplice combinazione lineare di varianze.

1.8 La propagazione degli errori


Le proprietà osservate nel paragrafo precedente riguardo una funzione lineare
di variabili casuali si mostreranno particolarmente utili per considerazioni su
funzioni la cui dipendenza da ~x è generica, nell'ipotesi in cui momenti di ordine
superiore al secondo siano molto piccoli rispetto ai momenti di ordine inferiore.
Consideriamo infatti x1 , x2 , ..., xn variabili casuali e sia y(~x) una funzione di
queste ultime:

y = y(x1 , x2 , ..., xn ) (1.52)

Chiaramente, la variabile y, essendo funzione di variabili casuali, sarà anch'essa


una variabile casuale. Siamo allora interessati a valutare il valore di aspettazione

12
e la varianza della nuova variabile casuale y, funzione delle vecchie variabili
casuali.
Nell'ipotesi di conoscere la varianza e i valori di aspettazione delle singole
xi , supporremo la distribuzione di probabilità f (~x) sia tale da rendere
variabili
i valorixi non troppo distanti dai relativi µi ; in questa ipotesi è legittimo
eettuare, per y(~
x), uno sviluppo in serie di Taylor attorno ad ~x0 = µ~ , troncato
al primo ordine della serie:

n
X ∂y
y(~x) ∼ y(~
µ) + (xi − µi ) |~x=~µ (1.53)
i=1
∂xi

Fatta questa approssimazione, osserviamo immediatamente come il valor medio


di y sia:

E[y(~x)] ∼ y(~
µ) (1.54)

Si osservi come il termine al primo ordine è stato annullato, in quanto E[xi −


µi ] = E[xi ] − E[µi ] = µi − µi = 0.
Analogamente, per la varianza, avremo:
h i
2
µ))2 ]
V [y(~x)] = E (y(~x) − E[y(~x)]) ∼ E[(y(~x) − y(~ (1.55)

Pn ∂y
Poiché, tuttavia, troncato al primo ordine vale y(~ µ) ∼ i=1 (xi −µi ) ∂x
x)−y(~ i
|~x=~µ ,
otteniamo:

 !2 
n
X ∂y
V [y(~x)] = E  (xi − µi ) |~x=~µ 
i=1
∂xi
n X n
X ∂y ∂y
= |~x=~µ |~x=~µ E[(xi − µi )(xj − µj )] (1.56)
i=1 j=1
∂xi ∂xj

Perciò, al primo ordine di approssimazione, la varianza di una variabile y che


sia funzione di una n-upla di variabili casuali è pari alla somma, pesata dal-
le derivate calcolate in µ
~ , dei termini della matrice di covarianza. Spezzando
nella parte diagonale e nella parte non diagonale, possiamo in particolar modo
scrivere:

n  2 n
X ∂y X ∂y ∂y
V [y(~x)] = |~x=~µ σi2 + |~x=~µ |~x=~µ cov(xi , xj ) (1.57)
i=1
∂xi ∂xi ∂xj
i,j,i6=j

L'espressione di sopra è detta legge di propagazione degli errori, e assume grande


importanza in sica. La relazione è ovviamente solo approssimativamente valida,
ma diventa esatta nell'ipotesi in cui la dipendenza di y dalle xi è lineare: in
questo caso si ritorna alla situazione analizzata nel paragrafo precedente, dove
i coecienti ai assumono la forma delle derivate di y rispetto alle xi .

13
2 Distribuzioni di probabilità notevoli

2.1 La distribuzione binomiale


Il primo caso particolare di distribuzione che analizzeremo è quello della distri-
buzione binomiale, caratterizzata da variabili discrete.
Si consideri un esperimento che possa risultare in soli due possibili eetti
tra loro esclusivi, che indicheremo come successo A ed insuccesso B . Se p è
la probabilità che risulti A, necessariamente q = 1−p sarà la probabilità che
risulti B. Considerati allora n tentativi indpendenti, qual è la probabilità che
il successo A appaia r volte, e consequenzialmente, l'insuccesso B risulti n−r
volte?
Ricoridamo che, essendo le variabili esclusive e i tentativi ogni volta indipen-
denti, la probabilità complessiva è semplicemente pari al prodotto delle proba-
bilità: la probabilità che dunque A risulti r volte sarà pr , mentre la probabilità
n−r
che B risulti n−r volte sarà q , e perciò:

P (r) = pr q n−r (2.1)

L'espressione di sotto non tiene in considerazione, tuttavia, il fatto che l'ordine


dei successi e degli insuccessi non è determinante. Dobbiamo perciò moltiplicare
la probabilità di sopra per il numero di possibili combinazioni di successi e
di insuccessi, che, com'è noto dal calcolo combinatorio, è dato dal coeciente
binomiale così denito:

 
n n!
= (2.2)
r r!(n − r)!
In questo modo otteniamo allora la probabilità che il successo si manifesti r
volte e l'insuccesso n − r volte:
n! n!
B(r; p, q) = pr q n−r = pr (1 − p)n−r (2.3)
r!(n − r)! r!(n − r)!
L'espressione di sopra è detta distribuzione binomiale o distribuzione di Ber-
noulli, e, come si può osservare, è gia normalizzata in modo che la somma su r
di tutte le probabilità sia unitaria:

n  
X n
pr q n−r = (p + q)n = 1n = 1 (2.4)
r
r

...dove abbiamo sfruttato la seguente proprietà associata al binomio di Newton:

n  
X n
(a + b)n = ar bn−r (2.5)
r
r

Si può dimostrare come:

µ = E[r] = np (2.6)

14
σ 2 = V [r] = npq (2.7)

2.2 La distribuzione di Poisson


2.2.1 La distribuzione di Poisson determinata da un caso sico
Si consideri un eventuo casuale E, associato alla variabile casuale t con le
seguenti caratteristiche:

1. La probabilità di osservazione di un solo evento nell'intervallo dt è pro-


porzionale a dt tramite un coeciente di proporzionalità che indicheremo
con λ:
dP (1, dt) = λdt (2.8)

2. Gli eventi sono statisticamente indipendenti;

3. La probabilità di osservazione di un evento nell'intervallo dt è innitesima


e si può osservare, per dt sucientemente piccolo, al massimo un solo
evento.
Sotto queste ipotesi (dette ipotesi di Poisson ), determiniamo la distribuzione di
probabilità che in un intervallo (0, t) si verichino 0, 1, 2, ..., r eventi osservati.
Iniziamo con l'osservare come, essendo la probabilità di osservazione di un
evento tale che dP (1; dt) = λdt, la probabilità di osservazione di zero eventi sarà
la probabilità complementare, e cioè:

dP (0; dt) = 1 − λdt (2.9)

L'assunzione numero 2) aerma come le osservazioni siano del tutto indipen-


denti: la probabilità di osservare zero eventi nell'intervallo (0, t) sarà perciò
del tutto indipendente dalla probabilità di osservare zero eventi nell'intervallo
(t, t + dt) subito successivo: conseguentemente, la probabilità di non osservare
eventi nell'intervallo (0, t + dt) sarà pari a...

P (0; t + dt) = P (0; t)dP (0; dt) (2.10)

Sostituendo allora dP (0, dt) = 1 − λdt si ottiene:

P (0; t + dt) − P (0; t)


P (0; t + dt) = P (0; t)(1 − λdt) ⇒ = −λP (0; t) (2.11)
dt
Nel limite in cui dt → 0, il termine al primo membro coincide con dP/dt:
risolvendo allora l'equazione dierenziale si ottiene la seguente probabilità di
osservazione di 0 zero eventi tra (0, t):

P (0; t) = e−λt (2.12)

15
...dove si è imposto, come condizione al contorno, P (0; 0) = 1. Il caso di sopra
è limitato unicamente alla possibilità di avere zero eventi e non è dunque molto
fruttuoso, ma è un buon punto di partenza per la nostra generalizzazione.
Passiamo ora al caso di r eventi nell'intervallo (0, t): per l'assunzione 3),
possiamo avere, nell'intervallo dt, al massimo un'unica osservazione: ciò signica
che in dt possono esservi zero eventi o uno soltanto. Conseguentemente, la
probabilità di osservare r eventi nell'intervallo (0; t), dovrà essere pari a:

dP (r; t + dt) = P (r − 1; t)dP (1; dt) + P (r; t)dP (0; dt) (2.13)

La probabilità di sopra somma i due possibili casi vericabili: o in dt non si


sono vericati eventi e tutti gli r eventi sono stati osservati in (0, t),dt si è
o in
vericato un solo evento, e conseguentemente in (0, t) se ne sono vericati r − 1.
Se allora sostituiamo dP (1; dt) = λdt e dP (0; dt) = 1 − λdt, otteniamo:

dP (r; t + dt) = P (r − 1; t)λdt + P (r; t)(1 − λdt)


P (r; t + dt) − P (r; t)
⇒ = λP (r − 1; t) − λP (r; t) (2.14)
dt
Nel limite in cui dt → 0 otteniamo allora la seguente formula ricorsiva:

dP (r; t)
= λP (r − 1; t) − λP (r; t) (2.15)
dt
L'equazione dierenziale di sopra, che risulta inevitabilmente accoppiata al-
le altre equazioni dierenziali al variare di r, può essere risolta itertivamente:
osserviamo infatti come, per diversi valori di r,

dP (0; t)
= −λP (0; t) ⇒ P (0; t) = e−λt (2.16)
dt
dP (1; t)
= λP (0; t) − λP (1; t) = λe−λt − λP (1; t) ⇒ P (1; t) = λte−λt (2.17)
dt
dP (2; t) λ2 t2 −λt
= λP (1; t) − λP (2; t) = λ2 te−λt − λP (2; t) ⇒ P (2; t) = e
dt 2
(2.18)

.
.
. (2.19)

Dall'iterazione comprendiamo dunque l'andamento di P (r; t) sia il seguente:

(λt)r −λt
P (k; t) = e (2.20)
r!
Essendo λ costante per ipotesi, risulta conveniente denire un nuovo parametro
per la distribuzione di probabilità, che indicheremo con m = λt: in questo modo,

mr −m
P (r; m) = e (2.21)
r!

16
La distribuzione di sopra, dipendente unicamente dal parametro m, è detta
distribuzione di Poisson. Quest'ultima risulta già normalizzata, poiché:

∞ ∞
X mr −m −m
X mr
e =e = e−m em = 1 (2.22)
r=0
r! r=0
r!
...dove nell'ultimo passaggio abbiamo sfruttato la denizione di sviluppo in serie
della funzione esponenziale. Si può facilmente dimostrare come:

µ[r] = E[r] = m (2.23)

σ 2 = V [r] = m (2.24)

Il prodotto λt, dunque, descrive il numero medio di eventi nell'intervallo (0, t),
e la sua radice la varianza di questa distribuzione. Si può inoltre mostrare come
la curva assuma valore massimo per r = m.

2.2.2 La distribuzione di Poisson come limite della distribuzione


binomiale
L'assunzione 3) del paragrafo precedente sottointende come la probabilità di
verica di osservazione di uno o zero eventi, in un intervallo dt molto piccolo,
si riveli molto bassa; ciò nonostante, il numero di campioni in cui si osserva il
fenomeno può rivelarsi molto grande, rendendo la probabilità complessiva P (r, t)
in (0, t) sensibilmente non nulla. Vogliamo allora osservare come la distribuzione
di Poisson costituisca nient'altro che un caso particolare della distribuzione di
Bernoulli, nell'ipotesi in cui p→0 ed n → ∞.
Analizziamo allora l'andamento della distribuzione binomiale sfruttando la
formula di Stirling, che approssima il fattoriale per n molto grande, secondo la
seguente relazione:


n! ∼ 2πnnn e−n (2.25)

Sostituendo allora nella binomiale n! e scrivendo p come m/n (in modo di


esprimer il limite solo in funzione di n) otteniamo:


n! r n−r 1 2πnnn e−r  m r  m r
p (1 − p) ∼ p 1−
r!(n − r)! r! 2π(n − r)(n − r)n−r e−(n−r) n n
1 1 m
= mr (1 − )n (2.26)
r! (1 − nr )n er n
Nel limite in cui n → ∞ otteniamo allora la seguente distribuzione limite della
binomiale:

1 r −m
P (r; m) = m e (2.27)
r!
...che è proprio la distribuzione di Poisson.

17
2.3 La distribuzione uniforme
Un primo esempio di distribuzione di probabilità continua è la distribuzione uni-
forme : quest'ultima dipende da un'unica variabile casuale x rispetto alla quale
la densità di probabilità è costante lungo una regione (a, b) dove x è denita.
La distribuzione uniforme assume la seguente espressione già normalizzata:

1
f (x) = a≤x≤b (2.28)
b−a
Valore di aspettazione e varianza di x assumono la seguente forma:

Z b
1
µ = E[x] = xf (x)dx = (a + b) (2.29)
a 2
Z b
2 1
σ = V [x] = (x − E[x])2 f (x)dx = (b − a)2 (2.30)
a 12

2.4 La distribuzione esponenziale


La distribuzione di probabilità esponenziale è denita come segue:

1 − βx
f (x; β) = e 0 ≤ x ≤ ∞, β ≥ 0 (2.31)
β
Il calcolo diretto restituisce:

µ = E[x] = β (2.32)

σ 2 = V [x] = β 2 (2.33)

E' evidente la distribuzione esponenziale risulti strettamente legata alla distri-


buzione di Poisson, sebbene la prima sia una distribuzione a parametri continui
x, mentre la seconda a parametri discreti r: per notare l'analogia, riprendiamo il
caso sico del paragrafo 2.2: vogliamo ad esempio determinare l'espressione per
la probabilità di osservare un evento una volta trascorso un intervallo di tempo
t: diciamo, un istante dopo; poiché dire il primo evento è localizzato nell'in-
tervallo (t, t + dt) (0, t)
e equivalente a dire non sono stati osservati eventi in
avremo che la probabilità di osservazione di un evento dopo l'intervallo t sarà pa-
ri, nell'ipotesi di eventi indipendenti, al prodotto tra le due probabilità P (0; t) e
dP (1; dt): in base a quanto osservato in precedenza, poiché P (0; t) = e−λt (gra-
zie alla distribuzione di Poisson) e dP (1; dt) = λdt (che è la prima assunzione
di Poisson), otteniamo:

dP (1; t) = λe−λt dt (2.34)

La probabilità per unità di t, che nel nostro caso diventa la densità di probabilità
di osservare un evento dopo t, diventa perciò:

18
f (t; λ) = λe−λt 0 ≤ t ≤ 1∞ (2.35)

...che è proprio una distribuzione esponenziale, una volta posto λ = 1/β . La


quantità di sopra, vista ora come funzione della variabile t, può essere inter-
pretata come la distribuzione di probabilità per l'intervallo t tra due eventi
consecutivi, in quanto descrive la densità di probabilità di osservazione di un
evento dopo un certo intervallo t in cui non vi sono state osservazioni. In questo
modo, per denizione, la probabilità di osservare un intervallo t tra due eventi
consecutivi può essere valutata attraverso il seguente integrale:

Z t
F (t) = f (t0 ; λ)dt0 = 1 − e−λt (2.36)
0
Risultano dunque chiare le analogie e le dierenze tra la distribuzione di Poisson
e la distribuzione esponenziale: la prima descrive la probabilità di osservare r
eventi in un intervallo di tempo t ssato; la seconda la probabilità di osservare
un intervallo di tempo t tra due eventi ssati.

2.5 La distribuzione di Gauss


2.5.1 Denizione e proprietà
Un'ultima distribuzione continua di probabilità notevole che discuteremo è la
distribuzione normale o distribuzione di Gauss, la quale riveste un ruolo fonda-
mentale nella teoria della probabilità e nella statistica. La nostra trattazione
si restringerà, per ora, ad una distribuzione gaussiana dipendente da una sola
variabile casuale, ma provvederemo a generalizzare nei prossimi paragra.
La distribuzione di probabilità di Gauss è denita dalla seguente espressione
già normalizzata ad 1:
1 (x−x0 )2
N (x; x0 , a) = √ e− 2a2 (2.37)
2πa
...dove a ed x0 sono due parametri reali della distribuzione. Si può facilmente
vericare come valga:

µ = E[x] = x0 (2.38)

σ 2 = V [x] = a2 (2.39)

Per questo sfrutteremo la seguente scrittura esplicita:

1 (x−µ)2
N (x; µ, σ) = √ e− 2σ2 (2.40)
2πσ
La distribuzione verica inoltre le seguenti proprietà.

1. La distribuzione è simmetrica rispetto al punto µ;

19
2. La distribuzione ha due punti di esso in corrispondenza dei punti µ+σ
ed µ − σ, dove dunque si ha d2 N (x; µ, σ)/dx2 = 0;
3. La distribuzione ammette un unico punto di massimo in
√ x = µ, dove
assume il valore N (x0 ; µ, σ) = 1/ 2πσ .

La funzione cumulativa è ovviamente la quantità integrale...

Z x (x0 −µ)2
1
G(x) = √ e− 2σ2 dx0 (2.41)
−∞ 2πσ
L'integrale di sopra è spesso riscritto in modo da risultare indipendente (almeno
esplicitamente) dai parametri σ e µ: in particolare, si eettua il seguente cambio
di variabile:

x0 − µ 1
= t0 ⇒ dt0 = dx0 (2.42)
σ σ
In questo modo, la funzione cumulativa assume la seguente forma, detta funzione
cumulativa standard :
Z t
1 t02
G(t) = √ e− 2 dt0 (2.43)
2π −∞

...dove si è posto t = (x − µ)/σ . L'integrale di sopra (non valutabile analtica-


mente se non nel caso t → ∞) è spesso tabulato per diversi valori di t, dunque
la scrittura precedente risulta molto pratica. La funzione cumulativa standard
verica inoltre la seguente proprietà:

G(−t) = 1 − G(t) (2.44)

Infatti,

Z −t 02
Z +∞ 02
Z ∞
1 − t2 0 1 − t2 0 1 t02
G(−t) = √ e dt = √ e dt − √ e− 2 dt0
2π −∞ 2π −∞ 2π −t
Z t 0
1 t 2
=1− √ e− 2 dt0 = 1 − G(t) (2.45)
2π −∞

...dove negli ultimi passaggi abbiamo sfruttato la condizione di normalizzazione


ed eettuato il cambio di variabile t0 → −t0 .

2.5.2 Contenuto probabilistico di N (x; µ, σ)


La funzione cumulativa G(x) è utilizzata, nella pratica, per determinare il con-
tenuto probabilistico di un dato intervallo per un valore distribuito gaussiana-
mente, o, viceversa, per determinare un intervallo corrispondente ad una data
probabilità. Cerchiamo di rendere meglio il concetto considerando una variabile

20
Figura 1:

x distribuita secondo la distribuzione gaussiana N (x; µ, σ); vogliamo determi-


nare la probabilità che una misura di x restituisca un valore compreso in un
intervallo [a, b], e cioè:

P (a ≤ x ≤ b) = P (x ≤ b) − P (x ≤ a) (2.46)

Se allora vogliamo determinare esplicitamente le due probabilità in termini della


funzione cumulativa standard, eettuiamo il cambio di variabile x → (x − µ)σ ,
in modo da ottenere:

   
x−µ b−µ x−µ a−µ
P (a ≤ x ≤ b) = P ≤ −P ≤
σ σ σ σ
Z (b−µ)/σ Z (a−µ)/σ    
1 t 02 1 t02 b−µ a−µ
=√ e− 2 dt− √ e− 2 dt = G −G
2π −∞ 2π −∞ σ σ
(2.47)

Conosciuti allora i parametri µ e σ della distribuzione della variabile x e gli


estremi [a, b] in cui si vuole che ricada l'intervallo è possibile determinare im-
mediatamente P (a ≤ x ≤ b) conoscendo i valori di G tabulati. In particolare,
alcuni casi notevoli sono i seguenti:

P (µ − σ ≤ x ≤ µ + σ) = G(1) − G(−1) = 2G(1) − 1 = 0.6827 (2.48)

P (µ − 2σ ≤ x ≤ µ + 2σ) = G(2) − G(−2) = 2G(2) − 1 = 0.9545 (2.49)

P (µ − 3σ ≤ x ≤ µ + 3σ) = G(2) − G(−2) = 2G(2) − 1 = 0.9973 (2.50)

Osserviamo allora come la quasi totalità delle misurazioni del parametro x ri-
cadrà per valori compresi entro 3σ del valore centrale µ, essendo in questo
intervallo la probabilità di osservazione quasi pari ad 1.

21
Poniamoci ora il problema inverso: supponiamo di voler determinare l'inter-
vallo la cui ampiezza sia in grado di restituire una probabilità ssata p che sia
simmetrico rispetto a µ 1 ; in base a quanto visto poco prima, avremo:

   
b−µ a−µ
p=G −G (2.51)
σ σ
Se però abbiamo scelto l'intervallo simmetrico, deve valere a − µ = µ − b, e
dunque:

     
b−µ b−µ b−µ
p=G −G − = 2G −1 (2.52)
σ σ σ
In questo modo si ottiene:

 
b−µ 1
G = (p + 1) (2.53)
σ 2
Basta quindi determinare, attraverso le tabelle, il parametro b che più è ingrado
1
di restituire la quantità
2 (p + 1) al secondo membro.

2.5.3 La distribuzione binormale


La distribuzione di probabilità combinata per due variabili casuali x1 ed x2 è
detta distribuzione binormale se assume la seguente forma:

1 1
f (x1 , x2 ) = p e− 2 Q (2.54)
2πσ1 σ2 1− ρ2
...dove la quantità Q è denita come segue:

" 2  2   #
1 x1 − µ1 x2 − µ2 x1 − µ1 x2 − µ2
Q= + − 2ρ
1 − ρ2 σ1 σ2 σ1 σ2
(2.55)
La nomenclatura non è casuale: si può infatti mostrare come ρ rappresenti
l'indice di correlazione tra x1 ed x2 , e valga:

σ1 = V [x1 ] σ2 = V [x2 ] µ1 = E[x1 ] µ2 = E[x2 ] (2.56)

E' interessante il caso particolare in cui i parametri sono sono correali (ρ = 0),
e la distribuzione binormale si riduce al prodotto di due gaussiane:

2 2
1 1
 
x1 −µ1 x2 −µ2
−1 −1
f (x1 , x2 ) = √ e 2 σ1
√ e 2 σ2
(2.57)
2πσ1 2πσ2
L'espressione della distribuzione binormale è convenientemente riscritta in ter-
mini matriciali, introducendo la matrice di covarianza Vij : consideriamone
infatti l'inversa, la quale assume la sforma:

1 In generale esistono inniti intervalli in grado di restituire un dato valore della probabilità,
ma soltanto uno che sia simmetrico rispetto a µ.

22
σ12
 
cov(x1 , x2 )
Vij =
cov(x1 , x2 ) σ22
σ22
 
1 −cov(x1 , x2 )
⇒ Vij−1 =
σ12 σ22 − cov2 (x1 , x2 ) −cov(x1 , x2 ) σ12
− σ1ρσ2
1
!
1 σ12
= (2.58)
1 − ρ2 − σ1ρσ2 1
σ22

Se allora introduciamo il vettore riga così costruito,

 
x1 − µ1
xi − µi = (2.59)
x2 − µ2
...osserviamo come Q possa essere scritto come segue:

− σ1ρσ2
1
! 
 1 σ12 x1 − µ1
Q= x1 − µ1 x2 − µ2
1 − ρ2 − σ1ρσ2 1
σ22
x2 − µ2
≡ (xi − µi )T Vij−1 (xi − µi ) (2.60)
p
Lo stesso denominatore 2πσ1 σ2 1 − ρ2 , come si può osservare, coincide, a meno
−1
del fattore 2π , con la radice del determinante di Vij . In questo modo otteniamo
la seguente forma più sintetica:

1 1 T −1
f (x1 , x2 ) = q e− 2 (xi −µi ) Vij (xi −µi )
(2.61)
−1
2π det(Vij )

2.5.4 Il teorema del limite centrale


Supponiamo di avere una n-upla di punti x1 , x2 , ..., xn che costituiscano un
2
insieme di variabili indipendenti, ciascuna di valor medio µi P
e varianza σi . In
n
base a quanto imparato nel paragrafo 1.7, la quantità
Pn yn = i ai xi è ancora
una variabile casuale di valor medio µn = i ai µi e di varianza (nell'ipotesi di
i ai σi . Il teorema del limite centrale descrive la
2 2 2
Pn
variabili non correlate) σn =
distribuzione della variabile yn nell'ipotesi in cui n diventa molto grande, e può
essere formulato come segue:

Teorema del limite centrale - Sia x1 , x2 , ..., xn un insieme di n va-


riabili casuali indipendenti; ognuna delle xi abbia una distribuzione
di valor medio µi e varianza σi . Allora la variabile...

n
X
yn = ai xi (2.62)
i=1

...ammette come distribuzione, nel limite per n → ∞, la distribuzio-


ne gaussiana N (y;
P∞ pP∞
i=1 ai µi , i=1 a2i σi2 ).

23
Un esempio notevole si può osservare nella media aritmetica di una n-upla di
variabili xi , cioè la quantità x̄ così denita:

n
1X
x̄ = xi (2.63)
n i=1
In base al teorema, per n → ∞ la quantità x̄ si distribuirà secondo una distribu-
zione gaussiana (indipendentemente dalla distribuzione delle xi ) caratterizzata
dai seguenti parametri:

n n
1X 2 1 X
µ̄ = µi σ̄ = 2 σi (2.64)
n i=1 n i=1
Nell'ipotesi in cui ogni variabile ha ugual valore medio e varianza, l'espressione
si riduce a...

1
µ̄ = µ σ̄ 2 = σ (2.65)
n

24
3 Errori di misura

3.1 Il modello di Laplace


Supponiamo di voler misurare un'opportuna grandezza sica, come la posizione
di una particella o la sua energia. Senza entrare troppo in meriti losoci, è
legittimo pensare la grandezza sica in questione possegga un valore vero x∗ , a
noi sconsciuto prima della misurazione. Eettuato il processo di misura, sia x
il risultato ottenuto: in generale x non coincide con x∗ , a causa dei numerosi
fattori perturbatori che inciano la misurazione e che ci allontanano dal valore
vero x∗ . Queste perturbazioni vengono dette errori di misura, la cui natura,
data la loro imprevedibilità, verrà supposta puramente casuale.
Questi errori casuali di misura possono essere schematizzati come un insie-
me estremamente grande (al limite innito) di disturbi contemporanei molto
piccoli (al limite innitesimi), ognuno dei quali tende ad alterare di pochissimo
il risultato della misura. E' allora legittimo introdurre le seguenti ipotesi, che
costituiscono il cosiddetto modello di Laplace per gli errori di misura :
1. Ognuna delle singole cause di disturbo presenti indurrà nella misura una
variazione di modulo sso ε rispetto al valore vero, con uguale probabilità
in difetto o in eccesso;
2. Ognuna delle variazioni nella misura dovute a queste cause di disturbo è
statisticamente indipendente dalle altre.
L'aermazione 1) suppone ognuna delle N cause indipendenti di disturbo pro-
duca quindi una variazione, rispetto al valore x∗ , pari a +ε con probabilità
p = 0.5, oppure pari a −ε con probabilità q = 1 − p = 0.5. Se allora indichiamo
con M il numero di perturbazioni positive, e dunque con N − m le perturbazioni
negative, il valore osservato x sarà:

x = x∗ + M ε − (N − m)ε = x∗ + (2M − N )ε (3.1)

Poiché abbiamo due soli possibili casi (perturbazione positiva o perturbazione


negativa), la probabilità di osservare M volte una perturbazione positiva (e
dunque N −M volte una perturbazione negativa) sarà data dalla distribuzione
binomiale:

N!
P (M, N ) = pM q N −M (3.2)
M !(N − M )!

3.2 L'ipotesi gaussiana della distribuzione degli errori


Quando sono molteplici le sorgenti di disturbo della misura diventa poco ragio-
nevole supporre le perturbazioni abbiano tutte lo stesso peso ε o −ε. E' allora
più legittimo supporre le sorgenti di disturbo generino degli errori εi (il cui se-
gno può essere positivo o negativo) distribuiti secondo un'opportuna funzione
di distribuzione f (εi ); in questo modo è possibile denirne un opportuno errore
medio e un'opportuna varianza sull'errore:

25
Z
µ(εi ) = εi f (εi )dεi (3.3)

Z
σ(εi ) = (εi − µε )2 f (εi )dεi (3.4)

D'altra parte, possiamo sempre supporre la probabilità di osservare un εi posi-


tivo sia uguale alla probabilità di osservare un εi negativo, in quanto il processo
di distribuzione delle perturbazioni deve rimanere casuale: è perciò legittimo
porre:
Z
µ(εi ) = 0 ⇒ σ(εi ) == εi f (εi )dεi (3.5)

Se abbiamo a che fare con N sorgenti, ognuna delle quali aggiunge un errore εi
positivo o negativo, possiamo supporre il valore misurato x disti dal valore vero
x∗ come segue:

n
X
x = x∗ + εi (3.6)
i
Pn
Se deniamo allora con ε= i εi la somma di tutti gli errori, otteniamo una
nuova variabile casuale che, nell'ipotesi di n → ∞, secondo il teorema del limite
Pn
centrale si distribuirà in maniera gaussiana, con valor medio
Pn µε = i µ(εi ) = 0
e varianza σε2 = i σ 2 (εi ). La distribuzione di probabilità della somma di tutti
gli errori di misura è perciò nella forma:

2
1 − ε
f (ε) = √ e 2σε2 (3.7)
2πσε

26
4 Stima dei parametri di una distribuzione

4.1 Gli estimatori


Da un punto di vista sperimentale, il più delle volte, non sono noti a priori
i parametri caratteristici di una distribuzione (valor di aspettazione, varianza,
etc.). Gli esperimenti permettono infatti di ottenere un insieme di campioni
associati ad una determinata misura, i quali, in genere, assumono la forma di
variabili casuali, in quanto non si può predire con assoluta precisione l'esito di
una misurazione. E' poi possibile analizzare l'andamento dei punti sperimentali
per comprendere la distribuzione di probabilità caratteristica del fenomeno, e
solo a quel punto determinare i parametri caratteristici della distribuzione. In
questa sezione, perciò, ci dedicheremo alle metodologie utili alla determinazione
dei parametri di una distribuzione di probabilità, introducendo all'uso degli
estimatori.
Per estimatore intendiamo una funzione, o metodo, per trovare il valore di
un parametro sconosciuto. Analogamente deniremo valore stimato il valore
numerico di un parametro ottenuto attraverso un estimatore per un particolare
insieme di dati sperimentali. Utilizzeremo un cappello per indicare la stima
di un parametro: se perciò θ è un parametro distribuzionale, θ̂ sarà la sua
stima. Un estimatore permette dunque eettuare una valutazione numerica di
una grandezza tipica di una distribuzione e permette di valutarne la bontà, cioè
la probabilità che il valore numerico reale del parametro si aggiri in un intorno
più o meno piccolo della stima.
Supponiamo ora di aver eettuato n misure, che abbiano restituito i ri-
sultati x1 , x2 , ..., xn : questi ultimi possono essere assunti come variabili casua-
li la cui distribuzione di probabilità dipenda da un parametroθ sconosciuto,
ma che vogliamo stimare attraverso un opportuno estimatore. Una funzio-
ne t = t(x1 , x2 , ..., xn ) delle variabili, che tuttavia non dipenda esplicitamente
da nessun parametro sconosciuto θ, è detta statistica. Nei prossimi paragra
vedremo come risconoscere, in una statistica, un opportuno estimatore.

4.2 Proprietà degli estimatori


Anché un estimatore possa determinare una stima soddisfacente di un deter-
minato parametro ignoto, è necessario verichi le seguenti proprietà:

1. Consistenza - E' immediata la richiesta che la stima di un estimatore


converga al parametro reale sconosciuto all'aumentare delle osservazioni.
Questa proprietà è detta di consistenza. Matemamaticamente, un esti-
matore t si dice consistente se, ottenuta una stima θ̂n da un numero n di
parametri, per ogni numero positivo η, ε piccolo a piacere e per ogni intero
N grande deve vericarsi:

P (|θ̂n − θ| > ε) < η ∀n > N (4.1)

In altre parole, la probabilità che la stima θ̂n dierisca di poco dal valore
reale θ deve essere molto piccola quando il numero di osservazioni è grande.

27
2. Invarianza sotto trasformazione - Un estimatore dev'essere in grado di
agire anche su funzioni di parametri incogniti, senza tuttavia trasformarli.
In altre parole, si vuole che, detta f una funzione di un parametro reale
θ, allora la stima della funzione f (θ) sia pari a f (θ̂).
3. Ecienza - La stima di un parametro, come vedremo, sarà caratterizzato
da una certa varianza, che come sappiamo descrive il range di valori che
dieriscono dal valor medio. Poiché vogliamo queste uttuazioni siano
basse in modo che la stima sia denita in un range molto basso, deniremo
eciente un estimatore caratterizzato da bassa varianza.

4. Bassa distorsione - Deniamo distorsione di un estimatore la seguente


quantità:
E[θ̂] − θ (4.2)

Si vuole, per un estimatore, una bassa distorsione : in altre parole, ci si


aspetta che il valore di aspettazione dell'estimatore coincida il più possibile
con il valore reale del parametro, e dunque la distorsione tenda a zero.
Qualora la distorsione tendesse a zero per una sequenza di stime θ̂n per
n → ∞, allora si direbbe che l'estimatore è asintoticamente non distorto.

4.3 L'estimatore media aritmetica e scarto quadratico me-


dio
Iniziamo con il denire un buon estimatore del valore di aspettazione, cioè l'e-
stimatore media aritmetica x̄. Dato un set di misure x1 , x2 , ..., xn descritte da
una distribuzione di probabilità sconosciuta, è denito come segue l'estimatore
del valore di aspettazione µ della distribuzione dei valori x1 , x2 , ..., xn :
n
1X
x̄ = xi (4.3)
n i=1
Infatti,

1. L'estimatore è non distorto, poiché:

n n
1X 1X 1
E[x̄] = E[xi ] = µ = nµ = µ (4.4)
n i=1 n i=1 n

2. L'estimatore è ben eciente, poiché:

n n
1 X 1 X 2 1 2 σ 2 n→∞
V [x̄] = V [x i ] = σ = nσ = → 0 (4.5)
n2 i=1 n2 i=1 n2 n

...dove abbiamo sfruttato la proprietà 1.51 nell'ipotesi di variabili indipen-


denti.
Si può, in particolare, mostrare come la media aritmetica sia l'estimatore

28
del valore di aspettazione con minor varianza, ed è dunque più utilizzato.
Inoltre, ad esso è associata la legge dei grandi numeri che ne saggia l'alta
consistenza, come vedremo nel prossimo paragrafo.

Un ottimo estimatore della varianza della distribuzione di un set di misure è


invece lo scarto quadratico medio s2 , denito come segue 2 :
n
1 X
s2 = (xi − x̄)2 (4.8)
n − 1 i=1
Infatti,

1. L'estimatore è non distorto; per mostrarlo, conviene riscrivere l'espressione


di s2 come segue, cioè addizionando e sottraendo per µ ed esplicitando la
forma di x̄:
 2
n
1 X 2 1 X 1 X
s2 = [(xi − µ) − (x̄ − µ)] = (xi − µ) − (xj − µ)
n − 1 i=1 n−1 i n j
(4.9)
Se calcoliamo allora E[s2 ], otteniamo:

" #  
1 X 1 X
E[s2 ] = E (xi − µ)2 − E  (xj − µ)2 
n−1 i
(n − 1)n j

1 X 1 X
= E[(xi − µ)2 ] − E[(xi − µ)2 ]
n−1 i
(n − 1)n i
1 1
= nσ 2 − nσ 2 = σ 2 (4.10)
n−1 (n − 1)n

2. L'estimatore è consistente e ben eciente, come si può dimostrare dal


calcolo diretto.

4.4 La legge dei grandi numeri


Il concetto di convergenza di un estimatore al valore vero di una distribuzione
costituisce un ruolo fondamentale in probabilità e statistica, in quanto assicura,

2 Non di rado è possibile trovare il seguente estimatore S 2 , che dierisce dallo scarto
quadratico medio per un fattore 1/n anziché un fattore 1/(n − 1) :
n
1X
S2 = (xi − x̄)2 (4.6)
n i=1
Com'è possibile vericare dal calcolo diretto, un simile estimatore si mostra meno ecace,
in quanto si rivela non distorto solo asintoticamente:
 
1
E[S 2 ] = 1− σ2 (4.7)
n

29
in linea con la losoa del metodo scientico, che un esperimento, ripetuto
un numero sucientemente alto di volte nelle condizioni opportune, restituisca
risultati del tutto attendibili. In questo senso si dimostra fondamentale la legge
dei grandi numeri, che enunciamo come segue nella sua formulazione debole:
Legge debole dei grandi numeri - Sia x1 , x2 , ... un insieme di
variabili casuali indipendenti le quali posseggano identica distribu-

Pn µ. Per le prime n di queste variabili, la media


zione con valore medio
1
aritmetica
n i xi sarà ancora una varaibile casuale di valor
x̄ =
3
medio µ, indipendentemente dal valore di n . La legge (debole) dei
grandi numeri aerma come, per ogni numero positivo ε, la proba-
bilità che x̄ devii da µ di una quantità maggiore di ε sarà zero nel
limite in cui n → ∞:

lim P (|x̄ − µ| > ε) = 0 (4.11)


n→∞

Alternativamente, possiamo dire come, per ogni n maggiore di un


certo N ssato, e per ogni coppia di quantità positive ε e δ, la
probabilità che x̄ devii da µdi una quantità maggiore di εè minore
di δ:

P (|x̄ − µ| > ε) < δ ∀n ≥ N (4.12)

Si osservi come la legge dei grandi numeri non dica nulla riguardo la varianza
della distribuzione. Infatti, il teorema rimane valido anche se la deviazione
caratterizzante gli xi è innita. Qualora σ2 esistesse nita, allora la legge dei
grandi numeri sarebbe un'immediata conseguenza della seguente disuguaglianza,
detta disuguaglianza di Byenaymé-Chebisev, che qui non dimostriamo:
1
P (|x − µ| > σλ) ≤ ∀λ > 0 (4.13)
λ2
Se infatti applichiamo la disuguaglianza alla variabile casuale x̄, la cui varianza,
come dimostrato nel paragrafo precedente, è pari a σ 2 /n, otteniamo:

 
σλ 1
P |x̄ − µ| > √ ≤ (4.14)
n λ2

Posto allora ε = σλ/ n, si ottiene:

σ2
P (|x̄ − µ| > ε) ≤ (4.15)
nε2
Perciò, ssato ε, la probabilità che |x̄ − µ| > ε può essere resa arbitrariamente
piccola rendendo n arbitrariamente grande.

3 L'abbiamo dimostrato nel paragrafo 2.5.4.

30
4.5 Il metodo di massima verosimiglianza
4.5.1 La funzione di verosimiglianza
Il metodo di massima verosimiglianza, o di maximum-likelihood, è un potente
strumento grazie al quale determinare facilmente gli estimatori di una distribu-
zione la cui natura è nota, ma non sono conosciuti i parametri caratteristici.
Si consideri una generica distribuzione di probabilità ~ , caratterizzata
f (x; θ)
~
da k parametri incogniti raccolti nel vettore θ = (θ1 , θ2 , ..., θk ), e sia x1 , x2 , ..., xn
un insieme di punti sperimentali che rispettino la distribuzione f (x; θ). Denia-
mo la seguente funzione, detta funzione di verosimiglianza (o likelihood function,
abbreviato in LF ):
n
Y
~ =
L(x; θ) ~
f (xi ; θ) (4.16)
i=1

Come si può osservare, essa coincide con la densità di probabilità combinata di


osservare le misure x1 , x2 , ..., xn nell'ipotesi in cui esse sono indipendenti. Il me-

todo di massima verosimiglianza asserisce che la stima migliore θ̂~ del parametro
sconosciuto θ~ è quella che massimizza la funzione di verosimiglianza. Si può in-
fatti dimostrare come, in questo modo, sia possibile determinare un estimatore
di massima verosimilgianza che consistente, eciente, invariante e a distorsione
nulla.
Per determinare dunque la migliore stima del parametro ~
θ, è necessario
innanzitutto imporre l'annullarsi delle derivate di ~
L(x; θ) rispetto alle θi e la
condizione di massimo:

∂2L
 
∂L
=0 <0 (4.17)
∂θi ∂θi ∂θj ~
~ θ̂
θ=
Tuttavia, risulta più semplice applicare la relazione al logaritmo L, anziché ad
L: essendo il logaritmo una funzione monotona crescente, assumerà massimo
nello stesso punto in cui L assume massimo. Bisognerà perciò porre:

∂2
 

log L = 0 log L <0 (4.18)
∂θi ∂θi ∂θj ~
~ θ̂
θ=

Imposti dunque i vincoli di sopra, si giunge a delle equazioni nei parametri θ̂


grazie ai quali determinare le quantità incognite della distribuzione.
Il metodo di massima verosimiglianza fornisce inoltre, nell'ipotesi di un nu-
mero sucientemente alto di misure, una stima sulla varianza dei parametri θ̂i ,
che indicheremo con σθ̂i . Per mostrarlo, partiamo dal caso semplice in cui la
distribuzione dipende da un solo parametro incognito: la funzione di massima
verosimiglianza L(x; θ), vista come funzione del parametro θ, per il teorema del
limite centrale tenderà ad una distribuzione gaussiana nel limite in cui n → ∞,
e assumerà perciò la forma...

31
2
1

θ−θ̂
−1
L= √ e 2 σθ
(4.19)
2πσθ
Osserviamo come, applicando il logaritmo ambo i membri, si ottenga:

!2
1 1 θ − θ̂
log L = − log 2πσθ2 − (4.20)
2 2 σθ
Se allora deriviamo due volte ambo i membri rispetto a θ e valutiamo l'espres-
sione in θ = θ̂, otteniamo un'equazione da cui estrapolare σθ :

∂ 2 log L 1 1
2
|θ=θ̂ = − 2 ⇒ σθ̂2 = − ∂ 2 log L |θ=θ̂ (4.21)
∂θ σθ̂ 2 ∂θ
Nel caso di più parametri, come sappiamo, il concetto di varianza si estende alla
matrice di covarianza Vij : si può tuttavia dimostrare la seguente relazione:

∂ 2 log L
 
~
Vij−1 (θ̂) = − (4.22)
∂θi ∂θj ~
~ θ̂
θ=

4.5.2 Il metodo di massima verosimiglianza applicato alla distribu-


zione di Gauss
Vediamo di applicare il metodo di massima verosimiglianza ad un set di dati
distribuiti secondo una distribuzione normale: attraverso quest'ultima saremo
in questo modo in grado di determinare i parametri µ e σ caratterizzanti la
distribuzione. Partiamo innanzitutto dalla denizione:

 n
n Y
1 (xi −µ)2
L(x; µ, σ) = √ e− 2σ 2 (4.23)
2πσ i=1

Come già sottolineato nel paragrafo precedente, converrà cercare massimi per il
logaritmo di L, e cioè per:

n  2
n 1X xi − µ
log L = − log 2πσ 2 − (4.24)
2 2 i=1 σ
Applichiamo dunque le derivate per determinare la migliore stima di σ e µ:

n   n n
∂ log L X xi − µ X 1X
= =0⇒ xi = nµ̂ ⇒ µ̂ = xi = x̄ (4.25)
∂µ i=1
σ2 i=1
n i=1

Il punto di sopra costituisce certamente un massimo, in quanto ∂ 2 log L/∂µ2 =


2
−n/σ < 0; in una distribuzione gaussiana, perciò, la migliore stima del para-
metroµ la media aritmetica dei dati sperimentali.
La varianza sul parametro µ̂sarà, nell'ipotesi di un numero sucientemente
grande di misure,

32
1 1 σ̂ 2
σµ̂2 = − ∂ 2 log L |µ=µ̂,σ=σ̂ = Pn 1 = (4.26)
i=1 σ̂ 2 n
∂µ2

Che è un altro risultato ormai noto; per poter determinare σ̂ , che è la stima sul
secondo parametro della distribuzione gaussiana, riapplichiamo il metodo:

n n
∂ log L n 1 X 2 2 1X
=− + 3 (xi − µ) = 0 ⇒ σ̂ = (xi − µ̂)2 (4.27)
∂σ σ σ i=1 n i=1

...risultato ancora una volta in linea con il teorema del limite centrale. La
varianza sulla varianza sarà, invece,

1 2σ̂ 4
σσ̂2 2 = − ∂ 2 log L |µ=µ̂,σ=σ̂ = (4.28)
2 2
n
∂(σ )

Dove, in dettaglio, abbiamo eettuato il seguente calcolo:

n
∂ 2 log L n 1 X n n n
|µ=µ̂,σ=σ̂ = − 6 (xi − µ̂)2 = − 4 =− 4 (4.29)
∂(σ 2 )2 2σ̂ 4 σ̂ i=1 2σ̂ 4 σ̂ 2σ̂

Qualora ognuna delle misure xi presentasse una diversa varianza σi , il calcolo


potrebbe essere ripetuto per la seguente distribuzione di probabilità,

 n
n Y (xi −µ)2
1 −
2σ 2
L(x.σi ; µ) = √ e i (4.30)
2πσi i=1

Stavolta, si faccia attenzione, la variabile σi non costituisce un parametro ignoto


della distribuzione, ma una variabile nota associata alle misure xi , per ipotesi
distribuite gaussianamente. Il parametro µ può essere determinato immediata-
mente tramite la solita derivazione:

n   Pn xi
∂ log L X xi − µ i=1 σi2
= = 0 ⇒ µ̂ = Pn 1 (4.31)
∂µ i=1
σi2 i=1 σi2

In questo secondo caso, il valor medio assume la forma di una media pesata.

4.5.3 Il metodo di massima verosimiglianza applicato alla distribu-


zione di Poisson
Applichiamo adesso il metodo di massima verosimiglianza alla distribuzione
poissoniana: supponiamo allora di aver eettuato n misure, e di aver ottenuto
i valori r1 , r2 , ..., rn . La funzione di verosimiglianza sarà:

n
Y 1 −m ri
L(r; µ) = e m (4.32)
r
i=1 i
!

33
Calcolatone allora il logaritmo, si ha:

n   n
X 1 −m ri X
log e−m + log mri − log ri !

log L = log e m =
i=1
ri ! i=1
n
X
= −mn + (ri log m − log ri !) (4.33)
i=1

Eettuiamo dunque la derivata rispetto ad m e annulliamo il tutto:

n
∂ X ri
log L = 0 = −n + (4.34)
∂m i=1
m
Da cui la miglior stima di m:
Pn
i ri
m̂ = (4.35)
n
La relativa incertezza, in particolare, sarà:

2 1 m̂2 m̂2 m̂
σm̂ = − ∂ 2 log L |m=m̂ = Pn = = (4.36)
2 i ri nm̂ n
∂m

4.5.4 Il metodo di massima verosimiglianza applicato alla distribu-


zione esponenziale
Un ultimo caso notevole è quello della distribuzione esponenziale, anch'essa,
come la poissoniana, distinta da un unico parametro τ; la relativa funzione di
verosimiglianza sarà allora:

n
Y 1 − ti
L(t; τ ) = e τ (4.37)
i=1
τ
Ripetendo gli stessi ragionamenti dei precedenti paragra otteniamo:

n
1X ∂
log L = −n log τ − ti ⇒ log L = 0
τ i=1 ∂τ
n Pn
n 1 X ti
=− + 2 ti ⇒ τ̂ = i=1 (4.38)
τ τ i=1 n

1 1 1 τ̂ 2
στ̂2 = − ∂ 2 log L |τ =τ̂ = − n 2
Pn =− n 2n = (4.39)
∂τ 2 τ̂ 2 − τ̂ 3 i=1 ti τ̂ 2 − τ̂ 2
n

34
Figura 2:

4.5.5 Metodi graci per il metodo di massima verosimiglianza


In molti problemi pratici non è possibile determinare in maniera esplicita il
massimo per la funzione di massima verosimiglianza, nè la varianza associata ai
parametri della distribuzione. L'andamento numerico di ~ , vista come fun-
L(x; θ)
~
zione del parametro θ (da minimizzare) può essere tuttavia stimato gracamente
quando il numero di parametri è uno o due.

Caso ad un parametro - Partiamo dal caso semplice in cui la


distribuzione di probabilità dipende da un solo parametro: in questo
caso è possibile tracciare il graco di L (noti i punti sperimentali)
come funzione di θe osservare gracamente il range di valori in cui
è presente il valore massimo. Supponiamo per praticità sia presente
un unico valore di massimo
4 : grazie al teorema del limite centrale
enunciato nei paragra precedenti, essendo la funzione di massima
verosimiglianza una distribuzione di probabilità di variabili casuali
tenderà, per un numero di campioni sucientemente alto, ad una
distribuzione di natura gaussiana. Analizziamo allora il caso di una
curva a campana:

Una volta individuato il massimo θ̂ gracamente, è possibile eet-


tuare una stima graca anche della varianza σθ̂ : nel caso di una

distribuzione gaussiana, infatti, in corrispondenza di θ = θ̂ ± σθ̂ il


valore di L assume il valore e−0.5 Lmax : valutato dunque gracamen-
te quest'ultimo, è possibile risalire a σθ̂ . In generale, la curva non
è mai realmente gaussiana a causa del numero limitato di variabili
osservate: questo rende le due incertezze a destra e a sinistra del
valore medio non equamente lontane da θ̂.
4 Qualora fossero presenti più massimi, dovremmo considerare il valore che più massimizza
la probabilità combinata, e cioè il massimo assoluto; nell'ipotesi di più massimi con lo stesso
valore, in generale vanno scartati i valori non compatibili con il problema sico.

35
Figura 3:

Caso a due parametri - Per una funzione a due variabili, la fun-


zione di massima verosimiglianza L(x; θ1 , θ2 ) diventa una supercie
a tre dimensioni più complessa da rappresentare gracamente. Un
metodo comune consiste nel visualizzare la forma della supercie per
valori costanti di L(x; θ1 , θ2 ) nel piano (θ1 , θ2 ), ottenendo così delle
curve di livello. All'avvicinarsi del massimo, le curve di livello risul-
teranno sempre più strette attorno al punto di massimo (θ̂1 , θ̂2 ), che
può essere localizzato con una certa accuratezza.

La coppia di parametri (θ̂1 , θ̂2 ) in grado di massimizzare la funzione


saranno localizzati nell'intorno della curva di livello più stretta.

Riguardo i relativi errori, si può eettuare un ragionamento analogo


al caso di un solo parametro: se il numero di osservazioni è sucien-
temente alto, la curva avrà un andamento binormale, caratterizzata
da parametri σθ̂1 e σθ̂2 in corrispondenza dei quali, se non vi è cor-

relazione tra i parametri, la curva assume il valore e−0.5 Lmax : in


questo modo è possibile stimare le varianze di θ̂1 e θ̂2 considerando
le rette tangenti alle curve di livello. Un secondo approccio deter-
mina le incertezze del parametri stimati attraverso l'intersezione tra
gli stessi contorni prescelti e le due rette θ1 = θ̂1 e θ2 = θ̂2 , come in
gura:

La situazione diventa più complessa nell'ipotesi di correlazione tra


θ1 e θ2 , che costringe a considerare la distribuzione di massima
verosimiglianza nella forma completa:

 2  2   
1 θ1 −θ̂1 θ2 −θ̂2 θ1 −θ̂1 θ1 −θ̂1
− 2(1−ρ 2) σ + σ −2ρ σ σ
L(θ1 , θ2 ) = Lmax e θ̂1 θ̂2 θ̂1 θ̂2

(4.40)

36
Figura 4:

Conosciuti θ̂1 ed θ̂2 gracamente, è possibile individuare σθ̂1 e σθ̂2


considerando la curva di livello L(θ1 , θ2 ) = Lmax e−0.5 , che restitui-
sce:

 !2 !2 ! !
1  θ1 − θ̂1 θ2 − θ̂2 θ1 − θ̂1 θ1 − θ̂1 
+ − 2ρ =1
1 − ρ2 σθ̂1 σθ̂2 σθ̂1 σθ̂2
(4.41)

L'equazione di sopra descrive un'ellisse, detta ellisse delle covarian-


ze : essa è in particolare centrata in (θ̂1 , θ̂2 ), e i suoi assi principali
formano un angolo α relativo al sistema di coordinate per il quale:

2ρσθ̂1 σθ̂2
tan 2α = (4.42)
σθ̂2 − σθ̂2
1 2

In gura sono tracciate diverse ellissi delle covarianze con gli stessi
parametri σθ̂1 , σθ̂2 , ma diversi valori di ρ: ciò che si osserva graca-
mente è che, per ogni valore di ρ tra −1 ed 1, le ellissi sono connate
nel rettangolo delimitato dalle rette θ1 = θ̂1 ± σθ̂ e θ2 = θ̂2 ± σθ̂ .
1 2

L'indipendenza delle ellissi delle covarianze dall'indice di correlazione


ρ permette di applicare in totale sicurezza il metodo delle tangenti,
in quanto queste ultime avranno sempre distanza ±σθ̂1 e ±σθ̂2 dal

punto (θ̂1 , θ̂2 ).

37
Figura 5:

4.6 Il metodo dei minimi quadrati


4.6.1 Descrizione del metodo
Strettamente collegato al metodo di massima verosimiglianza è il metodo dei
minimi quadrati, particolarmente potente nell'ipotesi in cui la dipendenza dai
parametri incogniti è lineare.
Si supponga di aver ottenuto, sperimentalmente, due n-uple di dati sperimen-
tali indipendentix1 , x2 , ..., xn e y1 , y2 , ..., yn . Supponiamo poi i due set di misure
siano legati da una qualche dipendenza funzionale sconosciuta, caratterizzata da
una N -upla di parametri θ1 , θ2 , ..., θN :

ηi = f (θ1 , θ2 , ..., θL ; xi ) ≡ fi (4.43)

...dove si è indicato con ηi il valore vero associato alle misure yi . Ovviamente,


qualora determinassimo i parametri θ~ della funzione fi , saremmo in grado di
determinare approssimativamente la relazione funzionale che lega le misure yi
e xi : spesso questi parametri hanno importante rilevanza sica (ad esempio,
misurati intervalli di tempo ed intervalli di spazio per un corpo in moto retti-
lineo uniforme, la relazione funzionale che li lega è una retta, il cui parametro
caratteristico è la velocità), ed è dunque necessario determinarli semplicemente
conoscendo i punti sperimentali osservati.
Il metodo dei minimi quadrati asserisce che i migliori valori θ~ in grado di
descrivere la funzione f sono quelli per cui la seguente quantità è minima:
n
X
X2 = wi (yi − fi )2 (4.44)
i=1

38
...dove la quantità wi è un opportuno termine di peso associato all'osserva-
zione i-esima in grado di descriverne l'accuratezza. Nella maggior parte delle
situazioni si può assumere ogni misura yi abbia la stessa accuratezza, in modo
che wi sia uguale per ogni i: in questo secondo caso, la quantità da minimiz-
Pn
2
zare diventa il semplice termine i=1 (yi − fi ) . Se gli errori nelle dierenti
osservazioni sono diversi ma noti, il termine di peso dell'osservazione i-esima è
generalmente posto pari alla sua precisione, cioè la quantità...
1
wi = (4.45)
σi2
...dove σi è la varianza associata alla misura yi . In questo caso la quantità da
minimizzare diventa:

n  2
2
X yi − fi
X = (4.46)
i=1
σi
La ragione del perché si scelga una simile quantità da minimizzare aonda le
proprie radici nel metodo di massima verosimiglianza. Se si suppone infatti le
misure yi individuali siano distribuite gaussianamente attorno al valore vero ηi
con varianza σi2 , la funzione di verosimiglianza per la funzione di Gauss delle
variabili yi assume la seguente forma:

n (y −η ) 2 Pn (yi −ηi )2
Y 1 − i 2i − i=1 2σ 2
L= √ e 2σ
i ∝e i (4.47)
i=1
2πσi
Per il metodo di massima verosimiglianza, i migliori parametri (stavolta i termini
ηi , essendo σi noto) in grado di approssimare i valori reali ηi sono quelli in
grado di rendere massima la funzione L: essendo quest'ultima un esponenziale
decrescente, il valore massimo di L è assunto per il minimo valore possibile
dell'esponenziale, e cioé quando è minimo...

n  2
X yi − ηi
(4.48)
i=1
σi
...che è proprio quanto enunciato con il metodo dei minimi quadrati.

4.6.2 Il metodo dei minimi quadrati per una dipendenza lineare


Supponiamo i parametri yi dipendano dalle xi nella seguente maniera:

L
X
yi = f (θ1 , θ2 , ..., θL ; xi ) = gl (xi )θl (4.49)
l=1

Dove i termini gl sono opportune funzioni delle xi . Per determinare i parametri


θl , minimizziamo la quantità introdotta nel paragrafo precedente:

39
n  2 n L
!2
2
X yi − fi X 1 X
X = = 2 yi − gl (xi )θl (4.50)
i=1
σi σ
i=1 i l=1

Eettuando allora la derivata,

n L
!
∂X 2 X 1 X
= (−2)gk (xi ) 2 yi − gl (xi )θl =0 (4.51)
∂θk i=1
σi
l=1

Otteniamo perciò il seguente sistema lineare di N equazioni al variare di k:


L Xn n
X 1 X 1
σ 2 gk (xi )gl (xi )θl = σ 2 gk (xi )yi (4.52)
i=1 i
l=1 i=1 i

Quest'ultimo può essere riscritto agevolmente introducendo le seguenti matrici


e vettori colonna:

n
X 1
Akl = 2 gk (xi )gl (xi ) (4.53)
σ
i=1 i
n
X 1
bk = gk (xi )yi (4.54)
σ2
i=1 i

In questo modo otteniamo un sistema del tipo:



 A11 θ1 + A12 θ2 + ... + A1L θL = b1

A21 θ1 + A22 θ2 + ... + A2L θL = b2

. (4.55)
.
.




AN 1 θ1 + AN 2 θ2 + ... + AN L θL = bN

In questo modo la N -upla di soluzioni θ̂i che meglio approssima i parametri θi


può essere determinata individuando la matrice inversa A−1 :
X
θ̂i = (A−1 )ik bk (4.56)
k

O, in forma matriciale,

~
θ̂ = A−1~b (4.57)

Si può dimostrare, in particolare, come la matrice A−1 coincida con la matrice


delle covarianze tra le variabili θi ; perciò,

(A−1 )ik = cov(θi , θk ) (4.58)

In questo modo è possibile determinare immediatamente la varianza sui para-


metri θi :

40
σθ2i = (A−1 )ii (4.59)

Calcolata la matrice delle covarianze di sopra, è possibile inoltre determinare le


~
stime attese yˆi conosciute le stime θ̂i :
L
X ~
yˆi = gl (xi )θ̂i (4.60)
l=1

Analogamente, essendo A−1 coincidente con la matrice delle covarianze dei


θi , si può determinare l'errore atteso σy2ˆi sfruttando quanto imparato sulla
propagazione degli errori:

n X
X n
σy2ˆi = gl (xi )gm (xi )(A−1 )lm (4.61)
l=1 m=1

Applichiamo il tutto ad un caso particolare, nell'ipotesi in cui la dipendenza tra


yi ed xi è nella seguente forma:

yi = θ1 + θ2 xi (4.62)

In questo modo abbiamo solo due parametri da determinare e, in particola-


re, g1 (xi ) = 1, g2 (xi ) = xi ; gli elementi della matrice A assumono dunque la
seguente forma:

n n
X 1 X 1
A11 =
σ
g (x )g
2 1 i 1 i(x ) =
σ 2 ≡s (4.63)
i=1 i i=1 i
n n
X 1 X x2i
A22 = 2 g (x )g
2 i 2 i(x ) = ≡ sxx (4.64)
σ
i=1 i
σ2
i=1 i
n n
X 1 X xi
A12 = A21 =
σ 2 g1 (xi )g2 (xi ) = σ 2 ≡ sx (4.65)
i=1 i i=1 i

Perciò:

 
s sx
A= (4.66)
sx sxx
L'inversa della matrice A, necessaria per determinare i parametri θi , diventa
perciò:

 
1 sxx −sx
A−1 = (4.67)
ssxx − s2x −sx s
Il vettore ~b assume invece la seguente espressione:

n n
X 1 X 1
b1 =
σ 2 g1 (x i )y i =
σ 2 yi ≡ sy (4.68)
i=1 i i=1 i

41
n n
X 1 X 1
b2 =
σ 2 g2 (xi )yi = σ 2 xi yi ≡ sxy (4.69)
i=1 i i=1 i

Perciò, in conclusione,

  
~ 1 sxx −sx sy
θ̂ = A−1~b =
ssxx − s2x −sx s sxy
 
1 sxx sy − sx sxy
= (4.70)
ssxx − s2x ssxy − sx sy

I due parametri assumono inoltre le seguenti varianze:

sxx
σθ21 = (A−1 )11 = (4.71)
ssxx − s2x
s
σθ22 = (A−1 )22 = (4.72)
ssxx − s2x
Ottenuti θ̂1 ed θ̂2 e i relativi errori, è inne possibile determinare immediata-
mente i valori attesi di y1 ed y2 , oltre che i loro errori:

n X
X n
σy2ˆi = gl (xi )gm (xi )(A−1 )lm = (A−1 )11 + x2i (A−1 )22 + 2xi (A−1 )12
l=1 m=1
1
= (sxx + x2i s − 2xi sx ) (4.73)
ssxx − s2x

Si osservi in particolare come l'errore dipenda da xi .

42
5 Test d'ipotesi

5.1 Introduzione
Nelle precedenti sezioni abbiamo sempre enfatizzato l'area riguadante la sti-
ma di parametri incogniti di una distribuzione di probabilità. In questa sezione
vorremo invece analizzare la bontà del modello matematico applicato ad un pro-
blema sico in esame. Abbiamo infatti sempre supposto i dati si distribuissero
secondo una particolare distribuzione di probabilità: chi assicura che, tuttavia,
la distribuzione di probabilità utilizzata sia valida per il problema in esame? E'
necessario, in questo caso, eettuare quello che prende il nome di test d'ipotesi.
Supponiamo di star analizzando un sistema sico, e di eettuare un'ipotesi
sulla natura della distribuzione che regola il fenomeno. Questa ipotesi, detta
ipotesi nulla, viene indicata con H0 . L'ipotesi alternativa, e che vede cioè H0
come falsa, è detta appunto ipotesi alternativa ed è indicata con H1 .
Cerchiamo di ssare le idee sulla natura delle due ipotesi con un esempio:
vogliamo analizzare la distribuzione di probabilità associata ai possibili risultati
del lancio di una moneta, che può restituire testa o croce, ma non sappiamo
se la moneta è in qualche modo truccata in modo da rendere più favorevole
un risultato rispetto ad un altro. Abbiamo due possibilità: o la moneta non è
truccata e la distribuzione associata è una bernoulliana (ipotesi H0 ) o, al con-
trario, la moneta è truccata e la distribuzione di probabilità assume una diversa
forma. Per vericare la bontà dell'ipotesi H0 , eettuiamo allora un certo nu-
mero di lanci, riportando la distribuzione dei risultati. Se la moneta non fosse
truccata, ci aspetteremo una distribuzione bernoulliana centrata attorno al va-
lore np = n/2. D'altra parte, la bontà della nostra ipotesi potrebbe rivelarsi un
semplice caso fortuito: magari la moneta è truccata, ma su venti lanci circa dieci
hanno risultato testa e circa dieci hanno risultato croce; viceversa, la moneta
non è truccata, ma per puro caso (seppur improbabile) per tutti e venti i tiri è
sempre risultato testa.
Nello scartare o accettare una certa ipotesi abbiamo perciò una certa proba-
bilità di fare una cattiva scelta. In particolare,

1. La probabilità di rigettare H0 , anche se l'ipotesi H0 è giusta, è indicata


con α ed è detta signicatività del test. L'errore in questione è detto di
prima specie;
2. La probabilità di accettare H1 , anche se l'ipotesi H1 è falsa, è indicata
con β. L'errore in questione è detto di seconda specie;
3. La probabilità di accettare H0 , quando l'ipotesi H0 è giusta, è consequen-
zialmente 1 − α;
4. La probabilità di riutare H1 , quando l'ipotesi H1 è sbagliata, è conse-
quenzialmente 1 − β, ed è detta potenza del test.
Ovviamente, converrà identicare come giusta un'ipotesi la cui probabilità di ri-
velarsi corretta è sucientemente alta. Il sucientemente alta diventa tuttavia
una questione puramente convenzionale.

43
A titolo d'esempio consideriamo la situazione in cui abbiamo due ipotesi
completamente specicate da due diversi parametri θ0 e θ1 associati ad una
distribuzione di probabilità f (x; θ): non sappiamo, a priori, se la distribuzione
incognita dei nostri dati segue f (x; θ0 ) o f (x; θ1 ), ma è possibile scoprirlo, con un
certo margine di errore, attraverso i dati sperimentali. Associeremo all'ipotesi
nulla il parametro θ0 , mentre all'ipotesi alterantiva il parametro θ1 .
Se assumiamo l'ipotesi nulla H0 sia vera, possiamo trovare una regione R
dello spazio dei campioni Ω in cui una generica misura x ha una certa proba-
bilità, ssata ed arbitraria, di essere osservata. La regione in questione è detta
regione critica per H0 , mentre Ω\R è detta regione di accettazione per H0 ; le
due regioni sono separate da uno o più valori xC detti valori critici. Convenzio-
nalmente, la regione critica viene scelta sucientemente piccola da supporre H0
errata nell'ipotesi in cui x ∈ R: è infatti più ragionevole supporre una generica
misura x ricada nell'intervallo di Ω nella quale la probabilità di essere osservata
è maggiore. Ci verrebbe quindi da pensare, osservando x ∈ R, di dover rigettare
l'ipotesi H0 : d'altra parte, se la distribuzione cercata fosse davvero determinata
da H0 , staremmo commettendo un errore di prima specie, con una signicatività
α pari a...
Z
α= f (x; θ0 )dx (5.1)
R
Ad esempio, se supponiamo di rigettare tutti quei dati che cadono oltre un certo
valore xC , otteniamo:

Z ∞
α= f (x; θ0 )dx (5.2)
xC

Al contrario, può capitare che la misura x ricada nella regione di accettazione


Ω \ R, ma, ciò nonostante, l'ipotesi H0 risulti sbaglaita. Se accettassimo H0 per
questo, staremmo commettendo un errore di seconda specie, con un parametro
β pari a...

Z Z xC
β= f (x; θ1 )dx = f (x; θ1 )dx (5.3)
Ω\R −∞

Consequenzialmente, la potenze del test risulterebbe pari a...

Z ∞
1−β = f (x; θ1 )dx (5.4)
xC

Dalle precedenti considerazioni risulta evidente sia necessario, per minimiz-


zare la possibilità di errore, di scegliere una regione R per la quale, ssata
la signicatività del test, la potenza del test risulti la più grande possibile.
Una simile scelta può avvenire attreverso diverse modalità: per i nostri scopi,
considereremo un'importante metodologia, che prende il nome di test del χ2 .

44
Figura 6:

5.2 Test del χ2


Supponiamo di aver eettuato una n-upla di misurazioni xi , le quali sono nor-
malmente distribuite secondo la distribuzione N (x; σ, µ), e deniamo la seguente
quantità χ:
n  2
2
X xi − µ
χ = (5.5)
i=1
σ
Qualora ciascuna delle variabili ammettesse una propria distribuzione normale,
modicheremmo la denizione come segue:

n  2
2
X xi − µi
χ = (5.6)
i=1
σi

La variabile χ2 (indicata appunto come chi-quadro) è funzione di variabili


casuali e dunque anch'essa una variabile casuale continua. Non dimostreremo
come essa ammetta una particolare funzione di distribuzione, detta distribuzione
χ2 , la quale dipende parametricamente da un solo valore n∈N ed ammette la
seguente espressione:

1 χ2 n
f (χ2 ; n) = e− 2 (χ2 ) 2 −1 (5.7)
2n/2 Γ(n/2)
La quantità Γ(n/2) descrive la funzione gamma di Eulero, la quale, ad n ssato,
risulta nita pern ≥ 0. In particolare, la distribuzione f (χ2 ; n) ammette il
seguente andamento graco per diversi valori di n:
2
Si possono dimostrare i seguenti risultati associati alla distribuzione χ :

45
Figura 7:

E[χ2 ] = n (5.8)

V [χ2 ] = 2n (5.9)

Il numero n è detto numero di gradi di libertà, e, come si può dimostrare, coincide


con il numero di parametri indipendenti del set di misure osservate. Un esempio
di variabile distribuita secondo la distribuzione χ2 è la quantità (n − 1)s2 /σ 2 ,
2
dove s e lo scarto quadratico medio associato ad una distribuzione di dati: per
denizione, infatti,

n n  2
2 1 X n−1 2 X xi − x̄
s = (xi − x̄)2 ⇒ s = = χ2 (5.10)
n − 1 i=1 σ2 i=1
σ

Per comprendere come la distribuzione del χ2 possa risultare utile ai nostri


test d'ipotesi, supponiamo le n osservazioni della variabile x appartengano ad
N classi mutuamente esclusive, come gli intervalli (scelti arbitrariamente) di un
istogramma o regioni non intersecanti di un graco bidimensionale. Il numero di
eventi n1 , n2 , ..., nN nelle dierenti classi saranno distribuiti multinomialmente
con una probabilità pi per ogni classe individuale. Supponiamo inoltre di avere
un'ipotesi nulla H0 da vericare, secondo cui le probabilità pi debbano seguire
un certo andamento ipotetico p0i di cui valutarne la bontà:

H0 : p1 = p01 , p2 = p02 , ..., pN = p0N (5.11)


PN
...per i quali ovviamente valga i=1 p0i = 1. Essendo la distribuzione multino-
miale per denizione, i dati si distribuiranno con valore medio np0i e varianza

46
np0i (1 − p0i ): np0i è compa-
per vericare allora se l'insieme dei numeri previsti
tibile con l'insieme dei numeri ni n di dati sia
osservati, supponiamo il numero
sucientemente grade da poter considerare la distribuzione dei valori xi appros-
simativamente gaussiana. In questo modo, è possibile associare una variabile
χ2 alla distribuzione:

N
X (ni − np0i )2
χ2 = (5.12)
i=1
np0i (1 − p0i )
Quest'ultimo ammetterà una distribuzione f (χ2 ; N − 1): infatti, il numero di
PN
parametri analizzati è N , ma a questi dobbiamo sottrarre il vincolo i ni = n,
che riduce di uno i gradi di libertà.
Ora, supponiamo H0 χ2 dovrebbe resti-
sia vera; in questo caso, il calcolo del
2
tuire un valore non troppo dissimile dal valore medio E[χ ] = N −1, con possibili
2
uttuazioni nel range V [χ ] = 2(N − 1). Al contrario, se H0 fosse falsa, il valore
di aspettazione per ciascuno degli ni non sarebbe np0i : questo renderebbe lo
2
scarto ni − np0i relativamente grande, e dunque χ tenderebbe a valori medi più
grandi di quelli che si osserverebbero se H0 fosse vera. Comprendiamo dunque
2
sia ragionevole scartare un'ipotesi H0 se il χ osservato assuma valori troppi
grandi rispetto ai gradi di libertà N − 1: va solo stabilito, convenzionalmente,
il quanto grande risulti più o meno tollerabile.
Ciò che si fa, sperimentalmente, è ssare una certa signicatività ad un va-
lore tanto più piccolo quanto più è attendibile l'ipotesi del test. Un set di dati
in buon accordo con le previsioni sperimentali può, ad esempio, avere una signi-
catività di 0.05 o 0.1, condizione che descrive, da parte dello sperimentatore,
una consapevolezza del 5 ÷ 10% di poter sbagliare la propria ipotesi. In questo
modo, ad α ssato, si ottiene:

Z ∞
α= f (χ2 ; N − 1)dχ2 (5.13)
χ2C

In genere, l'integrale di sopra risulta tabulato per diversi valori di N ed α, in


modo da poter determinare il χ2 critico una volta nota la signicatività e il
numero di gradi di libertà. In questo modo, lo sperimentatore può confrontare
il χ2 misurato con il χ2C
α ssato: se questi si rivela maggiore di χ2C , l'ipotesi
ad
va scartata (con un margine del 100α% di aver commesso un errore), mentre se
2
questi si rivela minore di χC , l'ipotesi è considerata corretta (con un margine
del 100(1 − α)% di aver fatto la scelta giusta).
2
Concludiamo con alcune osservazioni associate ai limiti del test del χ :

1. E' applicabile solo se il set di variabili assume un andamento gaussiano, e


dunque solo quando il numero di misurazioni è sucientemente alto;

2. Risulta arbitrario, in quanto dipendente dalla scelta dell'osservatore nella


creazione di istogrammi in cui inserire i set di dati;

3. Non restituisce informazioni riguardo il segno dello scarto tra le misure


eettuate e i valori veri ricercati.

47
5.3 La distribuzioni t-student ed F-student
Altre due importanti distribuzioni, che si riveleranno particolarmente utili nei
nostri test d'ipotesi , sono la distribuzione t-student e la distribuzione F-student.

5.3.1 La distribuzione T-student


Sia x una variabile distribuita gaussianamente nella distribuzione N (x; 0, 1), ed
u una variabile distribuita secondo una distribuzione χ2 con ν gradi di libretà.
Assumendo x ed u indipendenti, deniamo la seguente variabile t:
x
t≡ p (5.14)
u/v
Si può dimostrare la distribuzione di probabilità per la variabile t sia la seguente,
detta distribuzione t-student :
Γ((ν + 1)/2) 1
f (t; ν) = √ ν+1 (5.15)
2πνΓ(ν/2) 1 + t2  2
ν
Una simile distribuzione sembrerebbe del tutto aliena alle nostre considerazioni
passate, eppure risulta ricorrente in statistica: particolari ricombinazioni di valor
medio x̄ e scarto quadratico medio s2 ammettono, ad esempio, una distribuzione
t-student. Per accorgercene, ricordiamo come x̄ sia distribuito gaussianamente
attraverso N (x̄; µ, σ 2 /n), mentre (n−1)s2 /σ 2 sia distribuito secondo la distribu-
zione f (χ2 ; n − 1); poiché x̄ ed s2 sono variabili indipendenti, anche le quantità
(che deniamo come segue)...

x̄ − µ (n − 1)s2
√ (5.16)
σ/ n σ2
...risulteranno indipendenti. Ne risulta che, per denizione, la variabile...

x̄−µ

σ/ n x̄ − µ
t= q = √ (5.17)
(n−1)s2 s/ n
σ2 /(n − 1)
...sarà distribuita secondo una distribuzione t-student con ν = n − 1..
Come si può vericare dal calcolo diretto, la distribuzione t-student verica:

E[t] = 0 (5.18)

ν
V [t] = ν>2 (5.19)
ν−2
Inoltre, per ν → ∞, la distribuzione t-student assume un andamento gaussiano,
del tipo:

1 1 2
f (t; ν) = √ e− 2 t (5.20)

48
5.3.2 La distribuzione F-student
Siano u1 ed u2 due variabili indipendenti distribuite secondo due distribuzioni
χ2 con gradi di libertà ν1 e ν2 rispettivamente. Deniamo la seguente variabile
F, con 0 ≤ F ≤ ∞:

u1 /ν1
F ≡ (5.21)
u2 /ν2
Si può allora dimostrare come la variabile F ametta distribuzione di probabilità
così costruita, detta distribuzione F-student :
  ν21 ν1
−1
Γ((ν1 + ν2 )/2) ν1 F 2
f (F ; ν1 , ν2 ) =  ν1 +ν (5.22)
Γ(ν1 /2)Γ(ν2 /2) ν2 
ν1 2
2

1+ ν2 F

Ad esempio, il rapporto tra due scarti quadratici medi, associati a due set di
dati entrambi distribuiti gaussianamente secondo N (x; µ, σ), è una variabile che
si distribuisce secondo una distribuzione F-student. Per accorgercene, basti
ricordare che, dette...

n n
1 X 1 X
s21 = (xi − x̄)2 s22 = (yi − ȳ)2 (5.23)
n − 1 i=1 m − 1 i=1

...si ha che le seguenti quantità si distribuiscono secondo due distribuzioni χ2


ad n−1 ed m−1 gradi di libertà rispettivamente:

n−1 2 m−1 2
s s (5.24)
σ2 1 σ2 2
Perciò, la variabile...

n−1 2
σ 2 s1 /(n − 1) s21
F = m−1 2 = (5.25)
σ 2 s2 /(m − 1)
s22
E', per denizione, distribuita secondo una distribuzione F-student.

49

Potrebbero piacerti anche