Sei sulla pagina 1di 33

Università degli Studi di Udine – Corsi di Laurea in Ingegneria

Laboratorio di Fisica
Trattamento dei Dati Sperimentali e
Teoria degli Errori

Indice
1 Introduzione 2
1.1 Gli strumenti di misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Gli errori di misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Trattazione dei dati sperimentali: approccio pratico alla teoria degli errori 5
1.3.1 Istogramma delle misure e ruolo del valor medio . . . . . . . . . . . 6
1.3.2 Scarti, varianza e deviazione standard . . . . . . . . . . . . . . . . . 7
1.3.3 Forma analitica della distribuzione delle misure . . . . . . . . . . . 9
1.4 Popolazione, campione e deviazione standard del campione . . . . . . . . . 9

2 Probabilità e distribuzioni di probabilità 10


2.1 Il concetto di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Distribuzioni di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 La distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 La distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 La distribuzione di Gauss o distribuzione normale degli errori . . . . . . . . 19

3 Applicazioni e ulteriori sviluppi della Teoria degli Errori 22


3.1 La deviazione standard della media . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Propagazione degli errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Il metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Fit di dati sperimentali con il metodo dei minimi quadrati . . . . . . . . . 28

A Calcolo di n e σ 2 per la distribuzione binomiale 31

B Distribuzione normale: normalizzazione, valor medio e deviazione stan-


dard 32

1
1 Introduzione
Sulla base dell’osservazione di determinati fenomeni, la fisica si propone di formulare
precise relazioni fra le grandezze fisiche che caratterizzano i fenomeni stessi. Tali relazioni,
una volta che siano state confermate da ripetute esperienze, assumono il carattere di
leggi. Un insieme di leggi può quindi venire inquadrato in una teoria che, naturalmente,
sarà tanto più efficace quanto capace di predire un gran numero di risultati di successivi
esperimenti, non necessariamente legati a quelli che l’hanno determinata.
Nell’ambito di un tale approccio si potrebbe obiettare che la formulazione di precise
relazioni fra grandezze fisiche dipende sostanzialmente dalla possibilità di attribuire in
modo univoco negli esperimenti un valore (la misura) a ciascuna delle grandezze in gioco.
Analogamente, la conferma o la smentita di tali relazioni in successivi esperimenti, cosı̀
come la verifica delle predizioni di una teoria, sembrerebbero condizionate dall’esigenza
che l’osservazione dei fenomeni fisici sia fatta con una precisione assoluta. Può succedere
che lo stesso fatto sperimentale possa essere descritto da teorie diverse, che predicono
risultati poco diversi tra loro; se vogliamo allora riconoscere la teoria corretta, dobbiamo
poter controllare e distinguere quale dei risultati predetti sia quello che effettivamente si
verifica.
In realtà, anche ponendo la massima attenzione nella misura delle grandezze fisiche non
è mai possibile raggiungere una precisione assoluta. Ad esempio, se si misura più volte la
lunghezza di una sbarra con uno strumento adatto, per esempio un comparatore(1) , non si
trova sempre lo stesso identico risultato. Analogamente, nella misura di una qualsiasi altra
grandezza fisica con apparecchi sufficientemente precisi (il senso di quest’affermazione si
chiarirà in seguito) troviamo valori diversi in corrispondenza a diverse misure.
Potrebbe sembrare quindi che l’intero castello della fisica sia poco saldo, nel senso che
nessuna delle leggi trovate è matematicamente precisa, in quanto risultato di misure non
esatte. Lo stesso concetto di grandezza fisica sembrerebbe entrare in crisi, dato che una
delle sue proprietà caratteristiche, la sua misura, è in realtà inattuabile.(2)
Tuttavia è possibile superare tali difficoltà, e i risultati dimostrano la correttezza del
metodo, se si ammette che a ciascuna grandezza corrisponda un suo valore vero, ma che
nella sperimentazione, per una serie di spiacevoli quanto inevitabili circostanze, tale valore
vero non sia determinabile se non in modo approssimato. Partendo da questa ipotesi si
può allora costruire una teoria che permetta, a partire da un insieme di misure della
grandezza, di determinare un valore che attendibilmente si avvicini al valore vero della
stessa. In altre parole, si può dire che, poichè non è possibile misurare i valori veri delle
grandezze fisiche, le relazioni che si possono scrivere tra di esse non sono effettivamente mai
esatte in senso matematico, ma rappresentano invece un’estrapolazione, con l’intesa che,
se conoscessimo i valori veri delle grandezze in gioco, essi le soddisferebbero esattamente.
È quindi importante saper trattare i risultati delle misure, sia per poter formulare delle
leggi, cioè relazioni oggettive tra le grandezze che non risentano delle fluttuazioni delle
loro misure, sia per confrontare con esse i risultati di ulteriori esperimenti che possono
confermare o smentire la validità delle teorie che su tali leggi sono state costruite.
(1)
È uno strumento di misura utilizzato per misure di spostamento lineare la cui precisione può anche
superare il centesimo di millimetro.
(2)
Una classe di grandezze fisiche è definita tale se, oltre a potervi introdurre il concetto di eguaglianza
e l’operazione di somma, è anche possibile scegliere al suo interno un valore della grandezza unitaria in
modo che qualsiasi altra grandezza della classe sia esprimibile attraverso un numero (la sua misura), che
ci dice quante volte l’unità è contenuta nella grandezza stessa.

2
La presente nota si propone di introdurre concetti quali errore di misura, precisione e
accuratezza di una misura, probabilità e distribuzione di probabilità, media e deviazione
standard e di molte altre nozioni necessarie alla trattazione statistica dei dati sperimentali.
Come usuale, ci riferiremo a tale complesso di argomenti e temi con il termine di Teoria
del Errori. Sebbene questa nota non possa essere vista come un trattato completo sulla
Teoria degli Errori, essa costituisce una buona introduzione alla stessa: lo scopo principale
è quello di dare allo studente del primo anno di Ingegneria gli strumenti necessari per poter
affrontare l’analisi delle misure in semplici esperimenti di fisica.

1.1 Gli strumenti di misura


Tante sono le grandezze fisiche che si possono misurare e molti sono gli strumenti che
si sono realizzati per la loro misura. Mentre fino a qualche decade fà la maggior parte
dei misuratori erano di tipo analogico, oggigiorno si utilizzano preferibilmente strumenti
di tipo digitale. I primi sono caratterizzati dall’avere una scala graduata e la lettura
del valore della grandezza in esame viene effettuata individuando la posizione di un ago
mobile o di un indice sulla scala stessa; nei secondi invece il valore della grandezza è
direttamente espresso in forma numerica su un display.

Figura 1: Strumenti di misura analogici (a sinistra) e digitali (a destra)

A parte le caratteristiche estetico–ergonomiche dei diversi strumenti di misura (che


comunque possono influire sulla loro praticità d’uso), la qualità (o meno) di un certo
misuratore è determinata da una serie di fattori che è bene qui menzionare:
• Intervallo di funzionamento – È dato dal valore minimo (soglia) e dal valo-
re massimo (portata) della grandezza da misurare che lo strumento è in grado di
fornire. Fuori da questo intervallo la qualità della misura non è garantita e (atten-
zione!!) in alcuni casi (in particolare nel caso di misuratori di grandezze elettriche)
è possibile che in queste condizioni estreme lo strumento possa anche danneggiarsi
(... mai superare la portata delle strumento!).
• Prontezza – È associata al tempo necessario (tempo caratteristico τ ) affinché lo
strumento risponda ad una variazione della grandezza. Rappresenta la rapidità con
cui lo strumento è in grado di fornire il risultato di una misura. Il valore della
prontezza può variare molto da strumento a strumento e può dipendere anche dal
tipo di grandezza misurata.
• Sensibilità – È il rapporto tra la variazione del valore misurato R e la variazione del
valore reale E della grandezza considerata, per variazioni arbitrariamente piccole:
∆R
S=
∆E
Esiste una variazione ∆E limite al di sotto della quale ∆R diventa non visualizzabile
oppure si confonde con il rumore intrinseco dello strumento. Ciò determina la

3
sensibilità minima dello strumento, ovvero la minima variazione della grandezza
fisica che è in grado di produrre un effetto.
• Precisione – Misura il grado di convergenza (o dispersione) delle misure rilevate
dallo strumento (rispetto al loro valor medio) in corrispondenza di uno stesso valore
della grandezza in ingresso. Tale dispersione corrisponde a quella che chiameremo
deviazione standard rispetto alla media campionaria. La precisione è spesso indicata
in termini relativi (in percentuale) rispetto al valore di ”fondo scala” (portata)
dello strumento: essa determina il numero di cifre significative con cui potrà essere
espresso il valore della grandezza misurata.
• Accuratezza – Misura il grado di corrispondenza tra il dato teorico, ottenibile
da una serie di valori misurati (la media del campione di dati) e il dato reale o
di riferimento; indica, cioè, la vicinanza del valore trovato a quello reale. Quindi,
la differenza tra precisione e accuratezza sta nel fatto che la prima valuta quanto
le misure sono raggruppate nell’intorno del valor medio, invece la seconda valuta
quanto tale valor medio è vicino al valore vero della grandezza.

1.2 Gli errori di misura


Postulato che per ciascuna grandezza esista un valore vero, ci si potrebbe chiedere per
quale ragione la misura non riesca direttamente a far riprodurre ogni volta tale valore.
La risposta più semplice ed implicita è che nella misura reale vengono commessi errori
che possono esse di diversa natura, ma che in pratica possono ricondursi alle seguenti tre
classi:
• Errori dovuti all’applicazione di un metodo non corretto. Ad esempio, si commette
un errore di questo tipo quando non si tiene conto nella caduta dei gravi della resi-
stenza dell’aria, per cui a corpi di densità diversa vengono a corrispondere differenti
leggi del moto, risultato questo certamente scorretto.
• Errori dovuti all’impiego di apparecchi o di personale inefficienti; per esempio, se
nella misura della lunghezza di un bastone, ad esempio di 80 cm circa, usiamo un
metro pieghevole di legno in cui, per errore, il fabbricante abbia omesso uno dei
pezzi pieghevoli intermedi di lunghezza 20 cm, e non ci siamo accorti di questo
fatto, riterremo in buona fede che il bastone sia lungo 100 cm, commettendo cosı̀
sistematicamente, un errore di 20 cm. Analogamente, commettiamo un’errore
dello stesso tipo nel caso in cui, pur essendo il metro pieghevole ben costruito, ci
dimenticassimo di svolgerlo completamente, e quindi, convinti di usare un metro di
100 cm di lunghezza, facessimo le misure con uno di 80 cm!
• Errori dovuti a cause incontrollabili, sempre presenti in gran numero, ognuna delle
quali contribuisce poco all’inesattezza della misura e in modo variabile. Esempi
di tali cause sono moti dell’aria più o meno sensibili che possono influenzare gli
apparecchi, la diversa dilatazione termica degli strumenti per effetto della maggiore
o minore vicinanza dell’operatore, la non sempre identica reazione dei centri nervosi
nell’operatore che, in misure ripetute, può portare ad apprezzare in maniera diversa
traguardi spaziali o temporali, ecc.
Delle tre categorie ora esposte, le prime due, che influiscono sull’accuratezza di una
misura, sono legate ai cosiddetti errori sistematici, mentre la terza, che limita la pre-
cisione di una misura, rappresenta la classe degli errori accidentali o errori casuali.

4
Da quanto detto finora appare chiaro che gli errori sistematici, sebbene di difficile in-
dividuazione, una volta che ne siano state scoperte le cause, possone venire eliminati
completamente. In linea di principio, perciò, se non esistessero gli errori casuali si po-
trebbe riuscire in una misura ad ottenere il valore vero della grandezza in esame. È per
questo che spesso conviene ripetere la misura di una grandezza fisica con metodi e stru-
menti diversi, cosicché da un’eventuale differenza nei risultati sia più facile individuare
gli errori sistematici, nell’ipotesi che essi non siano gli stessi, o comunque contribuiscano
diversamente nei differenti procedimenti. Invece, per quanto riguarda gli errori casuali,
avendo un’origine incontrollabile e variabile, che sfugge anche ad un attento controllo, non
è possibile eliminarli del tutto. È per questo che, anche in assenza di errori sistematici,
non è possibile misurare i valori veri delle grandezze, ed è essenziale stabilire l’influenza
degli errori casuali per poter assegnare al risultato delle misure un valido significato.
La teoria degli errori tiene conto soltanto degli errori casuali, supponendo, cioè, che
siano stati del tutto eliminati quelli sistematici o che, per lo meno, essi siano cosı̀ piccoli
da essere trascurabili rispetto agli errori casuali. D’altra parte, sebbene i risultati che si
ottengono con tale approccio saranno validi sotto queste ipotesi, se un errore sistematico
viene rilevato dopo l’applicazione della teoria degli errori, si può tenerne conto anche a po-
steriori e spesso è possibile correggere completamente i risultati eliminandone totalmente
gli effetti senza dover ripetere le misure.

1.3 Trattazione dei dati sperimentali: approccio pratico alla


teoria degli errori
Procediamo quindi alla misura di una grandezza e, attraverso l’uso ripetuto di un de-
terminato misuratore, supponiamo di aver ottenuto N misure di una stessa grandezza,
ad esempio la lunghezza x di una sbarra. In generale, gli N risultati (o eventi) saranno
diversi e quindi esisteranno un valore minimo xmin e un valore massimo xmax tali che i
valori xi di tutte le altre misure saranno compresi tra questi estremi.

Istogramma di 100 misure


numero di misure

10

98 99 100 101 102


x
Figura 2: Istogramma delle 100 misure della lunghezza di una sbarra. Nel costruire
l’istogramma l’intervallo xmin ÷ xmax è stato suddiviso in 20 intervalli.

5
1.3.1 Istogramma delle misure e ruolo del valor medio
Consideriamo un metodo (molto utilizzato) che ci permette velocemente di avere un’idea
di come si distribuiscono le misure. Riportiamo xmin e xmax su di un asse x e dividiamo
l’intervallo xmin ÷ xmax in un numero n (con 1  n  N ) di parti uguali di ampiezza
∆x = (xmax − xmin )/n (larghezza del bin): avremo cosı̀ diviso la serie di misure ottenute
in n gruppi, nel j–esimo dei quali entrano a far parte le nj misure con

xmin + (j − 1)∆x ≤ xi ≤ xmin + j∆x.

Quindi, su ciascuno degli intervallini costruiamo un rettangolo di base ∆x e altezza nj :


abbiamo, cosı̀, una figura geometrica caratteristica, che prende il nome di istogramma
delle misure. Un esempio di tale istogramma è riportato in Figura 2: l’andamento in
Figura 2 è indicativo, ma da tale istogramma risulta abbastanza evidente che i gruppi
di misure più vicini a xmin e xmax sono meno popolati (cioè hanno nj inferiori) di quelli
più lontani; invece nella zona centrale si ha un massimo di popolazione in una regione
intermedia tra xmin e xmax . In effetti, aumentando il numero delle misure ed effettuando
il corrispondente istogramma ci si può rendere conto del fatto che, tanto più grande è N
(e quindi n), tanto più il massimo centrale diventa simmetrico (vedi Figura 3).
Istogramma di 1000 misure Istogramma di 10000 misure
numero di misure

numero di misure

80

60 400

40
200
20

0 0
96 98 100 102 96 98 100 102
x x

Figura 3: Istogrammi delle misure della lunghezza di una sbarra. Nell’istogramma di


sinistra (destra) si sono considerate 1000 (10000) misure e l’intervallo xmin ÷ xmax è
stato suddiviso in 40 (60) intervalli. Si noti come all’aumentare del numero di misure la
distribuzione delle stesse è sempre più simmetrica intorno al valore centrale.

Ma c’è anche una altra evidenza sperimentale. Analizzando le misure, ci si rende anche
conto che, tante più grande è N , tanto più la posizione del massimo centrale si avvicina
al valore seguente
N
x1 + x2 + · · · + xi + · · · + xN −1 + xN 1 X
x= = xi , (1)
N N i=1

che prende il nome di media aritmetica delle misure o media del campione.
In altre parole, effettuando una serie di N misure della stessa grandezza, con N grande,
si trova che queste non si distribuiscono uniformemente nell’intervallo xmin ÷ xmax , ma
si ha un loro addensamento nell’intorno del valore x. Anche se al momento non diamo
altre giustificazioni, possiamo dire che sperimentalmente si osserva che x acquisisce, in
modo naturale, una rilevanza notevole; in particolare, nei confronti del valore vero x?
della grandezza in esame, x sembra avere una rilevanza molto maggiore di una qualsiasi
delle misure che hanno contribuito a calcolarlo.

6
1.3.2 Scarti, varianza e deviazione standard
Una volta determinato il valore x, definiamo scarto della misura xi , e lo indicheremo con
il simbolo si , la quantità
si = xi − x.
Si noti che, per definizione, è
N
X
si = 0, (2)
i=1

dato che
N N N N
!
X X X 1 X
si = (xi − x) = xi − N x = N xi − x = N (x − x) = 0.
i=1 i=1 i=1
N i=1

Istogrammi degli scarti


altezze normalizzate

100 misure
1000 misure
10000 misure
0.4

0.2

0
−4 −2 0 2 4
s (scarto)

Figura 4: Istogrammi normalizzati degli scarti dalla media delle 1000 misure della lun-
ghezza di un bastone. Per poterli meglio confrontare, si è utilizzato lo stesso bin per tutti
e 3 gli istogrammi; si noti come all’aumentare del numero di misure, la corrispondente
distribuzione risulti via via meglio definita.

Se ora vogliamo costruire un istogramma degli scarti, è facile rendersi conto del fatto
che esso non differisce sostanzialmente da quello costruito con gli xi , se non per il fatto
che l’istogramma risultante è traslato di x lungo l’asse x. Si ha cosı̀ ancora la stessa figura
geometrica caratteristica con un massimo pronunciato
PN in vicinanza di x, che ora però cade
a s = 0 (vedi Figura 4). Tuttavia, dato che i=1 si = 0, e tenuto conto della simmetria
intorno a s = 0, conviene in generale costruire un istogramma degli scarti in modo un poco
diverso: e precisamente, sull’asse s si riportano degli intervallini di lunghezza ∆s = ∆x,
il primo dei quali sia centrato intorno a s = 0, e gli altri risultino a questo adiacenti,
sia per s > 0 sia per s < 0. Per il resto il procedimento è identico a prima, e cioè su
ciascuno degli intervallini si costruisce un rettangolo di altezza uguale a nj , numero di
misure il cui scarto cade nell’intervallino in questione. Il risultato è un istogramma molto
simile al precedente, tanto più quanto più grande è N e quindi più piccolo è ∆s. L’area A

7
dell’istogramma è data dalla somma delle aree dei rettangoli da cui è costituito, ciascuna
delle quali è pari a nj ∆s; si ha quindi
X
A= nj ∆s = N ∆s.
j

Dividendo gli nj dell’istogramma degli scarti per tale area si ottengono gli istogrammi
normalizzati degli scarti mostrati in Figura 4. Da questa figura si capisce che, sebbene
con diversi gradi di approssimazione, gli scarti tendono a distribuirsi nell’intorno di s = 0
in un modo ben preciso e che l’istogramma delinea un andamento tanto meglio definito
quanto più alto è il numero di misure effettuato.
L’analisi di questi istogrammi e il fatto che gli scarti misurano la distanza dei singoli
valori da x ci inducono a pensare che la larghezza della distribuzione degli scarti debba
essere correlata alla qualità della misura: tanto più stretta è la distribuzione, tanto più
precisa sarà la misura! Perciò, è ragionevole supporre che attraverso gli scarti si possa
costruire una grandezza che risulti in stretta relazione con la larghezza della distribuzione.
In effetti, tenendo presente la simmetria degli scarti (da cui segue la (2)), la più
semplice funzione a cui possiamo pensare è la seguente
N N
2 1 X 2 1 X
σ = si = (xi − x)2 , (3)
N i=1 N i=1

che viene usualmente detta varianza o scarto quadratico medio. Si capisce immedia-
tamente che tale grandezza o, meglio ancora, la cosiddetta deviazione standard
v v
u
u1 X N u
u1 X N
2
σ= t s = t (xi − x)2 , (4)
N i=1 i N i=1

ci dà una misura delle dimensioni medie degli scarti e che quindi dovrà necessariamente
essere correlata alla larghezza della distribuzione degli stessi.
È interessante notare che il modo in cui è costruita la varianza permette dare una
prima giustificazione teorica (3) al fatto di poter vedere x come una buona stima del valore
vero x? della grandezza in esame. Infatti, denominiamo con xv l’ipotetico valore vero della
grandezza e, una volta ottenute le N misure, calcoliamo quello che potremmo denominare
(in analogia con lo scarto quadratico medio σ 2 ) l’errore quadratico medio:
N
2 1 X
 = (xi − xv )2 .
N i=1

Non conoscendo però il valore effettivo di xv , supponiamo di vedere 2 come funzione di


xv e chiediamoci come debba comportarsi al variare di xv stesso. In particolare, dato il
significato di 2 , è ragionevole aspettarsi che tanto più xv è vicino al valore vero, tanto
piú piccolo sia 2 .
A tal fine possiamo cercare il valore di xv che minimizza 2 , e questo si può fare
imponendo l’annullamento della sua derivata rispetto ad xv . Si ottiene
N N N N
d2 2 X X X 1 X
=0 ⇒ − (xi − xv ) = 0 ⇒ N xv = xi ⇒ xv = xi ,
dxv N i=1 i=1 i=1
N i=1
(3)
Torneremo più avanti su questo punto.

8
Questo dimostra che la media aritmetica delle misure rende minimo l’errore quadratico
medio. Senza la pretesa di rigore assoluto, tale risultato da valore sia all’uso di x come
stima più corretta del valore vero della grandezza, sia a quello di σ come parametro con
il quale valutare la precisione della misura.

1.3.3 Forma analitica della distribuzione delle misure


Per completare questo primo approccio alla trattazione dei dati sperimentali, possiamo
domandarci se l’andamento degli scarti mostrato possa essere descritto analiticamente da
una relazione funzionale. In effetti, un’ottima interpolazione degli istogrammi normaliz-
zati mostrati in Figura 4, tanto migliore quanto maggiore è N , è fornita dalla funzione
di Gauss
2 2
f (x) = Ce−h (x−µ) ,
dove C è una costante, h è il cosiddetto modulo di precisione e x = µ corrisponde alla
posizione del massimo della funzione (si veda anche in Appendice B la dimostrazione del
fatto che µ è anche pari al valor medio x della distribuzione di Gauss).
In effetti, la migliore interpolazione dell’istogramma normalizzato degli scarti (vedi
Figura 4 ci dà (in accordo con quanto calcolato in Appendice B) una funzione di Gauss
del tipo
h 2 2
f (x) = √ e−h (x−µ) . (5)
π
Questo significa che la curva di Gauss qui scritta corrisponde al limite a cui tende
l’istogramma normalizzato per N → ∞ e ∆s → 0.
È facile vedere quale sia il significato di h. Limitandoci ad osservazioni intuitive,
supponiamo di aver effettuato due serie di misure della stessa grandezza, ma con meto-
di diversi: avremo due istogrammi normalizzati (come quelli di Figura 4), in generale
differenti, dai quali potremo estrapolare due funzioni di Gauss del tipo delle seguenti
h1 2 2 h2 2 2
f1 (x) = √ e−h1 (x−µ1 ) ; f2 (x) = √ e−h2 (x−µ2 ) ,
π π

dove µ1 e µ2 saranno essenzialmente uguali dato anche i valori medi delle due serie di
misure lo dovrebbero essere.
Sia, per esempio, h1 > h2 , cioè l’istogramma corrispondente alla prima serie di misure
ha un massimo più alto di quello della seconda serie. Conseguentemente, poiché i due
istogrammi hanno la stessa area, il primo istogramma dovrà calare a zero più rapidamente
del secondo e cosı̀ la corrispondente curva di Gauss. Per la prima serie, quindi, si deve
avere un maggior addensamento delle misure intorno al valor medio, e quindi, scarti in
media minori in valore assoluto che non per la seconda serie. Ne segue che, nell’ipotesi
h1 > h2 , il primo metodo di misura porta a minori fluttuazioni nei risultati, e quindi è
più preciso del secondo. Tanto più grande è h, tanto più la misura è precisa; da questo il
nome che abbiamo dato ad h.

1.4 Popolazione, campione e deviazione standard del campione


Nel precedente paragrafo (sezione 1.3.3) abbiamo delineato il fatto che l’analisi statistica
delle misure di una grandezza mostra che le stesse si distribuiscono secondo una distribu-
zione che è tanto più simile alla distribuzione di Gauss, quanto più alto è numero di misure
effettuate. In effetti, non c’è limite ne al numero di misure che potremmo effettuare, ne

9
al numero di valori che potremmo ottenere per la grandezza (la grandezza è continua).
Riferendoci a questo insieme infinito di possibili valori parleremo di popolazione. Nel-
la realtà, invece, possiamo effettuare solo un numero finito di misure ottenendo cosı̀ un
campione (finito) della popolazione della grandezza in esame.
Quindi, nella realtà, potendo disporre solo di un campione (costituito da N elementi)
e non dell’intera popolazione (infinita), le quantità statistiche che possiamo calcolare
dovrebbero essere pensate come relative al campione e non alla popolazione; solo nel limite
di N → ∞ tali quantità approssimeranno il valore corrispondente all’intera popolazione.
A tale scopo è importante menzionare che la definizione di varianza (e di deviazione
standard) che abbiamo dato nella sezione 1.3.2 riguarda l’intera popolazione. Nel caso
di un campione, che in effetti il caso usuale, la definizione di varianza più consona è la
seguente
N
2 1 X
σc = (xi − x)2 . (6)
N − 1 i=1
Come si vede nella (6), le definizioni di σc2 e σ 2 differiscono solo per il fatto di aver
sostituito l’N della (3) con N − 1. La definizione di varianza del campione data dalla
(6) deriva dal fatto che, una volta definito il valor medio del campione,(4) la validità della
(2) suggerisce che solo N − 1 scarti siano realmente indipendenti fra loro. D’altra parte,
si noti che essendo
N
σc2 = σ2,
N −1
tanto più grande sarà N , tanto più piccola sarà la differenza tra la varianza del campione
e quella della popolazione.
In analogia con la (4), si definisce deviazione standard del campione la seguente:
v
u
u 1 X N
σc = t (xi − x)2 . (7)
N − 1 i=1

In modo da distinguere deviazione standard del campione da quella della popolazione


σ, l’abbiamo denominata σc dove il c a pedice ci ricorda che si riferisce al campione.
Tuttavia, è bene sottolineare, che spesso, per entrambe, viene utilizzato lo stesso simbolo,
sottintendendo che, a seconda che si consideri l’intera popolazione o un campione finito,
venga utilizzata la rispettiva definizione con N o N − 1.

2 Probabilità e distribuzioni di probabilità


L’andamento gaussiano che abbiamo trovato per gli scarti dalla media di una serie di N
misure può essere in qualche modo giustificato sul piano teorico: per fare questo tuttavia
è bene introdurre qualche concetto di calcolo delle probabilità.

2.1 Il concetto di probabilità


Se lanciamo una moneta in aria, sappiamo che la probabilità che venga testa è il 50%. Se
gettiamo un dado, sappiamo ancora che la probilità che esca 5 è 1/6.
(4) 1
PN
Il valor medio x risulta sempre definito come x = N i=1 xi sia per il campione che per l’intera
popolazione.

10
Che cosa significa questo in realtà? Ad ogni lancio della moneta esce o testa o croce.
Ciò che vogliamo dire con quel 50% è che se lanciamo la moneta un numero grande di
volte, il numero di volte che uscirà testa sarà all’incirca uguale alla metà del totale dei
lanci. Allo stesso modo, per i lanci di un dado, il 5 uscirà (come gli altri numeri) in un
sesto dei lanci.
Si dovrebbe precisare che nel problema del lancio della moneta abbiamo detto che
tanto più grande è il numero dei lanci, tannto più vicino ad 1/2 sarà il rapporto tra il
numero di volte che esce testa e il totale dei lanci stessi. Questo non significa che il numero
di lanci in cui esce testa si avvicina a quello in cui esce croce. Ad esempio, per 100 lanci
un risultato soddisfacente dal punto di vista delle probabilità è 52 volte testa; per 10000
lanci, invece 5020 volte testa sarebbe altrettanto accettabile. Nel secondo caso il rapporto
è molto più vicino ad 1/2 che nel primo, ma la differenza tra il numero delle volte che esce
testa e quello delle volte che esce croce è più grande. In effetti, si potrebbe dimostrare che
è probabile che tale differenza diventi molto grande, nonostante il rapporto tra il numero
di tentativi favorevoli a testa (croce) e il numero totale dei lanci si avvicini ad 1/2.(5)
Se sappiamo calcolare la probabilità per alcuni semplici eventi, come il lancio di una
moneta o di un dado, possiamo calcolare la probabilità per eventi più complessi che
risultino composti da questi. Ad esempio, supponiamo di lanciare due monete contempo-
raneamente e supponiamo di voler calcolare la probabilità che esca croce su una e testa
sull’altra. Ogni moneta può dar luogo a testa o croce con uguale probabilità e quindi,
per il lancio combinato avremo quattro possibilità: due volte testa; una testa e una croce;
una croce e una testa; due volte croce. I quattro casi sono equiprobabili e quindi ognuno
avrà probabilità 1/4. Dato che due dei quattro casi soddisfano la nostra richiesta, possia-
mo dire che la probabilità cercata è pari ad 1/2. Allo stesso modo, le probabilità che si
abbiano due teste o due croci è 1/4.
Si noti che le probabilità sono date da numeri sempre minori di 1 e che se sommiamo
le probabilità di tutti i possibili eventi otteniamo 1.
Altro problema: supponiamo di avere due dadi a sei facce (su ogni faccia è riportato un
numero diverso, da 1 a 6). Considerando il lancio dei due dadi proponiamoci di calcolare
la probabilità di ottenere 7 sommando i numeri usciti su ogni dado. Dato che ogni dado
ha 6 possibiltà equiprobabili, per la coppia di dadi avremo 36 possibili risultati, tutti
equiprobabili (se lanciassimo n dadi, il numero dei casi sarebbe 6n ). In quanti di questi
casi la somma dei numeri sui dadi dà 7? È facile vedere che 6 sono i casi favorevoli. E
quindi, essendo la probabilità di ogni caso pari a 1/36, la probabilità di avere 7 sarà pari
alla somma di quella dei 6 casi favorevoli e cioè 6/36 = 1/6. Procedendo in questo modi
e nalizzando tutti i casi possibili, si vede che la somma dei numeri sui dadi può assumere
11 diversi valori (2, 3, 4, . . ., 12) e conteggiando i casi favorevoli ad ogni somma possiamo
costruire la seguente tabella

Somma 2 3 4 5 6 7 8 9 10 11 12
Casi favorevoli 1 2 3 4 5 6 5 4 3 2 1
Probabilità 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36

Tabella 1: Probabilità corrispondenti ai diversi valori della somma dei numeri usciti nel
lancio di due dadi.
(5)
Cosı̀, se ci si trova a scommettere del denaro con qualcuno e si è in perdita, è sbagliato credere
di potersi rifare di quello che si è perduto, dopo un numero sufficientemente grande di prove. C’è una
probabilità del 50% che si perda sempre di più.

11
Definiamo allora probabilità di un evento come il rapporto tra il numero di casi favore-
voli all’evento in esame e il numero totale di casi possibili. Analogamente, per un singolo
dado, la probabilità di un determinato valore è 1/6, mentre la probabilità di ottenere un
numero pari o dispari è 3/6 = 1/2. Dalla definizione data di probabilità segue che, se
abbiamo due eventi incompatibili, nel senso che il verificarsi dell’uno porta all’impossi-
bilità del verificarsi dell’altro, la probabilità che si verifichi uno qualunque dei due eventi
è data dalla somma delle probabilità di ciascuno indipendentemente. Infatti, il numero di
casi favorevoli risulta proprio la somma dei casi favorevoli a ciascun diverso evento, men-
tre il numero di casi possibili resta lo stesso. Cosı̀ nel lancio di un dado ritroviamo che la
probabilità che si ottenga un numero dispari è proprio 1/2, e analogamente per il pari, in
quanto un evento dispari corrisponde al verificarsi di uno qualunque degli eventi 1, 3, 5 e
questi sono incompatibili: poiché per ciascuno si ha la probabilità 1/6, la probabilità di
un evento dispari risulta essere
1 1 1 1
+ + = .
6 6 6 2
Insistiamo nel sottolineare che questa regola vale solo per eventi incompatibili. Sup-
poniamo, infatti, di voler calcolare la probabilità che un giorno dell’anno sia festivo: la
probabilità che sia domenica è 52/365 (52 domeniche in un anno, casi favorevoli; 365 gior-
ni, casi possibili), mentre, se consideriamo che ci siano altre 17 ricorrenze festive, religiose
o civili, avremo una probabilità pari a 17/365 di un evento di questo genere. Ma i due tipi
di evento non sono incompatibili, perché non è escluso che una festa civile o religiosa cada
proprio di domenica. Perciò la probabilità di un giorno non può essere calcolata dalla
somma delle probabilità (52/365 + 17/365): per una corretta valutazione della probabi-
lità richiesta bisognerà invece determinare il totale del numero di casi favorevoli all’evento
festivo, che risulterà, per esempio, pari a 67 (se 2 delle festività suddette cadono di do-
menica). Si avrà allora una probabilità di giorno festivo pari a 67/365 < 69/365. In altre
parole, per calcolare la probabilità di uno qualunque tra più eventi bisogna, nel computo
dei casi favorevoli, contare una volta sola quelli che sono comuni. Per questo motivo la
probabilità di uno qualunque di più eventi, è sempre minore o, al più, uguale alla somma
delle probabilità dei singoli eventi. Come immediata applicazione di quanto finora esposto
si trova che, se abbiamo N eventi possibili, la probabilità che avvenga indifferentemente
uno qualunque di essi è 1, corrispondente, come ovvio, alla certezza.
Supponiamo di avere ora due o più sistemi fisici, ciascuno con un certo numero di stati
possibili, e supponiamo di conoscere anche la probabilità degli eventi di ciascun sistema.
Consideriamo quindi il sistema complessivo costituito dai diversi sistemi in esame: dalla
definizione di probabilità si trova che la probabilità (composta) di un evento globale, in
cui, cioè, si presenti contemporaneamente un determinato evento per ciascuno dei sistemi
costituenti, è data dal prodotto delle probabilità per ciascuno degli eventi parziali. Cosı̀, se
abbiamo un dado a 6 numeri e una moneta con testa e croce, la probabilità che lanciandoli
insieme si trovi, per esempio, un evento globale costituito da 1 (per il dado) e testa (per
la moneta) è data da 1/6 · 1/2 = 1/12, essendo 1/6 e 1/2 le probabilità rispettive di 1 per
il dado e testa per la moneta. Applicando le due regole esposte di somma e prodotto delle
probabilità si ritrovano facilmente i risultati relativi al lancio di due dadi, in cui si voglia,
cioè, determinare la probabilità di un certo valore per la somma dei numeri di ciascun
dado. Ad esempio, una somma uguale a 4 sarà ottenuta attraverso le tre coppie 1 e 3, 2
e 2, 3 e 1; con la regola delle probabilità composte troviamo
1 1 1
p(1, 3) = p1 (1) × p2 (3) = · =
6 6 36

12
dove p1 e p2 si identificano con le probabilità per il primo e secondo dado. Ovviamente,
per le altre due coppie si ottiene la stessa probabilità e quindi la probabilità di avere una
somma 4 per i due dadi è
3 1
psomma (4) = p(1, 3) + p(2, 2) + p(3, 1) = = ,
36 12
in perfetto accordo con quanto mostrato

2.2 Distribuzioni di probabilità


Allo scopo di introdurre l’idea di distribuzione di probabilità, supponiamo di lanciare 10
monete simultaneamente e di voler calcolare la probabilità che, ad esempio, 4 monete
presentino testa e le restanti croce. In generale, il problema consisterà nel calcolare la
probabilità associata ad avere n monete con testa e le restanti 10 − n con croce con n
intero compreso tra 0 e 10. La risposta a tale domanda corrisponderà ad una serie di
numeri, f (n), uno per ogni valore di n; cioè, per ogni n si ottiene un valore f (n) che
fornisce la probabilità dell’evento caratterizzato dal numero n. Una funzione di questo
tipo è detta distribuzione di probabilità.
Se il campo di variabilità dell’indice n include tutti i possibili eventi (sarà generalmente
questo il tipo di problemi che affronteremo), allora la somma di tutte le probabilità deve
essere 1 (la certezza). Cioè X
f (n) = 1, (8)
n

dove si suppone che la somma sia estesa a tutti i possibili valori di n.


Si dà il caso che, in effetti, nel paragrafo precedente, abbiamo già costruito la distri-
buzione di probabilità associata al lancio di due dadi (vedi Tabella 1).

f (n)

Figura 5: Distribuzione di probabilità per due dadi: n corrisponde alla somma dei numeri
sui due dadi.

Tornando al problema del lancio di dieci monete, supponiamo di voler trovare il numero
medio delle volte che esce testa in un gran numero di prove. Supponiamo di lanciare le
monete Z volte, con Z molto grande; il numero di volte che otteniamo testa su n monete è
Zf (n), come deriva dalla definizione di f (n). Per calcolare il valor medio di n, dobbiamo

13
moltiplicare ogni valore di n per il numero di volte in cui lo stesso n si è presentato,
sommare questi prodotti e dividere per Z. Cioè
1X X
n= nZf (n) = nf (n). (9)
Z n n

Il fatto che Z si semplifichi in questa espressione significa che, ovviamente, in un gran


numero di prove il valore di n sarà indipendente da Z. L’espressione di n data dalla (9)
può essere pensata come una media pesata dei valori di n, con i pesi uguali alle probabilità;
la somma dei pesi in questo caso è uguale ad 1.
Il calcolo di n con il metodo espresso dalla (9) per la distribuzione del lancio dei due
dadi (Tabella 1 e Figura 5) porta a n = 7. Questo valore non dovrebbe sorprendere dato
che le probabilità sono simmetricamente distribuite intorno al valore n = 7. Intuitiva-
mente, si comprende che due diversi valori di n alla stessa distanza da 7 (uno alla sua
sinistra e l’altro alla sua destra), hanno la stessa probabilità.
Utilizzando il metodo espresso nella (9) si può calcolare il valor medio di qualunque
altra quantità; ad esempio il valor medio di n2 è dato da
X
n2 = n2 f (n). (10)
n

Ma allora è interessante calcolare il valor medio dello scarto quadrato (n − n)2 che, come
abbiamo visto nella (3) corrisponde alla varianza.(6) Avremo
X
σ2 = (n − n)2 f (n), (11)
n

che può anche essere espresso nella forma seguente


X X
σ2 = (n − n)2 f (n) = [n2 + n2 − 2nn]f (n) =
n n
X X X
2 2
= n f (n) + n f (n) − 2n nf (n) = (12)
n n n
2 2 2
= n2 + n − 2n = −n n2
P
dove si è sfruttata la normalizzazione di f (n), n f (n) = 1. Nel caso della distribuzione
2
f (n) per il lancio
p dei due dadi abbiamo σ = 105/36 = 2 + 11/12 e quindi una deviazione
standard σ = 105/36 ≈ 1.71.

2.3 La distribuzione binomiale


Si abbiano N eventi indipendenti, ognuno dei quali abbia una probabilità p di verificarsi e
quindi una probabilità 1 − p di non verificarsi. Quale sarà la probabilità che esattamente
n degli eventi si verifichino?
Facciamo un esempio per chiarire la situazione. Supponiamo di avere 5 petardi che si
presumono identici, che per un difetto di fabbrica non sempre esplodono quando accesi:
statisticamente, solo i 3/4 dei petardi esplodono. In altre parole la probabilità che un
petardo esploda è p = 3/4 e che faccia cilecca è 1 − p = 1/4. Il numero di eventi
(6)
Dato che anche le probabilità si suppongono estrapolate dall’intera popolazione, ovviamene, la
varianza suddetta è quella della popolazione.

14
indipendenti è N = 5 e quindi n sarà compreso tra 0 e 5. Quale sarà la probabilità che
esattamente n petardi esplodano?
Per alcuni n il calcolo è semplice. Essendo p la probabilità che uno degli eventi si
verifichi, la probabilità che tutti gli N eventi si verifichino sarà pN ; allo stesso modo, la
probabilità che tutti gli N eventi non si verifichino è (1 − p)N .

f (n)

Figura 6: Istogramma delle probabilità corrispondenti all’esplosione di un numero n di


petardi, tra 5, nel caso in cui la probabilità di esplosione di ognuno sia 3/4. Le probabilità
corrispondono a quelle di una distribuzione binomiale con N = 5 e p = 3/4. Si noti che
il valore della probabilità di n = 0 non è esattamente nulla, ma essendo molto piccola (è
pari a 4−5 ≈ 9.76 · 10−4 ) non risulta visibile nel grafico.

I casi intermedi (0 < n < N ) sono più complicati. Scelto un certo gruppo di n eventi
tra gli N , la probabilità che questi n si verifichino è pn (1 − p)N −n . Ma questa non è
ancora la probabilità che esattamente n eventi si verifichino perchè si è considerata solo
una particolare combinazione. Ad esempio, con n = 1, abbiamo più combinazioni possibili
a seconda che ad esplodere sia il primo, o il secondo, . . . o l’N –esimo petardo. Ci sono
N diverse combinazioni in cui esplode solo 1 petardo, mentre gli altri 4 fanno cilecca:
la probabilità complessiva é 5 · p(1 − p)4 . Per n = 2, tenendo presente che l’ordine dei
petardi non conta, ci sono 10 diverse combinazioni possibili. In generale, il numero di
combinazioni cercato è pari al numero di combinazioni di N oggetti presi ad n ad n che
risulta essere pari a:  
N N!
= , (13)
n n!(N − n)!
dove N ! = N · N1 · N2 · · · · 1 e (per convenzione) 0! = 1. Tali quantità sono anche detti
coefficienti binomiali o coefficienti del binomio di Newton.(7)
Le probabilità cercate sono quindi le seguenti
 
N
fN,p (n) = pn q N −n , (14)
n
(7)
Il teorema binomiale afferna che l’N –esima potenza del binomio (a + b) è dato da:
N  
X N
(a + b)N = an bN −n ,
n
n=0
 
N
dove i coefficienti sono i coefficienti binomiali suddetti.
n

15
dove abbiamo posto q = 1 − p. L’espressione fN,p (n) è detta distribuzione binomia-
le. L’istogramma delle probabilità corrispondente al problema dei petardi è mostrato in
Figura 6.
A che cosa serve la distribuzione binomiale? Facciamo un altro esempio. Supponiamo
di lanciare 5 dadi. Sappiamo che la probabilità che esca 3 su un dado è 1/6: qual è la
probabilità che il 3 esca su n dadi con 0 ≤ n ≤ 5? Ma questo è proprio il problema risolto
dalla distribuzione binomiale N = 5 e p = 1/6.

fN,p (n) fN,p (n)

N = 10 N = 12
p = 0.50 p = 0.25

n n

Figura 7: Esempi di distribuzioni binomiali: a sinistra, fN,p (n) per N = 10 e p = 0.50;


a destra, fN,p (n) per N = 12 e p = 0.25.

Vediamo se la distribuzione è normalizzata; se lo è dovrà essere


N N  
X X N
fN,p (n) = pn q N −n = 1. (15)
n
n=0 n=0

La dimostrazione è immediata. Infatti, dal teorema binomiale segue che quanto scritto a
destra è pari a (p + q)N ; ma nel nostro caso è p + q = 1 (dato che q = 1 − p) e quindi
(p + q)N = 1N ≡ 1.
I calcoli del valor medio n e dello scarto quadratico medio σ 2 richiedono qualche piccolo
trucco e per completezza sono riportati in Appendice A. Qui riportiamo i risultati che
sono
N N  
X X N
n= nfN,p (n) = n pn q N −n = N p; (16)
n
n=0 n=0
N N  
X X N
2
σ = 2
(n − n) fN,p (n) = (n − n) 2
pn q N −n = N p(1 − p) = N pq. (17)
n
n=0 n=0

2.4 La distribuzione di Poisson


Consideriamo una particolare applicazione della distribuzione binomiale. Supponiamo
di avere N nuclei radioattivi che hanno (ognuno di essi) una probabilità p di decadere
in un dato intervallo di tempo (ad esempio T ). Vogliamo calcolare la probabilità che
n nuclei decadano nel tempo T . Ovviamente, la risposta è fornita dalla funzione di
distribuzione binomiale fN,p (n). Tuttavia, sarebbe assai scomodo eseguire i calcoli indicati
perché usualmente N è molto grande (è dell’ordine di 1023 ) e p può essere molto piccolo
(dell’ordine di 10−20 ). Con numeri come questi risulta quasi impossibile calcolare i valori
dei termini della distribuzione binomiale (14).

16
Fortunatamente, proprio in considerazione dell’ordine di N e p, possiamo ricorrere a
delle approssimazioni. I valori estremi di N e p suggeriscono infatti che in tali condizioni
la distribuzione cercata corrisponda all’estrapolazione della distribuzione binomiale nel
limite di N → ∞ e p → 0. In effetti, è bene notare che, mentre N e p assumono valori
estremi, il valor medio della distribuzione N p rimane finito. Denoteremo tale prodotto
con
N p = a. (18)
Facciamo quindi le considerazioni che ci porteranno ad estrarre la distribuzione cer-
cata.(8) Innanzitutto una considerazione essenziale: se p è una quantità molto piccola,
il numero medio di eventi sarà in genere molto inferiore ad N ; quindi i valori di n a cui
saremo interessati saranno estremamente più piccoli di N . Conseguentemente, tenendo
presente che n << N , nei coefficienti binomiali:

N (N − 1)(N − 2) · · · (N − n + 1)
 
N N!
= = ,
n n!(N − n)! n!

possiamo notare che il numeratore è costituito dal prodotto di n termini tutti poco diversi
da N . In queste condizioni potremo scrivere

Nn
 
N
≈ .
n n!

Perciò abbiamo
Nn n (N p)n (1 − p)N
fN,p ≈ p (1 − p)N −n = · .
n! n! (1 − p)n
Ora notiamo che, essendo p esiguo ed n relativamente piccolo, la potenza (1 − p)n sarà
essenzialmente identica ad 1 e potrà essere eliminata. Eliminando anche N dall’espressione
precedente attraverso la (18) possiamo scrivere
an an  a
fN,p ≈ f (n) = · (1 − p)a/p = · (1 − p)1/p .
n! n!
Non rimane che valutare la quantità (1 − p)1/p che, tenendo presente il valore estremo
di p possiamo far corrispondere al limite(9)
1
lim(1 − p)1/p = .
p→0 e
Pertanto, la distribuzione cercata assume la seguente forma

an e−a
fa (n) = ,
n!
che è detta distribuzione di Poisson.
Il legame tra questa distribuzione e la distribuzione binomiale ci dice subito che il
valor medio di n è
n = a.
(8)
Senza la pretesa di essere matematicamente rigorosi, cercheremo di essere ragionevoli nell’introduzione
delle diverse approssimazioni.
(9)
Questo è un limite notevole calcolato in tutti i testi di analisi matematica.

17
fa (n)

a = 2.0

Figura 8: Distribuzione di Poisson per a = 2.0.

Possiamo anche verificare che la distribuzione è normalizzata e cioè che


∞ ∞
X X an
fa (n) = e−a = 1.
n=0 n=0
n!

In effetti, la quantità

X an
,
n=0
n!
non è altro che lo sviluppo in serie di Mac Laurin di ea e da qui la dimostrazione della
precedente.

fa (n)

a = 10.0

Figura 9: Distribuzione di Poisson per a = 10.0.

Anche il valore dello scarto quadratico medio σ 2 segue da quello della distribuzione
binomiale. In tal caso, tenendo presente che 1 − p ≈ 1, potremo scrivere

σ 2 = N p(1 − p) ≈ N p = a ⇒ σ = a. (19)

18
Ecco un’esempio in cui può essere utilizzata la distribuzione di Poisson. Supponiamo
di avere 1020 atomi di un ipotetico elemento radioattivo i cui nuclei emettono particelle α
(atomi di elio ionizzati).(10) Supponiamo che il decadimento sia costante e pari a 2 · 10−20
atomi al secondo, il che significa che la probabilità per ogni nucleo di decadere in un
secondo è di 2 · 10−20 . Questo corrisponde ad una vita media di 1012 anni, piuttosto
lunga, ma non al di fuori della realtà.
Supponiamo ora di osservare questo campione di materiale per molti intervalli, cia-
scuno della durata di un secondo. Qualè la probabilità di osservare zero emissioni in un
intervallo? Una emissione? Due? ecc. Le risposte sono fornite dalla distribuzione di Pois-
son fa (n) utilizzando a = N p = 1020 · 2 · 10−20 = 2 e sono rappresentate nell’istogramma
in Figura 8. In Figura 9 è mostrato l’istogramma corrispondente alla distribuzione di
Poisson con a = 10.

2.5 La distribuzione di Gauss o distribuzione normale degli er-


rori
Ci siamo occupati finora del caso di distribuzioni di probabilità relative a sistemi che
possono assumere solo stati discreti; conseguentemente, anche la variabile corrispondente
a tali stati assumeva solo valori discreti (o interi). Al contrario, in questo paragrafo ci
occuperemo di una distribuzione di probabilità in cui lo stato del sistema può variare con
continuità. La distribuzione che prenderemo in esame è la distribuzione di Gauss detta
anche distribuzione normale degli errori.
Questa distribuzione è importante per varie ragioni: i) descrive la distribuzione
degli errori casuali in molti tipi di misure; ii) è possibile dimostrare che, anche se i
singoli errori non seguono questa distribuzione, le medie di gruppi di dati di questo tipo si
distribuiscono (se abbastanza numerosi) secondo la legge di Gauss. Infatti, considerando
gruppi di osservazioni (misure) che seguono una certa distribuzione f (x) (di qualsiasi
tipo), prendendone N e facendone la media, allora, purché N sia molto grande, le medie
seguono la distribuzione di Gauss.(11)
La distribuzione di Gauss può essere vista come un risultato analitico derivato da
elementari considerazioni matematiche o, come abbiamo già accennato nel paragrafo 1.3.3,
come una formula empirica che si è trovato essere in accordo con la distribuzione reale
degli errori casuali. Da un punto di vista teorico si può fare la ragionevole affermazione
che ogni errore accidentale (casuale) si può pensare come il risultato di un gran numero di
errori elementari, tutti di uguale entità, e ciascuno con uguale probabilità di produrre una
variazione in eccesso o in difetto. La distribuzione di Gauss può cosı̀ essere considerata
come una forma limite della distribuzione binomiale, quando in quest’ultima il numero N
degli eventi indipendenti (corrispondenti agli errori elementari) diventa elevato, mentre la
probabilità p di successo di ogni prova (la probabilità di ogni errore elementare di essere
positivo) è 1/2. Un tale calcolo va al di là degli scopi di questa introduzione alla teoria
degli errori e non la riporteremo.
D’altra parte, molti sono dell’avviso che la vera giustificazione della validità della legge
di Gauss e della sua applicazione nel trattare gli errori casuali stà nel fatto che, nella
pratica, le osservazioni sperimentali seguono tale distribuzione (come abbiamo detto nella
(10)
Una tale situazione potrebbe essere plausibile per un raro e instabile isotopo delle terre rare, con un
peso atomico vicino a 150. In questo caso 1020 atomi corrispondono ad una massa dell’ordine di 25 mg.
(11)
Questo è il risultato del cosiddetto teorema del limite centrale che vale con la sola condizione che
la varianza della distribuzione originaria, f (x), sia finita. Tale teorema è molto importante negli sviluppi
più avanzati della statistica matematica.

19
sezione 1.3.3). Per tale ragione, la distribuzione gaussiana viene anche usualmente indicata
come legge normale degli errori; perciò, quando gli errori seguono tale distribuzione
si dice che sono distribuiti normalmente.
f (x)

√h
π

h

e π

1 1 x
x− h x x+ h

Figura 10: Funzione di distribuzione di Gauss. Sono indicati i punti√di ascissa x =


x ± 1/h, in corrispondenza dei quali la curva assume un valore pari a h/ πe.

Come abbiamo già visto nella sezione 1.3.3 la distribuzione di Gauss ha la forma
h 2 2
f (x) = √ e−h (x−µ) . (20)
π

dove h è detto modulo di precisione e µ (vedi Appendice B) è pari alla media della
popolazione x. Questa distribuzione è diversa da quelle viste fino ad ora perché ora la
variabile x è una variabile continua e non un indice intero come nella binomiale o in quella
di Poisson. Questo caratteristica richiede qualche precisazione sul significato della f (x).
Nella Figura 10 mostriamo il grafico
√ di f (x). Il massimo della funzione si presenta a x = x
e la sua ordinata è pari ad h/ π. In corrispondenza delle ascisse x = x ± h1 la funzione
assume il valore e√h π .
Da questo possiamo capire (si è già visto nella sezione 1.3.3) che al variare di h la
curva diventa alta e stretta per grandi valori di h, bassa e larga per bassi valori
di h. Questo fatto è legato al significato vero e proprio della f (x) e al fatto che il suo valore
non corrisponde (come succedeva per le distribuzioni discrete) alla probabilità del valore
x. Infatti, essendo x una variabile continua, la probabilità che essa assuma esattamente
un particolare valore è nulla! Invece, quello che ha senso è, ad esempio, chiederci quanto
vale la probabilità che x assuma un valore compreso tra a e b.
Cosı̀ l’esatta interpretazione della funzione f (x) è che per un piccolo intervallo dx,
f (x)dx corrisponde alla probabilità che una misura cada nell’intervallo x, x + dx . Con-
seguentemente, come mostrato anche in Figura 11, la probabilità che x cada in un punto
qualunque dell’intervallo a ÷ b è
Z b
P (a, b) = f (x)dx.
a

Quindi, dato che x può assumere qualsiasi valore tra −∞ e +∞, se la funzione di
distribuzione è normalizzata, deve essere
Z +∞
f (x)dx = 1.
−∞

20
f (x)

dx

x a b

Figura 11: Rappresentazione grafica delle probilità per una distribuzione continua (qui
è considerata la distribuzione di Gauss). Le aree tratteggiate rappresentano le probabilità
cha ha una misura di cadere nei rispettivi intervalli.

Come dimostrato in Appendice B la forma (20) della distribuzione di Gauss è normalizzata


ed inoltre il suo valor medio è pari a
Z +∞
x= xf (x)dx = µ.
−∞

D’altra parte (vedi in Appendice B) si dimostra che tra il modulo di precisione e la


varianza della distribuzione vale la seguente
1
σ=√ ,
2h
che permette di scrivere la distribuzione di Gauss nella forma seguente

1 (x−x)2
f (x) = √ e− 2σ2
2πσ

che costituisce la forma universalmente utilizzata per la distribuzione normale.


f (x)

√ 1
2πσ

√1
e 2πσ

x−σ x x+σ x

Figura 12: Funzione di distribuzione di Gauss. Si noti che sono indicati gli stessi punti
indicati in Figura 10, ma ora le posizioni e le quote sono espresse in termini della deviazione
standard σ.

21
Possiamo utilizzare la distribuzione di Gauss per calcolare la probabilità che una mi-
sura cada in un intervallo prefissato. In particolare, è interessante calcolare la probabilità
che una misura cada in un intervallo di semi–ampiezza nσ (con n intero) intorno ad x.
Cioè la quantità Z x+nσ
1 (x−x)2
Pnσ = √ e− 2σ2 dx
2πσ x−nσ
Operando il cambio di variabile t = (x − x)/σ la precedente diventa
Z +n r Z n
1 2 2 2
Pnσ = √ e−t /2 dt = e−t /2 dt
2π −n π 0

L’integrale in questione non è calcolabile analiticamente, ma può essere valutato numeri-


camente con precisione molto elevata. I valori delle probilità suddette per n = 1, 2, 3 sono
i seguenti:
Pσ = 0.683; P2σ = 0.954; P3σ = 0.997.
Questi valori mostrano che la probabilità che ha una misura di cadere in un intervallo
di semi–ampiezza σ intorno ad x è dell 68.3%; di semi–ampiezza 2σ è del 95.4%; di
semi–ampiezza 3σ è del 99.7%.
Talvolta, queste probabilità possono essere utilizzate per elaborare un criterio per
analizzare i propri dati sperimentali ed eventualmente scartarne qualcuno. Ad esempio,
il valore di P3σ ci dice che la probabilità che una ha misura di cadere al di fuori di un
intervallo di semi–ampiezza 3σ di x è del 3 per mille (molto improbabile!). Quindi, data
una serie di misure che si supponga distribuita normalmente, calcolato il valor medio x
e la deviazione standard σ, sarebbe improbabile trovare che uno o più dati della serie
non rientrino nell’intervallo x ± 3σ. Se questo succede, potremmo pensare che, forse,
nell’effettuare quelle misure sia intervenuto qualche errore aggiuntivo (sistematico) che ha
prodotto quella discrepanza; potremmo cioè pensare che i valori ottenuti in quelle misure
siano stati inficiati da fattori che non rientrano nelle casualità attinenti alla distribuzione
normale. In base a questo criterio, tali dati potrebbero essere eliminati dal set delle
misure.
Il criterio appena descritto può dare buoni risultati, ma è bene suggerire una certa
cautela nella sua applicazione. Se, da una parte, il criterio può dar modo di individuare
ed eliminare alcuni dati, dall’altra, la sua applicazione indiscriminata potrebbe portare
all’eliminazione di gran parte dei dati stessi. Infatti, dopo ogni applicazione del criterio (e
dopo aver eliminato i dati che cadono fuori dall’intervallo x ± 3σ), con i dati rimanenti si
deve procedere al ricalcolo dei nuovi x e σ; questo potrebbe innescare un processo a catena
che potrebbe portare a ridurre entro limiti inaccettabili la consistenza del campione in
esame.

3 Applicazioni e ulteriori sviluppi della Teoria degli


Errori
Tutto ciò che abbiamo detto a proposito della probabilità e delle distribuzioni di proba-
bilità costituisce le fondamenta su cui costruire tecniche, anche complesse, per il tratta-
mento statistico dei dati. Nelle seguenti sezioni ci occuperemo di una serie di risultati e
di strumenti statistici sviluppati a partire da quanto fin qui visto.

22
3.1 La deviazione standard della media
Consideriamo una questione molto importante: qual è la relazione tra la deviazione
standard di un set di misure e la precisione del valor medio?
Rispondiamo a tale domanda estendendo le idee che abbiamo già introdotto. Prima di
tutto, supponiamo di avere N misure che seguono la distribuzione di Gauss. Calcoliamo
la media x e la deviazione standard σ. Supponiamo poi di considerare un’altro set di N
misure e di calcolare i nuovi x e σ: questi, non necessariamente, saranno uguali a quelli
del precedente gruppo, ma ci aspettiamo che la differenza tra i valori medi dei due gruppi
sia molto inferiore a quanto ogni misura differisce dalle rispettive medie.
Continuando a collezionare misure, supponiamo di averne messi insieme M set co-
stituiti da N misure ciascuno. Inoltre, ognuno di questi sarà caratterizzato da un valor
medio xk (k = 1, 2, . . . , M ) e da una deviazione standard σk . Se M è abbastanza grande,
potremmo anche pensare di analizzare la distribuzione degli xk : quale sarà la deviazione
standard della media (e cioè la deviazione standard della distribuzione delle medie)?
In base a quanto detto prima ci aspettiamo che tale deviazione standard sia più piccola di
ognuna delle σk . Inoltre, il suo valore ci darà un’indicazione della precisione che possiamo
assegnare agli xk .
Denotiamo con σm la suddetta deviazione standard della media, con xik l’i–esimo
(i = 1, 2, . . . , N ) dato del k–esimo (k = 1, 2, . . . , M ) set di misure e con X la media
complessiva su tutte le M N misure (che corrisponde anche alla media delle medie xk ).
La varianza delle misure individuali è
M N M N
2 1 XX 2 1 XX 2
σ = (xik − X) = s , (21)
M N k=1 i=1 M N k=1 i=1 ik

dove gli sik = xik − X sono gli scarti delle singole misure da X. Invece la varianza della
media è
M M
2 1 X 2 1 X 2
σm = (xk − X) = S ,
M k=1 M k=1 k

dove gli Sk = xk − X sono gli scarti delle medie xk dalla media X.


Notando che
N N N
1 X 1 X 1 X
S k = xk − X = xik − X = (xik − X) = sik .
N i=1 N i=1 N i=1

e, inserendo questa nella precedente, si ottiene


M N
!2 M N
!2
2 1 X 1 X 1 X X
σm = sik = sik . (22)
M k=1 N i=1 M N 2 k=1 i=1

Sviluppando il quadrato della della sommatoria nell’ultimo termine della (22) si ottiene
N
!2 N N
X X X
2
sik = sik + sjk sik ,
i=1 i=1 j>i

e quindi
M N M N
2 1 XX 2 1 XX
σm = s + sjk sik . (23)
M N 2 k=1 i=1 ik M N 2 k=1 j>i

23
Il secondo termine di tale relazione contiene il prodotto di scarti diversi che, sappiamo
essere, nel caso di distribuzioni normali (e siamo in tali condizioni), positivi o negati-
vi con ugual probabilità. A causa di ciò, il termine che contiene le sommatorie in cui
compaiono tali prodotti, nel caso di grandi valori di M ed N , tenderanno ad annullarsi.
Conseguentemente, con buona approssimazione possiamo scrivere
M N
2 1 XX 2
σm = s (24)
M N 2 k=1 i=1 ik
A prima vista, tale espressione può sembrare molto simile alla (21), ma un confronto più
accurato ci mostra che
2 σ2 σ
σm = o anche σm = √ (25)
N N
Possiamo quindi asserire che: la deviazione standard della media σm di un set di N
misure è pari, semplicemente, alla deviazione standard delle misure σ divisa
the la radice quadrata di N .
La deviazione standard della media è utilizzata universalmente per descrivere la preci-
sione della media di un set di misure. Il risultato appena ottenuto ci permette di calcolare
la precisione che possiamo assegnare al valor medio ricavato da una serie di misure.

3.2 Propagazione degli errori


La teoria degli errori presentata fin qui è riferita alla misura diretta, o relativa, di gran-
dezze fisiche; come sappiamo, tuttavia, molte grandezze fisiche vengono misurate in modo
indiretto, cioè si ricava il loro valore da quella di altre grandezze, legate alla grandezza in
esame da relazioni funzionali del tipo z = f (a, b, c, . . .), che possono essere, per esempio,
le espressioni di leggi fisiche. Qui a, b, c, . . . rappresentano le grandezze che vengono
misurate direttamente, alle quali si applicano le considerazioni precedenti. Ci si domanda
come l’imprecisione nella misura di a, b, c, . . . si rifletta sulla misura di z: la risposta è
data dalla legge di propagazione degli errori, che vogliamo qui introdurre.
Essendo z ? = f (a? , b? , c? , . . .), ci aspettiamo che, effettuando una serie di N misure con
N grande, di a, b, c, . . ., ed esaminando la distribuzione delle zi = f (ai , bi , ci , . . .), questa
sia centrata intorno ad un valore medio z = f (a, b, c, . . .). Ciò è infatti quanto si trova;
anzi la distribuzione delle zi è, con ottima approssimazione, interpolata ancora da una
distribuzione normale, caratterizzata da un σz che, come vedremo, è legato ai σa , σb , σc ,
ecc. delle diverse misure dirette che concorrono alla determinazione di z.
Il differenziale di z è dato dall’espressione
     
∂f ∂f ∂f
dz = da + db + dc + . . .
∂a ∂b ∂c
e se le quantità da = ∆a, db = ∆b, . . . sono sufficientemente piccole, e la f (a, b, c, . . .) è
abbastanza regolare, cosa che ammettiamo senz’altro, potremo scrivere
     
∂f ∂f ∂f
∆z = ∆a + ∆b + ∆c + . . .
∂a ∂b ∂c
Se ora con ∆a si rappresenta lo scarto sa,i = ai − a sulla misura delle singole ai , e
analogamente per b e c, si avrà
     
∂f ∂f ∂f
∆zi = zi − z = z(ai , bi , ci , . . .) − z(a, b, c, . . .) ≈ sa,i + sb,i + sc,i + . . .
∂a ∂b ∂c

24
dove le derivate parziali ∂f
   ∂f   ∂f 
∂a
, ∂b , ∂c sono calcolate in a = a, b = b, c = c, ecc.
Calcoliamo l’errore quadratico medio σz ; abbiamo
N N  2
1 X 2 1 X ∂f ∂f ∂f
σz2 = s = sa,i + sb,i + sc,i + . . . =
N i=1 z,i N i=1 ∂a ∂b ∂c
N
(  )2
2  2  2
1 X ∂f ∂f ∂f
= s2a,i + s2b,i + s2c,i + . . . +
N i=1 ∂a ∂b ∂c
N           
1 X ∂f ∂f ∂f ∂f ∂f ∂f
+ 2 sa,i sb,i + 2 sa,i sc,i + 2 sb,i sc,i + . . .
N i=1 ∂a ∂b ∂a ∂c ∂b ∂c

Analogamente a quanto visto nella precedente sezione, i termini nella seconda parentesi
graffa possono venire trascurati rispetto agli altri, in quanto essendovi la stessa probabilità
per ciascuno di essere positivo o negativo, nella sommatoria per N grande vi saranno
termini a due a due uguali in modulo, ma di segno opposto, che si elideranno l’un l’altro.
Pertanto, la relazione cercata per la σz2 è la seguente
 2  2  2
∂f ∂f ∂f
σz2 = σa2 + σb2 + σc2 + . . . (26)
∂a ∂b ∂c

Analogamente, se per ciascuna delle grandezze a, b, c, . . . si fanno più serie di misure,


potremo definire una varianza della media per z dato attraverso le (25), da
 2  2  2
2 ∂f 2 ∂f 2 ∂f 2
σz,m = σa,m + σb,m + σc,m + ... (27)
∂a ∂b ∂c

Questa relazione, a differenza delle (25), resta corretta anche se delle grandezze a, b, c, . . .
è stato fatto un numero diverso di misure (e non lo stesso numero N ).
Come semplici applicazione di quanto ottenuto, consideriamo le 3 relazioni funzionali
seguenti
a
z1 = ka; z2 = a + b; z3 = ,
b
con k costante e le variabili a e b distribuite normalmente e con le deviazioni standard σa
e σb . L’applicazione della (26) è molto facile e ci permette di scrivere le seguenti:
 2
∂z1
σz21 = σa2 = k 2 σa2 ⇒ σz1 = kσa ; (28)
∂a
 2  2
∂z2 ∂z2
q
σz22
= 2
σa + σb2 = σa2 + σb2 ⇒ σ z2 = σa2 + σb2 ; (29)
∂a ∂b
2 2 s
a2 2
     2

2 ∂z3 2 ∂z3 2 1 2 1 a
σz3 = σa + σb = 2 σa + 2 σb ⇒ σz3 = σ 2 + σ 2 (30)
∂a ∂b b b b 2 a b2 b

3.3 Il metodo dei minimi quadrati


Veniamo ora ad un metodo molto potente tramite il quale è possibile estrarre il massimo di
informazioni da un set di dati sperimentali. Tale metodo si basa sul cosiddetto principio

25
dei minimi quadrati che a sua volta può essere derivato dal principio di massima
verosimiglianza che vale per dati che seguono la distribuzione normale.
Il principio dei minimi quadrati può essere enunciato in questo modo: il valore più
probabile x di una certa grandezza può essere ricavato considerandone un set
di misure xi (con i = 1, . . . , N ) e scegliendo il valore che minimizza la somma
degli scarti quadrati
XN
(x − xi )2 (31)
i=1
In effetti abbiamo già visto una tale espressione (in pratica è alla base della definizione
di scarto quadratico medio) e abbiamo già visto che la sua minimizzazione (vedi nella
sezione (1.3.2) porta a vedere x come migliore stima del valore vero della grandezza.
Ma qual è la ragione del fatto che la minimizzazione della somma degli scarti al qua-
drato debba portare ad estrarre il valore più probabile della grandezza? Per rispondere a
questa domanda consideriamo la probabilità associata ad un set di misure xi assumendo
che tali misure seguano la distribuzione normale. La probabilità in questione, cioè la
probabilità che una misura cada in un intervallo di ampiezza dx intorno a xi è
1 (x−xi )2
Pi = √ e− 2σ2 dx,
2πσ
dove σ è la deviazione standard del set di dati a cui xi appartiene. Corrispondentemente, la
probabilità di ottenere il set completo delle N misure sarà pari al prodotto delle probabilità
P = P 1 · P 2 · · · · · PN
   
1 (x−x1 )2 1 (x−xN )2
− −
= √ e 2σ2 dx · · · · · √ e 2σ2 dx (32)
2πσ 2πσ
 N P
dx N (x−xi )2
= √ e− i=1 2σ2
2πσ
Quindi, la probabilità P di osservare l’intero gruppo di valori xi dipende dal valore di x che
compare nell’espressione (32). Per un valore di x molto diverso da tutti gli xi , l’esponente
sarà molto negativo e, corrispondentemente, P sarà molto bassa. In altre parole, è molto
improbabile che tutte le misure siano molto lontane dal valore vero della grandezza.
In effetti, se abbiamo ottenuto proprio quel set di misure (e non un’altro), la sua pro-
babilità deve essere molto elevata! Il principio di massima verosimiglianza asserisce
che questo sia proprio il set di misure più probabile e perciò, in accordo con questa af-
fermazione, la probabilità P associata a tale set di misure dovrà essere massima. Questo
porta alla scelta del valore di x che minimizza la quantità
N
X (x − xi )2
M (x) = (33)
i=1
2σ 2
che compare nell’esponente nell’espressione (32). Questa quantità è detta somma dei
minimi quadrati. Il principio di massima verosimiglianza porta quindi alla conclusione
che bisogna
PN minimizzare M (x), il che è equivalente (in questo caso) a minimizzare la
2
somma i=1 (x − xi ) , come abbiamo già visto.
La deviazione standard del valore più probabile di x, e cioè x, può essere ricavata
attraverso la propagazione degli errori applicata all’espressione
N
1 X
x=x= xi ,
N i=1

26
intesa come funzione delle N variabili xi , associando ad esse le deviazioni standard della
distribuzione da cui provengono e cioè σ. Perciò utilizzando la (26) ricaviamo che la
2
varianza della media σm è data dalla seguente
 2  2  2 N  2
2 ∂x 2 ∂x 2 ∂x 2
X ∂x
σm = σ + σ + ··· + σ = σ2,
∂x1 ∂x2 ∂xN i=1
∂xi
∂x
Notando che è [ ∂x i
] = 1/N si ottiene
N
2
X σ2 σ2
σm = = , (34)
i=1
N2 N

in perfetto accordo con la (25).


Capita, talvolta, di avere a disposizione per una stessa grandezza più set di misure
ognuno con il suo valor medio xj e con la propria deviazione standard σj (supporremo
j = 1, 2, . . . , M ). In effetti, è utile confrontare misure di una stessa grandezza effettuate
con metodi e precisioni diverse; la coerenza (o meno) tra i diversi risultati permette di
valutare sia la bontà dei diversi metodi, sia l’eventuale presenza di errori sistematici nelle
misure. Come si può fare in tali casi a ricavare il valore più probabile della grandezza e
la corrispondente deviazione standard?
Il metodo dei minimi quadrati esposto sopra ci viene in soccorso. Analogamente a
come abbiamo proceduto sopra, ora, supponendo che i dati dei diversi set di misure siano
distribuiti normalmente, la probabilità del set di valori medi xj sarà data da
(x−xj )2
(dx)M
PM
− j=1 2σ 2
P = √ e j (35)
( 2π)N σ1 σ2 · · · σM
In questo caso la somma dei minimi quadrati è
M
X (x − xj )2
M (x) = , (36)
j=1
2σj2

e minimizzando M (x) (seguendo ancora il principio di massima verosimiglianza) si ottiene


M M M
dM d X (x − xj )2 X 1 X xj
= =0 ⇒ x =
dx dx j=1 2σj2 σ
j=1 j
2
σ2
j=1 j

da cui segue
PM xj
j=1 σj2
x = x = PM 1
. (37)
j=1 σj2

Il valore più probabile si ottiene come media pesata delle medie dei vari set di dati pesate
con gli inversi delle varianze delle stesse.
La varianza del valore più probabile si ottiene, ancora una volta, applicando la propa-
gazione degli errori alla (37) intesa come funzione degli xi . Quindi
 2  2  2 M  2
2 ∂x ∂x ∂x X ∂x
σm = σ12 + σ22 + ··· + 2
σM = σj2 ,
∂x1 ∂x2 ∂xM j=1
∂xj

27
Osservando che ora è
∂x 1/σj2
= PM ,
∂xj 2
k=1 1/σk
sostituendo nella precedente si ha
M
!2 PM
2
X 1/σj2 1/σj2
j=1 1
σm = PM σj2 = P  2 = PM .
j=1 k=1 1/σk2 M
1/σ 2
2
k=1 1/σk
k=1 k

Cioè
M
1 X 1
= .
2
σm σ2
j=1 j

Da questa si vede che la varianza della media pesata è minore di una qualsiasi delle
varianze individuali. Inoltre, nel caso in cui la varianze dei diversi set di dati siano uguali,
si riottiene il risultato già visto nella (34).

3.4 Fit di dati sperimentali con il metodo dei minimi quadrati


Un’altro problema dove il metodo dei minimi quadrati rivela appieno le sue doti è nell’in-
terpolazione (fit) di dati sperimentali che, teoricamente, dovrebbero disporsi secondo una
curva funzione di certi parametri. Per chiarire il problema consideriamo il caso classico
in cui vengano effettuate delle misure di velocità in funzione del tempo per un corpo che
segue un moto uniformemente accelerato. Teoricamente, dette v0 la velocità iniziale e a
l’accelerazione, al variare del tempo la velocità v del corpo dovrebbe seguire la legge

v(t) = v0 + at (38)

Supponiamo che durante il moto del corpo vengano effettuate N misure di velocità agli
istanti ti (non necessariamente equispaziati); vi sarà l’i–esimo valore sperimentale per
la velocità. Effettuata la misura avremo quindi un set composto da N coppie di valori
(ti , vi ). Un’esempio di dati di questo tipo è mostrato in Figura 13.
Seguendo l’idea alla base del metodo dei minimi quadrati e tenendo presente che i
dati, teoricamente, dovrebbero seguire la legge (38), possiamo definire la seguente somma
dei minimi quadrati
N
X
M (v0 , a) = (v0 + ati − vi )2 .
i=1

Si noti che, se i dati seguissero perfettamente la legge (38), allora introducendo i giusti
valori di v0 ed a, M (v0 , a) si annullerebbe. Nel caso reale, essendo presenti degli errori di
misura, i dati non saranno perfettamente allineati lungo una retta e quindi per nessuna
coppia di valori (v0 , a) la somma suddetta si annullerà. Tuttavia, seguendo il principio
dei minimi quadrati, possiamo procedere alla sua minimizzazione.
A differenza di quanto visto in precedenza, ora M è funzione di due parametri, v0 ad
a. In tal caso, per la sua minimizzazione dobbiamo imporre che entrambe le derivate di
M rispetto ai due parametri di annullino. Cioè
∂M ∂M
= 0; = 0.
∂v0 ∂a

28
Effettuando le derivate otteniamo le seguenti relazioni
N N
∂M X ∂M X
=2 (v0 + ati − vi ) = 0; =2 (v0 + ati − vi )ti = 0,
∂v0 i=1
∂a i=1

dalle quali ricaviamo il sistema


 P P
 N v0 + a ti − vi = 0

t2i −
P P P
v0 ti + a vi ti = 0

Risolvendo si ottiene
( vi )( t2i ) − ( vi ti )( ti )
P P P P P P P
N ( vi ti ) − ( vi )( ti )
v0 = ; a=
N ( t2i ) − ( ti )2 N ( t2i ) − ( ti )2
P P P P

m
(xi , yi )

Figura 13: Grafico che illustra l’interpolazione (fit) tramite il metodo dei minimi quadrati
di una serie di punti ognuno dei quali corrisponde ad una coppia di osservazioni (xi , yi ).
La funzione interpolata è del tipo y = mx + q.

In generale, per un set di dati costituiti da N coppie del tipo (xi , yi ) (come in Figura
13) che, teoricamente, dovrebbero allinearsi su una retta secondo la legge y = mx + q, si
può procedere in modo analogo a quanto appena fatto e, attraverso il metodo dei minimi
quadrati, ottenere la migliore retta che interpola i dati ricavando i parametri m e q dalle
seguenti

( yi )( x2i ) − ( xi yi )( xi )
P P P P P P P
N ( xi yi ) − ( yi )( xi )
m= ; q= . (39)
N ( x2i ) − ( xi )2 N ( x2i ) − ( xi )2
P P P P

Il passo seguente è quello di calcolare l’errore sulla determinazione di tali parametri e


cioè le corrispondenti deviazioni standard. A tal fine, supponiamo che gli errori su m e
q siano determinati solo dagli errori sulle yi ,(12) ai quali assegnamo (per semplicità) una
stessa varianza σ 2 . Perciò, per il calcolo della varianza, ad esempio, del parametro m
possiamo utilizzare la propagazione degli errori ottenendo
X  ∂m 2
2
σm = σ2.
j
∂y j

(12)
Per semplicità si suppone che le misure xi non presentino errori apprezzabili.

29
Quindi, le derivate parziali sono valutate attraverso la prima delle (39). Ad esempio, si
ha ! !
∂ X ∂ X
xi y i = xj ; yi = 1 ,
∂yj i
∂yj i

e conseguentemente
2
N 2 x2j − 2N xj xi + ( xi )2
P P P
N x j − xi

∂m ∂m
= ⇒ = .
N ( x2i ) − ( xi )2 [N ( x2i ) − ( xi )2 ]2
P P P P
∂yj ∂yj

Perciò, si ricava

N 2 xi 2 − N ( xi ) 2 2 N σ2
P P
2
σm = P 2 P 2 2σ = P 2 P .
[N ( xi ) − ( xi ) ] N ( xi ) − ( xi )2

Analogamente, per il parametro q si ha

σ 2 x2i
P
σq2 = .
N ( x2i ) − ( xi )2
P P

Abbiamo qui mostrato, per semplicità, l’applicazione del metodo dei minimi quadrati
al fit di dati sperimentali con una curva espressa da una relazione lineare. Tuttavia, è
bene sottolineare, che il metodo permette di affrontare anche fit molto più impegnativi
di questo in cui, ad esempio, la curva da interpolare può essere costituita da polinomi
di grado anche elevato o, addirittura, da funzioni trascendenti. In tali casi, l’espressione
della somma dei minimi quadrati può diventare particolarmente complessa e, spesso, il
processo di minimizzazione deve essere fatto per via numerica.

30
APPENDICI

A Calcolo di n e σ 2 per la distribuzione binomiale


Sappiamo che la distribuzione è normalizzata e quindi vale la seguente(13)
X N 
pn (1 − p)N −n = 1
n

Derivando ambo i membri rispetto a p abbiamo


X N 
npn−1 (1 − p)N −n − (N − n)pn (1 − p)N −n−1 = 0,

n

che può essere riscritta nella forma


X N 
npn−1 (1 − p)N −n
n
X N 
= (N − n)pn (1 − p)N −n−1
n
X N  X N 
N −n−1
=N n
p (1 − p) − npn (1 − p)N −n−1 .
n n

o anche
X  N  X N 
N −n N −n−1
n n−1
[p (1 − p) n
+ p (1 − p) ]=N pn (1 − p)N −n−1
n n

Ora moltiplichiamo ambo i membri per p(1 − p) e otteniamo


X  N 
n [(1 − p)pn (1 − p)N −n + ppn (1 − p)N −n ]
n
X N 
= Np pn (1 − p)N −n (40)
n

Combinando i due termini nella sommatoria a primo membro e tenendo presente che la
distribuzione è normalizzata si ottiene
X  N  X
n pn (1 − p)N −n = nfN,p (n) = N p (41)
n

il che dimostra che per la distribuzione binomiale è

n = N p.

Per valutare lo scarto quadratico medio dobbiamo procedere al calcolo della seguente
X
σ2 = (n − n)2 fN,p (n) = n2 − n2 ,

come già mostrato nella (12).


(13)
In questa e nelle seguenti espressioni nelle sommatorie, per comodità di scrittura, ometteremo l’indice
n sottintendendo che le stesse siano sempre effettuate da n = 0 a N .

31
Avendo già ottenuto n, dobbiamo quindi valutare
X
n2 = n2 fN,p (n)

A tal fine consideriamo l’equazione (41) e deriviamo ancora una volta rispetto a p. Si
ottiene
X  N 
n [npn−1 (1 − p)N −n − (N − n)pn (1 − p)N −n−1 ] = N.
n
Moltiplicando per p(1 − p) e riarrangiando i termini come prima si ha
X N  X N 
N −n
2 n
n p (1 − p) − Np npn (1 − p)N −n = N p(1 − p),
n n

e conseguentemente
X N 
n2 = n2 pn (1 − p)N −n =
n
X N 
= Np npn (1 − p)N −n + N p(1 − p) = N 2 p2 + N p(1 − p). (42)
n

In definitiva
σ 2 = n2 − n2 = N p(1 − p),
e conseguentemente la deviazione standard della distribuzione binomiale è
p
σ = N p(1 − p).

B Distribuzione normale: normalizzazione, valor me-


dio e deviazione standard
Nei calcoli che seguono faremo uso dei due seguenti integrali notevoli
Z +∞ Z +∞ √
−z 2
√ 2 −z 2 π
e dz = π; z e dz = , (43)
−∞ −∞ 2

che non dimostreremo.


La forma generale della distribuzione normale è la seguente
2 (x−µ)2
f (x) = Ce−h , (44)

dove C è una costante e h e µ sono rispettivamente il cosiddetto modulo di precisione e


il valore di x corrispondente alla posizione in cui la f (x) è massima.
La normalizzazione di tale distribuzione corrisponde alla validità della seguente
Z +∞ Z +∞
2 2
f (x)dx = C e−h (x−µ) dx = 1. (45)
−∞ −∞

Con il seguente cambio di variabile


z 1
h(x − µ) = z ⇒ x= + µ; dx = dz, (46)
h h

32
il primo membro della (45) diventa
Z +∞
C +∞ −z2
Z
−h2 (x−µ)2
C e dx = e dz,
−∞ h −∞

e da questa, facendo uso


√ della prima delle (43), segue che, la normalizzazione della
(44) comporta C = h/ π. Conseguentemente, la forma della distribuzione normale
normalizzata è
h 2 2
f (x) = √ e−h (x−µ) dx, (47)
π
Il valor medio della distribuzione normale è data dalla
Z Z +∞
h 2 2
x= xf (x)dx = √ xe−h (x−µ) dx,
−∞ π −∞

alla quale, utilizzando il cambio di variabile (46) visto in precedenza, si può dare la forma
Z +∞ 
1 1 +∞ −z2
 Z Z +∞ 
1 z 
−z 2 −z 2
√ + µ e dz = √ ze dz + µ e dz . (48)
π −∞ h π h −∞ −∞

Il primo dei due integrali tra le parentesi quadre della (48) è nullo, dato che la funzione
2
ze−z è una funzione dispari. Sostituendo poi nel secondo integrale il valore della seconda
delle (43), si ottiene, Z +∞
x= xf (x)dx = µ,
−∞

il che giustifica il fatto che nella (5) µ è stato sostituito da x.


Infine, calcoliamo la varianza della distribuzione normale, dato dalla seguente
Z +∞ Z +∞
h 2 2
2
σ = (x − x)f (x)dx = √ (x − µ)2 e−h (x−µ) dx.
−∞ π −∞

Effettuando il solito cambio di variabile (46) otteniamo


Z +∞
1 2
2
σ = 2√ z 2 e−z dz,
h π −∞

e, sfruttando la seconda delle (43), si ricava


1
σ=√ .
2h
Esprimendo quindi il modulo di precisione h in termini della deviazione standard σ la
distribuzione normale può essere scritta nella forma più comunemente usata

1 (x−µ)2
f (x) = √ e− 2σ2 .
2πσ

33

Potrebbero piacerti anche