Laboratorio di Fisica
Trattamento dei Dati Sperimentali e
Teoria degli Errori
Indice
1 Introduzione 2
1.1 Gli strumenti di misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Gli errori di misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Trattazione dei dati sperimentali: approccio pratico alla teoria degli errori 5
1.3.1 Istogramma delle misure e ruolo del valor medio . . . . . . . . . . . 6
1.3.2 Scarti, varianza e deviazione standard . . . . . . . . . . . . . . . . . 7
1.3.3 Forma analitica della distribuzione delle misure . . . . . . . . . . . 9
1.4 Popolazione, campione e deviazione standard del campione . . . . . . . . . 9
1
1 Introduzione
Sulla base dell’osservazione di determinati fenomeni, la fisica si propone di formulare
precise relazioni fra le grandezze fisiche che caratterizzano i fenomeni stessi. Tali relazioni,
una volta che siano state confermate da ripetute esperienze, assumono il carattere di
leggi. Un insieme di leggi può quindi venire inquadrato in una teoria che, naturalmente,
sarà tanto più efficace quanto capace di predire un gran numero di risultati di successivi
esperimenti, non necessariamente legati a quelli che l’hanno determinata.
Nell’ambito di un tale approccio si potrebbe obiettare che la formulazione di precise
relazioni fra grandezze fisiche dipende sostanzialmente dalla possibilità di attribuire in
modo univoco negli esperimenti un valore (la misura) a ciascuna delle grandezze in gioco.
Analogamente, la conferma o la smentita di tali relazioni in successivi esperimenti, cosı̀
come la verifica delle predizioni di una teoria, sembrerebbero condizionate dall’esigenza
che l’osservazione dei fenomeni fisici sia fatta con una precisione assoluta. Può succedere
che lo stesso fatto sperimentale possa essere descritto da teorie diverse, che predicono
risultati poco diversi tra loro; se vogliamo allora riconoscere la teoria corretta, dobbiamo
poter controllare e distinguere quale dei risultati predetti sia quello che effettivamente si
verifica.
In realtà, anche ponendo la massima attenzione nella misura delle grandezze fisiche non
è mai possibile raggiungere una precisione assoluta. Ad esempio, se si misura più volte la
lunghezza di una sbarra con uno strumento adatto, per esempio un comparatore(1) , non si
trova sempre lo stesso identico risultato. Analogamente, nella misura di una qualsiasi altra
grandezza fisica con apparecchi sufficientemente precisi (il senso di quest’affermazione si
chiarirà in seguito) troviamo valori diversi in corrispondenza a diverse misure.
Potrebbe sembrare quindi che l’intero castello della fisica sia poco saldo, nel senso che
nessuna delle leggi trovate è matematicamente precisa, in quanto risultato di misure non
esatte. Lo stesso concetto di grandezza fisica sembrerebbe entrare in crisi, dato che una
delle sue proprietà caratteristiche, la sua misura, è in realtà inattuabile.(2)
Tuttavia è possibile superare tali difficoltà, e i risultati dimostrano la correttezza del
metodo, se si ammette che a ciascuna grandezza corrisponda un suo valore vero, ma che
nella sperimentazione, per una serie di spiacevoli quanto inevitabili circostanze, tale valore
vero non sia determinabile se non in modo approssimato. Partendo da questa ipotesi si
può allora costruire una teoria che permetta, a partire da un insieme di misure della
grandezza, di determinare un valore che attendibilmente si avvicini al valore vero della
stessa. In altre parole, si può dire che, poichè non è possibile misurare i valori veri delle
grandezze fisiche, le relazioni che si possono scrivere tra di esse non sono effettivamente mai
esatte in senso matematico, ma rappresentano invece un’estrapolazione, con l’intesa che,
se conoscessimo i valori veri delle grandezze in gioco, essi le soddisferebbero esattamente.
È quindi importante saper trattare i risultati delle misure, sia per poter formulare delle
leggi, cioè relazioni oggettive tra le grandezze che non risentano delle fluttuazioni delle
loro misure, sia per confrontare con esse i risultati di ulteriori esperimenti che possono
confermare o smentire la validità delle teorie che su tali leggi sono state costruite.
(1)
È uno strumento di misura utilizzato per misure di spostamento lineare la cui precisione può anche
superare il centesimo di millimetro.
(2)
Una classe di grandezze fisiche è definita tale se, oltre a potervi introdurre il concetto di eguaglianza
e l’operazione di somma, è anche possibile scegliere al suo interno un valore della grandezza unitaria in
modo che qualsiasi altra grandezza della classe sia esprimibile attraverso un numero (la sua misura), che
ci dice quante volte l’unità è contenuta nella grandezza stessa.
2
La presente nota si propone di introdurre concetti quali errore di misura, precisione e
accuratezza di una misura, probabilità e distribuzione di probabilità, media e deviazione
standard e di molte altre nozioni necessarie alla trattazione statistica dei dati sperimentali.
Come usuale, ci riferiremo a tale complesso di argomenti e temi con il termine di Teoria
del Errori. Sebbene questa nota non possa essere vista come un trattato completo sulla
Teoria degli Errori, essa costituisce una buona introduzione alla stessa: lo scopo principale
è quello di dare allo studente del primo anno di Ingegneria gli strumenti necessari per poter
affrontare l’analisi delle misure in semplici esperimenti di fisica.
3
sensibilità minima dello strumento, ovvero la minima variazione della grandezza
fisica che è in grado di produrre un effetto.
• Precisione – Misura il grado di convergenza (o dispersione) delle misure rilevate
dallo strumento (rispetto al loro valor medio) in corrispondenza di uno stesso valore
della grandezza in ingresso. Tale dispersione corrisponde a quella che chiameremo
deviazione standard rispetto alla media campionaria. La precisione è spesso indicata
in termini relativi (in percentuale) rispetto al valore di ”fondo scala” (portata)
dello strumento: essa determina il numero di cifre significative con cui potrà essere
espresso il valore della grandezza misurata.
• Accuratezza – Misura il grado di corrispondenza tra il dato teorico, ottenibile
da una serie di valori misurati (la media del campione di dati) e il dato reale o
di riferimento; indica, cioè, la vicinanza del valore trovato a quello reale. Quindi,
la differenza tra precisione e accuratezza sta nel fatto che la prima valuta quanto
le misure sono raggruppate nell’intorno del valor medio, invece la seconda valuta
quanto tale valor medio è vicino al valore vero della grandezza.
4
Da quanto detto finora appare chiaro che gli errori sistematici, sebbene di difficile in-
dividuazione, una volta che ne siano state scoperte le cause, possone venire eliminati
completamente. In linea di principio, perciò, se non esistessero gli errori casuali si po-
trebbe riuscire in una misura ad ottenere il valore vero della grandezza in esame. È per
questo che spesso conviene ripetere la misura di una grandezza fisica con metodi e stru-
menti diversi, cosicché da un’eventuale differenza nei risultati sia più facile individuare
gli errori sistematici, nell’ipotesi che essi non siano gli stessi, o comunque contribuiscano
diversamente nei differenti procedimenti. Invece, per quanto riguarda gli errori casuali,
avendo un’origine incontrollabile e variabile, che sfugge anche ad un attento controllo, non
è possibile eliminarli del tutto. È per questo che, anche in assenza di errori sistematici,
non è possibile misurare i valori veri delle grandezze, ed è essenziale stabilire l’influenza
degli errori casuali per poter assegnare al risultato delle misure un valido significato.
La teoria degli errori tiene conto soltanto degli errori casuali, supponendo, cioè, che
siano stati del tutto eliminati quelli sistematici o che, per lo meno, essi siano cosı̀ piccoli
da essere trascurabili rispetto agli errori casuali. D’altra parte, sebbene i risultati che si
ottengono con tale approccio saranno validi sotto queste ipotesi, se un errore sistematico
viene rilevato dopo l’applicazione della teoria degli errori, si può tenerne conto anche a po-
steriori e spesso è possibile correggere completamente i risultati eliminandone totalmente
gli effetti senza dover ripetere le misure.
10
5
1.3.1 Istogramma delle misure e ruolo del valor medio
Consideriamo un metodo (molto utilizzato) che ci permette velocemente di avere un’idea
di come si distribuiscono le misure. Riportiamo xmin e xmax su di un asse x e dividiamo
l’intervallo xmin ÷ xmax in un numero n (con 1 n N ) di parti uguali di ampiezza
∆x = (xmax − xmin )/n (larghezza del bin): avremo cosı̀ diviso la serie di misure ottenute
in n gruppi, nel j–esimo dei quali entrano a far parte le nj misure con
numero di misure
80
60 400
40
200
20
0 0
96 98 100 102 96 98 100 102
x x
Ma c’è anche una altra evidenza sperimentale. Analizzando le misure, ci si rende anche
conto che, tante più grande è N , tanto più la posizione del massimo centrale si avvicina
al valore seguente
N
x1 + x2 + · · · + xi + · · · + xN −1 + xN 1 X
x= = xi , (1)
N N i=1
che prende il nome di media aritmetica delle misure o media del campione.
In altre parole, effettuando una serie di N misure della stessa grandezza, con N grande,
si trova che queste non si distribuiscono uniformemente nell’intervallo xmin ÷ xmax , ma
si ha un loro addensamento nell’intorno del valore x. Anche se al momento non diamo
altre giustificazioni, possiamo dire che sperimentalmente si osserva che x acquisisce, in
modo naturale, una rilevanza notevole; in particolare, nei confronti del valore vero x?
della grandezza in esame, x sembra avere una rilevanza molto maggiore di una qualsiasi
delle misure che hanno contribuito a calcolarlo.
6
1.3.2 Scarti, varianza e deviazione standard
Una volta determinato il valore x, definiamo scarto della misura xi , e lo indicheremo con
il simbolo si , la quantità
si = xi − x.
Si noti che, per definizione, è
N
X
si = 0, (2)
i=1
dato che
N N N N
!
X X X 1 X
si = (xi − x) = xi − N x = N xi − x = N (x − x) = 0.
i=1 i=1 i=1
N i=1
100 misure
1000 misure
10000 misure
0.4
0.2
0
−4 −2 0 2 4
s (scarto)
Figura 4: Istogrammi normalizzati degli scarti dalla media delle 1000 misure della lun-
ghezza di un bastone. Per poterli meglio confrontare, si è utilizzato lo stesso bin per tutti
e 3 gli istogrammi; si noti come all’aumentare del numero di misure, la corrispondente
distribuzione risulti via via meglio definita.
Se ora vogliamo costruire un istogramma degli scarti, è facile rendersi conto del fatto
che esso non differisce sostanzialmente da quello costruito con gli xi , se non per il fatto
che l’istogramma risultante è traslato di x lungo l’asse x. Si ha cosı̀ ancora la stessa figura
geometrica caratteristica con un massimo pronunciato
PN in vicinanza di x, che ora però cade
a s = 0 (vedi Figura 4). Tuttavia, dato che i=1 si = 0, e tenuto conto della simmetria
intorno a s = 0, conviene in generale costruire un istogramma degli scarti in modo un poco
diverso: e precisamente, sull’asse s si riportano degli intervallini di lunghezza ∆s = ∆x,
il primo dei quali sia centrato intorno a s = 0, e gli altri risultino a questo adiacenti,
sia per s > 0 sia per s < 0. Per il resto il procedimento è identico a prima, e cioè su
ciascuno degli intervallini si costruisce un rettangolo di altezza uguale a nj , numero di
misure il cui scarto cade nell’intervallino in questione. Il risultato è un istogramma molto
simile al precedente, tanto più quanto più grande è N e quindi più piccolo è ∆s. L’area A
7
dell’istogramma è data dalla somma delle aree dei rettangoli da cui è costituito, ciascuna
delle quali è pari a nj ∆s; si ha quindi
X
A= nj ∆s = N ∆s.
j
Dividendo gli nj dell’istogramma degli scarti per tale area si ottengono gli istogrammi
normalizzati degli scarti mostrati in Figura 4. Da questa figura si capisce che, sebbene
con diversi gradi di approssimazione, gli scarti tendono a distribuirsi nell’intorno di s = 0
in un modo ben preciso e che l’istogramma delinea un andamento tanto meglio definito
quanto più alto è il numero di misure effettuato.
L’analisi di questi istogrammi e il fatto che gli scarti misurano la distanza dei singoli
valori da x ci inducono a pensare che la larghezza della distribuzione degli scarti debba
essere correlata alla qualità della misura: tanto più stretta è la distribuzione, tanto più
precisa sarà la misura! Perciò, è ragionevole supporre che attraverso gli scarti si possa
costruire una grandezza che risulti in stretta relazione con la larghezza della distribuzione.
In effetti, tenendo presente la simmetria degli scarti (da cui segue la (2)), la più
semplice funzione a cui possiamo pensare è la seguente
N N
2 1 X 2 1 X
σ = si = (xi − x)2 , (3)
N i=1 N i=1
che viene usualmente detta varianza o scarto quadratico medio. Si capisce immedia-
tamente che tale grandezza o, meglio ancora, la cosiddetta deviazione standard
v v
u
u1 X N u
u1 X N
2
σ= t s = t (xi − x)2 , (4)
N i=1 i N i=1
ci dà una misura delle dimensioni medie degli scarti e che quindi dovrà necessariamente
essere correlata alla larghezza della distribuzione degli stessi.
È interessante notare che il modo in cui è costruita la varianza permette dare una
prima giustificazione teorica (3) al fatto di poter vedere x come una buona stima del valore
vero x? della grandezza in esame. Infatti, denominiamo con xv l’ipotetico valore vero della
grandezza e, una volta ottenute le N misure, calcoliamo quello che potremmo denominare
(in analogia con lo scarto quadratico medio σ 2 ) l’errore quadratico medio:
N
2 1 X
= (xi − xv )2 .
N i=1
8
Questo dimostra che la media aritmetica delle misure rende minimo l’errore quadratico
medio. Senza la pretesa di rigore assoluto, tale risultato da valore sia all’uso di x come
stima più corretta del valore vero della grandezza, sia a quello di σ come parametro con
il quale valutare la precisione della misura.
dove µ1 e µ2 saranno essenzialmente uguali dato anche i valori medi delle due serie di
misure lo dovrebbero essere.
Sia, per esempio, h1 > h2 , cioè l’istogramma corrispondente alla prima serie di misure
ha un massimo più alto di quello della seconda serie. Conseguentemente, poiché i due
istogrammi hanno la stessa area, il primo istogramma dovrà calare a zero più rapidamente
del secondo e cosı̀ la corrispondente curva di Gauss. Per la prima serie, quindi, si deve
avere un maggior addensamento delle misure intorno al valor medio, e quindi, scarti in
media minori in valore assoluto che non per la seconda serie. Ne segue che, nell’ipotesi
h1 > h2 , il primo metodo di misura porta a minori fluttuazioni nei risultati, e quindi è
più preciso del secondo. Tanto più grande è h, tanto più la misura è precisa; da questo il
nome che abbiamo dato ad h.
9
al numero di valori che potremmo ottenere per la grandezza (la grandezza è continua).
Riferendoci a questo insieme infinito di possibili valori parleremo di popolazione. Nel-
la realtà, invece, possiamo effettuare solo un numero finito di misure ottenendo cosı̀ un
campione (finito) della popolazione della grandezza in esame.
Quindi, nella realtà, potendo disporre solo di un campione (costituito da N elementi)
e non dell’intera popolazione (infinita), le quantità statistiche che possiamo calcolare
dovrebbero essere pensate come relative al campione e non alla popolazione; solo nel limite
di N → ∞ tali quantità approssimeranno il valore corrispondente all’intera popolazione.
A tale scopo è importante menzionare che la definizione di varianza (e di deviazione
standard) che abbiamo dato nella sezione 1.3.2 riguarda l’intera popolazione. Nel caso
di un campione, che in effetti il caso usuale, la definizione di varianza più consona è la
seguente
N
2 1 X
σc = (xi − x)2 . (6)
N − 1 i=1
Come si vede nella (6), le definizioni di σc2 e σ 2 differiscono solo per il fatto di aver
sostituito l’N della (3) con N − 1. La definizione di varianza del campione data dalla
(6) deriva dal fatto che, una volta definito il valor medio del campione,(4) la validità della
(2) suggerisce che solo N − 1 scarti siano realmente indipendenti fra loro. D’altra parte,
si noti che essendo
N
σc2 = σ2,
N −1
tanto più grande sarà N , tanto più piccola sarà la differenza tra la varianza del campione
e quella della popolazione.
In analogia con la (4), si definisce deviazione standard del campione la seguente:
v
u
u 1 X N
σc = t (xi − x)2 . (7)
N − 1 i=1
10
Che cosa significa questo in realtà? Ad ogni lancio della moneta esce o testa o croce.
Ciò che vogliamo dire con quel 50% è che se lanciamo la moneta un numero grande di
volte, il numero di volte che uscirà testa sarà all’incirca uguale alla metà del totale dei
lanci. Allo stesso modo, per i lanci di un dado, il 5 uscirà (come gli altri numeri) in un
sesto dei lanci.
Si dovrebbe precisare che nel problema del lancio della moneta abbiamo detto che
tanto più grande è il numero dei lanci, tannto più vicino ad 1/2 sarà il rapporto tra il
numero di volte che esce testa e il totale dei lanci stessi. Questo non significa che il numero
di lanci in cui esce testa si avvicina a quello in cui esce croce. Ad esempio, per 100 lanci
un risultato soddisfacente dal punto di vista delle probabilità è 52 volte testa; per 10000
lanci, invece 5020 volte testa sarebbe altrettanto accettabile. Nel secondo caso il rapporto
è molto più vicino ad 1/2 che nel primo, ma la differenza tra il numero delle volte che esce
testa e quello delle volte che esce croce è più grande. In effetti, si potrebbe dimostrare che
è probabile che tale differenza diventi molto grande, nonostante il rapporto tra il numero
di tentativi favorevoli a testa (croce) e il numero totale dei lanci si avvicini ad 1/2.(5)
Se sappiamo calcolare la probabilità per alcuni semplici eventi, come il lancio di una
moneta o di un dado, possiamo calcolare la probabilità per eventi più complessi che
risultino composti da questi. Ad esempio, supponiamo di lanciare due monete contempo-
raneamente e supponiamo di voler calcolare la probabilità che esca croce su una e testa
sull’altra. Ogni moneta può dar luogo a testa o croce con uguale probabilità e quindi,
per il lancio combinato avremo quattro possibilità: due volte testa; una testa e una croce;
una croce e una testa; due volte croce. I quattro casi sono equiprobabili e quindi ognuno
avrà probabilità 1/4. Dato che due dei quattro casi soddisfano la nostra richiesta, possia-
mo dire che la probabilità cercata è pari ad 1/2. Allo stesso modo, le probabilità che si
abbiano due teste o due croci è 1/4.
Si noti che le probabilità sono date da numeri sempre minori di 1 e che se sommiamo
le probabilità di tutti i possibili eventi otteniamo 1.
Altro problema: supponiamo di avere due dadi a sei facce (su ogni faccia è riportato un
numero diverso, da 1 a 6). Considerando il lancio dei due dadi proponiamoci di calcolare
la probabilità di ottenere 7 sommando i numeri usciti su ogni dado. Dato che ogni dado
ha 6 possibiltà equiprobabili, per la coppia di dadi avremo 36 possibili risultati, tutti
equiprobabili (se lanciassimo n dadi, il numero dei casi sarebbe 6n ). In quanti di questi
casi la somma dei numeri sui dadi dà 7? È facile vedere che 6 sono i casi favorevoli. E
quindi, essendo la probabilità di ogni caso pari a 1/36, la probabilità di avere 7 sarà pari
alla somma di quella dei 6 casi favorevoli e cioè 6/36 = 1/6. Procedendo in questo modi
e nalizzando tutti i casi possibili, si vede che la somma dei numeri sui dadi può assumere
11 diversi valori (2, 3, 4, . . ., 12) e conteggiando i casi favorevoli ad ogni somma possiamo
costruire la seguente tabella
Somma 2 3 4 5 6 7 8 9 10 11 12
Casi favorevoli 1 2 3 4 5 6 5 4 3 2 1
Probabilità 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36
Tabella 1: Probabilità corrispondenti ai diversi valori della somma dei numeri usciti nel
lancio di due dadi.
(5)
Cosı̀, se ci si trova a scommettere del denaro con qualcuno e si è in perdita, è sbagliato credere
di potersi rifare di quello che si è perduto, dopo un numero sufficientemente grande di prove. C’è una
probabilità del 50% che si perda sempre di più.
11
Definiamo allora probabilità di un evento come il rapporto tra il numero di casi favore-
voli all’evento in esame e il numero totale di casi possibili. Analogamente, per un singolo
dado, la probabilità di un determinato valore è 1/6, mentre la probabilità di ottenere un
numero pari o dispari è 3/6 = 1/2. Dalla definizione data di probabilità segue che, se
abbiamo due eventi incompatibili, nel senso che il verificarsi dell’uno porta all’impossi-
bilità del verificarsi dell’altro, la probabilità che si verifichi uno qualunque dei due eventi
è data dalla somma delle probabilità di ciascuno indipendentemente. Infatti, il numero di
casi favorevoli risulta proprio la somma dei casi favorevoli a ciascun diverso evento, men-
tre il numero di casi possibili resta lo stesso. Cosı̀ nel lancio di un dado ritroviamo che la
probabilità che si ottenga un numero dispari è proprio 1/2, e analogamente per il pari, in
quanto un evento dispari corrisponde al verificarsi di uno qualunque degli eventi 1, 3, 5 e
questi sono incompatibili: poiché per ciascuno si ha la probabilità 1/6, la probabilità di
un evento dispari risulta essere
1 1 1 1
+ + = .
6 6 6 2
Insistiamo nel sottolineare che questa regola vale solo per eventi incompatibili. Sup-
poniamo, infatti, di voler calcolare la probabilità che un giorno dell’anno sia festivo: la
probabilità che sia domenica è 52/365 (52 domeniche in un anno, casi favorevoli; 365 gior-
ni, casi possibili), mentre, se consideriamo che ci siano altre 17 ricorrenze festive, religiose
o civili, avremo una probabilità pari a 17/365 di un evento di questo genere. Ma i due tipi
di evento non sono incompatibili, perché non è escluso che una festa civile o religiosa cada
proprio di domenica. Perciò la probabilità di un giorno non può essere calcolata dalla
somma delle probabilità (52/365 + 17/365): per una corretta valutazione della probabi-
lità richiesta bisognerà invece determinare il totale del numero di casi favorevoli all’evento
festivo, che risulterà, per esempio, pari a 67 (se 2 delle festività suddette cadono di do-
menica). Si avrà allora una probabilità di giorno festivo pari a 67/365 < 69/365. In altre
parole, per calcolare la probabilità di uno qualunque tra più eventi bisogna, nel computo
dei casi favorevoli, contare una volta sola quelli che sono comuni. Per questo motivo la
probabilità di uno qualunque di più eventi, è sempre minore o, al più, uguale alla somma
delle probabilità dei singoli eventi. Come immediata applicazione di quanto finora esposto
si trova che, se abbiamo N eventi possibili, la probabilità che avvenga indifferentemente
uno qualunque di essi è 1, corrispondente, come ovvio, alla certezza.
Supponiamo di avere ora due o più sistemi fisici, ciascuno con un certo numero di stati
possibili, e supponiamo di conoscere anche la probabilità degli eventi di ciascun sistema.
Consideriamo quindi il sistema complessivo costituito dai diversi sistemi in esame: dalla
definizione di probabilità si trova che la probabilità (composta) di un evento globale, in
cui, cioè, si presenti contemporaneamente un determinato evento per ciascuno dei sistemi
costituenti, è data dal prodotto delle probabilità per ciascuno degli eventi parziali. Cosı̀, se
abbiamo un dado a 6 numeri e una moneta con testa e croce, la probabilità che lanciandoli
insieme si trovi, per esempio, un evento globale costituito da 1 (per il dado) e testa (per
la moneta) è data da 1/6 · 1/2 = 1/12, essendo 1/6 e 1/2 le probabilità rispettive di 1 per
il dado e testa per la moneta. Applicando le due regole esposte di somma e prodotto delle
probabilità si ritrovano facilmente i risultati relativi al lancio di due dadi, in cui si voglia,
cioè, determinare la probabilità di un certo valore per la somma dei numeri di ciascun
dado. Ad esempio, una somma uguale a 4 sarà ottenuta attraverso le tre coppie 1 e 3, 2
e 2, 3 e 1; con la regola delle probabilità composte troviamo
1 1 1
p(1, 3) = p1 (1) × p2 (3) = · =
6 6 36
12
dove p1 e p2 si identificano con le probabilità per il primo e secondo dado. Ovviamente,
per le altre due coppie si ottiene la stessa probabilità e quindi la probabilità di avere una
somma 4 per i due dadi è
3 1
psomma (4) = p(1, 3) + p(2, 2) + p(3, 1) = = ,
36 12
in perfetto accordo con quanto mostrato
f (n)
Figura 5: Distribuzione di probabilità per due dadi: n corrisponde alla somma dei numeri
sui due dadi.
Tornando al problema del lancio di dieci monete, supponiamo di voler trovare il numero
medio delle volte che esce testa in un gran numero di prove. Supponiamo di lanciare le
monete Z volte, con Z molto grande; il numero di volte che otteniamo testa su n monete è
Zf (n), come deriva dalla definizione di f (n). Per calcolare il valor medio di n, dobbiamo
13
moltiplicare ogni valore di n per il numero di volte in cui lo stesso n si è presentato,
sommare questi prodotti e dividere per Z. Cioè
1X X
n= nZf (n) = nf (n). (9)
Z n n
Ma allora è interessante calcolare il valor medio dello scarto quadrato (n − n)2 che, come
abbiamo visto nella (3) corrisponde alla varianza.(6) Avremo
X
σ2 = (n − n)2 f (n), (11)
n
14
indipendenti è N = 5 e quindi n sarà compreso tra 0 e 5. Quale sarà la probabilità che
esattamente n petardi esplodano?
Per alcuni n il calcolo è semplice. Essendo p la probabilità che uno degli eventi si
verifichi, la probabilità che tutti gli N eventi si verifichino sarà pN ; allo stesso modo, la
probabilità che tutti gli N eventi non si verifichino è (1 − p)N .
f (n)
I casi intermedi (0 < n < N ) sono più complicati. Scelto un certo gruppo di n eventi
tra gli N , la probabilità che questi n si verifichino è pn (1 − p)N −n . Ma questa non è
ancora la probabilità che esattamente n eventi si verifichino perchè si è considerata solo
una particolare combinazione. Ad esempio, con n = 1, abbiamo più combinazioni possibili
a seconda che ad esplodere sia il primo, o il secondo, . . . o l’N –esimo petardo. Ci sono
N diverse combinazioni in cui esplode solo 1 petardo, mentre gli altri 4 fanno cilecca:
la probabilità complessiva é 5 · p(1 − p)4 . Per n = 2, tenendo presente che l’ordine dei
petardi non conta, ci sono 10 diverse combinazioni possibili. In generale, il numero di
combinazioni cercato è pari al numero di combinazioni di N oggetti presi ad n ad n che
risulta essere pari a:
N N!
= , (13)
n n!(N − n)!
dove N ! = N · N1 · N2 · · · · 1 e (per convenzione) 0! = 1. Tali quantità sono anche detti
coefficienti binomiali o coefficienti del binomio di Newton.(7)
Le probabilità cercate sono quindi le seguenti
N
fN,p (n) = pn q N −n , (14)
n
(7)
Il teorema binomiale afferna che l’N –esima potenza del binomio (a + b) è dato da:
N
X N
(a + b)N = an bN −n ,
n
n=0
N
dove i coefficienti sono i coefficienti binomiali suddetti.
n
15
dove abbiamo posto q = 1 − p. L’espressione fN,p (n) è detta distribuzione binomia-
le. L’istogramma delle probabilità corrispondente al problema dei petardi è mostrato in
Figura 6.
A che cosa serve la distribuzione binomiale? Facciamo un altro esempio. Supponiamo
di lanciare 5 dadi. Sappiamo che la probabilità che esca 3 su un dado è 1/6: qual è la
probabilità che il 3 esca su n dadi con 0 ≤ n ≤ 5? Ma questo è proprio il problema risolto
dalla distribuzione binomiale N = 5 e p = 1/6.
N = 10 N = 12
p = 0.50 p = 0.25
n n
La dimostrazione è immediata. Infatti, dal teorema binomiale segue che quanto scritto a
destra è pari a (p + q)N ; ma nel nostro caso è p + q = 1 (dato che q = 1 − p) e quindi
(p + q)N = 1N ≡ 1.
I calcoli del valor medio n e dello scarto quadratico medio σ 2 richiedono qualche piccolo
trucco e per completezza sono riportati in Appendice A. Qui riportiamo i risultati che
sono
N N
X X N
n= nfN,p (n) = n pn q N −n = N p; (16)
n
n=0 n=0
N N
X X N
2
σ = 2
(n − n) fN,p (n) = (n − n) 2
pn q N −n = N p(1 − p) = N pq. (17)
n
n=0 n=0
16
Fortunatamente, proprio in considerazione dell’ordine di N e p, possiamo ricorrere a
delle approssimazioni. I valori estremi di N e p suggeriscono infatti che in tali condizioni
la distribuzione cercata corrisponda all’estrapolazione della distribuzione binomiale nel
limite di N → ∞ e p → 0. In effetti, è bene notare che, mentre N e p assumono valori
estremi, il valor medio della distribuzione N p rimane finito. Denoteremo tale prodotto
con
N p = a. (18)
Facciamo quindi le considerazioni che ci porteranno ad estrarre la distribuzione cer-
cata.(8) Innanzitutto una considerazione essenziale: se p è una quantità molto piccola,
il numero medio di eventi sarà in genere molto inferiore ad N ; quindi i valori di n a cui
saremo interessati saranno estremamente più piccoli di N . Conseguentemente, tenendo
presente che n << N , nei coefficienti binomiali:
N (N − 1)(N − 2) · · · (N − n + 1)
N N!
= = ,
n n!(N − n)! n!
possiamo notare che il numeratore è costituito dal prodotto di n termini tutti poco diversi
da N . In queste condizioni potremo scrivere
Nn
N
≈ .
n n!
Perciò abbiamo
Nn n (N p)n (1 − p)N
fN,p ≈ p (1 − p)N −n = · .
n! n! (1 − p)n
Ora notiamo che, essendo p esiguo ed n relativamente piccolo, la potenza (1 − p)n sarà
essenzialmente identica ad 1 e potrà essere eliminata. Eliminando anche N dall’espressione
precedente attraverso la (18) possiamo scrivere
an an a
fN,p ≈ f (n) = · (1 − p)a/p = · (1 − p)1/p .
n! n!
Non rimane che valutare la quantità (1 − p)1/p che, tenendo presente il valore estremo
di p possiamo far corrispondere al limite(9)
1
lim(1 − p)1/p = .
p→0 e
Pertanto, la distribuzione cercata assume la seguente forma
an e−a
fa (n) = ,
n!
che è detta distribuzione di Poisson.
Il legame tra questa distribuzione e la distribuzione binomiale ci dice subito che il
valor medio di n è
n = a.
(8)
Senza la pretesa di essere matematicamente rigorosi, cercheremo di essere ragionevoli nell’introduzione
delle diverse approssimazioni.
(9)
Questo è un limite notevole calcolato in tutti i testi di analisi matematica.
17
fa (n)
a = 2.0
In effetti, la quantità
∞
X an
,
n=0
n!
non è altro che lo sviluppo in serie di Mac Laurin di ea e da qui la dimostrazione della
precedente.
fa (n)
a = 10.0
Anche il valore dello scarto quadratico medio σ 2 segue da quello della distribuzione
binomiale. In tal caso, tenendo presente che 1 − p ≈ 1, potremo scrivere
√
σ 2 = N p(1 − p) ≈ N p = a ⇒ σ = a. (19)
18
Ecco un’esempio in cui può essere utilizzata la distribuzione di Poisson. Supponiamo
di avere 1020 atomi di un ipotetico elemento radioattivo i cui nuclei emettono particelle α
(atomi di elio ionizzati).(10) Supponiamo che il decadimento sia costante e pari a 2 · 10−20
atomi al secondo, il che significa che la probabilità per ogni nucleo di decadere in un
secondo è di 2 · 10−20 . Questo corrisponde ad una vita media di 1012 anni, piuttosto
lunga, ma non al di fuori della realtà.
Supponiamo ora di osservare questo campione di materiale per molti intervalli, cia-
scuno della durata di un secondo. Qualè la probabilità di osservare zero emissioni in un
intervallo? Una emissione? Due? ecc. Le risposte sono fornite dalla distribuzione di Pois-
son fa (n) utilizzando a = N p = 1020 · 2 · 10−20 = 2 e sono rappresentate nell’istogramma
in Figura 8. In Figura 9 è mostrato l’istogramma corrispondente alla distribuzione di
Poisson con a = 10.
19
sezione 1.3.3). Per tale ragione, la distribuzione gaussiana viene anche usualmente indicata
come legge normale degli errori; perciò, quando gli errori seguono tale distribuzione
si dice che sono distribuiti normalmente.
f (x)
√h
π
h
√
e π
1 1 x
x− h x x+ h
Come abbiamo già visto nella sezione 1.3.3 la distribuzione di Gauss ha la forma
h 2 2
f (x) = √ e−h (x−µ) . (20)
π
dove h è detto modulo di precisione e µ (vedi Appendice B) è pari alla media della
popolazione x. Questa distribuzione è diversa da quelle viste fino ad ora perché ora la
variabile x è una variabile continua e non un indice intero come nella binomiale o in quella
di Poisson. Questo caratteristica richiede qualche precisazione sul significato della f (x).
Nella Figura 10 mostriamo il grafico
√ di f (x). Il massimo della funzione si presenta a x = x
e la sua ordinata è pari ad h/ π. In corrispondenza delle ascisse x = x ± h1 la funzione
assume il valore e√h π .
Da questo possiamo capire (si è già visto nella sezione 1.3.3) che al variare di h la
curva diventa alta e stretta per grandi valori di h, bassa e larga per bassi valori
di h. Questo fatto è legato al significato vero e proprio della f (x) e al fatto che il suo valore
non corrisponde (come succedeva per le distribuzioni discrete) alla probabilità del valore
x. Infatti, essendo x una variabile continua, la probabilità che essa assuma esattamente
un particolare valore è nulla! Invece, quello che ha senso è, ad esempio, chiederci quanto
vale la probabilità che x assuma un valore compreso tra a e b.
Cosı̀ l’esatta interpretazione della funzione f (x) è che per un piccolo intervallo dx,
f (x)dx corrisponde alla probabilità che una misura cada nell’intervallo x, x + dx . Con-
seguentemente, come mostrato anche in Figura 11, la probabilità che x cada in un punto
qualunque dell’intervallo a ÷ b è
Z b
P (a, b) = f (x)dx.
a
Quindi, dato che x può assumere qualsiasi valore tra −∞ e +∞, se la funzione di
distribuzione è normalizzata, deve essere
Z +∞
f (x)dx = 1.
−∞
20
f (x)
dx
x a b
Figura 11: Rappresentazione grafica delle probilità per una distribuzione continua (qui
è considerata la distribuzione di Gauss). Le aree tratteggiate rappresentano le probabilità
cha ha una misura di cadere nei rispettivi intervalli.
1 (x−x)2
f (x) = √ e− 2σ2
2πσ
√ 1
2πσ
√1
e 2πσ
x−σ x x+σ x
Figura 12: Funzione di distribuzione di Gauss. Si noti che sono indicati gli stessi punti
indicati in Figura 10, ma ora le posizioni e le quote sono espresse in termini della deviazione
standard σ.
21
Possiamo utilizzare la distribuzione di Gauss per calcolare la probabilità che una mi-
sura cada in un intervallo prefissato. In particolare, è interessante calcolare la probabilità
che una misura cada in un intervallo di semi–ampiezza nσ (con n intero) intorno ad x.
Cioè la quantità Z x+nσ
1 (x−x)2
Pnσ = √ e− 2σ2 dx
2πσ x−nσ
Operando il cambio di variabile t = (x − x)/σ la precedente diventa
Z +n r Z n
1 2 2 2
Pnσ = √ e−t /2 dt = e−t /2 dt
2π −n π 0
22
3.1 La deviazione standard della media
Consideriamo una questione molto importante: qual è la relazione tra la deviazione
standard di un set di misure e la precisione del valor medio?
Rispondiamo a tale domanda estendendo le idee che abbiamo già introdotto. Prima di
tutto, supponiamo di avere N misure che seguono la distribuzione di Gauss. Calcoliamo
la media x e la deviazione standard σ. Supponiamo poi di considerare un’altro set di N
misure e di calcolare i nuovi x e σ: questi, non necessariamente, saranno uguali a quelli
del precedente gruppo, ma ci aspettiamo che la differenza tra i valori medi dei due gruppi
sia molto inferiore a quanto ogni misura differisce dalle rispettive medie.
Continuando a collezionare misure, supponiamo di averne messi insieme M set co-
stituiti da N misure ciascuno. Inoltre, ognuno di questi sarà caratterizzato da un valor
medio xk (k = 1, 2, . . . , M ) e da una deviazione standard σk . Se M è abbastanza grande,
potremmo anche pensare di analizzare la distribuzione degli xk : quale sarà la deviazione
standard della media (e cioè la deviazione standard della distribuzione delle medie)?
In base a quanto detto prima ci aspettiamo che tale deviazione standard sia più piccola di
ognuna delle σk . Inoltre, il suo valore ci darà un’indicazione della precisione che possiamo
assegnare agli xk .
Denotiamo con σm la suddetta deviazione standard della media, con xik l’i–esimo
(i = 1, 2, . . . , N ) dato del k–esimo (k = 1, 2, . . . , M ) set di misure e con X la media
complessiva su tutte le M N misure (che corrisponde anche alla media delle medie xk ).
La varianza delle misure individuali è
M N M N
2 1 XX 2 1 XX 2
σ = (xik − X) = s , (21)
M N k=1 i=1 M N k=1 i=1 ik
dove gli sik = xik − X sono gli scarti delle singole misure da X. Invece la varianza della
media è
M M
2 1 X 2 1 X 2
σm = (xk − X) = S ,
M k=1 M k=1 k
Sviluppando il quadrato della della sommatoria nell’ultimo termine della (22) si ottiene
N
!2 N N
X X X
2
sik = sik + sjk sik ,
i=1 i=1 j>i
e quindi
M N M N
2 1 XX 2 1 XX
σm = s + sjk sik . (23)
M N 2 k=1 i=1 ik M N 2 k=1 j>i
23
Il secondo termine di tale relazione contiene il prodotto di scarti diversi che, sappiamo
essere, nel caso di distribuzioni normali (e siamo in tali condizioni), positivi o negati-
vi con ugual probabilità. A causa di ciò, il termine che contiene le sommatorie in cui
compaiono tali prodotti, nel caso di grandi valori di M ed N , tenderanno ad annullarsi.
Conseguentemente, con buona approssimazione possiamo scrivere
M N
2 1 XX 2
σm = s (24)
M N 2 k=1 i=1 ik
A prima vista, tale espressione può sembrare molto simile alla (21), ma un confronto più
accurato ci mostra che
2 σ2 σ
σm = o anche σm = √ (25)
N N
Possiamo quindi asserire che: la deviazione standard della media σm di un set di N
misure è pari, semplicemente, alla deviazione standard delle misure σ divisa
the la radice quadrata di N .
La deviazione standard della media è utilizzata universalmente per descrivere la preci-
sione della media di un set di misure. Il risultato appena ottenuto ci permette di calcolare
la precisione che possiamo assegnare al valor medio ricavato da una serie di misure.
24
dove le derivate parziali ∂f
∂f ∂f
∂a
, ∂b , ∂c sono calcolate in a = a, b = b, c = c, ecc.
Calcoliamo l’errore quadratico medio σz ; abbiamo
N N 2
1 X 2 1 X ∂f ∂f ∂f
σz2 = s = sa,i + sb,i + sc,i + . . . =
N i=1 z,i N i=1 ∂a ∂b ∂c
N
( )2
2 2 2
1 X ∂f ∂f ∂f
= s2a,i + s2b,i + s2c,i + . . . +
N i=1 ∂a ∂b ∂c
N
1 X ∂f ∂f ∂f ∂f ∂f ∂f
+ 2 sa,i sb,i + 2 sa,i sc,i + 2 sb,i sc,i + . . .
N i=1 ∂a ∂b ∂a ∂c ∂b ∂c
Analogamente a quanto visto nella precedente sezione, i termini nella seconda parentesi
graffa possono venire trascurati rispetto agli altri, in quanto essendovi la stessa probabilità
per ciascuno di essere positivo o negativo, nella sommatoria per N grande vi saranno
termini a due a due uguali in modulo, ma di segno opposto, che si elideranno l’un l’altro.
Pertanto, la relazione cercata per la σz2 è la seguente
2 2 2
∂f ∂f ∂f
σz2 = σa2 + σb2 + σc2 + . . . (26)
∂a ∂b ∂c
Questa relazione, a differenza delle (25), resta corretta anche se delle grandezze a, b, c, . . .
è stato fatto un numero diverso di misure (e non lo stesso numero N ).
Come semplici applicazione di quanto ottenuto, consideriamo le 3 relazioni funzionali
seguenti
a
z1 = ka; z2 = a + b; z3 = ,
b
con k costante e le variabili a e b distribuite normalmente e con le deviazioni standard σa
e σb . L’applicazione della (26) è molto facile e ci permette di scrivere le seguenti:
2
∂z1
σz21 = σa2 = k 2 σa2 ⇒ σz1 = kσa ; (28)
∂a
2 2
∂z2 ∂z2
q
σz22
= 2
σa + σb2 = σa2 + σb2 ⇒ σ z2 = σa2 + σb2 ; (29)
∂a ∂b
2 2 s
a2 2
2
2 ∂z3 2 ∂z3 2 1 2 1 a
σz3 = σa + σb = 2 σa + 2 σb ⇒ σz3 = σ 2 + σ 2 (30)
∂a ∂b b b b 2 a b2 b
25
dei minimi quadrati che a sua volta può essere derivato dal principio di massima
verosimiglianza che vale per dati che seguono la distribuzione normale.
Il principio dei minimi quadrati può essere enunciato in questo modo: il valore più
probabile x di una certa grandezza può essere ricavato considerandone un set
di misure xi (con i = 1, . . . , N ) e scegliendo il valore che minimizza la somma
degli scarti quadrati
XN
(x − xi )2 (31)
i=1
In effetti abbiamo già visto una tale espressione (in pratica è alla base della definizione
di scarto quadratico medio) e abbiamo già visto che la sua minimizzazione (vedi nella
sezione (1.3.2) porta a vedere x come migliore stima del valore vero della grandezza.
Ma qual è la ragione del fatto che la minimizzazione della somma degli scarti al qua-
drato debba portare ad estrarre il valore più probabile della grandezza? Per rispondere a
questa domanda consideriamo la probabilità associata ad un set di misure xi assumendo
che tali misure seguano la distribuzione normale. La probabilità in questione, cioè la
probabilità che una misura cada in un intervallo di ampiezza dx intorno a xi è
1 (x−xi )2
Pi = √ e− 2σ2 dx,
2πσ
dove σ è la deviazione standard del set di dati a cui xi appartiene. Corrispondentemente, la
probabilità di ottenere il set completo delle N misure sarà pari al prodotto delle probabilità
P = P 1 · P 2 · · · · · PN
1 (x−x1 )2 1 (x−xN )2
− −
= √ e 2σ2 dx · · · · · √ e 2σ2 dx (32)
2πσ 2πσ
N P
dx N (x−xi )2
= √ e− i=1 2σ2
2πσ
Quindi, la probabilità P di osservare l’intero gruppo di valori xi dipende dal valore di x che
compare nell’espressione (32). Per un valore di x molto diverso da tutti gli xi , l’esponente
sarà molto negativo e, corrispondentemente, P sarà molto bassa. In altre parole, è molto
improbabile che tutte le misure siano molto lontane dal valore vero della grandezza.
In effetti, se abbiamo ottenuto proprio quel set di misure (e non un’altro), la sua pro-
babilità deve essere molto elevata! Il principio di massima verosimiglianza asserisce
che questo sia proprio il set di misure più probabile e perciò, in accordo con questa af-
fermazione, la probabilità P associata a tale set di misure dovrà essere massima. Questo
porta alla scelta del valore di x che minimizza la quantità
N
X (x − xi )2
M (x) = (33)
i=1
2σ 2
che compare nell’esponente nell’espressione (32). Questa quantità è detta somma dei
minimi quadrati. Il principio di massima verosimiglianza porta quindi alla conclusione
che bisogna
PN minimizzare M (x), il che è equivalente (in questo caso) a minimizzare la
2
somma i=1 (x − xi ) , come abbiamo già visto.
La deviazione standard del valore più probabile di x, e cioè x, può essere ricavata
attraverso la propagazione degli errori applicata all’espressione
N
1 X
x=x= xi ,
N i=1
26
intesa come funzione delle N variabili xi , associando ad esse le deviazioni standard della
distribuzione da cui provengono e cioè σ. Perciò utilizzando la (26) ricaviamo che la
2
varianza della media σm è data dalla seguente
2 2 2 N 2
2 ∂x 2 ∂x 2 ∂x 2
X ∂x
σm = σ + σ + ··· + σ = σ2,
∂x1 ∂x2 ∂xN i=1
∂xi
∂x
Notando che è [ ∂x i
] = 1/N si ottiene
N
2
X σ2 σ2
σm = = , (34)
i=1
N2 N
da cui segue
PM xj
j=1 σj2
x = x = PM 1
. (37)
j=1 σj2
Il valore più probabile si ottiene come media pesata delle medie dei vari set di dati pesate
con gli inversi delle varianze delle stesse.
La varianza del valore più probabile si ottiene, ancora una volta, applicando la propa-
gazione degli errori alla (37) intesa come funzione degli xi . Quindi
2 2 2 M 2
2 ∂x ∂x ∂x X ∂x
σm = σ12 + σ22 + ··· + 2
σM = σj2 ,
∂x1 ∂x2 ∂xM j=1
∂xj
27
Osservando che ora è
∂x 1/σj2
= PM ,
∂xj 2
k=1 1/σk
sostituendo nella precedente si ha
M
!2 PM
2
X 1/σj2 1/σj2
j=1 1
σm = PM σj2 = P 2 = PM .
j=1 k=1 1/σk2 M
1/σ 2
2
k=1 1/σk
k=1 k
Cioè
M
1 X 1
= .
2
σm σ2
j=1 j
Da questa si vede che la varianza della media pesata è minore di una qualsiasi delle
varianze individuali. Inoltre, nel caso in cui la varianze dei diversi set di dati siano uguali,
si riottiene il risultato già visto nella (34).
v(t) = v0 + at (38)
Supponiamo che durante il moto del corpo vengano effettuate N misure di velocità agli
istanti ti (non necessariamente equispaziati); vi sarà l’i–esimo valore sperimentale per
la velocità. Effettuata la misura avremo quindi un set composto da N coppie di valori
(ti , vi ). Un’esempio di dati di questo tipo è mostrato in Figura 13.
Seguendo l’idea alla base del metodo dei minimi quadrati e tenendo presente che i
dati, teoricamente, dovrebbero seguire la legge (38), possiamo definire la seguente somma
dei minimi quadrati
N
X
M (v0 , a) = (v0 + ati − vi )2 .
i=1
Si noti che, se i dati seguissero perfettamente la legge (38), allora introducendo i giusti
valori di v0 ed a, M (v0 , a) si annullerebbe. Nel caso reale, essendo presenti degli errori di
misura, i dati non saranno perfettamente allineati lungo una retta e quindi per nessuna
coppia di valori (v0 , a) la somma suddetta si annullerà. Tuttavia, seguendo il principio
dei minimi quadrati, possiamo procedere alla sua minimizzazione.
A differenza di quanto visto in precedenza, ora M è funzione di due parametri, v0 ad
a. In tal caso, per la sua minimizzazione dobbiamo imporre che entrambe le derivate di
M rispetto ai due parametri di annullino. Cioè
∂M ∂M
= 0; = 0.
∂v0 ∂a
28
Effettuando le derivate otteniamo le seguenti relazioni
N N
∂M X ∂M X
=2 (v0 + ati − vi ) = 0; =2 (v0 + ati − vi )ti = 0,
∂v0 i=1
∂a i=1
t2i −
P P P
v0 ti + a vi ti = 0
Risolvendo si ottiene
( vi )( t2i ) − ( vi ti )( ti )
P P P P P P P
N ( vi ti ) − ( vi )( ti )
v0 = ; a=
N ( t2i ) − ( ti )2 N ( t2i ) − ( ti )2
P P P P
m
(xi , yi )
Figura 13: Grafico che illustra l’interpolazione (fit) tramite il metodo dei minimi quadrati
di una serie di punti ognuno dei quali corrisponde ad una coppia di osservazioni (xi , yi ).
La funzione interpolata è del tipo y = mx + q.
In generale, per un set di dati costituiti da N coppie del tipo (xi , yi ) (come in Figura
13) che, teoricamente, dovrebbero allinearsi su una retta secondo la legge y = mx + q, si
può procedere in modo analogo a quanto appena fatto e, attraverso il metodo dei minimi
quadrati, ottenere la migliore retta che interpola i dati ricavando i parametri m e q dalle
seguenti
( yi )( x2i ) − ( xi yi )( xi )
P P P P P P P
N ( xi yi ) − ( yi )( xi )
m= ; q= . (39)
N ( x2i ) − ( xi )2 N ( x2i ) − ( xi )2
P P P P
(12)
Per semplicità si suppone che le misure xi non presentino errori apprezzabili.
29
Quindi, le derivate parziali sono valutate attraverso la prima delle (39). Ad esempio, si
ha ! !
∂ X ∂ X
xi y i = xj ; yi = 1 ,
∂yj i
∂yj i
e conseguentemente
2
N 2 x2j − 2N xj xi + ( xi )2
P P P
N x j − xi
∂m ∂m
= ⇒ = .
N ( x2i ) − ( xi )2 [N ( x2i ) − ( xi )2 ]2
P P P P
∂yj ∂yj
Perciò, si ricava
N 2 xi 2 − N ( xi ) 2 2 N σ2
P P
2
σm = P 2 P 2 2σ = P 2 P .
[N ( xi ) − ( xi ) ] N ( xi ) − ( xi )2
σ 2 x2i
P
σq2 = .
N ( x2i ) − ( xi )2
P P
Abbiamo qui mostrato, per semplicità, l’applicazione del metodo dei minimi quadrati
al fit di dati sperimentali con una curva espressa da una relazione lineare. Tuttavia, è
bene sottolineare, che il metodo permette di affrontare anche fit molto più impegnativi
di questo in cui, ad esempio, la curva da interpolare può essere costituita da polinomi
di grado anche elevato o, addirittura, da funzioni trascendenti. In tali casi, l’espressione
della somma dei minimi quadrati può diventare particolarmente complessa e, spesso, il
processo di minimizzazione deve essere fatto per via numerica.
30
APPENDICI
o anche
X N X N
N −n N −n−1
n n−1
[p (1 − p) n
+ p (1 − p) ]=N pn (1 − p)N −n−1
n n
Combinando i due termini nella sommatoria a primo membro e tenendo presente che la
distribuzione è normalizzata si ottiene
X N X
n pn (1 − p)N −n = nfN,p (n) = N p (41)
n
n = N p.
Per valutare lo scarto quadratico medio dobbiamo procedere al calcolo della seguente
X
σ2 = (n − n)2 fN,p (n) = n2 − n2 ,
31
Avendo già ottenuto n, dobbiamo quindi valutare
X
n2 = n2 fN,p (n)
A tal fine consideriamo l’equazione (41) e deriviamo ancora una volta rispetto a p. Si
ottiene
X N
n [npn−1 (1 − p)N −n − (N − n)pn (1 − p)N −n−1 ] = N.
n
Moltiplicando per p(1 − p) e riarrangiando i termini come prima si ha
X N X N
N −n
2 n
n p (1 − p) − Np npn (1 − p)N −n = N p(1 − p),
n n
e conseguentemente
X N
n2 = n2 pn (1 − p)N −n =
n
X N
= Np npn (1 − p)N −n + N p(1 − p) = N 2 p2 + N p(1 − p). (42)
n
In definitiva
σ 2 = n2 − n2 = N p(1 − p),
e conseguentemente la deviazione standard della distribuzione binomiale è
p
σ = N p(1 − p).
32
il primo membro della (45) diventa
Z +∞
C +∞ −z2
Z
−h2 (x−µ)2
C e dx = e dz,
−∞ h −∞
alla quale, utilizzando il cambio di variabile (46) visto in precedenza, si può dare la forma
Z +∞
1 1 +∞ −z2
Z Z +∞
1 z
−z 2 −z 2
√ + µ e dz = √ ze dz + µ e dz . (48)
π −∞ h π h −∞ −∞
Il primo dei due integrali tra le parentesi quadre della (48) è nullo, dato che la funzione
2
ze−z è una funzione dispari. Sostituendo poi nel secondo integrale il valore della seconda
delle (43), si ottiene, Z +∞
x= xf (x)dx = µ,
−∞
1 (x−µ)2
f (x) = √ e− 2σ2 .
2πσ
33