Sei sulla pagina 1di 139

Lezione n.

 3 ‐ Oltre il determinismo:    
cenni di statistica
Statistica Sperimentale e Misure 
Meccaniche

G. Barbato ‐ A. Germak ‐ G. Genta 1


LE DISTRIBUZIONI STATISTICHE

Abbiamo visto, con il calcolo delle probabilità, come sia possibile che con
il lancio di due dadi a se facce si ottenga la somma 8. Ma se andiamo a
giocare a dadi ci interessa non solo la probabilità di una certa situazione,
ma soprattutto il panorama completo per capire su che evento conviene
puntare. Quindi vogliamo vedere le probabilità di tutti gli eventi che ci
possono interessare. Nel caso del lancio di due dadi:

È evidente che conviene puntare sul 7, ma ci arriviamo troppo tardi: il


banco l’ha già capito e ha riservato a se tale puntata!
G. Barbato ‐ A. Germak ‐ G. Genta 2
DISTRIBUZIONI DISCRETE E CONTINUE
Le distribuzioni sono caratterizzate dalla variabile a cui si riferiscono.
Nell’esempio precedente la variabile è la somma T che si estrinseca nei
valori ti da 2 a 12, però è definita solo sui valori interi. È definita, ad
esempio, sul 2 e sul 3, ma non sul 2.4.
Questo tipo di distribuzione si chiama distribuzione discreta.

Nota. In ambito statistico è importante distinguere tra le variabili (come qui il


totale T) ed i valori che la variabile può assumere (qui i valori ti). Per evidenziare
la differenza è uso indicare le variabili con simboli maiuscoli e i valori con gli
stessi simboli minuscoli. Si noti anche che la cardinalità n = 36 è diversa dal
numero N = 11 dei possibili eventi .
G. Barbato ‐ A. Germak ‐ G. Genta 3
DISTRIBUZIONI DISCRETE E CONTINUE
Ciò che c’interessa è rappresentare la situazione globale. Considerando il
numero delle facce del dado D = 6, si trova che il numero ni di individui
corrispondenti all’evento ti:
per ti ≤ D + 1 si vede che ni = ti ‐1;
per ti > D + 1 si vede che ni = {(D +1) –[ti – (D + 1)] ‐ 1 = 2D +1 ‐ ti
Considerando lo spazio campionario degli individui, che ha una
cardinalità #T = D², quindi probabilità di ogni individuo 1/D², si ha;
per ti ≤ D + 1 probabilità P = (ti ‐1)/D²;
per ti > D + 1 probabilità P = (2D +1 ‐ ti)/D²

G. Barbato ‐ A. Germak ‐ G. Genta 4


DISTRIBUZIONI DISCRETE E CONTINUE
Le distribuzioni discrete vengono rappresentate in grafico ponendo la
probabilità in ascissa. Così il grafico delle probabilità per un dado a sei
facce è qui riportato, insieme all’analoga distribuzione per dadi a 20
facce (icosaedri) che già mostra un’attitudine ad una rappresentazione
continua:

G. Barbato ‐ A. Germak ‐ G. Genta 5


DISTRIBUZIONI DISCRETE E CONTINUE
Sebbene, andando molto nel piccolo, tutto sia discontinuo (meccanica
quantistica), per le normali applicazioni macroscopiche le grandezze
della fisica sono considerate continue. In quasi tutte le misure
sperimentali la discontinuità, costituita dalla risoluzione di lettura
strumentale, è spesso trascurabile rispetto alla variabilità dei risultati. In
pratica è comoda, se non necessaria, una rappresentazione continua
delle distribuzioni di probabilità.
Questo problema fu affrontato da Pearson, che volendo rappresentare
graficamente i suoi dati sperimentali, considerati rappresentativi di una
variabile continua, decise di suddividere il campo di variabilità in un
certo numero di intervalli (classi) e valutare col concetto frequentista la
probabilità di un dato di appartenere a ciascuna delle classi. Le classi
possono avere ampiezza diversa ed il numero dei dati contenuti dipende
dall’ampiezza, che deve, quindi, essere inserita nel metodo di
rappresentazione per non avere discontinuità.

G. Barbato ‐ A. Germak ‐ G. Genta 6


DISTRIBUZIONI DISCRETE E CONTINUE
Il metodo adottato da Pearson è quello dell’istogramma, cioè di un
grafico a colonne in cui la variabile è rappresentata dall’area della
colonna. Ciò, come voluto, mette in gioco l’ampiezza di classe.
Per fare l’istogramma si contano i dati che cadono in ciascuna classe
(frequenza assoluta), si dividono per il numero totale n di dati
(frequenza relativa, stima della probabilità) che infine è divisa per
l’ampiezza di classe (base della colonna) per ottenere la densità di proba‐
probabilità o densità di frequenza,
che corrisponde all’ordinata (area
della colonna diviso base della
colonna dà l’altezza della colonna).
La distribuzione rappresentata
corrisponde a 300 lanci di due dadi,
confrontata con la distribuzione
triangolare teorica.

G. Barbato ‐ A. Germak ‐ G. Genta 7


DISTRIBUZIONI DISCRETE E CONTINUE
Un altro esempio è legato all’effetto della risoluzione di lettura. Per
esempio considerate un comune orologio da parete digitale con la sola
indicazione dei minuti. Quando si legge l’indicazione 00:12 vuol dire che
siamo nel tredicesimo minuto, ma il tempo potrebbe essere ovunque tra
00:12:00 e appena prima di 00:13:00. Per ragioni di omogeneità, ogni
istante di quell’intervallo è equiprobabile, per cui è rappresentabile da
una distribuzione statistica uniforme.

G. Barbato ‐ A. Germak ‐ G. Genta 8


DISTRIBUZIONI DISCRETE E CONTINUE
Nel caso delle distribuzioni continue, si deve tener conto che è possibile
definire facilmente la probabilità PΔt di essere in un certo intervallo di
tempo, ad esempio tra 20 s e 30 s, cioè in un intervallo di Δt=10 s (per
l’omogeneità PΔt =10/60), ma non la probabilità di essere ad un certo
istante, ad esempio allo scoccare del quindicesimo secondo, perché
essendo l’intervallo di tempo coinvolto nullo, ad esso corrisponde una
probabilità nulla. La probabilità, quindi, non può essere indicata come
valore d’ordinata, ma
deve coinvolgere l’inter‐
vallo d’ascissa corrispon‐
dente, per cui è rappre‐
sentata con un’area

G. Barbato ‐ A. Germak ‐ G. Genta 9


DISTRIBUZIONI DISCRETE E CONTINUE
Di conseguenza resta definito il significato dell’ordinata, che nel caso
delle distribuzioni continue non è una probabilità, ma la probabilità
divisa per l’intervallo di ascissa corrispondente, che viene chiamata
densità di probabilità.
Sulla base di tale concetto è facile calcolare il valore della densità di
probabilità della distribuzione uniforme. La superficie totale corrisponde
alla probabilità del 100%, quindi , essendo l’intervallo corrispondente in
ascissa di 60 s, l’ordinata
deve valere (1/60) s‐1. Si
noti che la densità di
probabilità ha la sua
unità di misura, a meno
che la variabile della
distribuzione sia
adimensionata.

G. Barbato ‐ A. Germak ‐ G. Genta 10


DISTRIBUZIONI DISCRETE E CONTINUE
Nel caso di distribuzione uniforme il calcolo è semplice data la forma
rettangolare. Anche nel caso delle distribuzioni di uso generale è
semplice, perché il calcolo dell’integrale è implementato nelle funzioni
dei fogli elettronici oppure nelle tabelle delle funzioni statistiche.
Bisogna solo porre attenzione su quale area è calcolata. In questo caso
F(z) è l’integrale da ‐∞ a z, ma può essere anche diverso.

G. Barbato ‐ A. Germak ‐ G. Genta 11


DISTRIBUZIONI DISCRETE E CONTINUE
Come nel caso delle tradizionali tabelle statistiche, anche le funzioni
implementate sui fogli elettronici possono riferirsi ad aree diverse:

G. Barbato ‐ A. Germak ‐ G. Genta 12


LE DISTRIBUZIONI STATISTICHE
La forma della distribuzione ha chiaramente anche un interesse 
tecnologico. È comune, per esempio, voler valutare una 
produzione stimando la percentuale di scarto rispetto ai limiti di 
tolleranza.
Nel caso di due 
forme di 
distribuzioni comuni, 
confinate con uguali 
confini, si vede come 
la differente forma 
porti a valori di pro‐
babilità di scarto 
nettamente diversi.
G. Barbato ‐ A. Germak ‐ G. Genta 13
LE DISTRIBUZIONI STATISTICHE
La descrizione completa della distribuzione statistica è 
spesso utile, ma richiede, per essere definita, tantissimi 
dati sperimentali (almeno alcune centinaia). Con meno 
dati dobbiamo accettare un livello di informazione più 
basso.
Per esempio, se misuriamo i lati b ed h della sezione 
rettangolare di un provino di trazione, e con misure 
ripetute otteniamo un gruppo di valori per b ed un 
gruppo di valori per h, per fare il calcolo dell’area della 
sezione resistente abbiamo bisogno di identificare un 
singolo valore rappresentativo della lunghezza di ogni 
lato. Come fare? G. Barbato ‐ A. Germak ‐ G. Genta 14
INDICE DI POSIZIONE
Sarà un valore più o meno centrato nell’intervallo di variabilità 
dei dati, ma esattamente centrato solo se essi sono dispersi in 
modo pressoché simmetrico per cui in generale è meglio evitare 
la terminologia «Valore centrale» e usare il termine più generale 
di indice di posizione nelle sue estrinsecazioni di media o 
mediana:

G. Barbato ‐ A. Germak ‐ G. Genta 15


INDICE DI POSIZIONE
La valutazione del valore più significativo è fatto in 
diversi modi. Quello classico e rigoroso corrisponde alla 
media, che nel caso di distribuzioni simmetriche è 
proprio il valore centrale:

G. Barbato ‐ A. Germak ‐ G. Genta 16


INDICE DI POSIZIONE
In questo caso, invece, data l’asimmetria, il valore più 
rappresentativo, ottenuto sempre come media, non è il 
valore centrale:

G. Barbato ‐ A. Germak ‐ G. Genta 17


INDICE DI POSIZIONE
Talvolta invece di un valore di compensazione su tutta 
la popolazione, si è interessati al valore maggiormente 
presente, quindi di frequenza più alta, detto moda:

G. Barbato ‐ A. Germak ‐ G. Genta 18


INDICE DI POSIZIONE
In certi casi le distribuzioni presentano due o più mode, 
dovute a disomogeneità nella popolazione (fattori che 
toccano parti diverse della popolazione). Vengono 
dette bimodali o in generale multimodali:

G. Barbato ‐ A. Germak ‐ G. Genta 19


INDICE DI POSIZIONE
Vedremo che la media ha il problema di essere molto 
sensibile agli errori sperimentali grossolani (errori di 
trascrizione, incidenti di misura), per cui talvolta 
conviene adottare la statistica robusta che utilizza la 
mediana.

A parte la moda, la cui definizione è evidente, vediamo 
come sono definite la media e la mediana. 

G. Barbato ‐ A. Germak ‐ G. Genta 20


INDICE DI POSIZIONE
La determinazione rigorosa dell’indice di posizione può essere fatta
determinando Il valore atteso E(X) della variabile X con un proces‐
so statistico. Nel caso di distribuzioni discrete è dato da:
N
E  X    P  xsi   xsi
i 1

ove N è il numero dei valori xsi distinti assunti dalla variabile aleatoria
X.
Nel caso, invece, di distribuzioni continue, detta f(x) la funzione di
densità di probabilità, si ha:

E X    x  f  x dx


Se il valore atteso è calcolato con i valori teorici viene indicato con μ,


invece, se è calcolato con i valori sperimentali viene indicato con m.

G. Barbato ‐ A. Germak ‐ G. Genta 21


INDICE DI POSIZIONE
È opportuno evidenziare subito alcune proprietà dell’operatore
valore atteso. La prima è che la somma dei valori attesi è uguale al
valore atteso della somma. Esaminiamo la somma di g addendi e
consideriamo che ogni addendo sia valutato con n misure:
g
Y   Xl
l 1
n yj
EY   
j 1 n
 g  1 n g g n
xlj g
E  X l    xlj     E X l 
 l 1  n j 1 l 1 l 1 j 1 n l 1

G. Barbato ‐ A. Germak ‐ G. Genta 22


INDICE DI POSIZIONE
La seconda proprietà è che, se due variabili X ed Y sono
indipendenti, il valore atteso del loro prodotto è uguale al prodotto
dei valori attesi:

E X  Y   P xsi , ysj   xsi  ysj


k l

i 1 j 1

ed essendo per due variabili indipendenti:

P xsi , y sj   P  xsi   P  y sj 
si dimostra che:

E X  Y   P  xsi   P  y sj   xsi  y sj  P  xsi   xsi  P  y sj   y sj  E  X   E Y 


k l k l

i 1 j 1 i 1 j 1

G. Barbato ‐ A. Germak ‐ G. Genta 23


INDICE DI POSIZIONE

Indice di posizione di alcune semplici distribuzioni
Lancio di un dado a sei facce: distribuzione discreta di tipo uniforme (i
risultati possibili della variabile X sono rappresentati dai soli valori interi
tra 1 e 6, tutti equiprobabili).

E X    x jP x j   1   2   3   4   5   6  
N
1 1 1 1 1 1 21 7

j 1 6 6 6 6 6 6 6 2

Si considerino, analogamente, i risultati di uno strumento tale da


produrre, in modo indifferenziato, un qualunque risultato nell’intervallo
tra 1 e 6 (distribuzione continua di tipo uniforme, f(x)=1/5).
 6
E X    x  f  x dx   x  dx 
1 
1 62  12 1 35 7
 

 1
5 5 2 5 2 2
G. Barbato ‐ A. Germak ‐ G. Genta 24
INDICE DI POSIZIONE

Verifica (probabilità totale)
Lancio di un dado a sei facce: distribuzione discreta di tipo
uniforme:
 j  6 1
N
1

j 1
P x  6 

Verifica (densità di probabilità)

Risultati di uno strumento: distribuzione continua di tipo


uniforme:  6
1 1
 f  x  dx  1 5 dx  5  6  1  1
G. Barbato ‐ A. Germak ‐ G. Genta 25
INDICE DI POSIZIONE

Somma dei risultati ottenuti lanciando due dadi a sei facce:


distribuzione discreta di tipo triangolare.

E  X    x jP  x j   2 
N
1 2 3 4 5
 3  4   5  6  
j 1 36 36 36 36 36
6 5 4 3 2 1 252
7   8   9   10   11   12   7
36 36 36 36 36 36 36

G. Barbato ‐ A. Germak ‐ G. Genta 26


INDICE DI POSIZIONE
Gli esempi dati finora riguardano definizioni teoriche di 
distribuzioni di probabilità che, se le ipotesi sono vere, 
portano ad un valore teorico esatto del valore atteso 
che viene chiamato media e simbolizzato dalla lettera 
greca µ. 
Nella pratica si deve spesso valutare l’indice di 
posizione di distribuzioni ottenute sperimentalmente. 
In tal caso si stima con la definizione frequentista la 
probabilità di ogni diverso risultato ed il valore 
ottenuto, approssimato e variabile, si chiama sempre 
media ma è indicato con la lettera latina m o 
soprassegnando il simbolo della variabile, ad es.  x
G. Barbato ‐ A. Germak ‐ G. Genta 27
INDICE DI POSIZIONE
Se consideriamo la frequenza assoluta fai (la 
numerosità) degli N gruppi di dati con lo stesso valore 
xsi possiamo stimare la corrispondente probabilità 
P(xsi) dal rapporto fai/n, ove n è il numero totale dei 
dati, otteniamo:
N N n
xj
E X   P  xsi   xsi   xsi    m
f ai
i 1 i 1 n j 1 n

quindi la stima dell’indice di posizione approssimato m
è proprio la media aritmetica.

G. Barbato ‐ A. Germak ‐ G. Genta 28


INDICE DI POSIZIONE
Si può subito dimostrare che m è uno stimatore 
corretto del valore esatto della media µ:

n xj n E x j  n

E (m)  E (  )  
j 1 n j 1 n j 1 n

Nota. Uno stimatore si dice corretto quando il suo valore atteso è 
uguale al valore da stimare. In questo caso si deve mostrare che 
E(m)=µ.
G. Barbato ‐ A. Germak ‐ G. Genta 29
INDICE DI POSIZIONE
Un’altra proprietà importante è che la somma degli 
scarti dalla media è identicamente nulla:

 x  m    x j  nm   x j  n 
n n n n xj n n

j  xj  xj  0
j 1 j 1 j 1 j 1 n j 1 j 1

G. Barbato ‐ A. Germak ‐ G. Genta 30


INDICE DI POSIZIONE
Un difetto della media è la sua sensibilità agli outlier.
Gli outlier nel campo delle misure sono spesso gli effetti 
dei cosiddetti incidenti di misura: errori spesso 
grossolani come errori di trascrizione. Con i moderni 
strumenti elettronici una causa frequente di incidenti di 
misura sono le interferenze elettromagnetiche. Come si 
vedrà, con i tradizionali strumenti meccanici si stimava 
una probabilità del 50% che in un esperimento 
completo, indipendentemente dal numero di 
misurazioni coinvolte, avvenisse un incidente di misura.   

G. Barbato ‐ A. Germak ‐ G. Genta 31


INDICE DI POSIZIONE
Per ridurre l’effetto degli incidenti di misura sono state 
introdotte tecniche di statistica robusta, meno sensibili 
agli outlier. Il principio base consiste nel non utilizzare il 
valore dei dati ma il loro numero. Per dare un indice di 
posizione la statistica robusta definisce la mediana, 
quel valore che ha un ugual numero di dati al di sotto e 
al di sopra. Si dispongono, cioè i dati in ordine 
crescente e, se sono dispari, si prende il dato che 
occupa la posizione centrale, se sono pari la media dei 
due dati più vicini alla posizione centrale.

G. Barbato ‐ A. Germak ‐ G. Genta 32


INDICE DI POSIZIONE
Un semplice esempio val più di molte parole:
Dati 8,0040 8,0038 8,0060 8,0092 8,0053
Dati ordinati 8,0038 8,0040 8,0053 8,0060 8,0092

La mediana è 8.0053.

Nel caso del seguente gruppo di dati:
Dati 8,0040 8,0038 8,0073 8,0060 8,0092 8,0052
Dati ordinati 8,0038 8,0040 8,0052 8,0060 8,0073 8,0092

La mediana è 8.0056.

G. Barbato ‐ A. Germak ‐ G. Genta 33


LE DISTRIBUZIONI STATISTICHE
La identificazione di un singolo valore ben 
rappresentativo dei nostri dati dispersi però non è 
sufficiente. 

Perché?

G. Barbato ‐ A. Germak ‐ G. Genta 34


LE DISTRIBUZIONI STATISTICHE
Ci può aiutare, per dare una risposta una simpatica 
poesia di Trilussa (Carlo Alberto Salustri ):
La Statistica
Sai ched'è la statistica? E' 'na cosa Me spiego, da li conti che se fanno
che serve pe' fa' un conto in generale seconno le statistiche d'adesso
de la gente che nasce, che sta male, risurta che te tocca un pollo all'anno:
che more, che va in carcere e che sposa.
e, se nun entra ne le spese tue,
Ma pe' me la statistica curiosa t'entra ne la statistica lo stesso
è dove c'entra la percentuale, perché c'è un antro che ne magna due.
pe' via che, lì, la media è sempre eguale
puro co' la persona bisognosa.

G. Barbato ‐ A. Germak ‐ G. Genta 35


INDICE DI DISPERSIONE
Come è stato spiegato fin dalla prima lezione, per  
poter trasferire l’informazione contenuta in un dato 
sperimentale è necessario rappresentare sia il valore, 
sia la variabilità del misurando. Per questo la statistica 
introduce il concetto di indice di dispersione.
Bisogna, però, evidenziare  che spesso, anche in 
applicazioni tecnologiche, è utilizzata la statistica del 
pollo di Trilussa. Quante volte i risultati di misure e 
prove vengono ottenuti come dato singolo o, al più 
come media di alcuni dati! 

G. Barbato ‐ A. Germak ‐ G. Genta 36


INDICE DI DISPERSIONE
L’ipotesi più semplice per valutare la variabilità di una 
serie di dati è prendere l’intervallo tra massimo e 
minimo, che si chiama range. Il range, purtroppo, è 
polarizzato, cioè all’aumentare della numerosità dei 
dati può solo aumentare: Dati Media Range
2 2.93 3.16
2.70 2.86 2.45 3.74 2.82 4 3.03 3.40
3.16 3.40 3.26 3.21 2.96 6 3.04 3.40
2.80 3.35 2.80 2.60 3.24 9 2.97 3.40
2.98 2.66 3.46 3.55 3.12
12 2.99 3.46
2.45 1.70 2.21 3.80 3.11
3.31 2.59 3.11 3.19 4.25
15 2.82 3.46
1.94 2.87 1.93 2.93 3.54 18 2.85 3.46
3.07 2.90 2.31 2.31 2.78 24 2.97 3.80
4.37 3.22 3.28 3.87 3.16 28 2.89 3.80
2.75 3.70 2.27 3.14 2.95 32 2.86 3.80
40 2.94 4.25

G. Barbato ‐ A. Germak ‐ G. Genta 37


INDICE DI DISPERSIONE
Il confronto con il valore medio è evidente. Il valore 
medio oscilla intorno al valore µ da stimare, mentre il 
range ha una evidente tendenza crescente, quindi non 
può essere considerato uno stimatore corretto. Segue 
la Norma di Chebyshev, certamente valida per un 
numero di dati tendente all’infinito

Nota. Nella norma di Chebyshev, la distanza tra due gruppi di punti o tra due 
linee è la distanza massima definita da una qualsiasi coppia di punti o la 
separazione tra due linee ove sono più distanti. L’approssimazione di  
Chebyshev minimizza tale distanza massima tra I dati e la funzione 
approssimante, perciò è spesso chiamata approssimazione minimax, usata, ad 
esempio per valutare il massimo materiale nelle tolleranze.
G. Barbato ‐ A. Germak ‐ G. Genta 38
INDICE DI DISPERSIONE
La dispersione si può considerare collegata alla 
differenza dal valore medio, ma bisogna fare in modo 
che le differenze con segno positivo o con segno 
negativo portino entrambe un contributo additivo 
all’indice di dispersione che si intende costruire. 
Le due vie evidenti sono di considerare il valore 
assoluto o il quadrato delle differenze dal valore medio. 
La prima via fa riferimento, come detto, alla norma di 
Chebyshev, molto usata per le condizioni di tolleranza 
al massimo materiale o al minimo materiale.

G. Barbato ‐ A. Germak ‐ G. Genta 39


INDICE DI DISPERSIONE
La seconda via, collegata alla norma di Eulero, porta ad 
una determinazione rigorosa di un indice di dispersione 
mediante il valore atteso dei quadrati delle differenze 
dalla media, che assume il nome di varianza ed il 
simbolo σ². 
Per una variabile statistica X con media µ si ha:

  E X   
2 2

G. Barbato ‐ A. Germak ‐ G. Genta 40


INDICE DI DISPERSIONE
Come già evidenziato per l’indice di posizione, il calcolo 
della varianza assume forme diversi per le distribuzioni 
discrete, collegate ad un numero N di gruppi di valore 
xsi ciascuno formato da fai individui. La somma di fai è, 
evidentemente, uguale al numero totale n di individui:
N N
 2  E  X   2    x si   2 P  x si     x si   2
f ai

n
xj  
2

i 1 i 1 n j 1 n

Per le distribuzioni continue, definite da una funzione 
di densità di probabilità f(x), si ha:

 2  E X   2    x   2
 f  x dx


G. Barbato ‐ A. Germak ‐ G. Genta 41


INDICE DI DISPERSIONE
Si deve subito osservare che la varianza ha come unità 
di misura il quadrato delle unità di misura del 
misurando, quindi non può essere utilizzata per 
descrivere con immediatezza il campo di variabilità del 
misurando. Per riportarsi alle unità di misura del 
misurando è sufficiente fare la radice quadrata della 
varianza, simbolizzata da σ, che va sotto diversi nomi 
come scarto tipo, deviazione standard, scarto 
quadratico medio. Nel campo delle misure si usa la 
terminologia scarto tipo.
Non conviene usare sempre lo scarto tipo,  perché i 
calcoli con la varianza sono molto più semplici e, 
inoltre, lo scarto tipo non è uno stimatore corretto.
G. Barbato ‐ A. Germak ‐ G. Genta 42
INDICE DI DISPERSIONE
Le statistiche m ed s2 hanno come valore atteso il valore delle variabili
μ e σ2 che esse devono stimare, quindi si dicono stimatori corretti.
.
Uno stimatore non corretto corrisponde allo scarto tipo, che è tuttavia
ampiamente utilizzato perché l’errore risulta trascurabile quando
n > 30. Lo stimatore corretto dello scarto tipo è:
n

 x  mx 
2
i
1 s
scorr  i 1

c4 n 1 c4

ove il valore di c4 è dato da:
2 n 2 
c4 
n  1 n  1 2
essendo:

x    e   x 1d
0

G. Barbato ‐ A. Germak ‐ G. Genta 43


INDICE DI DISPERSIONE
Il problema concreto è che in pratica raramente si 
conosce µ, ma solo la sua stima m, quindi sarà 
necessario valutare una stima s² della varianza σ². A 
tale scopo dovremo utilizzare un importante teorema, 
che sarà la base di molte delle successive 
considerazioni: il teorema del limite centrale.

G. Barbato ‐ A. Germak ‐ G. Genta 44


TEOREMA DEL LIMITE CENTRALE
Come evidenziato descrivendo l’effetto di fattori accidentali, la
dispersione dipende dalla somma di effetti casuali equivalenti
dovuti a diversi fattori (temperatura, vibrazioni, irregolarità
geometriche ecc.).

Questa situazione può essere descritta tramite una variabile


aleatoria Y (rappresentante il risultato di misura) definita come
la somma di infinite variabili Xi aventi ciascuna media μi e scarto
tipo σi e con distribuzioni statistiche non necessariamente dello
stesso tipo.
In queste condizioni si dimostra che la variabile Y assume una
particolare distribuzione detta normale

G. Barbato ‐ A. Germak ‐ G. Genta 45


TEOREMA DEL LIMITE CENTRALE

Naturalmente per noi ingegneri il termine infinito non può essere


gestito come dai matematici. Vuol dire solo un numero grande, ma
quanto grande? Vediamo, per esempio, cosa succede componendo
più fattori anche con distribuzione innaturale, come il risultato del
lancio di un dado a 6 facce:
Due lanci
Tre lanci

Come si vede basta la


composizione di tre
fattori, anche innatura‐
li, per avere una forma
a campana da distribu‐
zione normale
G. Barbato ‐ A. Germak ‐ G. Genta 46
TEOREMA DEL LIMITE CENTRALE

La traduzione ingegneristica del teorema del limite centrale indica,


quindi, che è sufficiente la composizione di pochi fattori, purché la
loro variabilità sia libera (per esempio fattori definiti positivi devono
avere valori adeguatamente maggiori zero in modo da estrinsecare
pienamente la loro variabilità) e simile tra loro (se componiamo
anche 10 fattori di cui uno ha variabilità nettamente maggiore,
vedremo solo l’effetto di quest’ultimo).

G. Barbato ‐ A. Germak ‐ G. Genta 47


INDICE DI DISPERSIONE
La varianza di m vale 
2
 q

xj  2
 j 1   q

  Em   
1
 E    2 E  x j  q 
2 2
m


q

q  j 1 
 
Dato che la varianza della somma degli Xi è uguale alla somma
delle varianze degli Xi, tutte uguali a σ2, si ottiene:

1 q
1  2
  2
2
m
q

i 1
  2 q 
2

q
2

q
G. Barbato ‐ A. Germak ‐ G. Genta 48
INDICE DI DISPERSIONE
Anche per la riduzione della variabilità con il passaggio alla 
media di q dati, possiamo fare una presentazione 
ingegneristica:
A B
X
XX XX
XXXX
XXX XX
XX X
XXXXX

XXX
X

Consideriamo gli effetti accidentali di alcuni fattori, che producono la


variabilità evidenziata nel caso A. Per il teorema del limite centrale la
variabilità avrà una distribuzione simmetrica (normale) quindi il valore
atteso (valore centrale) sarà prossimo al centro del campo di variazione.
Nel caso B, invece, la variabilità è prodotta anche da effetti non accidentali,
ad esempio l’evidente sistematico verso l’alto, per cui il valore medio non
cade vicino al centro del campo di variabilità.
G. Barbato ‐ A. Germak ‐ G. Genta 49
INDICE DI DISPERSIONE
Ciò conferma le premesse dell’applicazione del teorema del 
limite centrale, valido solo se la variabilità è dovuta a effetti 
accidentali:
A B
X
XX XX
XXXX
XXX XX
XX X
XXXXX

XXX
X

Inoltre, nella pratica ci dà uno strumento utilissimo per capire se la


variabilità dovuta ad un certo fattore possa considerarsi accidentale o
sistematica. Se la variabilità dei dati ricopre almeno l’intervallo di variabilità
ipotizzabile ragionevolmente, il fattore produce effetti accidentali
predominanti. Se invece la variabilità dei dati si localizza in una parte del
campo di variabilità presunto, è evidente un effetto sistematico.
G. Barbato ‐ A. Germak ‐ G. Genta 50
INDICE DI DISPERSIONE
Torniamo ora al problema di valutare la stima della varianza s² 
ove non sia nota µ ma solo m. Iniziamo ad inserire m, 
aggiungendola e sottraendola nel numeratore della formula 
della varianza:

 x 
     x j  m   m    
n n
2 2
j
j 1 j 1
Sviluppando il quadrato e separando le sommatorie si
evidenzia la somma degli scarti da m che, abbiamo visto, è
nulla:

  x j  m   2x j  m m     m     
n
2 2

j 1

  x  m  
n n

j
2
  
 2 m    xj  m  n m   2

j 1 j 1
G. Barbato ‐ A. Germak ‐ G. Genta 51
INDICE DI DISPERSIONE
Azzerata la somma degli scarti, resta:

 x      x j  m   n m   
n n
2 2 2
j
j 1 j 1

E prendendo i valori attesi:

n 2 n 2
E  x j      E  x j  m    E n m   
2
 
 j 1   j 1 
Tenendo conto che il valore atteso della somma è uguale alla 
somma dei valori attesi si ha:
n 2
   
n

 E x j   
2
E  j x  m   nE m   2

j 1  j 1 
G. Barbato ‐ A. Germak ‐ G. Genta 52
INDICE DI DISPERSIONE
Quest’ultima formula:
n 2
E x j     E  x j  m    nE m   
n

 2 2

j 1  j 1 
Può essere facilmente trasformata:
 2
n  E  x j  m    n m2
n
2

 j 1 
 n  
E  x j  m    n 2  n
2
  2 n  1
2

 j 1  n
 n x j  m 2 
E   
2

 j 1 n  1 
G. Barbato ‐ A. Germak ‐ G. Genta 53
INDICE DI DISPERSIONE
in conclusione:

s2  
n x j  m
2

j 1 n 1

è uno stimatore corretto di σ², infatti come si è visto:

 n   

2

E s   E 
x m
2 j
   2

 j 1 n  1 

G. Barbato ‐ A. Germak ‐ G. Genta 54


INDICE DI DISPERSIONE
Come già detto per la media, ancora più per la varianza l’effetto degli 
incidenti di misura è forte, quindi anche in questo caso il ricorso alla 
statistica robusta può essere molto utile. Vediamo la sua applicazione 
su un famoso set di dati: le misure fatte da Simon Newcomb nel 1882 
per valutare la velocità della luce. Si tratta dei tempi di volo, in 
microsecondi,  di un segnale luminoso che percorre 7443.73 m

24.828 24.756 24.829 24.830


24.826 24.827 24.822 24.823
24.833 24.816 24.824 24.829
24.824 24.840 24.821 24.831
24.834 24.798 24.825 24.819

I dati contengono due evidenti outlier, segnalati in grassetto

G. Barbato ‐ A. Germak ‐ G. Genta 55


INDICE DI POSIZIONE E DISPERSIONE
Se calcoliamo la media aritmetica, troviamo un valore di 24.822µs 
ed uno scarto tipo di 0.018µs. Se evidenziamo gli outlier con un 
principio di esclusione e li eliminiamo, otteniamo come nuovo 
valore della media 24.827µs e quello dello scarto tipo di 0.006µs, 
variazioni, quindi, elevate.

24.828 24.756 24.829 24.830


24.826 24.827 24.822 24.823
24.833 24.816 24.824 24.829
24.824 24.840 24.821 24.831
24.834 24.798 24.825 24.819

G. Barbato ‐ A. Germak ‐ G. Genta 56


INDICE DI POSIZIONE
Il calcolo della mediana, come si è visto, richiede come prima 
operazione il mettere i dati in ordine crescente. La mediana, 
outlier inclusi, vale 24.8255µs. Se eliminiamo gli outlier, che 
sono i primi due dati (situazione sfavorevole averli entrambi 
dalla stessa parte) sposta la mediana a 24.8265µs, producendo 
così una variazione quasi trascurabile 

24.756 24.822 24.826 24.830


24.798 24.823 24.827 24.831
24.816 24.824 24.828 24.833
24.819 24.824 24.829 24.834
24.821 24.825 24.829 24.840

G. Barbato ‐ A. Germak ‐ G. Genta 57


INDICE DI DISPERSIONE
La valutazione robusta della variabilità è basata su una suddivisione in 
quantili. Un quantile è definito da una proporzione: ad esempio il 
quantile 1/10 suddivide il numero dei dati in due intervalli 
corrispondenti a 1/10 e a 9/10, Nel nostro caso abbiamo 20 dati, che 
individuano 19 intervalli. Il quantile 1/10 dovrebbe essere dopo 1.9 
intervalli, cioè a 0.9 del secondo intervallo, cioè 24.798+0.9(24.816‐
24.798)=24.8142

24.756 24.822 24.826 24.830


24.798 24.823 24.827 24.831
24.816 24.824 24.828 24.833
24.819 24.824 24.829 24.834
24.821 24.825 24.829 24.840
Alcuni quantili assumono nomi particolari. I quantili che suddividono l’intervallo in 
100 parti si chiamano centili. Quelli che suddividono l’intervallo in 10 parti si 
chiamano decili, e sopra abbiamo calcolato il valore del primo decile. Quelli che 
suddividono l’intervallo in 4 parti si chiamano quartili.
G. Barbato ‐ A. Germak ‐ G. Genta 58
INDICE DI DISPERSIONE
Per dare un indice di variabilità si usano il primo quartile Q1, che nel 
nostro caso prende il primo quarto dei 19 intervalli, cioè assume la 
posizione di 19/4 = 4.75 intervalli, quindi a 0.75 tra il quarto e il 
quinto intervallo: 24.819+0.75(24.821‐24.819). Analogamente si 
opera per il terzo quartile Q3. 
Si ottengono i valori Q1 = 24.82175 e Q3 = 24.82925. 
Si assume come indice di dispersione robusto la distanza 
interquartile (IQR interquartile range) che vale IQR = 0.0075

24.756 24.822 24.826 24.830


24.798 24.823 24.827 24.831
24.816 24.824 24.828 24.833
24.819 24.824 24.829 24.834
24.821 24.825 24.829 24.840
G. Barbato ‐ A. Germak ‐ G. Genta 59
INDICE DI DISPERSIONE
Se eliminiamo gli outlier, si ottengono i valori:
Q1 = 24.82325  Q3 = 24.82975  IQR = 0.0065
È evidente la maggiore robustezza: 
Senza  Con 
Indice Metodo Differenza
outlier outlier

Media 24.827 24.822 ‐0.005


Indice di 
posizione
Mediana 24.827 24.826 ‐0.001

Scarto tipo 0.006 0.018 0.012


Indice di 
dispersione
IQR 0.007 0.008 0.001

Si deve, però, osservare che i parametri della statistica robusta sono 
del tutto convenzionali e non tratti da deduzioni matematiche e che 
l’applicazione della statistica robusta può essere più complessa.
G. Barbato ‐ A. Germak ‐ G. Genta 60
MEDIANA E IQR
Una presentazione dei dati secondo la statistica robusta detta box 
plot, è molto utile. Infatti consente immediatamente di trarre 
l’informazione robusta su posizione e su variabilità dalla mediana e 
dalla distanza interquartile (IQR). I dati sono presentati con 
l’indicazione della mediana, una zona rettangolare (Box) definisce le 
posizioni di Q1 e Q3 e quindi la distanza interquartile, infine i campi 
fino al massimo e fino al minimo sono indicati da linee (whiskers). 
L’intervallo da  Q1‐1.5∙IQR a Q3+1.5∙IQR è considerato accettabile, 
perché giustificato da effetti accidentali. Se vi sono dati esterni a tale 
intervallo sono evidenziati come outlier.

G. Barbato ‐ A. Germak ‐ G. Genta 61


MEDIANA E IQR
I dati di Newcomb, quelli presentati precedentemente e quelli 
ottenuti in giorni successivi, vengono così descritti con immediatezza 
in un modo facilmente leggibile:
Boxplot of Time_1, Time_2, Time_3

24.84

24.83

24.82

24.81

24.80
Data

24.79

24.78

24.77

24.76

24.75
Time_1 Time_2 Time_3

G. Barbato ‐ A. Germak ‐ G. Genta 62


LE DISTRIBUZIONI STATISTICHE
Distribuzioni di ampia utilizzazione
Come si è detto, la descrizione frequentista tramite
.
l’istogramma a classi uniformi o per centili, consente di
trattare qualunque distribuzione. Si ribadisce, però, quanto già
evidenziato che la descrizione frequentista è buona solo se si
dispone di molti dati, tanto più se si vogliono fare
considerazioni sulle parti estreme, come spesso è necessario
(valutazione di intervalli di fiducia). La via più efficiente
consiste nell’inquadrare il fenomeno osservato nell’ambito di
schemi noti, ai quali corrispondono determinate distribuzioni
statistiche, ed identificare i parametri della distribuzione
mediante i dati sperimentali che, se lo schema e la
corrispondente distribuzione sono stati scelti correttamente,
non è più necessario siano molto numerosi.
G. Barbato ‐ A. Germak ‐ G. Genta 63
LE DISTRIBUZIONI STATISTICHE
Distribuzioni di ampia utilizzazione

I primi casi che prenderemo in considerazione hanno un’ampia


.
applicazione nei processi di collaudo e di valutazione
dell’affidabilità di oggetti complessi.
In entrambi questi casi, infatti, il processo corrispondente
(prendere alcuni pezzi da collaudare per i collaudi o
prendere alcuni pezzi da assemblare per la produzione di
oggetti complessi) corrisponde ad estrarre oggetti da
un’urna.
Dagli esempi che abbiamo considerato nella teoria dei
giochi, lanciare un dado o estrarre una carta da un
mazzo di carte, appare subito evidente una differenza.

G. Barbato ‐ A. Germak ‐ G. Genta 64


LE DISTRIBUZIONI STATISTICHE
Distribuzioni di ampia utilizzazione

Se il mio scopo è di fare un poker d’assi e come prima


.
carta mi viene dato un asso, la probabilità di ricevere un
asso come seconda carta sarà inferiore, infatti prima
c’erano 4 assi su 52 carte, poi solo 3 assi su 51 carte. La
probabilità di un certo evento varia nella successione di
estrazioni.
Invece se lancio un dado e viene 3, la probabilità di
ottenere 3 è identica nei successivi lanci.
Queste due condizioni si possono descrivere come
«Estrazione senza reimmissione» nel primo caso ed
«Estrazione con reimmissione» nel secondo.

G. Barbato ‐ A. Germak ‐ G. Genta 65


LE DISTRIBUZIONI STATISTICHE
Distribuzioni di ampia utilizzazione

. Una operazione di collaudo è, evidentemente, una


condizione di «Estrazione senza reimmissione». Infatti il
pezzo collaudato non viene rimesso nel lotto di
produzione e il tutto mischiato prima di estrarre il
secondo pezzo da collaudare. Tuttavia se i numeri sono
grandi (ad esempio controllo della produzione piuttosto
che controllo di piccoli lotti) e, di conseguenza, le
probabilità non variano sensibilmente per le estrazioni
successive, si possono usare i metodi validi nel caso di
«Estrazione con reimmissione», in genere più semplici.

G. Barbato ‐ A. Germak ‐ G. Genta 66


LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
Una operazione di collaudo consiste in genere nell’estrazione
.
di n pezzi dalla produzione e nel controllo di tali pezzi per
vedere se vi sono k pezzi fuori tolleranza. Questa operazione
serve per controllare se nella produzione vi sia una certa
percentuale p di pezzi fuori tolleranza.
La percentuale p è stabilita da condizioni economiche e
tecnologiche: è legata alla capacità del processo di produzione
di fare quasi tutti i pezzi in tolleranza, ai costi necessari a
migliorare, quando possibile, il processo di produzione, al
costo del committente legato alla presenza di pezzi fuori
tolleranza nei lotti che riceve.

G. Barbato ‐ A. Germak ‐ G. Genta 67


Un esempio può essere esplicativo: consideriamo il collaudo di
spine cilindriche che debbano essere inserite nei basamenti
motore in ghisa (fragile). Nello stabilire le tolleranze la
domanda principale è
.

«Cosa succede se …?»

Cosa succede se la spina è troppo grossa? La ghisa viene


forzata a trazione e si cricca. Il danno è elevato! La percentuale
pg di spine in tale condizione deve essere bassa.
Cosa succede, invece, se la spina è troppo piccola? L’operaio
inserendola sente che fa poco attrito, la toglie e la sostituisce.
Il danno è trascurabile. La percentuale pp di spine in tale
condizione può essere più alta se ciò porta ad una diminuzione
dei costi di produzione o a un vantaggio tecnologico per lo
spostamento di entrambe le tolleranze.
G. Barbato ‐ A. Germak ‐ G. Genta 68
Quindi il valore di p deve essere stabilito a priori in base alle
condizioni economiche e tecnologiche, ed eventualmente
modificato in seguito alle valutazioni del processo di collaudo,
.
ma solo sempre congiuntamente alle modifiche corrispondenti
delle condizioni economiche e tecnologiche. (se un collaudo
nelle condizioni richieste risultasse troppo costoso si può
cercare di diminuire tale costo accettando un aumento dei
costi di produzione o dei costi del committente legati ai fuori
tolleranza.
In conclusione, stabilito il valore p di percentuale di pezzi fuori
tolleranza accettabile, corrispondente alla probabilità che un
pezzo della produzione sia difettoso, si può calcolare con che
probabilità P una produzione in tale condizione concordata
possa passare il collaudo definito da n, numero di pezzi
controllati, e k, numero di pezzi fuori tolleranza accettati.
G. Barbato ‐ A. Germak ‐ G. Genta 69
LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
Con i termini della statistica possiamo dire che, nota la
.
probabilità p dell’evento E, è automaticamente nota la
probabilità q = 1 – p che l’evento E non si verifichi.

Come si distribuisce la probabilità che l’evento E si presenti k


volte quando vengano fatte n prove indipendenti?

Facendo n tentativi, l’evento E potrà presentarsi un numero di


volte compreso tra 0 ed n. La distribuzione binomiale descrive
quale è la probabilità per ogni valore 0, 1, …, k, …, n di tentativi
riusciti.
Consideriamo come evento E il trovare un pezzo fuori
tolleranza (FT) k volte in un collaudo di n pezzi.
G. Barbato ‐ A. Germak ‐ G. Genta 70
LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
Esaminiamo il collaudo di n=4 pezzi Pezzo 4
con un limite di accettazione k=2. P3 E3

È facile osservare che l’evento è


4
p FT 4 p
.
3
q OK 3 pq
verificato in k casi e non verificato in p FT 3 3
Pezzo 3 pq
n‐k casi, per cui la probabilità di ogni P3 E3 q OK 2 ppqq 2 2
pq
ramo è pkq(n – k). Pezzo 2 p FT p FT 3 3
pq
2 2
Pezzo 1 P2 E2 q OK q OK 2 pqpq pq
2 2
P1 E1 p FT p FT p FT 2 pqqp pq
3
p FT q OK q OK q OK 1 pqqq pq
3
q OK p FT p FT p FT 3 pq
2 2
q OK q OK q OK 2 qppq pq
2 2
p FT p FT 2 qpqp pq
Più difficile è calcolare quanti percorsi q OK q OK 1 qpqq pq
3

corrispondano a un certo valore di k. p FT 2 qqpp 2 2


pq

Esaminiamo gli schemi per k=1 e per q OK 1 qqpq pq


3

k=2 p FT 1 qqqp pq
3

4
q OK 0 q

G. Barbato ‐ A. Germak ‐ G. Genta 71


Distribuzione binomiale
Quattro estrazioni in cui l'evento scelto a una probabilità p di accadere e q = 1 - p di non accadere

Azione 1 Azione 2 Azione 3 Azione 4


Prob. Test 1 Prob. Test 2 Prob. Test 3 Prob. Test 4 Prob. k
P1 E1 P2 E2 P3 E3 P4 E4 percorso
Percorsi k=4 Comb(4:4)
p Sì p ·p·p·p 4 abcd 1
p Sì p ·p·p·p abcd
q No p·p·p·q 3
. p Sì
p Sì p·p·q·p 3 Percorsi k=3 Comb(4:3)
q No abcd 4
q No p·p·q·q 2 p·p·p·q abc
p Sì p·p·q·p abd
p·q·p·p acd
p Sì p·q·p·p 3 q ·p·p·p bcd
p Sì
q No p·q·p·q 2
q No Percorsi k=2 Comb(4:2)
p Sì p·q·q·p 2 abcd 6
q No p·p·q·q ab
q No p·q·q·q 1 p·q·p·q ac
p·q·q·p ad
q·p·p·q bc
p Sì q ·p·p·p 3 q·p·q·p bd
p Sì q·q·p·p cd
q No q·p·p·q 2
p Sì
p Sì q·p·q·p 2 Percorsi k=1 Comb(4:1)
q No abcd 4
q No q·p·q·q 1 p·q·q·q a
q·p·q·q b
q No q·q·p·q c
p Sì q·q·p·p 2 q·q·q·p d
p Sì
q No q·q·p·q 1
q No Percorso k=0 Comb(4:0)
p Sì q·q·q·p 1 abcd 1
q No q·q·q·q
q No q·q·q·q 0
G. Barbato ‐ A. Germak ‐ G. Genta 72
LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
Se avessimo solo n=3, per k=1 lo schema dovrebbe essere,
evidentemente, pqq, qpq, qqp, perché, come è evidente, nei
.
tre passaggi l’evento favorevole deve occupare posizioni
diverse. Poiché si parla di posizioni, ci confrontiamo con le
permutazioni di tre oggetti; abc, acb, bac, bca, cab, cba, ma nel
nostro caso due degli oggetti, ad esempio b e c sono uguali,
per cui in ogni gruppo la permutazione di b e c mi porta a
situazioni equivalenti. Il numero di situazioni realmente diverse
sarà dato, quindi, dal numero di permutazioni di a, b, e c diviso
per il numero di permutazioni di b e c.

G. Barbato ‐ A. Germak ‐ G. Genta 73


LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
Proviamo a fare le permutazioni di 5 oggetti a, b, c, d, e, e poi a
considerare e=d. Si vede che ci sono tanti gruppi equivalenti
.
quante le permutazioni di e e d.
abcde bacde cbade dbcae ebcda abcdd bacdd cbadd dbcad dbcda
abced baced cbaed dbcea ebcad abcdd bacdd cbadd dbcda dbcad
abdce badce cbdae dbace ebdca abdcd badcd cbdad dbacd dbdca
abdec badec cbdea dbaec ebdac abddc baddc cbdda dbadc dbdac
abecd baecd cbead dbeca ebacd abdcd badcd cbdad dbdca dbacd
abedc baedc cbeda dbeac ebadc abddc baddc cbdda dbdac dbadc
acbde bcade cabde dcbae ecbda acbdd bcadd cabdd dcbad dcbda
acbed bcaed cabed dcbea ecbad acbdd bcadd cabdd dcbda dcbad
acdbe bcdae cadbe dcabe ecdba acdbd bcdad cadbd dcabd dcdba
acdeb bcdea cadeb dcaeb ecdab acddb bcdda caddb dcadb dcdab
acebd bcead caebd dceba ecabd acdbd bcdad cadbd dcdba dcabd
acedb bceda caedb dceab ecadb acddb bcdda caddb dcdab dcadb
adcbe bdcae cdabe dacbe edcba adcbd bdcad cdabd dacbd ddcba
adceb bdcea cdaeb daceb edcab adcdb bdcda cdadb dacdb ddcab
adbce bdace cdbae dabce edbca adbcd bdacd cdbad dabcd ddbca
adbec bdaec cdbea dabec edbac adbdc bdadc cdbda dabdc ddbac
adecb bdeca cdeab daecb edacb addcb bddca cddab dadcb ddacb
adebc bdeac cdeba daebc edabc addbc bddac cddba dadbc ddabc
aecdb becda ceadb decab eacdb adcdb bdcda cdadb ddcab dacdb
aecbd becad ceabd decba eacbd adcbd bdcad cdabd ddcba dacbd
aedcb bedca cedab deacb eadcb addcb bddca cddab ddacb dadcb
aedbc bedac cedba deabc eadbc addbc bddac cddba ddabc dadbc
aebcd beacd cebad debca eabcd adbcd bdacd cdbad ddbca dabcd
aebdc beadc cebda debac eabdc adbdc bdadc cdbda ddbac dabdc

G. Barbato ‐ A. Germak ‐ G. Genta 74


LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
Proviamo ora a considerare e=d ed anche b=c. Si vede che il
numero di gruppi equivalenti è uguale al prodotto delle
.
permutazioni di e e d per le permutazioni di b e c.
abcde bacde cbade dbcae ebcda accdd cacdd cacdd daccd daccd
abced baced cbaed dbcea ebcad accdd cacdd cacdd daccd daccd
abdce badce cbdae dbace ebdca accdd cadcd cadcd dacdc dacdc
abdec badec cbdea dbaec ebdac accdd cadcd cadcd dacdc dacdc
abecd baecd cbead dbeca ebacd acdcd caddc caddc dadcc dadcc
abedc baedc cbeda dbeac ebadc acdcd caddc caddc dadcc dadcc
acbde bcade cabde dcbae ecbda acdcd ccadd ccadd dcacd dcacd
acbed bcaed cabed dcbea ecbad acdcd ccadd ccadd dcacd dcacd
acdbe bcdae cadbe dcabe ecdba acddc ccdad ccdad dcadc dcadc
acdeb bcdea cadeb dcaeb ecdab acddc ccdad ccdad dcadc dcadc
acebd bcead caebd dceba ecabd acddc ccdda ccdda dccad dccad
acedb bceda caedb dceab ecadb acddc ccdda ccdda dccad dccad
adcbe bdcae cdabe dacbe edcba adccd cdacd cdacd dccda dccda
adceb bdcea cdaeb daceb edcab adccd cdacd cdacd dccda dccda
adbce bdace cdbae dabce edbca adccd cdadc cdadc dcdac dcdac
adbec bdaec cdbea dabec edbac adccd cdadc cdadc dcdac dcdac
adecb bdeca cdeab daecb edacb adcdc cdcad cdcad dcdca dcdca
adebc bdeac cdeba daebc edabc adcdc cdcad cdcad dcdca dcdca
aecdb becda ceadb decab eacdb adcdc cdcda cdcda ddacc ddacc
aecbd becad ceabd decba eacbd adcdc cdcda cdcda ddacc ddacc
aedcb bedca cedab deacb eadcb addcc cddac cddac ddcac ddcac
aedbc bedac cedba deabc eadbc addcc cddac cddac ddcac ddcac
aebcd beacd cebad debca eabcd addcc cddca cddca ddcca ddcca
aebdc beadc cebda debac eabdc addcc cddca cddca ddcca ddcca

G. Barbato ‐ A. Germak ‐ G. Genta 75


LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
Possiamo quindi dire in generale che nel caso di n oggetti che
contengono gruppi di ni oggetti uguali (con i anche maggiore di
.
2), le permutazioni effettive sono:
n!
 ni!
Infatti nel nostro caso si può verificare che essendo n1 = n2 =2,
il numero di permutazioni effettive è 120/(2∙2)=30.
Nel caso esaminato prima che considera solo due stati,
identificati da p e q, ci saranno gruppi di k oggetti uguali a p ed
n‐k oggetti uguali a q, per cui la formula assume la forma:
n! Che corrisponde al numero di combinazioni di n
k!n  k ! oggetti a k a k
G. Barbato ‐ A. Germak ‐ G. Genta 76
LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale

Siamo, quindi, in grado di calcolare il numero di rami che


corrispondono ad ogni valore di k:

n n!
  
 k  k! n  k !

per cui la formula che descrive la distribuzione binomiale è:

.
 n  k n k
P n,k     p q 
n!
p k q n k
k  k!n  k !

G. Barbato ‐ A. Germak ‐ G. Genta 77


LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
La forma assunta dalla distribuzione binomiale dipende molto dal 
.
valore della probabilità p.

G. Barbato ‐ A. Germak ‐ G. Genta 78


LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale
Nel caso limite di n = 1  (e k = 0 oppure k = 1) la distribuzione binomiale
.
assume la forma:

P (k )  p k q1 k
che prende il nome di distribuzione di Bernoulli.
È utile avere una indicazione di posizione e di dispersione. 
Nel caso della distribuzione di Bernoulli, si ottiene per la media:
1 1
   kP  k    kp k q1 k  0  q  1  p  p
k 0 k 0

e per la varianza:
1 1
    k    P  k     k    p k q1 k   0  p   q  1  p   p  p 2 q  q 2 p  pq  p  q   pq
2 2 2 2 2

k 0 k 0

G. Barbato ‐ A. Germak ‐ G. Genta 79


LE DISTRIBUZIONI STATISTICHE
Distribuzione binomiale

Nel caso della distribuzione binomiale, invece di fare una singola


prova, vengono fatte n prove indipendenti. Poiché sia il valore
medio, sia la varianza sono additivi, essi si ottengono moltiplicando
per n i risultati ottenuti con una sola prova, per cui:
  np  2  npq

La distribuzione binomiale rappresenta molte situazioni reali, tuttavia


il suo calcolo è molto pesante. Per ridurre i problemi computazionali,
.
sono state sviluppate due approssimazioni, entrambe valide per n
elevato. Tratteremo prima la distribuzione di Poisson (valida per
valori molto bassi di p) poi la distribuzione normale (valida per tutti i
valori di p, anche se fornisce risultati migliori per valori centrali, cioè
p  0,5).
G. Barbato ‐ A. Germak ‐ G. Genta 80
LE DISTRIBUZIONI STATISTICHE
La distribuzione ipergeometrica
Come si è visto, la distribuzione binomiale rappresenta
teoricamente processi in cui la probabilità p dell’evento
selezionato non cambia nelle successive estrazioni (quindi
estrazione con reimmissione), ma nella pratica vien utilizzata come
approssimazione quando la variazione di p può essere considerata
piccola.

Quando, invece, la variazione di p è significativa, come nei


collaudi di piccoli lotti, bisogna usare la distribuzione
ipergeometrica, che rappresenta formalmente la condizione di
estrazione senza reimmissione.

Entrambe, quindi, trovano concreta applicazione nel Controllo di


Qualità per attributi.
G. Barbato ‐ A. Germak ‐ G. Genta 81
LE DISTRIBUZIONI STATISTICHE
La distribuzione ipergeometrica

Diagramma ad albero per l’estrazione senza reimmissione nel caso di 
un lotto di M pezzi di cui C difettosi; numero di estrazioni n=3.
G. Barbato ‐ A. Germak ‐ G. Genta 82
LE DISTRIBUZIONI STATISTICHE
La distribuzione ipergeometrica

Le probabilità di riscontrare k=0, k=1, k=2 o k=3 pezzi difettosi si 


possono rapidamente calcolare:

P 0 
M  C M  C  1M  C  2 P 1  3
M  C M  C  1C
M M  1M  2 M M  1M  2 

P 2  3
M  C C C  1
P 3 
C C  1C  2 
M M  1M  2 M M  1M  2 

G. Barbato ‐ A. Germak ‐ G. Genta 83


LE DISTRIBUZIONI STATISTICHE
La distribuzione ipergeometrica

Tali formule possono essere generalizzate:

 n  C C  1...C  k  1M  C M  C  1...M  C  n  k  1


P k    
k  M M  1...M  n  1

 C  M  C 
  
 k  n  k 
In forma più compatta:  P k  
M 
 
n
A titolo informativo, i valori della media e della varianza:
C C M  C M  n 
n  n
2

M M 2 M  1
G. Barbato ‐ A. Germak ‐ G. Genta 84
LE DISTRIBUZIONI STATISTICHE
La distribuzione ipergeometrica
Esempio: probabilità di estrarre due pezzi fuori tolleranza (ot) su
n=3 estrazioni da un lotto di M=50 pezzi di cui C=4 fuori
tolleranza.
P1 E1 P2 E2 P3 E3 of the path

2/48 ot 4/50·3/49·2/48 k=3

46/48 not ot 4/50·3/49·46/48 k=2

3/48 ot 4/50·46/49·3/48 k=2


3/49 ot
45/48 not ot 4/50·46/49·45/48 k=1
4/50 ot 46/49 not ot

46/50 not ot 4/49 ot


3/48 ot 46/50·4/49·3/48 k=2
45/49 not ot
45/48 not ot 46/50·4/49·45/48 k=1

4/48 ot 46/50·45/49·4/48 k=1

44/48 not ot 46/50·45/49·44/48 k=0

G. Barbato ‐ A. Germak ‐ G. Genta 85


LE DISTRIBUZIONI STATISTICHE
approssimazioni della distribuzione binomiale

Come si è visto, la distribuzione binomiale ha un campo molto


vasto di applicazione, ma il grosso problema della difficoltà
computazionale, perché n! anche con i moderni PC non si
riesce a calcolare per n>170.
Così de Moivre nel 1733 cercando un’approssimazione basata
sull’esponenziale giunse alla formula della distribuzione
normale. Alle stesse conclusioni giunse Laplace nel 1774
cercando un’approssimazione dell’ipergeometrica. Nel 1816
Gauss presentò la sua soluzione ed infine nel 1837 Poisson
presentò la sua approssimazione della binomiale, valida per
valori molto piccoli di p, perciò anche detta distribuzione degli
eventi rari.

G. Barbato ‐ A. Germak ‐ G. Genta 86


LE DISTRIBUZIONI STATISTICHE
La distribuzione di Poisson
Se si esamina la distribuzione binomiale nel caso di p molto
piccolo (distribuzione degli eventi rari) ed n molto grande in
modo che il prodotto np = λ sia finito, si trova che la
distribuzione binomiale è rappresentabile con la formula
approssimata:

 n  k nk k e  
P k     p q 
n! k nk
p q 
k  k! n  k ! k!

che rappresenta la distribuzione di Poisson.

G. Barbato ‐ A. Germak ‐ G. Genta 87


LE DISTRIBUZIONI STATISTICHE
La distribuzione di Poisson
Confronto tra la distribuzione binomiale e la distribuzione di Poisson
per n = 170 e p = 0,05 (per maggiore visibilità i punti della distribuzione
di Poisson sono presentati collegati, anche se la distribuzione di poisson
è discreta).
0,16
0,14
0,12
0,10
P (k) Binomiale
0,08
0,06 Poisson
0,04
0,02
0,00
0 20 40
k

Il valore medio e la varianza possono essere determinati, nell’ambito


dell’approssimazione, dai valori ottenuti per la distribuzione binomiale:
  np    r2  npq  np1  p   np  
G. Barbato ‐ A. Germak ‐ G. Genta 88
LE DISTRIBUZIONI STATISTICHE
La distribuzione normale
Come si è visto dal teorema del limite centrale, nel campo delle
applicazioni sperimentali, la distribuzione normale (o gaussiana)
ha un’importanza fondamentale per la sua caratteristica di
descrivere quanto accade per il normale gioco del caso.

Nel caso dei dati sperimentali, si pone gran cura a evitare gli
errori sistematici e quelli accidentali di grande entità (incidenti
di misura), quindi rimangono gli errori accidentali di piccola
entità. La dispersione dei risultati è allora legata all’effetto
congiunto di numerose piccole cause aleatorie, quindi, come
indicato dal teorema del limite centrale, i fenomeni in tale
condizione potranno essere descritti dalla distribuzione normale.

G. Barbato ‐ A. Germak ‐ G. Genta 89


LE DISTRIBUZIONI STATISTICHE
La distribuzione normale

È possibile ricavare la funzione di densità di probabilità della


distribuzione normale (continua) tramite l’approssimazione della
distribuzione binomiale (discreta) per un numero di tentativi n
tendente all’infinito. Si ottiene:

2
1  x 
  
f x  
1 2  
e
 2

ove μ è il valore medio e σ lo scarto tipo.


Nella caratteristica forma a campana la posizione dipende dal valore di
μ e la forma stretta o allargata dal valore di σ.
G. Barbato ‐ A. Germak ‐ G. Genta 90
LE DISTRIBUZIONI STATISTICHE
La distribuzione normale
La funzione di distribuzione cumulativa (o funzione di ripartizione):
x
Fx    f( ) d


non è data in forma chiusa. Per la presentazione in forma tabellare si


ricorre alla variabile causale standardizzata z:
x
z

da cui:
z2 z
Fz  

f z  
1
2
e 2
 f( ) d


che rappresentano la distribuzione normale con media μ = 0 e scarto


tipo σ = 1.
G. Barbato ‐ A. Germak ‐ G. Genta 91
LE DISTRIBUZIONI STATISTICHE
La distribuzione normale

Dati x, μ e σ si calcola z; mentre le f(z) e le F(z) sono date in forma


tabellare. Pertanto le f(x) e le F(x) possono essere facilmente
calcolate:
f(z )
F(x)  F(z ) f(x) 

Le funzione di distribuzione cumulative forniscono la probabilità che


la variabile abbia un valore compreso tra ‐ e il valore x o z preso in
considerazione. È immediata una identificazione geometrica con
l’area sottesa dalla funzione di densità di probabilità.

G. Barbato ‐ A. Germak ‐ G. Genta 92


LE DISTRIBUZIONI STATISTICHE
La distribuzione normale
Per determinare la probabilità che il valore della variabile cada in un
intervallo definito (a, b), è sufficiente valutare l’area sottesa dalla
funzione di densità di probabilità in tale intervallo, ovvero:
P(a<x<b) = F(b) ‐ F(a)

G. Barbato ‐ A. Germak ‐ G. Genta 93


LE DISTRIBUZIONI STATISTICHE
La distribuzione normale
Esempi
Si consideri una distribuzione normale con valore medio μ = 25 e scarto
tipo σ = 3. Valutare la probabilità di avere valori di x compresi tra ‐ e
29, utilizzando la funzione di distribuzione cumulativa, data in forma
tabellare.
In primo luogo, trasformiamo la x nella variabile standardizzata z:

x 29  25
z   1,33
 3

Successivamente, entriamo con tale valore di z nella tabella dei valori


della probabilità cumulata F(z).

G. Barbato ‐ A. Germak ‐ G. Genta 94


LE DISTRIBUZIONI STATISTICHE
La distribuzione normale
Valori della probabilità cumulata F(z) per la distribuzione normale. 

G. Barbato ‐ A. Germak ‐ G. Genta 95


LE DISTRIBUZIONI STATISTICHE
La distribuzione normale

La parte intera e quella decimale di z sono nella prima colonna,


mentre la parte centesimale è nella prima riga; all’incrocio tra la riga
e la colonna si troverà il valore P = 0,9082 della probabilità cumulata
richiesta.
Valutare ora la probabilità di avere valori di x compresi tra ‐ e 20.

Innanzitutto, si trova:
x 20  25
z   1, 67
 3

Pertanto, il valore di z è negativo; tuttavia in tabella compaiono solo


valori positivi di z. Si noti, però, che la distribuzione normale
standardizzata è simmetrica rispetto all’asse delle ordinate, inoltre
corrisponde nella sua totalità ad un valore di probabilità pari a 1.
G. Barbato ‐ A. Germak ‐ G. Genta 96
LE DISTRIBUZIONI STATISTICHE
La distribuzione normale
Si ottiene dunque che:
Fz   1  F z 
per cui, trovato in tabella il valore di F(‐z)= 0,9525, si può calcolare la
probabilità cumulata richiesta:

Fz   1  F z   1  0,9525  0,0475

Valutare infine la probabilità che il valore di x cada tra 20 e 29.


Il risultato si ottiene facendo la differenza tra le due probabilità
cumulate, precedentemente calcolate:

P(20<x<29) = F(1,33) ‐ F(‐1,67) = 0,9082 – 0,0475 = 0,8607

G. Barbato ‐ A. Germak ‐ G. Genta 97


LE DISTRIBUZIONI STATISTICHE
La distribuzione di Student
Nella qualificazione del processo di misura ha una grande
importanza la valutazione della varianza. La qualificazione è tanto
meglio definita, quanti più dati sono stati utilizzati.

L’uso della stima s, invece di σ, porta con sé un effetto sistematico di


sottostima dell’intervallo fiduciario. Di ciò si era ben accorto W. S.
Gosset, responsabile delle prove e ricerche presso la birreria
Guinness di Dublino all’inizio del Novecento.

Gosset trovò che, nel caso si potessero usare solo pochi individui
per calcolare la varianza, la distribuzione da utilizzare era diversa
dalla normale. Egli pubblicò un articolo su questa sua scoperta sotto
lo pseudonimo di Student.

G. Barbato ‐ A. Germak ‐ G. Genta 98


LE DISTRIBUZIONI STATISTICHE
La distribuzione di Student
Questa distribuzione ha una forma a campana simile alla
distribuzione normale, asintotica ad essa quando lo scarto tipo s è
calcolato con molti dati (n grande); invece, quando s è calcolato con
pochi dati (n piccolo), la forma dipende da n, ovvero dal numero dei
gradi di libertà ν = n – 1.

Dal punto di vista pratico, l’uso della distribuzione di Student è del


tutto analogo a quello della distribuzione normale. La variabile
standardizzata viene detta t di Student ed i due valori limite t1 e t2
vengono determinati usando le tabelle o le funzioni opportune.

G. Barbato ‐ A. Germak ‐ G. Genta 99


LE DISTRIBUZIONI STATISTICHE
La distribuzione di Student
0,45

0,40 Normale
6 g. d l.
0,35 3 g. d l.

0,30
0,25

0,20
0,15

0,10
0,05

0,00
-4 -3 -2 -1 0 1 2 3 4

Confronto tra la distribuzione normale standard e le distribuzioni di


Student per 3 e 6 gradi di libertà, che hanno una dispersione
leggermente maggiore della normale.

G. Barbato ‐ A. Germak ‐ G. Genta 100


LE DISTRIBUZIONI STATISTICHE
La distribuzione di Student
Valori della t di Student.

G. Barbato ‐ A. Germak ‐ G. Genta 101


LE DISTRIBUZIONI STATISTICHE
La distribuzione di Student
Esempio
Il carico di rottura di un bullone è stato valutato 10 kN con
l’incertezza di ± 0,5 kN al livello di probabilità 95%, e di ± 0,94 kN al
livello di probabilità 99.98%.
Supponiamo che siano state fatte n = 10 prove per determinare la
varianza s2 del carico di rottura.
• Nel caso del livello di fiducia del 95%, si trova t2 = 2,26, a cui
corrisponde t1 = ‐2,26. Ne consegue un limite inferiore della
banda d’incertezza di 9,4 kN, invece di 9,5 kN determinato con la
distribuzione normale; quindi la variazione non è elevata.
• Nel caso del livello di fiducia del 99,98%, si trova t2 = 6,01, quindi
t1 = ‐6,01 ed il limite inferiore della banda d’incertezza risulta
8,5 kN, invece di 9,1 kN determinato con la distribuzione normale;
quindi la differenza è molto marcata!
G. Barbato ‐ A. Germak ‐ G. Genta 102
LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
La distribuzione di Pearson, detta anche del χ2, descrive la
distribuzione della stima campionaria s2 della varianza σ2 di una
popolazione distribuita normalmente.
Se da una popolazione, distribuita normalmente con varianza σ2,
estraiamo una serie di campioni di n individui e ne calcoliamo con si2 la
varianza , come saranno distribuiti tali valori?
Utilizziamo una variabile normalizzata V i cui valori νi sono:
2
2
 xij  mi
n

vi  n  1
s
  
i

 2
j 1   
Da tale distribuzione possiamo valutare l’intervallo di fiducia della
stima della varianza ad un certo livello di probabilità P.

G. Barbato ‐ A. Germak ‐ G. Genta 103


LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
Troviamo i limiti inferiore χ12 e superiore χ22 della zona centrale che
corrisponde alla probabilità P. Potremo allora dire che con
probabilità P i valori vi sono compresi tra i confini:

12  vi  22
da cui :
si2 si2 s i2
  n  1
2
 2
 2  n  1 n  1 2
2  12  22
1 2

e quindi, per l’inferenza statistica, si ha allo stesso livello di fiducia:

si2 si2
n  1   2  n  1
 22 12

G. Barbato ‐ A. Germak ‐ G. Genta 104


LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
Valori di χ2

G. Barbato ‐ A. Germak ‐ G. Genta 105


LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
ESEMPIO: se vogliamo determinare l’intervallo fiduciario per un rischio
d’errore bilaterale simmetrico  = 10% di una varianza stimata s2 = 104
determinata con n = 5 dati di misura, abbiamo che la probabilità da
‐ al limite inferiore del 2 è /2 = 5%.
Entrando nella tabella nella colonna corrispondente al 5% e nella riga
corrispondente ai gradi di libertà, in questo caso n – 1 = 4, troviamo
12 = 0.71 e, quindi, un limite superiore della varianza di 5.63∙104.

Gradi di Probabilità cumulata Operando analogamente per il limite


libertà
1
1,0% 2,5%
0,00 0,00
5,0% 7,50%
0,00 0,01
superiore del 2, la probabilità
2
3
0,02
0,11
0,05
0,22
0,10
0,35
0,16
0,47
cumulata è 1 ‐ /2 = 95%, da cui si
4 0,30 0,48 0,71 0,90 trova 22 = 9.49; pertanto il limite
5 0,55 0,83 1,15 1,39
inferiore della varianza vale 0.42∙104.

G. Barbato ‐ A. Germak ‐ G. Genta 106


LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)

Per lo scarto tipo, a fronte di un valore determinato pari a 100, si


ottengono un valore massimo di circa 237 e un valore minimo di
circa 64, cioè l’ampiezza dell’intervallo di fiducia è quasi il doppio
del valore stimato.

Ciò ci consente di comprendere perché la “Guida all’espressione


dell’incertezza di misura (GUM)” sottolinei quanto fortemente
l’incertezza stessa sia “incerta” ed indichi l’opportunità di dichiararla
con una o al più due cifre significative ed, infine, esorti ad utilizzare i
contributi d’informazione basati sull’esperienza pregressa rispetto a
quelli determinati per via statistica con pochi gradi di libertà.

G. Barbato ‐ A. Germak ‐ G. Genta 107


LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
La distribuzione di Pearson viene usata spesso come test di
normalità, detto proprio test del 2.
‐ se sono presenti solo errori accidentali ‐> distribuzione normale
‐ se sono presenti anche errori sistematici variabili (ad esempio, una
deriva) o incidenti di misura ‐> distribuzione non normale.
Valutare la normalità dei dati sperimentali rappresenta un utile
strumento d’indagine.

Il test del 2 viene fatto sui dati raggruppati in classi.

G. Barbato ‐ A. Germak ‐ G. Genta 108


LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
La suddivisione in classi può avere effetti anche importanti sul
risultato. Per classi poco numerose, infatti, la posizione dei confini
dovute al punto d’inizio o all’ampiezza di classe possono produrre
effetti significativi.
Bisogna evitare di avere troppe classi con un numero di dati inferiore
a 3, a parte le classi estreme. Questo oggi si può controllare
facilmente perché il calcolo è rapido, ma un tempo conveniva
impostare correttamente l’ampiezza di classe fin dall’inizio.
Si divide il campo della variabile x in un numero N di classi,
orientativamente:
N n
Questa condizione non è fondamentale, serve solo a evitare di avere
molte classi poco numerose.
G. Barbato ‐ A. Germak ‐ G. Genta 109
LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
Il numero di dati che cade in ogni classe viene definito frequenza di
classe assoluta faj.
La stima del valore medio m e della varianza s2 può essere
approssimata sostituendo a tutti i dati di ogni classe il corrispondente
valore centrale di classe xcj .
Si ottengono, così, le formule approssimate:
1 n 1 N
m x   xi   fa j xc j
n i 1 n j 1

 x  x
n n n n n

 x  mx   2m x xi  m  2m x  xi   m x2
2 2 2 2
i i x i
s x2  i 1
 i 1
 i 1 i 1 i 1

n 1 n 1 n 1
n n N

x 2
i  2m x  nm x  nm 2
x x 2
i  nm 2
x  fa
j 1
j x 2j  nm x2
 i 1
 i 1

n 1 n 1 n 1
G. Barbato ‐ A. Germak ‐ G. Genta 110
LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
Per confrontare la distribuzione sperimentale descritta mediante le
frequenze di classe assolute faj con una distribuzione normale che ha
valore medio µ≈m e varianza 2≈s2, si possono prendere in
considerazione le frequenze assolute teoriche ftj, ottenute
moltiplicando la probabilità Pj che nella distribuzione normale i dati
cadano all’interno della classe j‐esima per il numero di dati n:
ft j  nPj
Si sfrutta, poi, l’osservazione che è possibile costruire con le frequenze
assolute teoriche e sperimentali una variabile aleatoria che ha la
distribuzione del 2 con N‐3 gradi di libertà:

W 
N  fa j  ft j 
2

j 1 ft j
G. Barbato ‐ A. Germak ‐ G. Genta 111
LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
Se il valore di tale variabile cade all’esterno dell’intervallo di fiducia,
calcolato al livello di fiducia P per la corrispondente distribuzione di
Pearson, l’ipotesi che la distribuzione sperimentale sia normale si
può rifiutare con un rischio d’errore  = 1‐P, il che porta, nella
pratica, ad iniziare una ricerca per individuare la presenza di eventuali
errori sistematici o di incidenti di misura.

G. Barbato ‐ A. Germak ‐ G. Genta 112


LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
Livello di fiducia del test:
‐ livello di fiducia alto ‐> rischio  minore di rifiuto dell’ipotesi di
distribuzione normale (spendere inutilmente tempo nella
ricerca di eventuali errori sistematici) ‐> test poco sensibile ‐>
rischio  maggiore che errori sistematici siano effettivamente
presenti pur non essendo rilevabili.
‐ livello di fiducia basso ‐> test molto sensibile ‐> rischio 
minore che errori sistematici non siano rilevati ‐> rischio 
maggiore di rifiuto dell’ipotesi di distribuzione normale.

Pertanto, se il costo della ricerca degli effetti sistematici non è,


per ragioni specifiche, troppo elevato, conviene tenere livelli di
fiducia compresi tra l’80% e il 90%.

G. Barbato ‐ A. Germak ‐ G. Genta 113


LE DISTRIBUZIONI STATISTICHE
La distribuzione F di Fisher

Una importante osservazione fu fatta da R. A. Fisher sui vantaggi


legati alla valutazione del rapporto delle varianze.
Un’interessante forma di test (ANOVA) è legata alla stima della
varianza della popolazione, fatta in modi diversi che includono o
escludono i fattori che si ritiene influenzino il risultato.
m 1

 x  m1x 
2
2 1i
s 1 1 i 1

 2
 12 m
F m ,n  1
 n 1

 x  m2x 
2
s 2 2

 2 2j
2 1 j 1

 22 n

G. Barbato ‐ A. Germak ‐ G. Genta 114


LE DISTRIBUZIONI STATISTICHE
La distribuzione F di Fisher

ESEMPIO: una serie di misure fatte da diversi operatori. Il


comportamento degli operatori è rappresentato dal valore medio
che essi ottengono su un gruppo di misurazioni.

Domanda: le differenze dei diversi valori medi sono dovute al


fatto che l’azione di misura di ogni operatore ha un’influenza
sistematica sul risultato di misura (per cui, ad esempio, l’operatore
A misurerà sempre più abbondante dell’operatore B), oppure
corrispondono alle normali differenze dovute al gioco del caso,
quindi legate solo a fattori aleatori?

G. Barbato ‐ A. Germak ‐ G. Genta 115


LE DISTRIBUZIONI STATISTICHE
La distribuzione F di Fisher

Osservazioni

1) La varianza calcolata sui dati prodotti da ogni singolo


operatore non conterrà l’effetto della differenza tra gli
operatori (“varianza entro i gruppi”, dall’inglese “within the
groups”)

2) La varianza calcolata usando i valori medi dei diversi operatori


conterrà fortemente l’effetto della loro differenza (“varianza
tra i gruppi”, dall’inglese “between the groups”).

G. Barbato ‐ A. Germak ‐ G. Genta 116


LE DISTRIBUZIONI STATISTICHE
La distribuzione F di Fisher

In entrambi i casi si potrà giungere ad una stima della varianza


della popolazione.

Il rapporto delle varianze fatto ponendo a numeratore la varianza


calcolata con la presenza del fattore in esame ed a denominatore
quella in cui si è cercato di eliminare tutti i possibili fattori di
disturbo può indicare, con il suo valore, se il fattore preso in esame
è effettivamente significativo

‐> test:
confrontare il risultato ottenuto con la naturale variabilità dei
rapporti tra varianze, descritta, appunto dalla distribuzione di
Fisher.

G. Barbato ‐ A. Germak ‐ G. Genta 117


LE DISTRIBUZIONI STATISTICHE
La distribuzione F di Fisher
Valori di F di Fisher

G. Barbato ‐ A. Germak ‐ G. Genta 118


USO DELLE DISTRIBUZIONI STATISTICHE
Le distribuzioni statistiche possono essere usate per calcolare la
probabilità che la variabile cada in un certo intervallo, ma molto più
spesso sono usate per valutare gli intervalli della variabile che
corrispondono a valori di probabilità voluti.
Questo è quanto si fa, ad esempio, quando si vuole determinare
l’intervallo d’incertezza corrispondente a un processo di misura.
Il primo passo consiste nel caratterizzare il processo di misura. Si
faranno, quindi, un numero adeguato di misure di prova nelle
condizioni di lavoro per raccogliere gli effetti dei diversi fattori
d’influenza, raccogliendo così un campione sufficientemente ampio
e rappresentativo della «Popolazione» di possibili misure. Bisogna
porre attenzione che tutte le cause di variabilità presenti nelle
condizioni normali d’uso siano rappresentate.

G. Barbato ‐ A. Germak ‐ G. Genta 119


USO DELLE DISTRIBUZIONI STATISTICHE
Come secondo passo converrà analizzare i dati sperimentali, come si
vedrà nelle lezioni successive, in modo da ripulirli da eventuali effetti
sistematici o incidenti di misura, per poter utilizzare i mezzi statistici
nella loro reale potenza. Sulla base dei dati sperimentali si potrà
decidere quale distribuzione statistica è più adatta a rappresentarli.
Ad esempio, se si ritiene che le ipotesi del teorema del limite
centrale siano rispettate si usa la distribuzione normale, ma se i
parametri di varianza o scarto tipo sono stati determinati con pochi
gradi di libertà si usa la distribuzione di Student. Se si fa un’analisi di
variabilità, per cui i valori della varianza o i loro rapporti sono
coinvolti, si usa la distribuzione do Pearson o di Fisher.

G. Barbato ‐ A. Germak ‐ G. Genta 120


USO DELLE DISTRIBUZIONI STATISTICHE

Una situazione comune consiste nel determinare i valori z1 e z2 di


confine dell’intervallo, posto nella zona centrale e simmetrico
rispetto al valore medio, al quale corrisponde un determinato valore
della probabilità (ad esempio P = 95%) di contenere i valori xi della
variabile esaminata.

G. Barbato ‐ A. Germak ‐ G. Genta 121


LE DISTRIBUZIONI STATISTICHE
La distribuzione normale

Campo d'incertez z a

0,5

0,4

0,3
P = 95%

0,2

0,1  /2 = 2,5%  /2 = 2,5%


z1 z2

0,0
-4 -3 -2 -1 0 1 2 3 4
Intervallo fiduciario z

Determinazione dell’intervallo fiduciario (campo d’incertezza per il 
settore misure).

G. Barbato ‐ A. Germak ‐ G. Genta 122


LE DISTRIBUZIONI STATISTICHE
La distribuzione normale
Essendo la somma del valore di probabilità α della parte periferica e di
quello P della parte centrale uguale a 1, si ha:
α = 1 – P
quindi, nel caso convenzionale di P = 95%, si ha α = 1 – 95% = 5%.
Dato che la parte centrale è posta in modo simmetrico rispetto al
valore medio, le parti periferiche destra e sinistra hanno valore
uguale, per cui la probabilità da ‐ a z1 vale:
 1P
  2,5%
2 2
Sempre per simmetria, la probabilità da ‐ a z2 vale:
 1P 1P
1  1   97, 5%
2 2 2

G. Barbato ‐ A. Germak ‐ G. Genta 123


LE DISTRIBUZIONI STATISTICHE
La distribuzione normale
Nella tabella, il valore F(z) = 97,5% si trova nella riga con intestazione
1,9 e nella colonna con intestazione 0,06, per cui si ottiene z2 = 1,96.
Tenendo conto della solita simmetria, si trova z1 = ‐1,96.
L’intervallo fiduciario risulta così determinato:
xi  
z1   z2

ovvero:
  z1  xi    z2
Le condizioni citate, cioè probabilità della zona centrale (livello di
fiducia) P = 95%, e probabilità delle zone esterne (rischio d’errore)
α = 5% bilaterale simmetrica, potrebbero essere definite, per il settore
misure, condizioni convenzionali d’ignoranza, adottate quando non si
conoscano le conseguenze di una affermazione errata.
G. Barbato ‐ A. Germak ‐ G. Genta 124
LE DISTRIBUZIONI STATISTICHE
Gli intervalli fiduciari e l’inferenza statistica
Spesso, le domande sul fenomeno in studio non sono soddisfatte dai
soli valori di media e scarto tipo, ma richiedono che siano determinati
gli intervalli di fiducia.

In campo metrologico, si vuole valutare l’incertezza, cioè l’intervallo


intorno al valore misurato entro il quale si può ragionevolmente
pensare che cada il valore del misurando.

L’interpretazione statistica del termine “ragionevolmente” può essere


fatta con l’espressione “con un rischio d’errore α adeguatamente
basso”. A tale rischio d’errore corrisponde la probabilità P = 1- α
detta livello di fiducia e l’intervallo ad essa corrispondente è l’intervallo
fiduciario. Il metodo per determinare l’intervallo fiduciario vale per
tutte le distribuzioni statistiche, ma per ora consideriamo solo la
distribuzione normale.
G. Barbato ‐ A. Germak ‐ G. Genta 125
LE DISTRIBUZIONI STATISTICHE
Gli intervalli fiduciari e l’inferenza statistica
Si è già visto come si possa, conoscendo il valore medio μ e lo
scarto tipo σ, determinare l’intervallo fiduciario entro il quale
cadono, con la probabilità voluta, i valori della variabile
esaminata x.
Nella pratica, però, il problema che si pone è diverso:
quando si fa una misurazione, si estrae un individuo xi dalla
popolazione e si vuole determinare un intervallo, attorno a tale
individuo, entro il quale la media della popolazione cade con
probabilità P.

G. Barbato ‐ A. Germak ‐ G. Genta 126


LE DISTRIBUZIONI STATISTICHE
Gli intervalli fiduciari e l’inferenza statistica
Si passa dalla condizione in cui si vede che gli individui sono
contenuti, con probabilità P, in un intervallo definito:
  z1  xi    z2
alla condizione in cui, avendo estratto un individuo xi, si desume che,
con stessa la probabilità P, il valore medio μ sia confinato in un
intervallo identico, delimitato da un valore massimo:
  xi  z1
e da un valore minimo:
xi  z2  
quindi che sia:
xi  z 2    xi  z 2
G. Barbato ‐ A. Germak ‐ G. Genta 127
LE DISTRIBUZIONI STATISTICHE
Gli intervalli fiduciari e l’inferenza statistica
Questo passaggio viene chiamato inferenza statistica ed è utile per
poter trarre, da pochi dati sperimentali (campione), informazioni
sull’intera popolazione.

Le disequazioni presentate non sono deterministiche, ma valgono al


livello di fiducia P. Inoltre, esse sono descritte sulla base dei valori
ideali μ della media e σ2 della varianza, in genere non noti e non
conoscibili, ma solo stimabili mediante m ed s².

Pertanto, occorre sia capire cosa accade quando si possono usare solo
i valori stimati m ed s², sia approfondire il significato del livelli di
fiducia e del suo complemento ad 1, cioè il rischio d’errore.

G. Barbato ‐ A. Germak ‐ G. Genta 128


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
Livello di fiducia e rischio d’errore

L’affermare, con un rischio d’errore α, che i valori xi sono


contenuti nell’intervallo di fiducia, sottolinea che vi è una
probabilità α che xi sia esterno all’intervallo di fiducia. La
disponibilità ad accettare un certo rischio dipende dalle sue
conseguenze.

Questo indica il criterio con cui si deve scegliere il valore di α (e


quindi di P). Esso dipende dalla materia trattata (si vedano ad
esempio i rischi accettati nell’ambito delle norme sulla sicurezza,
che possono essere dell’ordine di 10‐6). Deve essere stabilito a
priori, e mai modificato in base ai risultati trovati.

G. Barbato ‐ A. Germak ‐ G. Genta 129


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
Livello di fiducia e rischio d’errore

In qualunque campo si operi, si deve accettare un rischio


d’errore e se ne deve valutare il livello sulla base del possibile
danno conseguente al fatto che quanto si rischia accada.

In campo metrologico, in assenza di dichiarazione diversa, si


opera ad un livello d’incertezza detto “a 2 sigma”,
corrispondente nel caso di distribuzione normale ad un livello di
fiducia convenzionale vicino al 95%, quindi rischio d’errore α al
5%.

G. Barbato ‐ A. Germak ‐ G. Genta 130


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
Livello di fiducia e rischio d’errore
Esempio
Il carico di rottura di un bullone è stato valutato 10 kN con l’incertezza di
± 0,5 kN al livello di fiducia P = 95%, ovvero il 5% dei bulloni ha un carico
di rottura al di fuori dall’intervallo (10 ± 0,5) kN.

Nel 2,5% dei casi il carico di rottura potrà essere inferiore a 9,5 kN.

• Bullone per fissaggio di carrozzeria di un’automobile: la rottura


produrrà al più un aumento della rumorosità senza danni gravi,
quindi risulta accettabile una probabilità del 2,5%.

• Bullone per fissaggio delle ruote di un’automobile: la rottura può


avere conseguenze terribili, quindi risulta inaccettabile una
probabilità del 2,5%. In tal caso, si deve diminuire il rischio α, in
modo che sia possibile fidarsi maggiormente della veridicità
dell’affermazione. G. Barbato ‐ A. Germak ‐ G. Genta 131
GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
Livello di fiducia e rischio d’errore
Supponiamo sia accettabile un rischio d’errore bilaterale dello 0,02%.
L’estremo inferiore zn1 dell’intervallo di fiducia a cui corrisponde un
rischio inferiore dello 0,01% è:
zn1 =‐3,76 
La semi‐ampiezza dell’intervallo di fiducia al livello di probabilità
P = 95%, è 0,5 kN, quindi:
s = 0,25 kN
Per cui la semi‐ampiezza dell’intervallo di fiducia al livello di probabilità
Pn = 99.98% sarà zn2∙s = 0,94 kN ed il limite inferiore della banda
d’incertezza sarà (10 – 0,94) kN  9,1 kN invece di 9.5 kN.

Se il progettista utilizzerà tale valore, diminuirà al livello considerato


accettabile il rischio che il collegamento realizzato si rompa.
G. Barbato ‐ A. Germak ‐ G. Genta 132
GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
Livello di fiducia e rischio d’errore
Pertanto il livello di fiducia P non è legato all’oggetto della misurazione,
bensì all’uso che verrà fatto dei risultati della misurazione, quindi deve
essere, in generale, stabilito dall’utente.

In ambito metrologico, l’uso generico è di scegliere


convenzionalmente per la banda d’incertezza un livello di fiducia pari al
95%. Ciò è espressamente stabilito per i centri di taratura di ACCREDIA
e degli enti analoghi di altri stati europei legati da un accordo di mutuo
riconoscimento.

Tale informazione consente, noto il campo d’incertezza dichiarato e il


suo livello di fiducia, di ricalcolare l’intervallo d’incertezza ad un nuovo
livello di fiducia.

G. Barbato ‐ A. Germak ‐ G. Genta 133


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
rischio d’errore di seconda specie

rischio d’errore di prima specie, 
rischio d’errore di seconda specie, 
Nel caso di test statistici, data un’ipotesi, che con terminologia statistica
si dice “ipotesi nulla”, tale ipotesi può essere vera o falsa.
Ad esempio, “il risultato di misura non è affetto da errori sistematici”.
Però io pongo i confini sul livello di fiducia del 95%, cioè considero come
buono solo l’intervallo che contiene il 95% dei risultati che verificano
tale ipotesi, per cui rischio di cogliere uno dei 5% risultati che, pur
verificando l’ipotesi, sono esterni all’intervallo di fiducia.
‐> rischio d’errore di prima specie di dichiarare che il risultato è affetto
da errore sistematico anche se non è vero.

G. Barbato ‐ A. Germak ‐ G. Genta 134


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
rischio d’errore di seconda specie

Per altro, può anche succedere che una condizione di misura del tutto
diversa, un misurando differente associato ad un errore sistematico,
produca un risultato che rientra, tuttavia, nell’intervallo di fiducia che
ho stabilito.

‐> rischio d’errore di seconda specie che tale risultato non venga
rifiutato, cioè, anche se l’ipotesi nulla risulta falsa, viene accettata per
vera.

G. Barbato ‐ A. Germak ‐ G. Genta 135


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
rischi d’errore α di prima e β di seconda specie

G. Barbato ‐ A. Germak ‐ G. Genta 136


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
L’effetto delle stime di media e varianza

Applicazione pratica dell’inferenza statistica in campo metrologico:


• caratterizziamo un processo di misura mediante una serie di
misure ripetute e ne stimiamo lo scarto tipo s;
• applichiamo il processo di misura ad un misurando ed otteniamo
un valore di misura xa. Sulla base della stima s e dell’ipotesi sul
tipo di distribuzione, che descrive la popolazione di tutti i possibili
risultati, possiamo determinare l’intervallo d’incertezza ± U, cioè
l’intervallo in cui può ragionevolmente cadere il valore “vero” del
misurando .

Alla fine trasferiremo l’informazione ottenuta con la misurazione con


il messaggio “il valore del misurando è xa ± U”, ricordando che tale
affermazione ha un rischio α di essere sbagliata.

G. Barbato ‐ A. Germak ‐ G. Genta 137


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
L’effetto delle stime di media e varianza
Procedura
• Si stabiliscono a priori il valore di P e le condizioni in cui si è
disposti ad accettare il rischio d’errore α.
• Verificata l’ipotesi di distribuzione normale per i risultati di
misura, si calcolano i valori limite z1 e z2 che delimitano la zona
corrispondente alla probabilità P.
• Nota la stima s2 della varianza σ2 del processo di misura e preso un
valore di misura xa, si ottiene l’intervallo d’incertezza:

xa  z1  s    xa  z2  s
Si osservi che il valore s è affetto da un errore sistematico
significativo quando il numero di dati sperimentali è piccolo.

G. Barbato ‐ A. Germak ‐ G. Genta 138


GLI INTERVALLI FIDUCIARI E L’INFERENZA STATISTICA
L’effetto delle stime di media e varianza

Il problema della limitazione del numero di dati sperimentali è


molto sentito da tutti i Responsabili della Qualità, che devono
bilanciare da un lato la necessità di operare su una base
statistica ampia per non dare informazioni illusorie, dall’altro i
costi delle prove.

Pertanto si ricorre alla distribuzione di Student, che porta gli


opportuni correttivi agli effetti sistematici legati al numero
limitato di dati sperimentali con i quali è stata calcolata la stima
s2 della varianza.

G. Barbato ‐ A. Germak ‐ G. Genta 139