Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
6 ‐ La gestione statistica
dei dati sperimentali
Statistica Sperimentale e Misure
Meccaniche
∑x i
mx = i =1
Numero dei dati 50 n
Media 8.0063
Scarto tipo 0.0029
Valore massimo 8.0140
n
Valore minimo 8.0017 ∑ ( xi − mx )
2
sx2 = i =1
n −1
Min
G. Barbato ‐ A. Germak ‐ G. Genta 9
LA DESCRIZIONE DEI DATI SPERIMENTALI
Confrontare graficamente tramite boxplot i risultati relativi ad
ogni singolo operatore .
8.015
8.012
8.009
8.006
8.003
8.000
Oper. 1 Oper. 2 Oper. 3 Oper. 4 Oper. 5
Grafico della spunta dei dati sperimentali.
nc = n
È utile definire un valore di partenza che non corrisponde a nessun
dato (ad esempio 8.00145 mm) e un’ampiezza di classe con la stessa
risoluzione dei dati sperimentali (ad esempio 1.5 μm); si eviteranno
così ambiguità relative a dati sul confine tra due classi.
G. Barbato ‐ A. Germak ‐ G. Genta 13
LA DESCRIZIONE DEI DATI SPERIMENTALI
Pertanto, nell’esempio si avrà:
• valore minimo dell’intervallo: 8.00145
• ampiezza di classe: 0.0015
• numero di classi: 9
• valore massimo dell’intervallo: 8.01495
Distribuzione di frequenza sperimentale: frequenza assoluta fa
Passo 4:
Si è visto che i dati sperimentali possono contenere errori
sistematici, errori accidentali grossi e rari ed errori accidentali
piccoli e numerosi. Cerchiamo, innanzitutto di individuare eventuali
incidenti di misura (errori accidentali grossi e rari), e di escluderli
mediante il principio di esclusione di Chauvenet.
Tale principio stabilisce che si possano escludere i dati che hanno
probabilità di accadere P inferiore al 50%. Nell’ambito di n dati ciò
viene ricondotto a una probabilità per il singolo dato p
rappresentata da:
P 50%
p< p<
n n
140
120
100
80
2n
60
P(x<x li ) P(x>x ls )
40
20 x li x ls
0
7,9977 8,0007 8,0037 8,0067 8,0097 8,0127 8,0157
x /mm
ovvero da:
50%
P ( x < xli ) = P ( x > xls ) =
100
Si osservi che
50% 50%
Pli = = 0,5% ⇒ zli = −2,58 Pls = 1 − = 99,5% ⇒ zls = 2,58
100 100
da cui
xli − m
z li ≈ ⇒ xli ≈ m + z li s = 8,0063 − 2,58 ⋅ 0,0029 = 7,9988
s
x −m
z ls ≈ ls ⇒ xls ≈ m + z ls s = 8,0063 + 2,58 ⋅ 0,0029 = 8,0139
s
Per l’esclusione ci si deve comportare in uno dei modi seguenti, con
preferenza in ordine da a) a c):
a) se si può utilizzare l’impianto sperimentale si fa una nuova
misura, o meglio un nuovo ciclo di misure, parziale rispetto a
quello iniziale, ma tale da far riprendere allo strumento il ritmo
di crescita – decrescita dei valori analogo alla situazione della
misura originale
b) se non si possono rifare le misure si esclude semplicemente il
dato. Ciò non è sempre possibile, perché alcune operazioni di
valutazione o anche semplicemente funzioni di calcolo
preimpostate richiedono una tabella completa.
c) se non si possono lasciare vuote le caselle dei dati eliminati, al
loro posto si mette il valore medio ottenuto dopo l’eliminazione
dei dati da escludere.
G. Barbato ‐ A. Germak ‐ G. Genta 27
PROCEDURA COMPLETA DI ANALISI DEI DATI SPERIMENTALI
I principi di esclusione
Sostituzione dell’incidente di misura individuato con il valore medio
ottenuto dopo la sua esclusione.
160
140
120
100
ρf/mm-1
Dens. fr.
80
Normale
60
40
20
x/mm
N ( fa − ft j )
2
W =∑
j
Distribuzione del χ2
j =1 ft j
Le frequenze assolute teoriche fat possono essere ottenute dalle
frequenze relative teoriche frt, calcolabili come i valori di probabilità
teorici negli stessi intervalli di classe per la distribuzione normale.
È opportuno esaminare alcune classi prima e dopo rispetto a quelle
che contengono dati sperimentali, in modo da ricoprire l’intervallo in
cui la distribuzione normale assimilata assume valori significativi.
Se accettiamo un rischio di errore alto, rischiamo di avere
un’indicazione della presenza di effetti di disturbo anche se non ci
sono. La conseguenza sarà una maggior attenzione nell’analisi del
metodo di misura, tuttavia tale analisi deve essere sempre fatta.
Usiamo, quindi, un livello di fiducia P = 85%.
I gradi di libertà sono, quindi, uguali al numero delle classi
confrontate meno 3.
Nel caso W sia esterno, invece, l’ipotesi nulla viene rifiutata al livello di
fiducia P (cioè vi è una probabilità 1 ‐ P che non vi sia un’effettiva
differenza della distribuzione sperimentale dalla normale).
G. Barbato ‐ A. Germak ‐ G. Genta 37
CONTROLLO DELLA NORMALITÀ DI UNA DISTRIBUZIONE SPERIMENTALE
Il test del χ2
Il test del χ² è di solito bilaterale, cioè il rifiuto viene fatto sia per
valori di W troppo grandi (distribuzione sperimentale troppo diversa
dalla normale), sia per valori di W troppo piccoli (distribuzione
sperimentale troppo simile alla normale).
Quest’ultima condizione, che potrebbe sembrare auspicabile, è
molto improbabile e quindi oggetto di sospetto.
1,2
1,0
0,8
0,6
0,4
0,2
0,20
0,15
0,0 0,10
-0,2
-20 -15 -10 -5 0 5 10 15 20
Creazione della scala deformata del GPN (a destra), tramite la quale la
forma ad S della distribuzione normale cumulata viene rappresentata
da una retta.
G. Barbato ‐ A. Germak ‐ G. Genta 40
CONTROLLO DELLA NORMALITÀ DI UNA DISTRIBUZIONE SPERIMENTALE
Il Grafico di Probabilità Normale
Esempio: Tabella di dati ordinati distribuiti normalmente con la
corrispondente frequenza relativa cumulata frc.
In generale, all’i‐esimo dato si può assegnare la frequenza relativa
cumulata frc = (i ‐ 0,5)/n.
È possibile valutare a colpo d’occhio se l’andamento del GPN
ottenuto si avvicina alla forma rettilinea, oppure si discosta da essa
in modo significativo. In quest’ultimo caso, si può anche trarre
qualche informazione sulle cause di non‐normalità.
2,0
1,0
0,0
z
-1,0
-2,0
-3,0
9,296 9,298 9,300 9,302 9,304 9,306
x/mm
Gli errori accidentali portano ad irregolarità locali rispetto ad un
andamento rettilineo esatto. Si esamina, pertanto, una fascia rettilinea,
la cui larghezza corrisponde alla dimensione dei difetti localizzati.
G. Barbato ‐ A. Germak ‐ G. Genta 44
CONTROLLO DELLA NORMALITÀ DI UNA DISTRIBUZIONE SPERIMENTALE
Il Grafico di Probabilità Normale
Si può osservare che l’andamento dei dati sperimentali è
assimilabile ad una retta. In tal caso, non si può rifiutare l’ipotesi di
distribuzione normale.
Tuttavia, il giudizio se i dati si dispongano adeguatamente su un
andamento rettilineo è arbitrario, quindi non è possibile assegnare
un determinato livello di fiducia.
Il GPN ha una forma leggermente deformata rispetto all’andamento
dell’integrale della curva a campana. Se quest’ultima per
l’ipernormale è più alta al centro e più bassa agli estremi della
curva della normale, la sua curva integrale avrà una pendenza
maggiore al centro e minore agli estremi.
Dal punto di vista sperimentale, tale condizione può essere legata ad
una forma di “filtraggio” che ha eliminato in modo preferenziale i
dati più discosti dal valore medio.
4,0
3,0
2,0
1,0
0,0
z
-1,0
-2,0
-3,0
-4,0
9,296 9,298 9,300 9,302 9,304 9,306
x/mm
• In ambito metrologico, la distribuzione ipernormale corrisponde
ad una riduzione del numero dei dati più lontani dal valore
medio, e ciò accade, in generale, perché l’operatore tende a
escludere sulla base del giudizio personale i dati più discosti dal
valore che egli attende. Tale pratica deve essere scoraggiata,
perché falsa la distribuzione dei risultati.
• Nel caso dei risultati di una produzione, l’ipernormale indica che
la parte di produzione esaminata è già stata sottoposta ad un
processo di selezione.
Tale condizione può essere dovuta genericamente a una sottrazione
dei dati più vicini al valore medio. Nel settore della produzione, ciò
potrebbe essere dovuto ad una selezione che sposta alcuni dei
prodotti migliori in una classe commercialmente più redditizia.
La condizione di iponormalità può anche essere dovuta ad altri due
fattori, tipici del campo metrologico, ma che possono essere
presenti anche nel settore della produzione.
Si considerino, ad esempio, misure di durezza in presenza di due
strutture metallurgiche di durezza sensibilmente differente e di
dimensioni prossime a quelle dell’impronta, oppure misure
dimensionali in presenza di giochi nel sistema di misura che
spostano la condizione di misura in due posizioni preferenziali
discoste.
In tali situazioni, la distribuzione presenta due massimi di frequenza
relativa distinti, quindi due mode, per cui viene detta bimodale.
Se ciò avviene per un tempo sufficientemente lungo, la distribuzione
globale, corrispondente alla convoluzione delle diverse normali
successive, è nettamente appiattita nella sua parte centrale.
3,0
2,0
1,0
0,0
z
-1,0
-2,0
-3,0
9,294 9,296 9,298 9,300 9,302 9,304 9,306
x/mm
3,0
2,0
1,0
0,0
z
-1,0
-2,0
-3,0
8,000 8,002 8,004 8,006 8,008 8,010 8,012
x/mm
Infatti, la risposta del test del χ2 può essere:
• una dichiarazione di incapacità: “Il test non è in grado di
evidenziare discrepanze significative dalla normale”, oppure,
“Non vi sono ragioni per rifiutare l’ipotesi di distribuzione
normale”;
• un rifiuto dell’ipotesi: “Si rifiuta, con il rischio d’errore assunto,
l’ipotesi di distribuzione normale”.
La risposta, invece, non può mai essere: “La distribuzione esaminata
è normale”.
Quando i test di normalità evidenziano la presenza di fattori
sistematici, si deve iniziare l’indagine per identificarli; il GPN, con il
suo andamento, permette di connotare il fattore “colpevole”.
Infatti ad una forma iponormale, come quella riscontrata nel caso
studio, potrebbe essere associata una deriva o una condizione
bimodale.
Se si può identificare una funzione tra i valori misurati xi ed il tempo
t, la deriva è confermata.