Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
3 ‐ Oltre il determinismo:
cenni di statistica
Statistica Sperimentale e Misure
Meccaniche
Abbiamo visto, con il calcolo delle probabilità, come sia possibile che con
il lancio di due dadi a se facce si ottenga la somma 8. Ma se andiamo a
giocare a dadi ci interessa non solo la probabilità di una certa situazione,
ma soprattutto il panorama completo per capire su che evento conviene
puntare. Quindi vogliamo vedere le probabilità di tutti gli eventi che ci
possono interessare. Nel caso del lancio di due dadi:
A parte la moda, la cui definizione è evidente, vediamo
come sono definite la media e la mediana.
ove N è il numero dei valori xsi distinti assunti dalla variabile aleatoria
X.
Nel caso, invece, di distribuzioni continue, detta f(x) la funzione di
densità di probabilità, si ha:
E X x f x dx
i 1 j 1
P xsi , y sj P xsi P y sj
si dimostra che:
i 1 j 1 i 1 j 1
Indice di posizione di alcune semplici distribuzioni
Lancio di un dado a sei facce: distribuzione discreta di tipo uniforme (i
risultati possibili della variabile X sono rappresentati dai soli valori interi
tra 1 e 6, tutti equiprobabili).
E X x jP x j 1 2 3 4 5 6
N
1 1 1 1 1 1 21 7
j 1 6 6 6 6 6 6 6 2
Verifica (probabilità totale)
Lancio di un dado a sei facce: distribuzione discreta di tipo
uniforme:
j 6 1
N
1
j 1
P x 6
Verifica (densità di probabilità)
E X x jP x j 2
N
1 2 3 4 5
3 4 5 6
j 1 36 36 36 36 36
6 5 4 3 2 1 252
7 8 9 10 11 12 7
36 36 36 36 36 36 36
quindi la stima dell’indice di posizione approssimato m
è proprio la media aritmetica.
n xj n E x j n
E (m) E ( )
j 1 n j 1 n j 1 n
Nota. Uno stimatore si dice corretto quando il suo valore atteso è
uguale al valore da stimare. In questo caso si deve mostrare che
E(m)=µ.
G. Barbato ‐ A. Germak ‐ G. Genta 29
INDICE DI POSIZIONE
Un’altra proprietà importante è che la somma degli
scarti dalla media è identicamente nulla:
x m x j nm x j n
n n n n xj n n
j xj xj 0
j 1 j 1 j 1 j 1 n j 1 j 1
La mediana è 8.0053.
Nel caso del seguente gruppo di dati:
Dati 8,0040 8,0038 8,0073 8,0060 8,0092 8,0052
Dati ordinati 8,0038 8,0040 8,0052 8,0060 8,0073 8,0092
La mediana è 8.0056.
Perché?
Nota. Nella norma di Chebyshev, la distanza tra due gruppi di punti o tra due
linee è la distanza massima definita da una qualsiasi coppia di punti o la
separazione tra due linee ove sono più distanti. L’approssimazione di
Chebyshev minimizza tale distanza massima tra I dati e la funzione
approssimante, perciò è spesso chiamata approssimazione minimax, usata, ad
esempio per valutare il massimo materiale nelle tolleranze.
G. Barbato ‐ A. Germak ‐ G. Genta 38
INDICE DI DISPERSIONE
La dispersione si può considerare collegata alla
differenza dal valore medio, ma bisogna fare in modo
che le differenze con segno positivo o con segno
negativo portino entrambe un contributo additivo
all’indice di dispersione che si intende costruire.
Le due vie evidenti sono di considerare il valore
assoluto o il quadrato delle differenze dal valore medio.
La prima via fa riferimento, come detto, alla norma di
Chebyshev, molto usata per le condizioni di tolleranza
al massimo materiale o al minimo materiale.
E X
2 2
i 1 i 1 n j 1 n
Per le distribuzioni continue, definite da una funzione
di densità di probabilità f(x), si ha:
2 E X 2 x 2
f x dx
x mx
2
i
1 s
scorr i 1
c4 n 1 c4
ove il valore di c4 è dato da:
2 n 2
c4
n 1 n 1 2
essendo:
x e x 1d
0
q
q j 1
Dato che la varianza della somma degli Xi è uguale alla somma
delle varianze degli Xi, tutte uguali a σ2, si ottiene:
1 q
1 2
2
2
m
q
i 1
2 q
2
q
2
q
G. Barbato ‐ A. Germak ‐ G. Genta 48
INDICE DI DISPERSIONE
Anche per la riduzione della variabilità con il passaggio alla
media di q dati, possiamo fare una presentazione
ingegneristica:
A B
X
XX XX
XXXX
XXX XX
XX X
XXXXX
XXX
X
XXX
X
x
x j m m
n n
2 2
j
j 1 j 1
Sviluppando il quadrato e separando le sommatorie si
evidenzia la somma degli scarti da m che, abbiamo visto, è
nulla:
x j m 2x j m m m
n
2 2
j 1
x m
n n
j
2
2 m xj m n m 2
j 1 j 1
G. Barbato ‐ A. Germak ‐ G. Genta 51
INDICE DI DISPERSIONE
Azzerata la somma degli scarti, resta:
x x j m n m
n n
2 2 2
j
j 1 j 1
n 2 n 2
E x j E x j m E n m
2
j 1 j 1
Tenendo conto che il valore atteso della somma è uguale alla
somma dei valori attesi si ha:
n 2
n
E x j
2
E j x m nE m 2
j 1 j 1
G. Barbato ‐ A. Germak ‐ G. Genta 52
INDICE DI DISPERSIONE
Quest’ultima formula:
n 2
E x j E x j m nE m
n
2 2
j 1 j 1
Può essere facilmente trasformata:
2
n E x j m n m2
n
2
j 1
n
E x j m n 2 n
2
2 n 1
2
j 1 n
n x j m 2
E
2
j 1 n 1
G. Barbato ‐ A. Germak ‐ G. Genta 53
INDICE DI DISPERSIONE
in conclusione:
s2
n x j m
2
j 1 n 1
n
2
E s E
x m
2 j
2
j 1 n 1
I dati contengono due evidenti outlier, segnalati in grassetto
Si deve, però, osservare che i parametri della statistica robusta sono
del tutto convenzionali e non tratti da deduzioni matematiche e che
l’applicazione della statistica robusta può essere più complessa.
G. Barbato ‐ A. Germak ‐ G. Genta 60
MEDIANA E IQR
Una presentazione dei dati secondo la statistica robusta detta box
plot, è molto utile. Infatti consente immediatamente di trarre
l’informazione robusta su posizione e su variabilità dalla mediana e
dalla distanza interquartile (IQR). I dati sono presentati con
l’indicazione della mediana, una zona rettangolare (Box) definisce le
posizioni di Q1 e Q3 e quindi la distanza interquartile, infine i campi
fino al massimo e fino al minimo sono indicati da linee (whiskers).
L’intervallo da Q1‐1.5∙IQR a Q3+1.5∙IQR è considerato accettabile,
perché giustificato da effetti accidentali. Se vi sono dati esterni a tale
intervallo sono evidenziati come outlier.
24.84
24.83
24.82
24.81
24.80
Data
24.79
24.78
24.77
24.76
24.75
Time_1 Time_2 Time_3
«Cosa succede se …?»
k=2 p FT 1 qqqp pq
3
4
q OK 0 q
n n!
k k! n k !
per cui la formula che descrive la distribuzione binomiale è:
.
n k n k
P n,k p q
n!
p k q n k
k k!n k !
P (k ) p k q1 k
che prende il nome di distribuzione di Bernoulli.
È utile avere una indicazione di posizione e di dispersione.
Nel caso della distribuzione di Bernoulli, si ottiene per la media:
1 1
kP k kp k q1 k 0 q 1 p p
k 0 k 0
e per la varianza:
1 1
k P k k p k q1 k 0 p q 1 p p p 2 q q 2 p pq p q pq
2 2 2 2 2
k 0 k 0
Diagramma ad albero per l’estrazione senza reimmissione nel caso di
un lotto di M pezzi di cui C difettosi; numero di estrazioni n=3.
G. Barbato ‐ A. Germak ‐ G. Genta 82
LE DISTRIBUZIONI STATISTICHE
La distribuzione ipergeometrica
P 0
M C M C 1M C 2 P 1 3
M C M C 1C
M M 1M 2 M M 1M 2
P 2 3
M C C C 1
P 3
C C 1C 2
M M 1M 2 M M 1M 2
Tali formule possono essere generalizzate:
C M C
k n k
In forma più compatta: P k
M
n
A titolo informativo, i valori della media e della varianza:
C C M C M n
n n
2
M M 2 M 1
G. Barbato ‐ A. Germak ‐ G. Genta 84
LE DISTRIBUZIONI STATISTICHE
La distribuzione ipergeometrica
Esempio: probabilità di estrarre due pezzi fuori tolleranza (ot) su
n=3 estrazioni da un lotto di M=50 pezzi di cui C=4 fuori
tolleranza.
P1 E1 P2 E2 P3 E3 of the path
n k nk k e
P k p q
n! k nk
p q
k k! n k ! k!
Nel caso dei dati sperimentali, si pone gran cura a evitare gli
errori sistematici e quelli accidentali di grande entità (incidenti
di misura), quindi rimangono gli errori accidentali di piccola
entità. La dispersione dei risultati è allora legata all’effetto
congiunto di numerose piccole cause aleatorie, quindi, come
indicato dal teorema del limite centrale, i fenomeni in tale
condizione potranno essere descritti dalla distribuzione normale.
2
1 x
f x
1 2
e
2
x 29 25
z 1,33
3
Innanzitutto, si trova:
x 20 25
z 1, 67
3
Gosset trovò che, nel caso si potessero usare solo pochi individui
per calcolare la varianza, la distribuzione da utilizzare era diversa
dalla normale. Egli pubblicò un articolo su questa sua scoperta sotto
lo pseudonimo di Student.
0,40 Normale
6 g. d l.
0,35 3 g. d l.
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-4 -3 -2 -1 0 1 2 3 4
12 vi 22
da cui :
si2 si2 s i2
n 1
2
2
2 n 1 n 1 2
2 12 22
1 2
e quindi, per l’inferenza statistica, si ha allo stesso livello di fiducia:
si2 si2
n 1 2 n 1
22 12
x x
n n n n n
x mx 2m x xi m 2m x xi m x2
2 2 2 2
i i x i
s x2 i 1
i 1
i 1 i 1 i 1
n 1 n 1 n 1
n n N
x 2
i 2m x nm x nm 2
x x 2
i nm 2
x fa
j 1
j x 2j nm x2
i 1
i 1
n 1 n 1 n 1
G. Barbato ‐ A. Germak ‐ G. Genta 110
LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
Per confrontare la distribuzione sperimentale descritta mediante le
frequenze di classe assolute faj con una distribuzione normale che ha
valore medio µ≈m e varianza 2≈s2, si possono prendere in
considerazione le frequenze assolute teoriche ftj, ottenute
moltiplicando la probabilità Pj che nella distribuzione normale i dati
cadano all’interno della classe j‐esima per il numero di dati n:
ft j nPj
Si sfrutta, poi, l’osservazione che è possibile costruire con le frequenze
assolute teoriche e sperimentali una variabile aleatoria che ha la
distribuzione del 2 con N‐3 gradi di libertà:
W
N fa j ft j
2
j 1 ft j
G. Barbato ‐ A. Germak ‐ G. Genta 111
LE DISTRIBUZIONI STATISTICHE
La distribuzione del χ2 (di Pearson)
Se il valore di tale variabile cade all’esterno dell’intervallo di fiducia,
calcolato al livello di fiducia P per la corrispondente distribuzione di
Pearson, l’ipotesi che la distribuzione sperimentale sia normale si
può rifiutare con un rischio d’errore = 1‐P, il che porta, nella
pratica, ad iniziare una ricerca per individuare la presenza di eventuali
errori sistematici o di incidenti di misura.
x m1x
2
2 1i
s 1 1 i 1
2
12 m
F m ,n 1
n 1
x m2x
2
s 2 2
2 2j
2 1 j 1
22 n
Osservazioni
‐> test:
confrontare il risultato ottenuto con la naturale variabilità dei
rapporti tra varianze, descritta, appunto dalla distribuzione di
Fisher.
Campo d'incertez z a
0,5
0,4
0,3
P = 95%
0,2
0,0
-4 -3 -2 -1 0 1 2 3 4
Intervallo fiduciario z
Determinazione dell’intervallo fiduciario (campo d’incertezza per il
settore misure).
Pertanto, occorre sia capire cosa accade quando si possono usare solo
i valori stimati m ed s², sia approfondire il significato del livelli di
fiducia e del suo complemento ad 1, cioè il rischio d’errore.
Nel 2,5% dei casi il carico di rottura potrà essere inferiore a 9,5 kN.
rischio d’errore di prima specie,
rischio d’errore di seconda specie,
Nel caso di test statistici, data un’ipotesi, che con terminologia statistica
si dice “ipotesi nulla”, tale ipotesi può essere vera o falsa.
Ad esempio, “il risultato di misura non è affetto da errori sistematici”.
Però io pongo i confini sul livello di fiducia del 95%, cioè considero come
buono solo l’intervallo che contiene il 95% dei risultati che verificano
tale ipotesi, per cui rischio di cogliere uno dei 5% risultati che, pur
verificando l’ipotesi, sono esterni all’intervallo di fiducia.
‐> rischio d’errore di prima specie di dichiarare che il risultato è affetto
da errore sistematico anche se non è vero.
Per altro, può anche succedere che una condizione di misura del tutto
diversa, un misurando differente associato ad un errore sistematico,
produca un risultato che rientra, tuttavia, nell’intervallo di fiducia che
ho stabilito.
‐> rischio d’errore di seconda specie che tale risultato non venga
rifiutato, cioè, anche se l’ipotesi nulla risulta falsa, viene accettata per
vera.
xa z1 s xa z2 s
Si osservi che il valore s è affetto da un errore sistematico
significativo quando il numero di dati sperimentali è piccolo.