Sei sulla pagina 1di 51

Elaborazione

statistica di dati

1
CONCETTI DI BASE DI
STATISTICA ELEMENTARE

2
Taratura strumenti di misura
IPOTESI: grandezza da misurare identica da misura a
misura

Per la presenza di errori


casuali, ripetendo più volte la
misura di una stessa
grandezza, si può ottenere una
serie di valori diversi.
3
Collaudo sistemi di produzione
IPOTESI: accuratezza strumento di misura migliore della
variabilità dei manufatti

Una serie di valori di misure


casualmente diverse può essere
ottenuta anche misurando diversi
elementi, nominalmente uguali, di
una produzione industriale.
4
Esempio di serie di dati:
Lo spessore di 110 dadi estratti
dalla produzione di una macchina

5
6
7
8
Al sottoinsieme di “n” valori
estratti dall’insieme dei valori
possibili viene dato il nome di
campione;
l’intero insieme di dati “N” viene
definito popolazione (o universo).

9
CAMPIONE

1 n
media m= x =

x i
n i =
1
n
1 2
varianza s2 =

i(x -x)
n-1 i =
1

10
La media gode della proprietà
di rendere minima la somma
dei quadrati degli scarti.
Inoltre la somma algebrica
degli scarti rispetto al valore
medio è nulla.

11
La radice quadrata della
varianza s, costituisce una
stima della dispersione delle
misure intorno al valore
medio, al pari di s2, ma ha il
pregio di avere le stesse
dimensioni delle misure x.
12
I due parametri precedenti nel caso
della popolazione, o universo composto
di N elementi, si indicano con i simboli:
N
1 ∑

µ
=
xi
N i =
1
1 N
2
2
σ
=
i∑
( x i -
µ
)
N =
1

13
I dati possono essere
raggruppati in diversi modi. Una
prima forma di raggruppamento
si può osservare nella tabella.

14
15
Una forma di raggruppamento
molto più usata e significativa
è quella delle classi di
intervalli di appartenenza, che
non è necessario abbiano
tutti la stessa ampiezza.

16
Raggruppando per intervalli:
Frequenza
Valore Frequenza Frequenza Densità di
Limiti delle cumulata
centrale assoluta percentuale frequenza
classi percentuale
della
classe
fj fp j f
> di < di xj (mm) fj fp =
n
100 Δ
x ∑
nk 100 (%)
mm mm k=1
(%)
6,160 6,170 6,165 3 2,73 0,273 2,73
6,170 6,180 6,175 6 5,45 0,545 8,18
6,180 6,190 6,185 12 10,91 1,091 19,09
6,190 6,200 6,195 23 20,91 2,091 40,00
6,200 6,210 6,205 26 23,64 2,364 63,64
6,210 6,220 6,215 21 19,09 1,909 82,73
6,220 6,230 6,225 11 10,00 1,000 92,73
6,230 6,240 6,235 6 5,45 0,545 98,18
6,240 6,250 6,245 2 1,82 0,182 100,00

17
Il numero dei dati che
appartengono a una
determinata classe j si
chiama frequenza della classe
e viene indicato con fj.

18
Il raggruppamento in k classi o
sottogruppi, G1...Gj...Gk, avviene
secondo il valore, ad esempio se a è il
minimo degli xi e b il massimo:

b- a
Δ
x = xi ∈
G j
k
se a + ( j - 1) Δ
x ≤
xi < a + jΔ
x
19
Ad ogni classe Gi è associato il numero
di elementi che vi appartengono, fi .
Si definisce frequenza relativa
percentuale della classe il parametro:

fi
f p ,i =
100
n
fp,i è compreso nell'intervallo [0-100]%
20
Raggruppando per intervalli:
Frequenza
Valore Frequenza Frequenza Densità di
Limiti delle cumulata
centrale assoluta percentuale frequenza
classi percentuale
della
classe
fj fp j f
> di < di xj (mm) fj fp =
n
100 Δ
x ∑
nk 100 (%)
mm mm k=1
(%)
6,160 6,170 6,165 3 2,73 0,273 2,73
6,170 6,180 6,175 6 5,45 0,545 8,18
6,180 6,190 6,185 12 10,91 1,091 19,09
6,190 6,200 6,195 23 20,91 2,091 40,00
6,200 6,210 6,205 26 23,64 2,364 63,64
6,210 6,220 6,215 21 19,09 1,909 82,73
6,220 6,230 6,225 11 10,00 1,000 92,73
6,230 6,240 6,235 6 5,45 0,545 98,18
6,240 6,250 6,245 2 1,82 0,182 100,00

21
Rappresentazione della
DENSITA’ DI
PROBABILITA’

22
Nell’esempio precedente per ognuna
delle classi Gi è possibile definire la
probabilità pi che una misura qualsiasi
ricada nell’intervallo della classe i-
esima vale:

fi
p i =
lim
n→

n
NOTA: il limite può andare ad infinito oppure N
nel caso di popolazioni con numero limitato di
possibili elementi 23
La densità di probabilità viene
espressa con l’andamento delle
probabilità pi in funzione delle k classi.
La rappresentazione della densità di
probabilità può essere fatta o con
l’istogramma delle frequenze o con il
poligono delle frequenze, cioè mediante
k punti discreti.

24
Per variabili discrete valgono le seguenti
relazioni:
K t

p i =
1; p s,t =

p i
i =
1 i =
s
k k
2 2
µ
=

p i x i σ
=

p i ( x i -
µ
)
i =
1 i =
1

ps,t rappresenta la probabilità cumulata delle


classi da s a t ovvero del verificarsi che :

x s ≤
x ≤
x t 25
10% = Percentuale di dati con valore
compreso in questa classe
24
Frequenza_relativa [%]

22
20
18
16
14
12
10
8
6
4
2
0
6.165 6.245
valore centrale della classe 26
Poligono delle frequenze
G1
24
22
Frequenza relativa [%]

20
18
16
14
12
10
8
6
4
2
0

6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25
x [mm] 27
Un diagramma di tipo diverso si
ottiene rappresentando le frequenze
cumulate.
In corrispondenza al limite superiore di
ogni classe si riporta la frequenza
relativa percentuale dei dati che hanno
una misura inferiore a quel limite.

28
Frequenze cumulate percentuali 100
N
90
80
∑ (f ) = 100
i =1
p i

70
60
50 k=4
40
k
30
20 ∑ (f ) = %minori
i =1
p i dati che assumono valori
di x k
10
0

6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25


limite superiore della classe mm
29
distribuzione di Gauss
Frequenza relativa
24
22
20
frequenza relativa

18
16
14
12
10
8
6
4
2
0

6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25
x (mm)
30
LE DISTRIBUZIONI
DI PROBABILITA’

31
Variabili continue

32
Nell’esempio precedente se si
considera lo spessore del dado che
quindi è una variabile continua.

Ogni valore dell’altezza è possibile e


la distribuzione di probabilità è
rappresentata da una funzione continua.

33
LA DISTRIBUZIOINE GAUSSIANA
NORMALE
E
TEOREMA DEL LIMITE CENTRALE

34
PDF (Probability Density Function) gaussiana (o normale)

x -
2
-

(
)

µ

1 2σ
2
f(x) =
e
σ


1
f (x)

σ 2π
Quanto più è
ampio sigma
tanto più è
µ
€ distribuita e
bassa la PDF
35
σ
Perché il modello gaussiano di
probabilità è sovente impiegato
nell’ingegneria?

36
Il teorema del limite centrale afferma che la
distribuzione delle medie tende ad essere
normale anche se la distribuzione di origine
non lo è.

37
Inoltre, come è evidente dall’animazione la
distribuzione della media gode delle seguenti
due proprietà:
1.  Ha la stessa media (la distribuzione non si
‘sposta’)
2.  Ha una deviazione standard minore (la
distribuzione si ‘stringe’) pari a: σ / √n

38
Esempio: distribuzione della variabile somma
probabilità di aB = aA = bB = bA = 50%
probabilità di aB + bB = 25% probabilità valore basso = 25%
probabilità di aB + bA = 25%
probabilità valore medio = 50%
probabilità di aA + bB = 25%
probabilità di aA + bA = 25% probabilità valore alto = 25%

Distribuzione di ‘a’

Distribuzione di ‘a+b’
aB aA

Distribuzione di ‘b’

bB bA
39
Il teorema limite centrale afferma che la
distribuzione gaussiana permette di
descrivere in maniera soddisfacente tutti
quei fenomeni fisici caratterizzati dalla
sovrapposizione di un elevato numero di
effetti deboli indipendenti aventi loro
natura statistica a media nulla.

40
Conseguenza di tale teorema è che nel caso in cui si
abbia un fenomeno dato dalla sovrapposizione di
numerosi effetti, nonostante singolarmente siano dotati
di distribuzione non gaussiana, il fenomeno
complessivo sarà normalmente distribuito, purché essi
siano indipendenti e nessuno degli effetti sia prevalente

Dal momento che i fenomeni del mondo reale sono


spesso il risultato del contributo di molti eventi casuali
non osservabili, questo teorema fornisce una
spiegazione per la prevalenza ‘in natura’ della
distribuzione di probabilità normale.

41
42
s( x)
s( x ) =
n
E QUINDI MIGLIORA L’ACCURATEZZA !!!
… per questo motivo è sempre opportuno
ripetere più volte una misura e prendere come
migliore stima il valore medio !!!
43


DISTRIBUZIONE CUMULATA
E
DISTRIBUZIONE NORMALE STANDARD

44
Distribuzione normale standard
2
z
x - µ
1 -

2
z= ⇒
f(z) =
e
σ
σ
2 π

0.4

Il valor σ f (z)
0.3

medio è
0.2
nullo e la
varianza è 0.1

pari ad 1
-5 0 5 45
Frequenze cumulate

F(z) = p(zi ≤ z) 0.4

0.3

0.2

1 0.1
F (z)

0.9
0
0.8 -5 0 5

0.7

0.6 Grafico delle


0.5
Frequenze cumulate
0.4

0.3 Il valor medio è in


0.2 corrispondenza del
0.1
50% di probabilità
0
-3 -2 -1 0 1 2
z 3 cumulata 46
Utilità della funzione cumulata:
1

F(z2) 0.9

0.8

0.7

F(z) = p(zi ≤ z) 0.6

0.5

0.4

0.3

F(z1) 0.2

0.1

0
-3 -2 -1 0 1 2
z 3

z1 z2
p(zi ∈[z1,z2]) = p(zi < z2) - p(zi < z1)

p(zi ∈[z1,z2]) = F(z2) - F(z1) 47


Nota sulla relazione di prima:

Si può dire in due modi diversi lo stesso concetto:


- la probabilità che il valore appartenga
all’intervallo è pari alla probabilità che sia inferiore
all’estremo superiore e superiore all’estremo
inferiore
- la probabilità che il valore appartenga
all’intervallo è pari alla probabilità che sia inferiore
all’estremo superiore ma non inferiore all’estremo
inferiore

p(zi ∈[z1,z2]) = p(zi < z2) - p(zi < z1) 48


1

0.9
p(zi >z)
p(zi ∈[z1,z2]) = F(z2) - F(z1) 0.8

0.7

Usando la 0.6
variabile non 0.5
normalizzata 0.4

0.3 p(zi<z) = F(z)


p(xi ∈[µ-σ, µ+σ]) = F(µ+σ) - 0.2

F(µ-σ) = F(z=1) - F(z=-1) 0.1


z
0
-3 -2 -1 0 1 2 3
0.4

0.3

p( x -
µ
<
σ
) =
0.680 0.2

p( x -
µ
<

) =
0.950 0.1

p( x -
µ
<

) =
0.997 z
49
-5 5
1

Oppure, ad esempio: 0.9


p(zi >z)
0.8
p( z i < z ) + p( z i > z ) = 1 ⇒
0.7
p( z i < z ) = 1 − p( z i > z ) 0.6

p( z i > z ) = 1 − p( z i < z ) 0.5

0.4

0.3 p(zi<z) = F(z)


0.2

€ 0.1
z
F ( z ) = p( z i < z ) ⇒ 0
-3 -2 -1 0 1 2 3
0.4
F ( z ) = 1 − p( z i > z ) ⇒
p( z i > z ) = 1 − F ( z ) 0.3

La
distribuzione 0.2
normale è
€ simmetrica:
0.1

p( z i > z ) = 2 * p( z i > z ) = 2 * (1 − F ( z )) z
-5 50
5
Esempio:
- supponiamo di ottenere una misura di temperatura
pari a 20.3 °C
- al fine di associare l’intervallo di confidenza alla
misura ottenuta si opera come segue:
- 1: si effettuano un numero N, limitato, di ripetizioni
(circa 20 ad esempio)
- 2: si calcola da tale campione statistico media Tm
e deviazione standard Sm
- 3: il risultato sarà pari a Tm ± 2Sm/√N (95% lc)

NOTA: tale risultato vale anche se il fenomeno


aleatorio associato alla misura non è gaussiano

51