Sei sulla pagina 1di 51

Elaborazione statistica dei dati di

misura: definizioni e parametri

A.A. 2015/2016
Elaborazione statistica dei dati di misura
Indice
• Perchè si usa la statistica nella metrologia?
• Definizioni
• Statistica Inferenziale
• Esempio
– Raggruppamento dei dati
– Come si determinano le classi?
– Ampiezza delle classi
– Tabella classi
– Frequenze
– Tabella di distribuzione di frequenza
– Rappresentazioni grafiche
• Parametri caratteristici di una distribuzione statistica
– Parametri di posizione (media, mediana, moda)
– Parametri di dispersione
– Parametri di forma
Perchè di usa la statistica nella metrologia?
Prelievo dati

- Letture da voltmetro da tarare e voltmetro campione; Le misure di una stessa


- Valutazione dell’incertezza assoluta; grandezza non sono tutte
uguali!!!

NON SI POSSONO
EFFETTUARE UN
NUMERO INFINITO DI
RILEVAZIONI
Perchè di usa la statistica nella
metrologia?

La statistica si può semplicemente definire come lo studio


scientifico dei dati.
Perchè di usa la statistica nella metrologia?

Le operazioni di misura producono come risultato una


nuvola di valori

valore da assegnare
al misurando
analisi dei risultati
sperimentali con
metodi statistici
incertezza
Perchè di usa la statistica nella metrologia?

La Metrologia e la Statistica
producono profitto

riducono perdite e scarti attraverso l’analisi delle


derive delle serie di rilievi di routine;

consentono azioni di miglioramento continuo del


prodotto e del processo attraverso analisi statistiche di
serie di misure mirate.
Definizioni

• Una popolazione è l’insieme degli elementi che si prendono in


considerazione.
• Un campione è la porzione della popolazione che si seleziona per
l’analisi.

• Un parametro è una misura di sintesi che


descrive una caratteristica della intera
popolazione.
• Una statistica è una misura di sintesi che si
calcola per descrivere una caratteristica
soltanto sulla base di un campione della
popolazione.
Statistica Inferenziale

Ottenere informazioni da una popolazione come


quella che include per esempio tutte le possibili
misure di tensione effettuate da un voltmetro, può
risultare troppo costoso e complicato, in certi casi
materialmente impossibile.

Abbiamo bisogno di un campione


e di un modo per relazionare le
informazioni ricavate dal
campione con la popolazione.
Statistica Inferenziale

Tutti noi facciamo inferenza, perchè allora


abbiamo bisogno della statistica inferenziale?

Predico
pioggia
La differenza tra un indovino per oggi !
e uno statistico è il livello di
significatività

(indica la probabilità di
sbagliare l’inferenza)
Statistica Inferenziale
Vx=5V
N
Esempio 1
Vc (volt)
4,89
Ea (volt)
-0,11

Prelievo dati 2 4,66 -0,34


3 4,86 -0,14
4 4,71 -0,29

- Letture da voltmetro da tarare e voltmetro campione; 5 4,80 -0,20


6 4,65 -0,35
- Valutazione dell’incertezza assoluta;
7 4,78 -0,22
8 4,71 -0,29
9 4,74 -0,26
10 4,69 -0,31
11 4,71 -0,29
12 4,70 -0,30
13 4,87 -0,13
14 4,72 -0,28
15 4,63 -0,37
16 4,71 -0,29
17 4,73 -0,27
18 4,73 -0,27
19 4,64 -0,36
20 4,74 -0,26
21 4,64 -0,36
22 4,73 -0,27
23 4,86 -0,14
. . .
. . .
50 4.78 -0.22
Raggruppamento dei dati

Ordiniamo i dati dal valore più piccolo a quello più


grande e disponiamoli su un asse

- 0.37 V - 0.05 V
E min E max

In questo modo abbiamo un’idea dell’escursione dei


dati, del valore minimo e del valore massimo, ma non
possiamo ricavare altro tipo di informazioni, come
per esempio sulla variabilità dei dati.
Raggruppamento dei dati

Per studiare i dati, questi sono possono essere raggruppati in


opportuni sottoinsiemi, chiamati classi

Tabella classi
Classi Range
1 ] -inf, -0,370]
2 ]-0.370, -0,324]
3 ] -0,324, -0,278 ]
4 ] -0,278, -0,232 ]
5 ] -0,232, -0,186 ]
6 ] -0,186, -0,140 ]
7 ] -0,140, -0,094 ]
8 ] -0,094 , -0.048 ]
9 ] -0.048, +inf [
Come si determinano le classi?

Il modo di scegliere le classi non è unico,


in ogni caso, comunque, le classi non
devono sovrapporsi e devono contenere
tutti i dati.

Per dati continui è necessario specificare se le classi sono chiuse a


destra e/o a sinistra, ossia se i dati coincidenti con gli estremi della
classe devono essere raggruppati nella classe stessa o in una delle
classi adiacenti.
Come si determinano le classi?

Una regola per determinare il


numero di classi, consiste
nell'applicare la formula di Sturges:

N c = 1+ 3.3 log10 n

dove n rappresenta il numero dei dati presi in considerazione e


Nc il numero delle classi da usare. Il risultato viene approssimato
per eccesso ad un intero.

Ad esempio, nel nostro caso, per n=50, Nc=7.


Ampiezza delle classi

L'ampiezza delle classi (nel caso di classi di uguale


ampiezza) può essere determinata applicando la
formula

y max − y min ymax è il massimo degli elementi del campione


∆= ymin è il minimo degli elementi del campione
Nc

Per il nostro campione di misure di tensione Ea [V]

0,37 − 0,05
N c = 1 + 3.3 log10 50 ≅ 7 ∆= = 0,046 V
7
Tabella classi
Si contano il numero di elementi che ricadono in ciascuna classe,
numero che rappresenta la frequenza assoluta della classe.

Si costruisce poi la tabella di distribuzione di frequenza, ossia una


tabella che raccoglie i dati secondo le classi e le corrispondenti
frequenze.
Tabella classi
Classi Range Fr assoluta
1 ] -inf, -0,370] 0
2 ]-0.370, -0,324] 8
3 ] -0,324, -0,278 ] 12
4 ] -0,278, -0,232 ] 9
5 ] -0,232, -0,186 ] 9
6 ] -0,186, -0,140 ] 6
7 ] -0,140, -0,094 ] 4
8 ] -0,094 , -0.048 ] 2
9 ] -0.048, +inf [ 0
Frequenze
Si possono definire :
• la frequenza assoluta, detta anche semplicemente frequenza di
classe, ossia il numero di osservazioni che cadono in ciascuna
classe; è un numero intero compreso tra 0 e il numero totale di osservazioni

• la frequenza relativa, ossia il rapporto tra frequenza assoluta (o


cumulata) e numero totale di osservazioni;
è un numero reale compreso tra 0 e 1

• la frequenza percentuale, ossia la frequenza relativa moltiplicata


per 100; è un numero reale compreso tra 0 e 100

• La frequenza cumulata, ossia Frequenza assoluta della classe +


Frequenza assoluta della classe precedente.
Si possono cumulare frequenze assolute, relative e percentuali
Tabella di distribuzione di frequenza

Tabella classi Vx=5V ∆ =0,046 V

Classi Range Fr assoluta Fr cumulata Fr relativa %


1 ] -inf, -0,370] 0 0 0
2 ]-0.370, -0,324] 8 8 16
3 ] -0,324, -0,278 ] 12 20 40
4 ] -0,278, -0,232 ] 9 29 58
5 ] -0,232, -0,186 ] 9 38 76
6 ] -0,186, -0,140 ] 6 44 88
7 ] -0,140, -0,094 ] 4 48 96
8 ] -0,094 , -0.048 ] 2 50 100
9 ] -0.048, +inf [ 0 50 100

si aggiungono agli estremi delle classi altre 2 classi di


ampiezza Δ e a frequenza assoluta nulla per poter
successivamente ricavare la poligonale nelle slides
seguenti.
Rappresentazioni grafiche

Partendo dalla tabella si può ricavare un istogramma, un insieme di


rettangoli adiacenti, aventi base sull’asse orizzontale; le basi sono gli
intervalli che definiscono le classi.
Se le classi hanno tutte la stessa ampiezza le altezze dei rettangoli
sono uguali, o proporzionali, alle corrispondenti frequenze assolute
(oppure relative o percentuali).

Andamento delle frequenze assolute Ci aiuta a capire


14
immediatamente quali sono
Frequenze assolute

i valori che ricorrono più


12
10
8
6
frequentemente (terza
4 classe) e qual è l'intervallo
di variazione della variabile
2
0
1 2 3 4 5 6 7 8 9
analizzata
Classi
Rappresentazioni grafiche

In figura è mostrato in blu anche il poligono di frequenza


ottenuto unendo fra loro i punti aventi come ascissa il
valore centrale di ogni classe e come ordinata il
corrispondente valore della frequenza.

Andamento delle frequenze assolute


14
Frequenze assolute

12
10
8
6
4
2
0
1 2 3 4 5 6 7 8 9

Classi
Rappresentazioni grafiche

Una distribuzione con un solo picco, nella quale cioè esiste un solo
valore, o più valori molto vicini, che hanno una frequenza
superiore a tutti gli altri valori che assume la variabile, è detta
unimodale. Ovviamente sono possibili anche distribuzioni
bimodali, o multimodali, se i picchi sono due o più di due.
Rappresentazioni grafiche
Una distribuzione cumulativa viene rappresentata con un grafico
detto poligono cumulativo o ogiva; il grafico si ottiene
riportando sulle ascisse i limiti superiori delle classi e, per
ciascuno di essi, in ordinata la frequenza cumulata percentuale
della corrispondente classe, e unendo poi tra loro i punti
ottenuti.
Parametri caratteristici di una distribuzione statistica

• Consentono il passaggio da una pluralità di informazioni ad


un’unica misura numerica;

• Sintetizzano l’intera distribuzione in un singolo


valore, consentendo così confronti nel tempo, nello spazio o tra
circostanze differenti;
• In alcuni casi, consentono di verificare se le conseguenze di una
determinata azione abbiano prodotto il risultato desiderato, in
quale direzione e con quale intensità.

PARAMETRI STATISTICI
Parametri caratteristici di una distribuzione statistica

Esistono tre diversi tipi di parametri:

• quelli che tendono a “localizzare” la


distribuzione, parametri di posizione

• quelli che tendono a misurare la “variabilità” o


“dispersione” di una distribuzione, parametri di
dispersione;

• quelli che tendono a individuare la “forma” della


distribuzione, parametri di forma.
Parametri caratteristici di una distribuzione statistica

PARAMETRI
Parametri di posizione

I parametri di posizione cercano di identificare il valore "tipico" di


una distribuzione, ovvero la posizione, nella scala della variabile
analizzata, intorno alla quale si concentrano le osservazioni.

PARAMETRI
Media

Il parametro di posizione più noto ed utilizzato per descrivere un


campione è la media aritmetica.

La media di un campione, si ottiene semplicemente sommando tutti i


valori osservati e dividendo questa somma per il numero totale di
osservazioni: n
1
y = ∑ yi
n i =1
La media della popolazione μ è data da:
N
1
µ=
N
∑y
i =1
i
Media

Risente molto dei valori estremi, (se un singolo valore del


campione è per esempio molto più grande di tutti gli altri, la
media non identifica un valore tipico del campione).
Mediana
La mediana è il valore che divide un campione di dati ordinati in
due parti ugualmente numerose. Metà dei valori nel campione
sono più piccoli della mediana, e metà sono più grandi.

E’ possibile ricavare graficamente la


mediana dalla curva di distribuzione
cumulata percentuale

n yi: estremo inferiore dell’intervallo


− Fi −1
M e = yi + 2 ( y s − yi ) ys: estremo superiore dell’intervallo
Fi − Fi −1 Fi: frequenza cumulata fino all’intervallo
considerato

Fi-1: frequenza cumulata fino all’intervallo


precedente a quello considerato
Mediana

La mediana è preferibile alla media quando si vogliono eliminare gli


effetti di valori estremi molto diversi dagli altri dati: la ragione è che
la mediana non utilizza tutti i dati, ma solo il dato centrale o i due
dati centrali.

L'utilizzare solo i dati centrali rende la mediana poco sensibile a


tutti gli altri valori dei dati.
Moda

La moda è semplicemente il
valore osservato più spesso nel
campione.

Si chiama bi-modale o multimodale una distribuzione nel caso


rispettivamente di due o più picchi con caratteristiche simili.
Queste distribuzioni contengono due valori più frequenti di quelli
che li circondano, anche se i due picchi non hanno esattamente la
stessa altezza.

la moda di una popolazione è il valore della variabile con la


maggior probabilità di essere osservata.
Limiti dei parametri di posizione

Non forniscono alcuna informazione sulla distribuzione dei


dati

Gli stessi parametri di posizione possono avere


distribuzioni assai diverse
Parametri di dispersione

Un parametro di dispersione sintetizza il grado di variabilità dei


dati.
In una serie di dati, la dispersione è molto alta quando si
osservano anche valori molto distanti tra loro. La dispersione è
bassa quando la gran parte dei valori si concentrano intorno ad
un valore tipico.

RANGE
DIFFERENZA INTERQUARTILE
PARAMETRI VARIANZA
DEVIAZIONE STANDARD
COEFFICIENTE DI VARIAZIONE
Range

Rappresenta una descrizione molto rozza della dispersione dei


dati, visto che si basa solamente sui due valori estremi (ed è
quindi altamente influenzata da questi) e non considera
assolutamente quale sia le distribuzione di frequenza dei dati
tra essi.
Differenza Interquartile

I quartili separano l’insieme dei dati ordinati in 4 gruppi, ciascuno


contenente il 25% delle osservazioni:

il primo quartile, Q1, è il valore che separa il primo 25% delle


osservazioni ordinate dal restante 75%,

il secondo è la mediana,

il terzo quartile, Q3, è il valore che separa il primo 75% delle


osservazioni dal restante 25%.
Differenza Interquartile
La distanza interquartile è data dalla differenza Q3-Q1, e identifica
quindi l’intervallo centrale della distribuzione di frequenza
all’interno del quale cade il 50% delle osservazioni.

Non risente di eventuali valori estremi molto diversi dalla gran parte
degli altri.

Poiché tra Q1e Q3 si trova il 50 % centrale della


distribuzione, se la loro differenza è piccola la
variabilità è contenuta; se la differenza è ampia la
variabilità è elevata.
Varianza

La varianza di una variabile Y in un campione, detta anche varianza


campionaria, si indica con il simbolo s2 e si calcola come:

n
s =
2 1
∑ ( yi − y )2
dove ӯ è la media.
n − 1 i =1

Il valore della varianza della popolazione, σ2, si calcola come:

∑ (y − µ)
1
σ =
2
i
2

N i =1
Varianza

n
1
∑ ( yi − y )
N

∑ (y − µ)
1
s =
2 2
σ =
2 2
Vs
N i =1
i
n − 1 i =1

Non è possibile ottenere una stima della variabilità quando il


campione è costituito da una sola osservazione !

Utilizzando però l’espressione con il termine n a denominatore, la


varianza campionaria s2 risulterebbe comunque calcolabile e
porterebbe ad una varianza stimata uguale a 0.

Con n-1, il calcolo di s2 indica, correttamente, che la varianza non è


stimabile (s2 = 1/0).
Deviazione Standard

L'unità di misura della varianza è l'unità di misura della variabile


elevata al quadrato.

Facendo la radice quadrata della varianza, otteniamo un parametro


di dispersione con la stessa unità di misura della variabile analizzata
e della media.

La radice quadrata della varianza s2 si chiama deviazione standard:

s= s 2
Media e Deviazione Standard
Coefficiente di variazione

Il coefficiente di variazione CV è definito da:

s s è la deviazione
CV % = ⋅100 standard
y ӯ è la media

Ci permette di misurare la variabilità indipendentemente dalla


grandezza e dalla scala di misura delle osservazioni
Parametri di forma

PARAMETRI
Asimmetria

Le distribuzioni di frequenza possono assumere più forme


diverse, e fra queste le più importanti sono quelle che assumono
una forma a campana. In questo caso la distribuzione dei dati è
simmetrica rispetto a una linea verticale; i dati di questo tipo si
dicono normali.

Se la distribuzione dei dati non è perfettamente simmetrica, i dati


si dicono approssimativamente normali.
Asimmetria
Una distribuzione asimmetrica, detta anche obliqua, può avere una
“coda” a destra e viene detta distribuzione obliqua a destra o con
asimmetria positiva; se invece la coda è a sinistra, si dice che la
distribuzione è obliqua a sinistra o con asimmetria negativa.
Asimmetria

n
L’asimmetria si misura con l’indice A:
∑ i
( y − y ) 3

A= i =1
nσ 3
Un indice approssimato di immediata determinazione è

3( y − M e )
A' =
σ
Se:
A < 0: distribuzione asimmetrica a sinistra
A > 0: distribuzione asimmetrica a destra
A = 0: distribuzione simmetrica
Relazione tra media, moda e mediana e asimmetria
Curtosi

CURTOSI : misura il grado di appiattimento di una distribuzione


Una distribuzione può esser più o meno appuntita o più o meno
appiattita rispetto alla distribuzione normale. Se è più appuntita si
dice leptocurtica (ipernormale), più appiattita si dice platicurtica
(iponormale)
n

∑ i
( y − y ) 4
Tale indice di forma può essere
CURTOSI = i =1 maggiore, minore o uguale a 3
nσ 4
Ricapitolando...

PARAMETRI
Esempio

Parametri della distribuzione


Vx=5V
Media [V] -0.24
Deviazione standard [V] 0.08
Mediana [V] -0.26
Moda [V] -0.29
Curtosi 2.28
Asimmetria 0.43
Minimo [V] -0.37
Massimo [V] -0.05
Range [V] 0.32
Conteggio 50
1° Quartile [V] -0.29
3° Quartile [V] -0.19
Differenza interquartile [V] 0.11
Coefficiente di dispersione 34.28

Potrebbero piacerti anche