Sei sulla pagina 1di 52

TRATTAMENTO DEI DATI ANALITICI

I compiti del chimico analista vanno oltre la


corretta esecuzione di una metodica analitica.
Sono altrettanto importanti i passi successivi:

• Registrazione accurata dei dati sperimentali e corretta


esecuzione dei calcoli

•Scelta del valore migliore qualora la stessa determinazione sia


stata eseguita piu’ volte

•Valutazione dei risultati ottenuti e calcolo dei limiti probabili


dell’errore che poi vanno indicati insieme al risultato

•Elaborazione di una strategia per controllare le fonti di errore e


migliorare così la qualità delle prestazioni analitiche
COSA VUOL DIRE FARE
STATISTICA

Quando si fanno affermazioni del tipo:


• il profitto di questa classe è in media
sufficiente;
• quest’anno sono di moda le vacanze di
tipo agrituristico

si fanno affermazioni di tipo statistico.


STATISTICA
La statistica si occupa della
-raccolta
-classificazione
-analisi dei dati
che esprimono aspetti di fenomeni collettivi scelti
come oggetto di studio e che si manifestano negli
elementi di un determinato insieme.
Scopo della statistica è quello di descrivere questi
fenomeni o di individuare regolarità di
comportamento in essi.
Indagine statistica

Raccolta dei dati

Spoglio e
trascrizione dei dati

Elaborazione dei
dati
La media aritmetica
La media aritmetica semplice M di n valori è
il rapporto fra la loro somma e il loro numero n:

N

i=1
xi
x =
n

x1  x 2  ...  x n
M  x1 , x 2 ,..., x n  
n
Dati i seguenti valori : 5 , 8 , 5 , 6
5  8  5  6 24
M   6
4 4
La media aritmetica ponderata
Quando ciascuna modalità si presenta con una certa
frequenza o peso, è più vantaggioso calcolare la
media aritmetica considerando le frequenze (assolute
o relative): in tal caso si parla di media aritmetica
ponderata perché ogni valore entra nella media con il
suo peso, cioè la sua frequenza.
La media aritmetica ponderata M di n valori è:

x1  n1  x 2  n 2  ...  x n  n n
M  x1 , x 2 ,..., x n  
n
dove n  n1  n 2  ...  n n
Indici statistici di
variabilità
• Campo di variazione o range R
• Varianza
• Scarto quadratico medio
• ….

Permettono di valutare le disuguaglianze


dei dati rilevati in relazione al loro
scostamento o dispersione da una media.
Campo di variazione o range R di
un insieme di valori osservati è la
differenza fra il valore massimo e il
valore minimo:

R= x max -x min
La varianza
La varianza è la media aritmetica degli scarti
dalla media al quadrato, 2 (sigma quadrato).

 2

 x1  M    x2  M 
2 2
 ...   xn  M 
2

n
2 2 2 2
Es. 1 allievo : 
2

3  6  4  6   5  6   9  6   2
8
5

1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA Varianza

Allievo 1 3 4 5 9 9 6 8
Allievo 2 6 6 6 6 6 6 0
Allievo 3 2 4 7 8 9 6 8,5
Scarto quadratico medio
Lo scarto quadratico medio  o deviazione
standard è la radice quadrata (positiva) della
varianza.

  2 
 x1  M 2   x2  M 2  ...   xn  M 2
n

sqm o
1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA Varianza Deviazione
standard
Allievo 1 3 4 5 9 9 6 8 2,83
Allievo 2 6 6 6 6 6 6 0 0,00
Allievo 3 2 4 7 8 9 6 8,5 2,92
Coefficiente di variazione
• Il coeff.di variazione è dato dal
rapporto tra deviazione standard e
media moltiplicato per 100.

• Se supera una certa percentuale %


indica una variablità eccessiva, fuori
ai parametri di normalita’.
L’errore sperimentale e la sua valutazione nelle determinazioni analitiche

Ogni misura presenta una qualche incertezza, chiamata errore sperimentale

Risultati di 6 determinazioni replicate del ferro in campioni acquosi di una


soluzione standard contenente 20,00 ppm di Fe(III).
13
GLI ERRORI NELL’ANALISI CHIMICA
Ogni analisi chimica (ogni misurazione!) è affetta da errori sperimentali.

Gli errori sperimentali si combinano tra loro in modo da rendere ogni nuova misura
più o meno diversa dalla precedente.

L’incertezza della misura sperimentale non può mai essere eliminata completamente
perciò il valore vero di una quantità è sempre sconosciuto.

Tuttavia, spesso può essere valutata l'entità probabile dell'errore.

È possibile definire i limiti entro cui il valore vero di una quantità misurata cade con
un dato livello di probabilità.

•E’ sempre indispensabile effettuare una stima dell’affidabilità dei dati sperimentali
anche se la stima dell’accuratezza dei dati sperimentali non è sempre facile

Ogni volta che collezioniamo i risultati di un’analisi è necessario


stimarne precisione ed accuratezza
Dati con precisione ed accuratezza ignote sono privi di significato
Una delle domande a cui rispondere prima di cominciare un'analisi è: "qual è il
massimo errore tollerabile nel risultato”. La risposta a questo quesito determina il
tempo richiesto per il lavoro: nessuno può permettersi di produrre dati che siano
più accurati di quanto occorra.
14

DEFINIZIONI

Sia dato un insieme di misure x1, x2,…xN.

Media:
x
i
i
x
N
Mediana: avendo ordinato le misure in ordine crescente o decrescente

N pari la mediana è la media della coppia centrale dei valori


N dispari la mediana è il valore centrale

Nel caso delle misure: 10, 10, 12, 13, 13, 13, 15, 18, 25, 26, 26, 27,
28, 28, 35

la media è 19,93 e la mediana è 18.


Media aritmetica o media x
N

di N valori x
i 1
i
sperimentali x
N
x
1 18,45  111,52 media
2 18,53 N 6
3 18,58 media 18,59
4 18,63
5 18,65 18,30 18,40 18,50 18,60 18,70

6 18,68
Precisione
La dispersione dei valori misurati
intorno al valore medio

Descrive il grado di riproducibilità delle misure ed è


una valutazione dell’ accordo dei dati ottenuti.

Grandezze utilizzate per indicare la precisione di una


serie di dati replicati :

• deviazione standard
• varianza
• coefficiente di variazione
Accuratezza
Rappresenta lo scostamento tra il valore misurato ed il
valore vero o accettato
In altri termini è una misura della bontà dell’accordo tra il
risultato, xi, o il valore medio dei risultati di un’analisi, ed il
valore vero o supposto tale, xt.
Xt= valore vero…. Risultato che possiede un certo numero di cifre significative
E’ espressa in termini di errore assoluto o errore relativo

E  xi  x t
• Errore assoluto: oppure E  x  xt

x  xt x  xt
• Errore relativo:Er  oppure Er   100
xt xt
18

TIRO AL BERSAGLIO

Precisione: bontà dell’accordo tra i risultati di misurazioni


successive.
Accuratezza: bontà dell’accordo tra il risultato, xi, o il valore medio
dei risultati di un’analisi, ed il valore vero o supposto tale, xt.


accurato  Non accurato

 ma preciso
preciso
   localizzata
Ma
casuale 
Accurato
ma
non Accurato
preciso    e
dispersi  preciso
 
Tipi di errori nei dati
sperimentali
Errore sistematico o errore determinato: è un errore ricorrente (riproducibile) che può
essere rivelato e corretto (strumentazione non tarata, errori di metodo, errore personali) e
influenza l’accuratezza dei risultati  ACCURATEZZA: indica la vicinanza della misura al
valore vero (accettato)

Errore casuale o indeterminato: deriva dall’effetto prodotto da una serie di variabili


incontrollate (e talvolta incontrollabili: variazioni temperatura e tensione elettrica, vibrazioni)
e influenza la precisione di una misura  PRECISIONE: descrive la riproducibilità
delle misurazioni

Errore grossolano: si presenta occasionalmente, è spesso elevato e fa sì che un singolo


dato si discosti da tutti gli altri dati di una serie di misure replicate
21

ERRORE SISTEMATICO

 Gli errori sistematici hanno un valore definito ed una


causa identificabile.
 Per misure replicate effettuate nello stesso modo
hanno lo stesso ordine di grandezza e generalmente
influenzano tutti i risultati di un set di misura allo
stesso modo.
 Provocano uno scostamento unidirezionale dal valore
vero che può essere costante o proporzionale e che
può assumere valore sia positivo che negativo.
 Gli errori sistematici introducono un bias (errore) nella
tecnica di misura.
Bias: misura dell’errore sistematico associato
ad una analisi.
Può avere segno positivo o negativo.
Errore sistematico (o determinato)
Causa lo scostamento della media di un set di dati
sperimentali dal valore vero (o accettato)
Influenza l’accuratezza di una misura

xm x0

18,30 18,40 18,50 18,60 18,70


Cause degli errori sistematici

• Errori strumentali: dovuti a imperfezioni e


malfunzionamento degli strumenti di misura
– Variazioni di temperatura
– Contaminazione dell’equipaggiamento
– Fluttuazioni nella tensione di alimentazione
– Guasto o malfunzionamento di componenti

• Errori di metodo: dovuti a comportamento


chimico o fisico non ideale dei reagenti e delle
reazioni utilizzate in un procedimento analitico

• Errori personali: causati da valutazioni


personali dell’analista nel corso del
procedimento analitico adottato
Rivelazione e correzione degli errori sistematici
Gli errori sistematici possono essere identificati ed annullati mediante

analisi di campioni standard, se disponibili;

analisi del campione mediante un metodo indipendente, ovvero che


prevede l'utilizzo di strumentazione di provata affidabilità o di
riferimento;

analisi del bianco, cioè di una soluzione contenente tutti i


componenti presenti nel campione in esame eccetto l'analita di
interesse; il bianco ideale è costituito dalla stessa matrice in cui è
contenuto l'analita di interesse; l'analisi del bianco nelle titolazioni
volumetriche consente, per esempio, di correggere l'errore
connesso al volume di titolante necessario per far virare l'indicatore
colorimetrico stesso;

analisi di campioni contenenti un diverso ammontare della variabile


misurata (per es. si pensi alla perdita connessa alla solubilità
durante il lavaggio con volumi diversi di acque di lavaggio).
Rivelazione e correzione degli errori sistematici

xm x0

 Analisi di
18,30 18,40 18,50 18,60 18,70
standard

 Calibrazione
xm x0

18,30 18,40 18,50 18,60 18,70


Errore sistematico o determinato

• L’errore sistematico viene rivelato utilizzando opportuni std. di riferimento (analita a


concentrazione nota) e calcolando l’accuratezza
• L’accuratezza di una misura è il grado di accordo tra essa e il valore vero e viene
espressa dall’errore (assoluto o relativo)

Errore assoluto = valore osservato – valore vero

valore osservato – valore vero


Errore relativo = x100
valore vero
Determinazioni dell’ azoto in due composti puri con il metodo di Kjeldahl

I punti mostrano gli errori assoluti dei risultati (Xi-Xt) replicati ottenuti da 4 analisti
Linea blu rappresenta la deviazione media assoluta dei dati dal valore vero (Xm-Xt)
Analista 1 accurato e preciso Analista 2 accurato ma poco preciso
Analista 3 preciso ma poco accurato Analista 4 poco accurato e poco preciso
Errore casuale (o indeterminato)
Provoca la dispersione dei dati sperimentali intorno
al valore medio. Riflette la precisione di una misura

xm xt xm xt

18,30 18,40 18,50 18,60 18,70 18,30 18,40 18,50 18,60 18,70
Il trattamento statistico dell’errore casuale

In uno studio scientifico deduciamo informazioni su una popolazione mediante


le osservazioni acquisite su un sottoinsieme o campione.

Popolazione: è l’insieme di tutte le misure di interesse

Campione: sottoinsieme della popolazione selezionato per l’analisi e rappresentativo


della popolazione stessa
Curva normale di errore di una popolazione

Equazione della curva Gaussiana

-(x - µ)2 /22


e
y=
 2

2 curve Gaussiane che riportano la frequenza relativa y


di varie deviazioni dalla media in funzione della
deviazione dalla media. Queste curve vengono
descritte da un equazione che contiene solo due
parametri:µ = media della popolazione e  = deviazione
standard della popolazione
La deviazione standard per la curva B è doppia rispetto a
quella di A.
31
Media: Deviazione standard:
N N
2
x
i1
i  x
i 1
i  x
X s
N N 1
È necessario sapere che la media e la deviazione standard sopra
definite, essendo valutate sulla base di un numero finito, e normalmente
molto basso, di misurazioni, cioè di un campione delle infinite
misurazioni che costituiscono l’intera popolazione delle misurazioni, sono
solo stime della media e della deviazione della popolazione. Per un
numero molto alto di misurazioni si può scrivere:

 xi
i1
N

 x i  
2

  i1
N N
Normalmente, queste due ultime equazioni valgono per N > 20.
La deviazione std. di un campione

• La media di un campione è la media aritmetica di un campione


limitato preso da una popolazione di dati ed è indicata con x e la ds con s

N

i=1
(xi - x)2
s = (N-1)= gradi di libertà ovvero il
N-1 problema inizia con N dati
Indipendenti. Dopo aver calcolato
la media rimangono solo N-1 dati
• La varianza = s2 indipendenti perché se si conoscono
N-1 dati e la media è possibile
• deviazione std. relativa = s / x calcolare l’N-esimo dato.

• Coefficiente di variazione (CV%) = (s / x) 100


Distribuzione normale o di Gauss
1 2


N  , 2
  e  x    2 / 2

 2
Distribuzione di probabilità teorica
Frequenza che piu’ si avvicina alla curva di
relativa Max= frequenza sperimentale
media
σ (deviaz. standard) determina
l’ampiezza della curva
ai due lati della media

Valori osservati
Distribuzione normale o di Gauss
con diversa deviazione standard 

Per una distribuzione gaussiana ideale il 68,3% delle misure è compresa all’ interno
dell’ intervallo ±; il 95,5% ±2; il 99,7% ±3.
35
Esempi

 Calcolare la deviazione standard dei seguenti risultati.


X1 = 23,23; X2 = 21,29;
X3 = 20,66; X4 = 29,05;
X5 = 23,33;

i 1 5
xi
2
xi xi x m
i
xm x m  23.512
5 i
23.23 s
5 1
21.29
s  3.311
20.66
100
29.05 RSD% s  RSD% 14.083
xm
23.33
36

Livello di fiducia (o di confidenza)


Nelle normali operazioni di laboratorio è spesso impossibile
eseguire numerose misurazioni. Tuttavia, è possibile determinare
x e s ovvero la media e la deviazione standard del campione. E’
possibile definire un intervallo in cui poter assumere
ragionevolmente che in esso sia compreso il valore vero.

L’ intervallo di fiducia è un’ espressione usata per definire la


probabilità che la media vera  giaccia entro una certa distanza
dalla media misurata x.
Intervalli di fiducia

• In analisi farmaceutica solitamente non si determina la media e d.s. di una popolazione


bensì di un campione rappresentativo
• E’ tuttavia possibile con l’analisi statistica determinare un intervallo di fiducia attorno ad
x nel quale si prevede di determinare il valore medio µ con una certa probabilità (dal
95%)
• L’intervallo di fiducia per una media x è quindi l’intervallo entro il quale ci si aspetta di
trovare, con una certa probabilità, la media µ della popolazione (le linee di confine sono
chiamati i limiti di fiducia)

Trovare l’intervallo di fiducia quando  è nota o quando s è una buona stima di 

z 

Intervallo di fiducia = x 
N
Il t di Student è lo strumento statistico usato per esprimere gli
intervalli di fiducia e confrontare i risultati di diversi esperimenti.
Es. confronto tra le medie di due popolazioni di dati.
Esempio di calcolo degli intervalli di fiducia

Si considerino i seguenti risultati relativi al contenuto di alcol etilico in un campione di


sangue: 0.084%, 0.089%, 0.079%.
Calcolare l’intervallo di fiducia per la media al 95% assumendo che
a) dalle esperienze precedenti acquisite su un centinaio di campioni, si sa che la
deviazione std. del metodo s= 0.005% è una buona stima di 
b) I tre risultati ottenuti rappresentano il solo modo per valutare le precisione del metodo

Caso A
z 
 1.96  0.005
x 
Intervallo di fiducia (95%) =  = 0.084  = 0.084  0.006%
N 3
0.078 0.09

Esiste una probabilità del 95% che la media vera


µ rientri nell’ intervallo 0,078-0.09
Se  è nota l’ intervallo di fiducia decresce.
Caso B

s = 0.005%

t s
 4.303  0.005
x 
Intervallo di fiducia (95%) =  = 0.084  = 0.084  0.012%
N 3
0.072 0.096

µ
Categorie di errori nei dati sperimentali
Errore grossolano (o occasionale)
Si verifica occasionalmente, è spesso grande e provoca un
significativo scostamento di un singolo dato (outlier) da tutti
gli altri

x0

18,30 18,40 18,50 18,60 18,70

• Può capitare, nel corso di una misura, di avere un valore che si


discosta significativamente da tutti gli altri dati replicati (outlier)
• E’ necessario stabilire se il valore ottenuto deve essere utilizzato
per il calcolo della media oppure se va considerato un dato
anomalo e quindi scartato
• La scelta va fatta seguendo uno dei criteri codificati ed accettati
Regola del 2.5 d

• Si scarta il valore sospetto (outlier) e si calcola la


media sui valori replicati rimanenti (xm)
• Si calcola la deviazione media: dm
• Se il valore sospetto (outlier) differisce da xm per
più di 2.5 dm il valore viene scartato e la media
della misura calcolata solo sui valori rimanenenti
• Se il valore sospetto (outlier) differisce da xm per
meno di 2.5 dm il valore viene incluso nel calcolo
della media
43

Raccomandazioni per il trattamento degli outliers.


Se un dato appare anomalo:

accertarsi di non aver commesso un errore


grossolano;
ripetere l’analisi;
eseguire il test-Q;
nel caso il dato sia confermato come outliers,
eseguire una nuova replica;
OK

Potrebbero piacerti anche