Sei sulla pagina 1di 54

1994 S. Francisco: durante un processo per omicidio.........

Qual è la
nell’analisi del sangue?

I dati elaborati dai laboratori di analisi non


hanno una percentuale di errore perché

(San Francisco Chronicle, 29 giugno 1994)

1
È eseguire un’analisi
chimica in modo che i
siano completamente di
o

Le bugie si dividono in tre


grandi gruppi: le piccole, le
grandi e le statistiche

ANALISI STATISTICA DEI DATI

2
ANALISI STATISTICA DEI DATI

ANALISI STATISTICA DEI DATI

Qual è il
nel risultato?

E’ inutile per
ottenere dei dati che siano più
affidabili di quanto occorra

3
COS’È LA STATISTICA?

COS’È LA STATISTICA?

4
COS’È LA STATISTICA?

COS’È LA STATISTICA?

5
COS’È LA STATISTICA?

COS’È LA STATISTICA?

Il termine La parola La frase L’affermazione

‘il
‘Xhorda non sottoscritto
analita titolante
sbadigliare’ non sbaglia
mai’

compare è
è quella con la
mediamente proporzionale è esattamente
massima
20.8 volte per al numero di corretta
frequenza
ogni capitolo uscite

6
INDICI STATISTICI

MEDIA ARITMETICA

x i

x= i=1
N

7
MEDIA ARITMETICA

MEDIA PONDERATA

Cognome Nome H3BO3 NaCl Mg Ferrograd Cebion med.tot


CAMPANELLA Lucia 28,15 3,00 3,17 6,60 0,16 8,22
CORTELLINO Marina 1,80 3,11 0,56 4,69 3,89 2,81
CORTESE Francesco 4,25 0,28 1,30 A 3,22 2,26
COSMAI Sabina 2,62 11,35 1,81 2,74 0,14 3,73
CRISTIANO Enrica 2,53 9,42 5,57 2,08 0,88 4,09
CUDEMO Giuseppe 0,70 0,61 4,81 1,56 2,11 1,96
D’ONGHIA Annarita 5,13 1,94 1,55 0,51 1,33 2,09
DE BELLIS-E Elisabetta 3,04 3,91 2,74 1,18 3,54 2,88

M=
x f i i

f i

8
MEDIA MOBILE

9
MEDIA MOBILE

MEDIANA e MODA

10
MEDIANA e MODA

INDICI STATISTICI

✓Campioni replicati
serie di campioni analizzati esattamente nello stesso modo
20,3
20,1
19,8
19,6
19,5
19,4

ppm di Fe (II)

x = 19.8 mL ; mediana = 19.7

11
INDICI STATISTICI

✓Campioni replicati
Se aggiungo un outlier ai valori precedenti, questo influenza notevolmente
la media, ma solo leggermente la mediana 30,6

19,4 19,5 19,6 19,8 20,1 20,3

x = 21.0 mL ; mediana = 19.8

12
ACCURATEZZA E PRECISIONE

ACCURATEZZA E PRECISIONE

NH3
S
NH
O
OH
N

13
ACCURATEZZA E PRECISIONE

NH3
S
NH
O
OH
N

Da un’analisi dei risultati possiamo evincere che l’analista 3 pur essendo ha


commesso un . Questo potrebbe essere dovuto a un ,
cioè un errore che sposta i risultati tutti in una stessa direzione (i.e. una pipetta calibrata
male)

ACCURATEZZA E PRECISIONE

NH3
S
NH
O
OH
N

Nel caso specifico l’errore è probabilmente dovuto al fatto che si tratta di un


, non facilmente decomponibile (ricorda il metodo di Kijeldall). Se invece
abbiamo una dei dati in maniera più o meno rispetto al valore
medio, questo può essere dovuto ad

14
INDICI STATISTICI

di = x i − x

15
INDICI STATISTICI

N 2
 (x - x)
i=1
i
s=
N-1

GRADI DI LIBERTÀ

✓ Da un insieme di dati replicati


devono essere calcolate
, la e la

di libertà viene
utilizzato
in quanto la somma
delle singole deviazioni,
ciascuna con il proprio segno,
deve essere pari a zero

16
GRADI DI LIBERTÀ

✓ Così, quando sono state


calcolate N-1 deviazioni si
conosce anche l’ultima
✓ Ogni volta che si può stabilire
una relazione che lega tra loro
una serie di dati si “perde” un
grado di libertà

- = = ( )

METODI ALTERNATIVI PER ESPRIMERE LA PRECISIONE

N 2
 (x - x) i
s2 = i=1
s
N-1 RSD =
x s
CV =  100
le unità x
di misura pari al w = x min − xmax
quadrato di quelle dei
dati.
essere additiva

17
INDICI STATISTICI

E = xi - xt

E= x -x
i t
 100
x t

PROPAGAZIONE DELL’ERRORE

2 2
dg  dN   dV 
=  N +  V   PE
g  N   V 

18
DEVIAZIONE STANDARD DI RISULTATI CALCOLATI

✓ Spesso è necessario stimare la deviazione standard di un risultato che è stato calcolato a partire
da due o più dati sperimentali, di ognuno dei quali sia nota la deviazione standard. Per esempio

0.50 (± ) +4.10 (± ) -1.97 (± ) = 2.63 ( )

+0.02 +0.03 +0.05 +0.1


+0.02 +0.03 -0.05 0.0
-0.02 -0.03 +0.05 0.0
-0.02 -0.03 -0.05 -0.1

DEVIAZIONE STANDARD DI RISULTATI CALCOLATI

y = a + b - c ; sy = sa 2 + sb 2 + sc 2

sy = (0.02)2 + (0.03)2 + (0.05)2 = 0.06

2 2 2

ab  s  + s  + s 
a b c
y= ; sy = y  a b c
c
     
 sa  sa
y = a x ; sy = y   x  y = log a ; sy = 0.434
 a 10 a

19
TIPI DI ERRORI

TIPI DI ERRORI

20
ERRORI SISTEMATICI

ERRORI SISTEMATICI: RILEVAZIONE

21
ERRORI SISTEMATICI

ERRORI SISTEMATICI

22
ERRORI COSTANTI

Se il precipitato pesa 500 mg


Gli errori costanti Supponiamo che
al mg si • (-0.50/500)  100 = -0.1 %
della perdono come
risultato del
lavaggio di un
pertanto un precipitato con
Se il precipitato pesa 50 mg
modo per 200 mL di liquido • (-0.50/50)  100 = -1.0 %
minimizzare tale di lavaggio. Qual
errore è quello di è l’errore relativo L’errore relativo risultante da
utilizzare dovuto a questa
campioni quanto perdita per un errore costante diventa
più grandi solubilità? più grande col diminuire della
possibile quantità misurata!
Un altro esempio è quello relativo al volume in di necessario per far
virare un indicatore (errore del carbonato, metodo di Mohr). Questo volume rimane
costante dal totale di reagente per la titolazione

ERRORI PROPORZIONALI

23
VALUTAZIONE DELL’ERRORE CASUALE

Non
confondere il
campione
statistico con
il campione
analitico

TRATTAMENTO STATISTICO DELL’ERRORE CASUALE

24
TRATTAMENTO STATISTICO DELL’ERRORE CASUALE

N N

x i x i

 = i= 1
x = i= 1

N N
N→
In assenza di errori
sistematici il valore
della media della
popolazione coincide
con quello della
quantità misurata

TRATTAMENTO STATISTICO DELL’ERRORE CASUALE

Consideriamo una
situazione in cui
quattro piccoli errori
( ) si combinano a
dare un errore
totale. Assumiamo
che ciascun errore

Gli errori casuali


in un’analisi
seguono una
distribuzione
Gaussiana

25
TRATTAMENTO STATISTICO DELL’ERRORE CASUALE

✓Riportando in grafico ✓Dalla curva si evince


la deviazione dalla che l’
valore medio in è la
funzione della
frequenza relativa
degli eventi si ottiene
una distribuzione
degli errori

✓Effettuando un numero molto grande di


misure si ottiene una curva a campana detta
curva Gaussiana (o curva normale) che mostra
la dei dati
alla di un insieme infinito di dati

26
TRATTAMENTO STATISTICO DELL’ERRORE CASUALE: CURVA GAUSSIANA

✓ È descritta da un’equazione che N

( x −)
2
contiene due parametri ( , ) che −
( x− ) 2
i
1
definiscono una popolazione o y= e 2 2
; = i =1

distribuzione  2 N

✓ La si trova nel e
corrisponde alla
relativa
✓ Esiste una distribuzione
delle deviazioni positive e negative
intorno al massimo 0
-4 -2 2 4

✓ Si osserva e una diminuzione


1
x −  = 0 ; y max =
della frequenza relativa
all’aumentare dell’entità delle
deviazioni dalla media  2

DEVIAZIONE STANDARD DELLA POPOLAZIONE

è la deviazione di una dato dalla media espresso in


ed è una quantità adimensionale

x−
2
z
1 −
z= y= e 2
  2
E’ possibile dimostrare che
✓ Indipendentemente dalla larghezza della curva, il %
dell’area sottesa a una curva Gaussiana è relativa a
valori compresi in un intervallo di intorno alla media

✓ In maniera analoga si può affermare che il dei


dati giacciono in un intervallo di intorno alla media
e il % in un intervallo di
✓ Pertanto la deviazione standard di un popolazione di
dati è un utile strumento di previsione

27
ERRORI NELLA CALIBRAZIONE DI UNA PIPETTA

FREQUENZE DEI VALORI NELLA CALIBRAZIONE DI UNA PIPETTA

Data replicati (N = 50) per la calibrazione di una pipetta da 10 mL


= = =
= = =

28
DEVIAZIONE STANDARD DELLA POPOLAZIONE

Media diversa,
Stessa variabilità

Stessa media,
Variabilità diversa

APPLICAZIONI DEI METODI STATISTICI

VALUTAZIONE
DEI DATI NEL
CONTROLLO
QUALITÀ

29
TEST PER LA VERIFICA DEGLI ERRORI

LIVELLI DI FIDUCIA

La gente di solito usa le statistiche come un ubriaco i lampioni:

più per sostegno che per illuminazione

30
LIVELLI DI FIDUCIA

z
 = x
N

x i
−x   → +x N
 = i= 1
N→
N

LIVELLI DI FIDUCIA

31
TABELLA DEL t DI student

z
 = x
N
x−
t=
s
ts
LF = x 
N

W.S. Gossett Biometrika, 1908, 6, 1

LIVELLI DI FIDUCIA PER VALORI DI t

✓ Sette misure di pH di una soluzione tampone hanno dato i seguenti risultati

Calcolare il per il vero al e

32
LIVELLI DI FIDUCIA PER VALORI DI t

✓ Sette misure di pH di una soluzione tampone hanno dato i seguenti risultati

Calcolare il per il vero al e


ts
 = x 
N
N = 7; gdl = 6 t (95%) = 2.45 t (99%) = 3.71

x ( xi )
2 2
186.59 1306.0996
s = = = 0.026
i
- -
N-1 N (N - 1) 6 42
2.45  0.026
 = 5.16  = 5.16  0.02
2.646
3.71  0.026
 = 5.16  = 5.16  0.04
2.646

COME INGANNARE CON LA STATISTICA

Tenendo conto di ciò, è evidente che il modo più sicuro


GUIDARE UBRIACHI ED AD ALTA VELOCITÀ

33
VERIFICA DI UN’IPOTESI

Manhattan (1979)
- “tu ti credi Dio!....”.
- “… a qualche modello dovrò pure ispirarmi!”.
Amore e guerra (1975)
- “Ma certo che Dio esiste: siamo fatti a sua immagine”.
- “E io sarei a sua immagine? Guardami: credi che Lui porti gli occhiali?”
- “Non con quella montatura”.
Io e Annie (1977)
- “Vai dallo psichiatra?”.
- “Sì, da 15 anni. Gli concedo un altro anno ancora e poi vado a Lourdes”.
Amore e guerra (1975)
“Il sesso è la cosa più divertente che ho fatto senza ridere”.
Zelig (1983)
“Quando ero piccolo i miei genitori hanno cambiato casa una decina di
volte. Ma io sono sempre riuscito a trovarli”.

MEDIA SPERIMENTALE E VALORE VERO

Una maniera comune per verificare la


presenza di un errore sistematico
( ) consiste nell’analizzare un
campione la cui composizione è nota in
maniera accurata
= campione
= campione + analita aggiunto
Nell’esempio sotto riportato il metodo
non ha bias ( = v) presente invece
nel metodo
La differenza - darà il valore
sperimentale dell'analita aggiunto
Il bias di è determinato da un errore
o ?

34
MEDIA SPERIMENTALE E VALORE VERO

Per trattare questo ts


problema da un punto di
vista statistico bisogna
x − xv   x = xv
confrontare la differenza
N
tra i due casi con quella ts
che sarebbe stata generata x − xv   x  xv
da un errore casuale
N

x − xv = ?

CONFRONTO TRA DUE MEDIE SPERIMENTALI

Spesso si deve valutare se esiste una


( ) ( )
N1 N2
+  xj − x 2
2 2
tra le medie di due insiemi di xi − x 1
, e se essa costituisce una i=1 j=1
scum =
( N1 + N2 ) − 2
prova che i due analizzati sono
oppure se tale differenza è solo la
di nei due
N1 + N2
insiemi x 1 − x 2 = tscum
N1  N2
N1 → x 1 N2 → x 2
Se la differenza sperimentale è
I due campioni sono uguali? al valore calcolato, non si
Il valore numerico del termine sulla destra è può rifiutare l’ipotesi nulla, ossia
calcolabile usando t per il particolare livello non è stata riscontrata
di fiducia desiderato (i.e. 95%) e per un significativa tra le due
numero di gradi di libertà pari a (N1 + N2) - 2 determinazioni

35
CONFRONTO TRA DUE MEDIE SPERIMENTALI

Il pH di una soluzione è stato determinato da e da misure effettuate con due diversi


pHmetri. Il primo fornisce un valore medio di pH = il secondo pH = . Sapendo
che la deviazione standard cumulata è sulla base di questi dati esiste una reale
differenza tra i due pHmetri?
x 1 − x2 12.61 − 12.54
tsper = = = 1.771
N1 + N2 6+4
scum  0.07 
N1  N2 6 4
Il di al 95% di livello di fiducia per un numero di gradi di libertà pari a ( + )
-2=8è . Essendo

Non esiste una reale differenza tra i due pHmetri al 95% di livello di fiducia

STIMA DEI LIMITI DI RIVELABILITA’

36
STIMA DEI LIMITI DI RIVELABILITA’

Con lo stesso approccio seguito per il N1 + N2


confronto di due medie sperimentali, x1 - x 2 = tscum
si possono valutare quelli che sono i N1  N2
limiti di rilevabilità per una
misurazione. In questo caso il pedice N1 + N2
xmin = x1 - x b  tsb
si riferisce alla determinazione del
N1  N2
Lo stesso metodo può Parametro Identificazione
Determinazione Test limite
Dosaggio
di impurezze per impurezze
essere Specificità √ √ √ √
convenientemente Linearità √ √
adoperato per la Range di linearità √ √
rilevazione di
Accuratezza √ √
nella analisi
Precisione √ √
o anche per la
Limite di rilevabilità (LOD) √
identificazione di specie
nocive Limite di quantificazione (LOQ) √

FREQUENZE DELL’ERRORE CASUALE

✓ Il test del 2 serve a saggiare


l’ipotesi che una certa
discrepanza tra frequenze
attese e osservate sia dovuta
( freq.obs − freq.att) 2
2 =
freq.att
94,03%

94,03%
82,09%

100,00%

20 100,00%
70,15%

18 90,00%
16 80,00%
14 70,00%
47,76%
Frequenza

12 60,00%
10 50,00%
19,40%

8 40,00%
13,43%

6 30,00%
7,46%

4 20,00%
0,00%

2 10,00%
0 0,00%
0,5000
0,4750

0,5150
0,4850

0,4950

0,5200
0,5050
0,4900
0,4800

0,5100

g ASA

(0.495-0.500)2
χ = 2
= 5  10-4
0.500

37
CONFRONTO DELLA PRECISIONE DI MISURE

Il rappresenta un metodo semplice La quantità , calcolato come rapporto tra


per la di due insiemi la varianza delle due misure, viene
di misure. Gli insiemi non devono essere confrontata con i massimi valori di
necessariamente ottenuti analizzando lo previsti per un certo livello di fiducia
stesso campione, a patto che si possa
assumere che le casuale siano s12
le Anche il è basato sulla Fsper = 2
e quindi assume che non ci sia
differenza fra le precisioni delle due misure
s2
Gradi di libertà
(denominatore)
Gradi di libertà (numeratore)
Fsper  Ftab

La precisione delle due


misure non è identica

CONFRONTO DELLA PRECISIONE DI MISURE

Un nuovo metodo proposto per la determinazione del COD di acque di scarico è stato
confrontato con il metodo standard. Su un campione di effluente sono stati ottenuti i
seguenti risultati
: media = 72 mg·L-1 ; s =
: media = 72 mg·L-1 ; s =
Per ciascun metodo sono state effettuate determinazioni. La precisione del metodo
proposto è significativamente più elevata di quella del metodo standard?

In pratica si tratta di decidere se la varianza del metodo standard è più elevata,


significativamente, del metodo proposto
3.312
Fsper = = 4.80 F7 ,7 (5%) = 3.79
1.512
Dato che esiste una reale differenza tra i valori di s e il metodo proposto è più
preciso ossia la varianza del metodo standard è significativamente più grande

38
EVENTI ECCEZZIONALI E CALCOLO DELLE PROBABILITÀ

DETERMINAZIONE DI ERRORI GROSSOLANI: TEST DI DIXON

Numero di Limite di fiducia


d
osservazioni
Qsper =
w
Se Il risultato
può essere scartato (con
il livello di fiducia
indicato)

39
DETERMINAZIONE DI ERRORI GROSSOLANI: TEST DI DIXON

Verificare la presenza di outliers dal set di dati (LF = 95%)

29.05 − 23.33 Dato che il valore


Qs p er = = 0.682
29.05 − 20.66 sperimentale è minore di
Il di per
quello critico non si può
= %, = è eliminare il dato

DETERMINAZIONE DI ERRORI GROSSOLANI: TEST DI GRUBB

xo − x
Gsper =
s

40
CONSIGLI PER IL TRATTAMENTO DEGLI OUTLIERS

Un dato eliminabile per LF = 95%


ma non per LF = 99% è definito
(straggler), e non
anomalo. Si consiglia di
accettare il valore, ma
considerare la al posto
della media dato che essa
consente di includere tutti i dati
di un insieme senza subire
influenze da parte di un valore
anomalo

Le regole statistiche vanno applicate


con molta cautela
a campioni contenenti solo pochi dati

La teoria dà grandi
frutti, ma non ci
avviciniamo ai segreti
del Grande Vecchio. In
ogni caso, sono
convinto che Dio non
giochi a dadi

41
testa o croce

100,00%

100,00%
96,67%
14 100,00%

93,33%
90,00%

83,33%
12
80,00%
10 70,00%

63,33%
Frequenza testa

60,00%
8
50,00%
6
40,00%

4 30,00%
20,00%

20,00%
2
10,00%
6,67%
0,00%

0,00%

0 0,00%
10 20 30 40 50 60 70 80 90 100
Classe

STUDIO DELLE RELAZIONI TRA DUE VARIABILI

Fino ad ora abbiamo preso in considerazione l’analisi


statistica con riferimento ad una
Vediamo ora le possibilità che ci offre la statistica per
quello che riguarda lo studio delle relazioni tra

42
STUDIO DELLE RELAZIONI TRA DUE VARIABILI

ANALISI DI CORRELAZIONE

43
CORRELAZIONE

✓Supponiamo che due variabili siano tra loro da una legge nota e studiata,
ma mostrino, un di , lineare o meno

CORRELAZIONE

✓I risultati di una analisi di


correlazione possono codevianza
( )( )
essere quantificati a mezzo
di un opportuno
detto di
D xy =  x i − x y i − y
ovvero un
numero puro che dà devianza di y devianza di x

( ) ( )
della dei punti
Dy =  y i − y Dx =  x i − x
2 2
nel piano quindi
dell’ del
tra e
✓La è quella
Dxy
parte di dispersione dei dati
dovuta all’ di una
r=
tra le variabili Dx Dy

44
CORRELAZIONE

CORRELAZIONE

45
REGRESSIONE

y = − mx + c
y = ex
y = ax + bx + c 2

REGRESSIONE

y = − mx + c y = ex y = ax + b x 2 + c

46
COEFFICIENTE DI CORRELAZIONE

✓ Se si stabilisce una
tra il consumo
annuo di e il
numero di ,
non si può certo dedurre che il
tennis sia uno sport che faccia
innervosire chi lo pratica
✓ ma si dovranno cercare le
cause dello stress in una
categoria più ampia di persone

COEFFICIENTE DI CORRELAZIONE

✓ Se si stabilisce una
tra il consumo quale quella
annuo di e il
numero di , degli studenti
non si può certo dedurre che il
tennis sia uno sport che faccia
innervosire chi lo pratica
✓ ma si dovranno cercare le
cause dello stress in una
categoria più ampia di persone

47
CURVE DI CALIBRAZIONE

La maggior parte dei metodi analitici è


basata sulla costruzione di una curva y = 10.6x - 0.933 ; r2 = 0.991
di calibrazione ricavata
sperimentalmente in cui viene
riportata una quantità misurata in

proprietà y
funzione della concentrazione nota
di una serie standard
Tipicamente il grafico approssima una
linea retta ma a causa di
, insiti nel processo
analitico, tutti i dati si trovano
di
conseguenza si deve trovare la retta
che meglio interpola i punti [analita x]

METODO DEI MINIMI QUADRATI

Si basa sulla assunzione di due ipotesi yi


✓Esiste una di
tra la variabile misurata e la ŷ
concentrazione dell’analita
✓Ogni deviazione individuale dei punti
dalla linea retta è determinata da un
nella , ossia che il
valore di sia nota con esattezza
✓La retta che meglio si adatta ai punti
sperimentali è quella che consente di
minimizzare i quadrati delle distanze (o
residui)
y = mx + b
 di2 =  ( yˆ i − yi )
2

48
REGRESSIONE E OUTLAYERS

✓Oltre che a fornire il migliore


accordo tra i punti
sperimentali e la linea retta, il
metodo consente di
identificare eventuale errori

proprietà y
grossolani

y = 10.6x - 0.9333 r2 = 0.9917

[analita x]

REGRESSIONE E OUTLAYERS

✓Oltre che a fornire il migliore


accordo tra i punti y = 2.3143x + 18.4 r2 = 0.0602
sperimentali e la linea retta, il
metodo consente di
identificare eventuale errori
proprietà y

grossolani

Tali errori causano un effetto


leva abbassando
sensibilmente il coefficiente di
determinazione
y = 10.6x - 0.9333 r2 = 0.9917

[analita x]

49
ERRORE SISTEMATICO E RETTA DI REGRESSIONE

xi xi

SENSIBILITA’

dy
S=
dx

50
METODO DEI MINIMI QUADRATI

✓Oltre che a fornire il migliore accordo tra i punti sperimentali e la linea retta, il metodo
consente di calcolare la pendenza e l’intercetta e le relative deviazioni standard

( x )
2

devianza di x Dx =  xi − x ( ) = x
2

2 i
i
N
(  yi 2 )
devianza di y Dy =  y i − y ( ) = y
2
2
i −
N

(
codevianza Dxy =  xi − x y i − y =  x i y i − )( ) x y i i

N
Dai valori di , e si ricavano gli altri parametri della retta
D xy
pendenza della retta m = intercetta b = y − m x
Dx

METODO DEI MINIMI QUADRATI

e sono singole coppie di dati per e


è il numero di coppie impiegate per la costruzione della curva di calibrazione

 c = (5 + 6 + 7 + 8 + 9 + 10 ) = 355
i
2 2 2 2 2 2 2

 (c ) = (5 + 6 + 7 + 8 + 9 + 10) = (45)
i
2 2 2

N 6 6
(c )
2
(45) 2
Dc =  ci
i
2
− = 355 - = 17.5
N 6

51
METODO DEI MINIMI QUADRATI

e sono singole coppie di dati per e


è il numero di coppie impiegate per la costruzione della curva di calibrazione

 A = (0.358 + 0.407 + 0.446 + 0.510 + 0.542 + 0.615 ) = 1.418


2
i
2 2 2 2 2 2

 ( A ) = (0.358 + 0.407 + 0.446 + 0.510 + 0.542 + 0.615) = (2.868)


i
2 2 2

N 6 6
( A )
2
(2.868) 2
DA =  A
i
2
i − = 1.418 - = 0.047
N 6

METODO DEI MINIMI QUADRATI

e sono singole coppie di dati per e


è il numero di coppie impiegate per la costruzione della curva di calibrazione

DcA =  ci Ai -
c  A
45  2.868
i i
= 22.412 -
= 0.902
N 6
D 0.902 2.868 45
m = cA = = 0.052; b = A − mc = - 0.052 = 0.096
Dc 17.5 6 6
A = 0.052c + 0.096
DcA 0.902
r= = = 0.996
Dc D A 17.5  0.047

52
COEFFICIENTE DI DETERMINAZIONE

✓È il sistema utilizzato
 ( y i - yˆ i )
2
per valutare la
del modello di R2 = 1−
( y - y )
2
regressione definendo
quale di i
della variabile

 ( y - yˆ ) ( y - y )
dipendente è spiegata 2 2
dal stesso, i i = i ; R2 = 0
ossia è una
tra la
(o variabilità)
modello non valido

 ( y i - yˆ i )
dei dati e la 2
statistica del modello = 0 ; R2 = 1
modello valido

CROSSVALIDAZIONE: LEAVE-ONE-OUT (LOO)

✓Si basa sulla


procedura LOO
( )
dove ciascun dato
viene escluso per
poi essere
predetto

 ( y i - yˆ i )
2

Q2 = 1 −
( y - y )
2
i

53
Datemi un martello
apparirà di certo un chiodo
Datemi un maestro
e diventerò un allievo
Lorenzo Cherubini

54