Sei sulla pagina 1di 42

Lezione n.

 6 ‐ Identificazione dei fattori 
sistematici. La regressione lineare.
Statistica Sperimentale e Misure 
Meccaniche

G. Barbato ‐ A. Germak ‐ G. Genta 1


RICERCA DI FATTORI SISTEMATICI
I metodi del χ2 e del GPN e quelli legati all’analisi della varianza
forniscono un’indicazione sulla presenza di fattori sistematici e sul
loro tipo, ma non giungono ad identificarli.

L’identificazione dei fattori sistematici richiede spesso un’analisi di


tutto l’impianto sperimentale, tuttavia, per alcuni di essi, si può
ottenere un’ulteriore indicazione esaminando l’andamento globale
dei dati.

G. Barbato ‐ A. Germak ‐ G. Genta 2


RICERCA DI FATTORI SISTEMATICI
Caso studio: Risultati, espressi in millimetri, delle misurazioni di 
lunghezza di un manufatto, fatte da cinque diversi operatori. 

G. Barbato ‐ A. Germak ‐ G. Genta 3


RICERCA DI FATTORI SISTEMATICI
Caso studio : L’andamento del GPN si presenta nella forma iponormale.

3,0
2,0
1,0
0,0
z

-1,0
-2,0
-3,0
8,000 8,002 8,004 8,006 8,008 8,010 8,012
x/mm

G. Barbato ‐ A. Germak ‐ G. Genta 4


RICERCA DI FATTORI SISTEMATICI
L’andamento del GPN indica la possibile presenza di una deriva, cioè di
una tendenza sistematica dei risultati ottenuti in tempi successivi a
variare sempre nello stesso senso, quindi una variazione che, a parte le
irregolarità dovute a fattori accidentali, risulta globalmente monotona
in funzione del tempo.

Non avendo registrato i tempi di presa dei vari dati, si può, tuttavia,
valutare la presenza di una deriva dall’andamento dei risultati posti in
ordine di presa, cioè nella loro successione temporale.

G. Barbato ‐ A. Germak ‐ G. Genta 5


RICERCA DI FATTORI SISTEMATICI
Caso studio: Andamento dei dati nella loro successione temporale. È
possibile desumere la presenza di un fattore sistematico, che pare
avere un andamento lineare con la successione dei dati (deriva
lineare).

 
8,012

8,010

8,008
x
8,006
regr.
8,004

8,002

8,000
0 10 20 30 40 50
t

G. Barbato ‐ A. Germak ‐ G. Genta 6


LA REGRESSIONE LINEARE
Il caso studio permette di comprendere l’uso dello strumento statistico 
della regressione lineare per identificare la relazione funzionale tra una 
o più variabili indipendenti (spesso indicate con la lettera X) ed una 
variabile dipendente (spesso indicata con la lettera Y). È fondamentale 
capire quale sia la variabile indipendente e quale sia la variabile 
dipendente. 

Per il caso studio assumiamo come variabile indipendente il tempo t e 
come variabile dipendente la distanza x misurata. Si noti che per il 
tempo t (dato solo dalla successione delle prove) non è espressa l’unità 
di misura, ciò è tuttavia accettabile allo scopo di vedere se è presente 
una deriva,  quindi solo un andamento.

G. Barbato ‐ A. Germak ‐ G. Genta 7


LA REGRESSIONE LINEARE
Le operazioni da eseguire possono essere schematizzate in tre fasi 
successive, che, se necessario, possono essere reiterate:
1. presentazione grafica dei dati sperimentali e considerazioni sulla 
base dell’esperienza per fare una scelta dell’ipotesi di un modello 
matematico che rappresenti l’andamento osservato.
2. calcolo dei parametri del modello matematico con il metodo dei 
minimi quadrati.
3. valutazione dei residui, cioè degli scarti tra valori sperimentali e 
valori calcolati con il modello matematico, per decidere se il 
modello adottato è adeguato.

Mentre la fase 2 è descritta compiutamente da un procedimento 
matematico, la fase 1, in parte, la fase 3 sono affidate all’esperienza di 
chi analizza i dati sperimentali.

G. Barbato ‐ A. Germak ‐ G. Genta 8


LA REGRESSIONE LINEARE
Fase 1
La rappresentazione grafica può indicare la forma dell’andamento 
generale e consente di valutare se essa è rappresentabile da una 
retta o da curve più complesse (parabole, iperboli, ecc.). 

È anche bene utilizzare tutte le informazioni sul fenomeno descritto 
dai dati sperimentali, in modo da scegliere, ove possibile, un 
modello matematico corrispondente alle leggi fisiche coinvolte.

G. Barbato ‐ A. Germak ‐ G. Genta 9


LA REGRESSIONE LINEARE
Fase 1
Il modello matematico adottato propone solo l’andamento della linea 
che descrive i dati, è, cioè, costituito da un’equazione generica che 
contiene dei parametri da determinare per identificare la curva di quella 
famiglia che meglio si adatta ai dati sperimentali. 

Se si decide che la retta rappresenta bene i nostri dati sperimentali, si 
utilizzerà il modello  x = a0 + a1 t.

Nel modello si individuano la variabile dipendente, nell’esempio x, la 
variabile indipendente (o più variabili indipendenti), nell’esempio t, ed i 
parametri del modello a0 e a1. 

G. Barbato ‐ A. Germak ‐ G. Genta 10


LA REGRESSIONE LINEARE
Fase 2
Nella seconda fase si calcolano i parametri con il metodo dei minimi 
quadrati, che può essere applicato se la funzione matematica 
utilizzata è lineare nei parametri stessi. Da ciò nasce il nome di 
regressione lineare. 
Si supponga , ad esempio, che l’andamento dei dati sperimentali 
possa essere descritto da una parabola che collega la variabile 
dipendente Y alla variabile indipendente X, cioè:

Y  a 0  a1 X  a 2 X 2

si vede che la Y è lineare in funzione dei parametri a0, a1 ed a2, che 


devono essere determinati per estrarre dalla famiglia di parabole 
quella più adatta ai dati sperimentali.
G. Barbato ‐ A. Germak ‐ G. Genta 11
LA REGRESSIONE LINEARE
Fase 2
Lo stesso vale, ad esempio, se si utilizza una funzione esponenziale del 
tipo:

Y  a 0  a1  e X

poiché, di nuovo, è lineare nei parametri.
Se si volesse, invece, utilizzare una funzione esponenziale del tipo

Y  a 0  e a1 X

si tratterebbe di regressione non lineare, molto più complessa.

G. Barbato ‐ A. Germak ‐ G. Genta 12


LA REGRESSIONE LINEARE
Fase 3
Nella terza fase si deve valutare se il modello scelto è adatto ai dati 
sperimentali. Tale valutazione viene fatta tenendo conto dello scopo
per cui si cerca un modello matematico: individuare i fattori 
sistematici ed il loro andamento. 
Se il modello matematico scelto corrisponde al fattore sistematico 
presente, allora i residui, cioè la differenza tra i valori dei dati 
sperimentali e quelli corrispondenti calcolati con il modello 
matematico, sono dovuti solo ai fattori accidentali, quindi devono 
avere una distribuzione normale. 
Se tale ipotesi non viene esclusa da un test di normalità , allora si 
può accettare il modello scelto. 

G. Barbato ‐ A. Germak ‐ G. Genta 13


LA REGRESSIONE LINEARE
Calcolo della regressione lineare
Le forme lineari considerate possono essere rappresentate da una 
funzione a più variabili:


Y  G X 1 , ... , X j , ... , X q 
in cui le variabili indipendenti Xj sono i vari contributi della funzione 
scelta. Per la parabola si pone:

Y  a0  a1 X  a 2 X 2 X1  X X2  X 2
G  X 1 , X 2   a0  a1 X 1  a2 X 2

invece, per l’esponenziale si pone:
Y  a0  a1e X X1  e X
G  X 1   a0  a1 X 1

G. Barbato ‐ A. Germak ‐ G. Genta 14


LA REGRESSIONE LINEARE
Calcolo della regressione lineare
Le variabili Xj possono essere anche fattori del tutto indipendenti. Ad 
esempio, X1 può essere il tempo (come nel caso studio), X2 può 
essere la temperatura ambiente a cui è stata fatta la misura, X3 la 
pressione atmosferica, e così via. In tal caso si parla di regressione 
multipla.
Si può passare dalla relazione tra variabili alla relazione tra i dati 
sperimentali:


y  G x1 , ... , x j , ... , x q   
in cui l’errore sperimentale ε è attribuito tutto alla variabile 
dipendente Y (condizione rigorosa dal punto di vista matematico).

G. Barbato ‐ A. Germak ‐ G. Genta 15


LA REGRESSIONE LINEARE
Calcolo della regressione lineare
Tuttavia, dal punto di vista pratico, l’errore è dovuto in parte agli 
errori sperimentali sui dati xj, in gran parte agli errori sui valori 
corrispondenti della variabile dipendente Y ed anche alla non 
esattezza della relazione stessa.

Solo quando il contributo dovuto all’incertezza sulla variabile 
dipendente Y è predominante, si può applicare formalmente la 
regressione lineare. Tuttavia, anche quando ci si discosti, in maniera 
non eccessiva, da tale condizione si ottengono risultati che indicano 
bene l’andamento della variabile Y.

Pertanto il metodo è spesso usato per ottenere un’interpolazione 
statistica dei dati sperimentali.
G. Barbato ‐ A. Germak ‐ G. Genta 16
LA REGRESSIONE LINEARE
Il metodo dei minimi quadrati
Per determinare i valori dei coefficienti, esaminiamo il caso  in cui 
esista una relazione funzionale:


Y  G X 1 , ... , X j , ... , X q 
e, quindi, una relazione tra i dati rappresentata da:


y  G x1 , ... , x j , ... , x q   
che possa essere linearizzata.
Tale equazione linearizzata deve valere per tutti i punti sperimentali, 
per cui si può scrivere un sistema di equazioni in cui i valori 
sperimentali xj ed yj sono noti, invece i parametri aj sono incogniti. 

G. Barbato ‐ A. Germak ‐ G. Genta 17


LA REGRESSIONE LINEARE
Il metodo dei minimi quadrati
Scriviamo il sistema nella sua forma generale:

 y1  a0  a1 x11  ...  a j x1 j  ...  a q x1q   1


 .

 yi  a0  a1 xi1  ...  a j xij  ...  a q xiq   2
 .

 y n  a0  a1 xn1  ...  a j xnj  ...  a q xnq   n

Si noti che il numero di equazioni risulta maggiore del numero di 
incognite. Tale sistema può essere risolto con il metodo dei minimi 
quadrati.

G. Barbato ‐ A. Germak ‐ G. Genta 18


LA REGRESSIONE LINEARE
Il metodo dei minimi quadrati

Scriviamo il sistema in forma matriciale:
a 0 
 y1   1 x11 ... x1 j ... x1q     1 
 .  ... ... ... ... ... ...   1   . 
a
     ...   
 y i    1 x i1 ... x ij ... x iq       i 
 .  ... ... ... ... ...
 aj
...     . 
    ...   
 y n   1 x n1 ... x nj ... x nq     n 
a q 

cioè:
 y  1, xa  

Il problema da risolvere è la determinazione della matrice {a}.

G. Barbato ‐ A. Germak ‐ G. Genta 19


LA REGRESSIONE LINEARE
Il metodo dei minimi quadrati
Per fare ciò è necessario che la matrice che premoltiplica {a} sia 
quadrata, in modo da poterla invertire, e ciò si ottiene 
premoltiplicando ambo i membri dell’equazione per la trasposta di 
[1, x]:

1, x T  y  1, x T 1, x a  1, x T  


La soluzione può essere ottenuta formalmente in modo semplice se 
la matrice:

1, x T  
è nulla. 

G. Barbato ‐ A. Germak ‐ G. Genta 20


LA REGRESSIONE LINEARE
Il metodo dei minimi quadrati
Vediamo che forma assume tale matrice:
 n 
1 ... 1 ... 1   1     i 
 ...  i 1

 ... ... ... ...   .   . 
   n 
 x1 j ... xij ... xnj    i      i xij 
 
 ... ... ... ... ...   .   i 1 . 
  n 
 x1q 
xnq   n   

 ... xiq ...
 i 1  i x iq 

Si osservi che si tratta di una matrice colonna in cui il primo elemento 
è dato dalla somma degli ε, il secondo dalla somma dei prodotti degli 
ε per i valori assunti dalla prima variabile, ecc.

Si dimostra che la somma dei valori assunti dalla variabile casuale ε e 
la somma dei prodotti delle variabili casuali ε ed x sono nulle. 

G. Barbato ‐ A. Germak ‐ G. Genta 21


: LA REGRESSIONE LINEARE
Il metodo dei minimi quadrati
Quindi si ha:

1, xT y  1, xT 1, xa

che può essere risolta premoltiplicando per l’inversa di

1, xT 1, x


ovvero
1 1
1, x T 1, x  1, x   y  1, x T 1, x 
T
1, x T 1, xa
 
1
a  1, x  1, x  1, x T  y
T

G. Barbato ‐ A. Germak ‐ G. Genta 22


LA REGRESSIONE LINEARE
Il metodo dei minimi quadrati
La curva di regressione

 y  1, xa  


così ottenuta è quella che rende minima la somma dei quadrati degli 
scarti εi tra i valori sperimentali yi della variabile dipendente ed i 
valori corrispondenti della curva di regressione. 
I valori dei parametri ai possono essere calcolati utilizzando la formula
1
a  1, x  1, x  1, x T  y
T

oppure mediante le funzioni di regressione lineare implementate nei 
fogli elettronici.

G. Barbato ‐ A. Germak ‐ G. Genta 23


IL METODO DEI MINIMI QUADRATI
Caso studio
L’andamento dei dati nella loro successione temporale appare lineare, quindi 
si utilizza il modello x = a0 + a1 t
 
8,012 Coefficienti 
8,010
a0 = 8,00370 
8,008
a1 = 0,00010
x
8,006
regr.
8,004

8,002

8,000
0 10 20 30 40 50
t

G. Barbato ‐ A. Germak ‐ G. Genta 24


IL METODO DEI MINIMI QUADRATI
Caso studio: Per valutare il modello è opportuno rappresentare il 
grafico dei residui rispetto alla linea di regressione, cioè degli scarti tra i 
valori sperimentali di x e i valori previsti dall’equazione di regressione.

Residui

0.005

0.000
x/mm

-0.005
0 10 20 30 40 50
t

G. Barbato ‐ A. Germak ‐ G. Genta 25


IL METODO DEI MINIMI QUADRATI
Caso studio
L’andamento dei residui è un utile indicatore sulla bontà del modello 
adottato. 

Se è presente un fattore sistematico, e tale fattore viene individuato e 
corretto, i residui mantengono gli effetti accidentali presenti, per cui si 
dispongono con andamento aleatorio.  Se, invece, il fattore 
sistematico non è stato completamente corretto, la sua presenza viene 
denunciata da un certo contenuto di “regolarità” nell’andamento dei 
residui.

G. Barbato ‐ A. Germak ‐ G. Genta 26


IL METODO DEI MINIMI QUADRATI
Caso studio
Un metodo di valutazione della “regolarità” consiste nell’osservare la 
sequenza dei segni dei residui: se sono presenti solo effetti aleatori è 
casuale il fatto di avere residui positivi o negativi, per cui c’è una 
frequente alternanza dei segni; se, invece, è presente un fattore 
sistematico, i segni tendono a raggrupparsi.

Nel caso studio l’alternanza dei segni dei residui è buona, per cui il 


modello lineare si può considerare adeguato. Per una valutazione più 
rigorosa della bontà del modello, si può fare un test di normalità (χ2
o GPN) sui residui.

G. Barbato ‐ A. Germak ‐ G. Genta 27


IL METODO DEI MINIMI QUADRATI
Esempio
Dati relativi alla caratteristica di un dinamometro e risultati di regressione 
con funzioni di primo e secondo grado. In questo caso, il modello di primo 
grado non descrive compiutamente il contributo sistematico.

G. Barbato ‐ A. Germak ‐ G. Genta 28


IL METODO DEI MINIMI QUADRATI
Esempio
Esaminando i segni dei residui di primo grado, si vede come essi siano 
fortemente raggruppati, per cui il modello di primo grado non risulta 
adeguato. 

Nel caso di uso di regressione di secondo grado, invece, i residui 
mostrano un’adeguata alternanza dei segni. 

G. Barbato ‐ A. Germak ‐ G. Genta 29


IL METODO DEI MINIMI QUADRATI
Esempio: Andamento dei residui rispetto alle linee di regressione 
polinomiali di primo e secondo grado. Si noti come nel caso di primo 
grado si evidenzi la non‐linearità come fattore sistematico, corretto 
dalla regressione di secondo grado.

Metodo dei minimi quadrati


0.0003
1° Grado
0.0002
Scarti Uscita [mV/V]

0.0001

0.0000

-0.0001 2° Grado

-0.0002

-0.0003
0 200 400 600 800 1000
Forza [N]

G. Barbato ‐ A. Germak ‐ G. Genta 30


IL METODO DEI MINIMI QUADRATI
Esempio
Occorre porre attenzione nell’utilizzo di funzioni polinomiali di grado 
elevato. Infatti aumentando il grado della funzione, ovvero, 
aumentando il numero di variabili indipendenti, diminuisce il 
numero di gradi di libertà. Si può giungere ad una funzione che passa 
per tutti i dati sperimentali, ma ciò non è di alcuna utilità. 

L’obiettivo è quello di separare la parte sistematica da quella 
accidentale. L’eliminazione artificiosa della parte accidentale 
impedisce di conoscere il campo di variabilità dei dati e quindi di 
valutare correttamente l’incertezza associata.

G. Barbato ‐ A. Germak ‐ G. Genta 31


IL METODO DEI MINIMI QUADRATI
Esempio
Un modo di procedere consiste nella scelta di una funzione 
polinomiale come modello e aumentarne il grado per ottenere un 
migliore accordo con l’andamento sperimentale.

È opportuno ribadire due avvertimenti:
• bisogna tener conto del comportamento fisico di quanto si vuole 
descrivere, cioè il modello matematico deve essere adatto al 
fenomeno fisico descritto. 
• il grado del polinomio utilizzato deve essere fatto aumentare solo 
fino ad ottenere un comportamento dei residui privo di 
“regolarità”. 

G. Barbato ‐ A. Germak ‐ G. Genta 32


IL METODO DEI MINIMI QUADRATI
Esempio
Un eccessivo aumento del grado del polinomio porta ad un artificioso 
inseguimento dei fattori accidentali, cioè a una descrizione che 
cambia fortemente con l’aumento o la sostituzione anche di pochi dati 
sperimentali.

Queste osservazioni, che sottolineano la reale difficoltà 
dell’applicazione del metodo, sono collegate alle difficoltà di scelta 
del modello matematico da adottare e di valutazione a posteriori 
della sua bontà.

G. Barbato ‐ A. Germak ‐ G. Genta 33


IL METODO DEI MINIMI QUADRATI
Esempio
Possiamo utilizzare gli stessi dati sperimentali per scegliere come 
variabile indipendente quella che ha incertezza relativa inferiore. Nel 
caso degli strumenti di misura, questa richiesta è spesso disattesa per 
ragioni pratiche. 

In un’operazione di taratura la variabile nota con l’incertezza inferiore 
è quella che descrive i valori dei campioni di riferimento, nell’esempio 
le forze applicate dalla macchina campione di forza. Assumendo tale 
variabile indipendente e, di conseguenza l’uscita come variabile 
dipendente, si trova come equazione di regressione una relazione con 
la quale, nota la forza, mi posso calcolare l’uscita corretta dagli effetti 
sistematici. Tuttavia, di solito, non è ciò che serve. 

G. Barbato ‐ A. Germak ‐ G. Genta 34


IL METODO DEI MINIMI QUADRATI
Esempio
Nell’uso normale si fa la misurazione di una forza incognita, quindi è 
nota l’uscita dello strumento e si desidera calcolare il valore della 
forza misurata. 

Questa situazione è del tutto generale per ogni strumento: nell’uso 


normale il valore del misurando non è noto, mentre con l’operazione 
di misurazione si rende nota l’uscita dello strumento. Si vuole avere 
un’equazione che consenta di calcolare il valore del misurando a 
partire dal valore dell’uscita rilevata. 

Per distinguere le due situazioni chiameremo la prima “Equazione di 
taratura” e la seconda “Equazione d’uso”. 

G. Barbato ‐ A. Germak ‐ G. Genta 35


IL METODO DEI MINIMI QUADRATI
Esempio: Confronto tra i residui dell’equazione di taratura e quelli 
equivalenti all’equazione d’uso .

Nota: Avendo gli scostamenti sulla forza calcolati con l’equazione 
d’uso, si possono trovare (moltiplicando per la pendenza cambiata di 
segno) gli scostamenti equivalenti sull’uscita. 
G. Barbato ‐ A. Germak ‐ G. Genta 36
IL METODO DEI MINIMI QUADRATI
Esempio
Il metodo grafico non è abbastanza sensibile per valutare differenze 
dell’ordine dei residui ottenuti (poche parti su diecimila. ). 

Si vede che, dal punto di vista pratico, con i valori tipici d’incertezza 
degli strumenti di misura, è possibile utilizzare le più comode 
equazioni d’uso . Tuttavia, per completezza, in molti casi i certificati 
ACCREDIA presentano sia le equazioni di taratura, sia le equazioni 
d’uso.

G. Barbato ‐ A. Germak ‐ G. Genta 37


IL METODO DEI MINIMI QUADRATI
Valutazione a posteriori della bontà del modello
Esempio
Per valutare la bontà del modello matematico adottato è 
indispensabile esaminare il grafico dei residui. Può essere, inoltre, 
utile valutare se l’ipotesi di distribuzione normale per i residui deve 
essere rifiutata, evidenziando così che continua ad essere presente
un fattore sistematico.

I residui rispetto alla regressione possono essere trattati come una 
qualsiasi variabile casuale, ed analizzati con il test del χ2 o con il 
grafico di probabilità normale.

G. Barbato ‐ A. Germak ‐ G. Genta 38


IL METODO DEI MINIMI QUADRATI
Valutazione a posteriori della bontà del modello
Esempio
Grafico di probabilità normale dei residui rispetto alla funzione di 
regressione di primo grado. L’andamento indica una distribuzione 
iponormale (maggiore quantità di dati per i residui nelle zone estreme).

G. Barbato ‐ A. Germak ‐ G. Genta 39


IL METODO DEI MINIMI QUADRATI
Valutazione a posteriori della bontà del modello
Esempio
Grafico di probabilità normale dei residui rispetto alla funzione di 
regressione di secondo grado. Si noti che l’andamento, pur con le sue 
irregolarità, può essere interpolato con una retta.

G. Barbato ‐ A. Germak ‐ G. Genta 40


IL METODO DEI MINIMI QUADRATI
Valutazione a posteriori della bontà del modello
Esempio
A prima vista, i due andamenti sembrano discostarsi ugualmente 
dalla forma rettilinea. 

Nel primo caso l’andamento curvo è ben delineato.  Si giunge a 
questa conclusione se si cerca di rappresentare la forma con una 
banda che ha la larghezza indicata dalle condizioni di irregolarità più 
evidenti. Anche tracciando una zona rettilinea con tale larghezza non
è possibile contenere tutti i dati. 

Nel secondo caso, invece, le irregolarità locali sono nettamente 
maggiori, per cui tutti i punti risultano pressoché compatibili.

G. Barbato ‐ A. Germak ‐ G. Genta 41


IL METODO DEI MINIMI QUADRATI
Valutazione a posteriori della bontà del modello
Esempio
In questo caso, i GPN non danno un’indicazione più evidente di quanto 
si vede dall’andamento dei residui. Ciò sottolinea l’importanza 
dell’esame del grafico dei residui. 
Metodo dei minimi quadrati
0.0003
1° Grado
0.0002
Scarti Uscita [mV/V]

0.0001

0.0000

-0.0001 2° Grado

-0.0002

-0.0003
0 200 400 600 800 1000
Forza [N]

G. Barbato ‐ A. Germak ‐ G. Genta 42

Potrebbero piacerti anche