l06 - Identificazione Dei Fattori Sistematici - La Regressione Lineare

Lezione n.
6 ‐ Identificazione dei fattori
sistematici. La regressione lineare.
Statistica Sperimentale e Misure
Meccaniche
G. Barbato ‐ A. Germak ‐ G. Genta 1

RICERCA DI FATTORI SISTEMATICI
I metodi del χ2 e del GPN e quelli legati all’analisi della varianza
forniscono un’indicazione sulla presenza di fattori sistematici e sul
loro tipo, ma non giungono ad identificarli.
L’identificazione dei fattori sistematici richiede spesso un’analisi di

tutto l’impianto sperimentale, tuttavia, per alcuni di essi, si può
ottenere un’ulteriore indicazione esaminando l’andamento globale
dei dati.

Caso studio: Risultati, espressi in millimetri, delle misurazioni di
lunghezza di un manufatto, fatte da cinque diversi operatori.

Caso studio : L’andamento del GPN si presenta nella forma iponormale.
3,0
2,0
1,0
0,0
z
-1,0
-2,0
-3,0
8,000 8,002 8,004 8,006 8,008 8,010 8,012
x/mm

L’andamento del GPN indica la possibile presenza di una deriva, cioè di
una tendenza sistematica dei risultati ottenuti in tempi successivi a
variare sempre nello stesso senso, quindi una variazione che, a parte le
irregolarità dovute a fattori accidentali, risulta globalmente monotona
in funzione del tempo.
Non avendo registrato i tempi di presa dei vari dati, si può, tuttavia,
valutare la presenza di una deriva dall’andamento dei risultati posti in
ordine di presa, cioè nella loro successione temporale.

Caso studio: Andamento dei dati nella loro successione temporale. È
possibile desumere la presenza di un fattore sistematico, che pare
avere un andamento lineare con la successione dei dati (deriva
lineare).

8,012
8,010
8,008
x
8,006
regr.
8,004
8,002
8,000
0 10 20 30 40 50
t

LA REGRESSIONE LINEARE
Il caso studio permette di comprendere l’uso dello strumento statistico
della regressione lineare per identificare la relazione funzionale tra una
o più variabili indipendenti (spesso indicate con la lettera X) ed una
variabile dipendente (spesso indicata con la lettera Y). È fondamentale
capire quale sia la variabile indipendente e quale sia la variabile
dipendente.
Per il caso studio assumiamo come variabile indipendente il tempo t e
come variabile dipendente la distanza x misurata. Si noti che per il
tempo t (dato solo dalla successione delle prove) non è espressa l’unità
di misura, ciò è tuttavia accettabile allo scopo di vedere se è presente
una deriva, quindi solo un andamento.

Le operazioni da eseguire possono essere schematizzate in tre fasi
successive, che, se necessario, possono essere reiterate:
1. presentazione grafica dei dati sperimentali e considerazioni sulla
base dell’esperienza per fare una scelta dell’ipotesi di un modello
matematico che rappresenti l’andamento osservato.
2. calcolo dei parametri del modello matematico con il metodo dei
minimi quadrati.
3. valutazione dei residui, cioè degli scarti tra valori sperimentali e
valori calcolati con il modello matematico, per decidere se il
modello adottato è adeguato.
Mentre la fase 2 è descritta compiutamente da un procedimento
matematico, la fase 1, in parte, la fase 3 sono affidate all’esperienza di
chi analizza i dati sperimentali.

Fase 1
La rappresentazione grafica può indicare la forma dell’andamento
generale e consente di valutare se essa è rappresentabile da una
retta o da curve più complesse (parabole, iperboli, ecc.).
È anche bene utilizzare tutte le informazioni sul fenomeno descritto
dai dati sperimentali, in modo da scegliere, ove possibile, un
modello matematico corrispondente alle leggi fisiche coinvolte.

Fase 1
Il modello matematico adottato propone solo l’andamento della linea
che descrive i dati, è, cioè, costituito da un’equazione generica che
contiene dei parametri da determinare per identificare la curva di quella
famiglia che meglio si adatta ai dati sperimentali.
Se si decide che la retta rappresenta bene i nostri dati sperimentali, si
utilizzerà il modello x = a0 + a1 t.
Nel modello si individuano la variabile dipendente, nell’esempio x, la
variabile indipendente (o più variabili indipendenti), nell’esempio t, ed i
parametri del modello a0 e a1.

Fase 2
Nella seconda fase si calcolano i parametri con il metodo dei minimi
quadrati, che può essere applicato se la funzione matematica
utilizzata è lineare nei parametri stessi. Da ciò nasce il nome di
regressione lineare.
Si supponga , ad esempio, che l’andamento dei dati sperimentali
possa essere descritto da una parabola che collega la variabile
dipendente Y alla variabile indipendente X, cioè:
Y  a 0  a1 X  a 2 X 2
si vede che la Y è lineare in funzione dei parametri a0, a1 ed a2, che

devono essere determinati per estrarre dalla famiglia di parabole
quella più adatta ai dati sperimentali.
Fase 2
Lo stesso vale, ad esempio, se si utilizza una funzione esponenziale del
tipo:
Y  a 0  a1  e X
poiché, di nuovo, è lineare nei parametri.
Se si volesse, invece, utilizzare una funzione esponenziale del tipo
Y  a 0  e a1 X
si tratterebbe di regressione non lineare, molto più complessa.

Fase 3
Nella terza fase si deve valutare se il modello scelto è adatto ai dati
sperimentali. Tale valutazione viene fatta tenendo conto dello scopo
per cui si cerca un modello matematico: individuare i fattori
sistematici ed il loro andamento.
Se il modello matematico scelto corrisponde al fattore sistematico
presente, allora i residui, cioè la differenza tra i valori dei dati
sperimentali e quelli corrispondenti calcolati con il modello
matematico, sono dovuti solo ai fattori accidentali, quindi devono
avere una distribuzione normale.
Se tale ipotesi non viene esclusa da un test di normalità , allora si
può accettare il modello scelto.

Calcolo della regressione lineare
Le forme lineari considerate possono essere rappresentate da una
funzione a più variabili:

Y  G X 1 , ... , X j , ... , X q 
in cui le variabili indipendenti Xj sono i vari contributi della funzione
scelta. Per la parabola si pone:
Y  a0  a1 X  a 2 X 2 X1  X X2  X 2
G  X 1 , X 2   a0  a1 X 1  a2 X 2
invece, per l’esponenziale si pone:
Y  a0  a1e X X1  e X
G  X 1   a0  a1 X 1

Le variabili Xj possono essere anche fattori del tutto indipendenti. Ad
esempio, X1 può essere il tempo (come nel caso studio), X2 può
essere la temperatura ambiente a cui è stata fatta la misura, X3 la
pressione atmosferica, e così via. In tal caso si parla di regressione
multipla.
Si può passare dalla relazione tra variabili alla relazione tra i dati
sperimentali:

y  G x1 , ... , x j , ... , x q   
in cui l’errore sperimentale ε è attribuito tutto alla variabile
dipendente Y (condizione rigorosa dal punto di vista matematico).

Tuttavia, dal punto di vista pratico, l’errore è dovuto in parte agli
errori sperimentali sui dati xj, in gran parte agli errori sui valori
corrispondenti della variabile dipendente Y ed anche alla non
esattezza della relazione stessa.
Solo quando il contributo dovuto all’incertezza sulla variabile
dipendente Y è predominante, si può applicare formalmente la
regressione lineare. Tuttavia, anche quando ci si discosti, in maniera
non eccessiva, da tale condizione si ottengono risultati che indicano
bene l’andamento della variabile Y.
Pertanto il metodo è spesso usato per ottenere un’interpolazione
statistica dei dati sperimentali.
Il metodo dei minimi quadrati
Per determinare i valori dei coefficienti, esaminiamo il caso in cui
esista una relazione funzionale:

Y  G X 1 , ... , X j , ... , X q 
e, quindi, una relazione tra i dati rappresentata da:

y  G x1 , ... , x j , ... , x q   
che possa essere linearizzata.
Tale equazione linearizzata deve valere per tutti i punti sperimentali,
per cui si può scrivere un sistema di equazioni in cui i valori
sperimentali xj ed yj sono noti, invece i parametri aj sono incogniti.

Scriviamo il sistema nella sua forma generale:
 y1  a0  a1 x11  ...  a j x1 j  ...  a q x1q   1

 .

 yi  a0  a1 xi1  ...  a j xij  ...  a q xiq   2
 .

 y n  a0  a1 xn1  ...  a j xnj  ...  a q xnq   n
Si noti che il numero di equazioni risulta maggiore del numero di
incognite. Tale sistema può essere risolto con il metodo dei minimi
quadrati.

Scriviamo il sistema in forma matriciale:
a 0 
 y1   1 x11 ... x1 j ... x1q     1 
 .  ... ... ... ... ... ...   1   . 
a
     ...   
 y i    1 x i1 ... x ij ... x iq       i 
 .  ... ... ... ... ...
 aj
...     . 
    ...   
 y n   1 x n1 ... x nj ... x nq     n 
a q 
cioè:
 y  1, xa  
Il problema da risolvere è la determinazione della matrice {a}.

Per fare ciò è necessario che la matrice che premoltiplica {a} sia
quadrata, in modo da poterla invertire, e ciò si ottiene
premoltiplicando ambo i membri dell’equazione per la trasposta di
[1, x]:
1, x T  y  1, x T 1, x a  1, x T  

La soluzione può essere ottenuta formalmente in modo semplice se
la matrice:
1, x T  
è nulla.

Vediamo che forma assume tale matrice:
 n 
1 ... 1 ... 1   1     i 
 ...  i 1

 ... ... ... ...   .   . 
   n 
 x1 j ... xij ... xnj    i      i xij 
 
 ... ... ... ... ...   .   i 1 . 
  n 
 x1q 
xnq   n   

 ... xiq ...
 i 1  i x iq 
Si osservi che si tratta di una matrice colonna in cui il primo elemento
è dato dalla somma degli ε, il secondo dalla somma dei prodotti degli
ε per i valori assunti dalla prima variabile, ecc.
Si dimostra che la somma dei valori assunti dalla variabile casuale ε e
la somma dei prodotti delle variabili casuali ε ed x sono nulle.

: LA REGRESSIONE LINEARE
Quindi si ha:
1, xT y  1, xT 1, xa
che può essere risolta premoltiplicando per l’inversa di
1, xT 1, x

ovvero
1 1
1, x T 1, x  1, x   y  1, x T 1, x 
T
1, x T 1, xa
 
1
a  1, x  1, x  1, x T  y
T

La curva di regressione
 y  1, xa  

così ottenuta è quella che rende minima la somma dei quadrati degli
scarti εi tra i valori sperimentali yi della variabile dipendente ed i
valori corrispondenti della curva di regressione.
I valori dei parametri ai possono essere calcolati utilizzando la formula
1
a  1, x  1, x  1, x T  y
T
oppure mediante le funzioni di regressione lineare implementate nei
fogli elettronici.

IL METODO DEI MINIMI QUADRATI
Caso studio
L’andamento dei dati nella loro successione temporale appare lineare, quindi
si utilizza il modello x = a0 + a1 t

8,012 Coefficienti
8,010
a0 = 8,00370
8,008
a1 = 0,00010
x
8,006
regr.
8,004
8,002
8,000
0 10 20 30 40 50
t

Caso studio: Per valutare il modello è opportuno rappresentare il
grafico dei residui rispetto alla linea di regressione, cioè degli scarti tra i
valori sperimentali di x e i valori previsti dall’equazione di regressione.
Residui
0.005
0.000
x/mm
-0.005
0 10 20 30 40 50
t

Caso studio
L’andamento dei residui è un utile indicatore sulla bontà del modello
adottato.
Se è presente un fattore sistematico, e tale fattore viene individuato e
corretto, i residui mantengono gli effetti accidentali presenti, per cui si
dispongono con andamento aleatorio. Se, invece, il fattore
sistematico non è stato completamente corretto, la sua presenza viene
denunciata da un certo contenuto di “regolarità” nell’andamento dei
residui.

Caso studio
Un metodo di valutazione della “regolarità” consiste nell’osservare la
sequenza dei segni dei residui: se sono presenti solo effetti aleatori è
casuale il fatto di avere residui positivi o negativi, per cui c’è una
frequente alternanza dei segni; se, invece, è presente un fattore
sistematico, i segni tendono a raggrupparsi.
Nel caso studio l’alternanza dei segni dei residui è buona, per cui il

modello lineare si può considerare adeguato. Per una valutazione più
rigorosa della bontà del modello, si può fare un test di normalità (χ2
o GPN) sui residui.

Esempio
Dati relativi alla caratteristica di un dinamometro e risultati di regressione
con funzioni di primo e secondo grado. In questo caso, il modello di primo
grado non descrive compiutamente il contributo sistematico.

Esempio
Esaminando i segni dei residui di primo grado, si vede come essi siano
fortemente raggruppati, per cui il modello di primo grado non risulta
adeguato.
Nel caso di uso di regressione di secondo grado, invece, i residui
mostrano un’adeguata alternanza dei segni.

Esempio: Andamento dei residui rispetto alle linee di regressione
polinomiali di primo e secondo grado. Si noti come nel caso di primo
grado si evidenzi la non‐linearità come fattore sistematico, corretto
dalla regressione di secondo grado.
Metodo dei minimi quadrati

0.0003
1° Grado
0.0002
Scarti Uscita [mV/V]
0.0001
0.0000
-0.0001 2° Grado
-0.0002
-0.0003
0 200 400 600 800 1000
Forza [N]

Esempio
Occorre porre attenzione nell’utilizzo di funzioni polinomiali di grado
elevato. Infatti aumentando il grado della funzione, ovvero,
aumentando il numero di variabili indipendenti, diminuisce il
numero di gradi di libertà. Si può giungere ad una funzione che passa
per tutti i dati sperimentali, ma ciò non è di alcuna utilità.
L’obiettivo è quello di separare la parte sistematica da quella
accidentale. L’eliminazione artificiosa della parte accidentale
impedisce di conoscere il campo di variabilità dei dati e quindi di
valutare correttamente l’incertezza associata.

Esempio
Un modo di procedere consiste nella scelta di una funzione
polinomiale come modello e aumentarne il grado per ottenere un
migliore accordo con l’andamento sperimentale.
È opportuno ribadire due avvertimenti:
• bisogna tener conto del comportamento fisico di quanto si vuole
descrivere, cioè il modello matematico deve essere adatto al
fenomeno fisico descritto.
• il grado del polinomio utilizzato deve essere fatto aumentare solo
fino ad ottenere un comportamento dei residui privo di
“regolarità”.

Esempio
Un eccessivo aumento del grado del polinomio porta ad un artificioso
inseguimento dei fattori accidentali, cioè a una descrizione che
cambia fortemente con l’aumento o la sostituzione anche di pochi dati
sperimentali.
Queste osservazioni, che sottolineano la reale difficoltà
dell’applicazione del metodo, sono collegate alle difficoltà di scelta
del modello matematico da adottare e di valutazione a posteriori
della sua bontà.

Esempio
Possiamo utilizzare gli stessi dati sperimentali per scegliere come
variabile indipendente quella che ha incertezza relativa inferiore. Nel
caso degli strumenti di misura, questa richiesta è spesso disattesa per
ragioni pratiche.
In un’operazione di taratura la variabile nota con l’incertezza inferiore
è quella che descrive i valori dei campioni di riferimento, nell’esempio
le forze applicate dalla macchina campione di forza. Assumendo tale
variabile indipendente e, di conseguenza l’uscita come variabile
dipendente, si trova come equazione di regressione una relazione con
la quale, nota la forza, mi posso calcolare l’uscita corretta dagli effetti
sistematici. Tuttavia, di solito, non è ciò che serve.

Esempio
Nell’uso normale si fa la misurazione di una forza incognita, quindi è
nota l’uscita dello strumento e si desidera calcolare il valore della
forza misurata.
Questa situazione è del tutto generale per ogni strumento: nell’uso

normale il valore del misurando non è noto, mentre con l’operazione
di misurazione si rende nota l’uscita dello strumento. Si vuole avere
un’equazione che consenta di calcolare il valore del misurando a
partire dal valore dell’uscita rilevata.
Per distinguere le due situazioni chiameremo la prima “Equazione di
taratura” e la seconda “Equazione d’uso”.

Esempio: Confronto tra i residui dell’equazione di taratura e quelli
equivalenti all’equazione d’uso .
Nota: Avendo gli scostamenti sulla forza calcolati con l’equazione
d’uso, si possono trovare (moltiplicando per la pendenza cambiata di
segno) gli scostamenti equivalenti sull’uscita.
Esempio
Il metodo grafico non è abbastanza sensibile per valutare differenze
dell’ordine dei residui ottenuti (poche parti su diecimila. ).
Si vede che, dal punto di vista pratico, con i valori tipici d’incertezza
degli strumenti di misura, è possibile utilizzare le più comode
equazioni d’uso . Tuttavia, per completezza, in molti casi i certificati
ACCREDIA presentano sia le equazioni di taratura, sia le equazioni
d’uso.

Valutazione a posteriori della bontà del modello
Esempio
Per valutare la bontà del modello matematico adottato è
indispensabile esaminare il grafico dei residui. Può essere, inoltre,
utile valutare se l’ipotesi di distribuzione normale per i residui deve
essere rifiutata, evidenziando così che continua ad essere presente
un fattore sistematico.
I residui rispetto alla regressione possono essere trattati come una
qualsiasi variabile casuale, ed analizzati con il test del χ2 o con il
grafico di probabilità normale.

Esempio
Grafico di probabilità normale dei residui rispetto alla funzione di
regressione di primo grado. L’andamento indica una distribuzione
iponormale (maggiore quantità di dati per i residui nelle zone estreme).

Esempio
Grafico di probabilità normale dei residui rispetto alla funzione di
regressione di secondo grado. Si noti che l’andamento, pur con le sue
irregolarità, può essere interpolato con una retta.

Esempio
A prima vista, i due andamenti sembrano discostarsi ugualmente
dalla forma rettilinea.
Nel primo caso l’andamento curvo è ben delineato. Si giunge a
questa conclusione se si cerca di rappresentare la forma con una
banda che ha la larghezza indicata dalle condizioni di irregolarità più
evidenti. Anche tracciando una zona rettilinea con tale larghezza non
è possibile contenere tutti i dati.
Nel secondo caso, invece, le irregolarità locali sono nettamente
maggiori, per cui tutti i punti risultano pressoché compatibili.

Esempio
In questo caso, i GPN non danno un’indicazione più evidente di quanto
si vede dall’andamento dei residui. Ciò sottolinea l’importanza
dell’esame del grafico dei residui.
Metodo dei minimi quadrati
0.0003
1° Grado
0.0002
Scarti Uscita [mV/V]
0.0001
0.0000
-0.0001 2° Grado
-0.0002
-0.0003
0 200 400 600 800 1000
Forza [N]

l06 - Identificazione Dei Fattori Sistematici - La Regressione Lineare

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

l06 - Identificazione Dei Fattori Sistematici - La Regressione Lineare

Caricato da

Copyright:

Formati disponibili

Lezione n.

G. Barbato ‐ A. Germak ‐ G. Genta 1

L’identificazione dei fattori sistematici richiede spesso un’analisi di

G. Barbato ‐ A. Germak ‐ G. Genta 2

G. Barbato ‐ A. Germak ‐ G. Genta 3

G. Barbato ‐ A. Germak ‐ G. Genta 4

G. Barbato ‐ A. Germak ‐ G. Genta 5

G. Barbato ‐ A. Germak ‐ G. Genta 6

G. Barbato ‐ A. Germak ‐ G. Genta 7

G. Barbato ‐ A. Germak ‐ G. Genta 8

G. Barbato ‐ A. Germak ‐ G. Genta 9

G. Barbato ‐ A. Germak ‐ G. Genta 10

si vede che la Y è lineare in funzione dei parametri a0, a1 ed a2, che

G. Barbato ‐ A. Germak ‐ G. Genta 12

G. Barbato ‐ A. Germak ‐ G. Genta 13

G. Barbato ‐ A. Germak ‐ G. Genta 14

G. Barbato ‐ A. Germak ‐ G. Genta 15

G. Barbato ‐ A. Germak ‐ G. Genta 17

 y1  a0  a1 x11  ...  a j x1 j  ...  a q x1q   1

G. Barbato ‐ A. Germak ‐ G. Genta 18

Il problema da risolvere è la determinazione della matrice {a}.

G. Barbato ‐ A. Germak ‐ G. Genta 19

1, x T  y  1, x T 1, x a  1, x T  

G. Barbato ‐ A. Germak ‐ G. Genta 20

G. Barbato ‐ A. Germak ‐ G. Genta 21

1, xT y  1, xT 1, xa

che può essere risolta premoltiplicando per l’inversa di

1, xT 1, x

G. Barbato ‐ A. Germak ‐ G. Genta 22

 y  1, xa  

G. Barbato ‐ A. Germak ‐ G. Genta 23

G. Barbato ‐ A. Germak ‐ G. Genta 24

G. Barbato ‐ A. Germak ‐ G. Genta 25

G. Barbato ‐ A. Germak ‐ G. Genta 26

Nel caso studio l’alternanza dei segni dei residui è buona, per cui il

G. Barbato ‐ A. Germak ‐ G. Genta 27

G. Barbato ‐ A. Germak ‐ G. Genta 28

G. Barbato ‐ A. Germak ‐ G. Genta 29

Metodo dei minimi quadrati

G. Barbato ‐ A. Germak ‐ G. Genta 30

G. Barbato ‐ A. Germak ‐ G. Genta 31

G. Barbato ‐ A. Germak ‐ G. Genta 32

G. Barbato ‐ A. Germak ‐ G. Genta 33

G. Barbato ‐ A. Germak ‐ G. Genta 34

Questa situazione è del tutto generale per ogni strumento: nell’uso

G. Barbato ‐ A. Germak ‐ G. Genta 35

G. Barbato ‐ A. Germak ‐ G. Genta 37

G. Barbato ‐ A. Germak ‐ G. Genta 38

G. Barbato ‐ A. Germak ‐ G. Genta 39

G. Barbato ‐ A. Germak ‐ G. Genta 40

G. Barbato ‐ A. Germak ‐ G. Genta 41

G. Barbato ‐ A. Germak ‐ G. Genta 42

Potrebbero piacerti anche