Spesso, nella formulazione di modelli, ci troviamo difronte alla necessità di validare i nostri modelli e ricavarne i
parametri caratteristici, analizzando dei dati sperimentali (di natura discreta).
Per effettuare quest’operazione, è necessario procedere in modo che la funzione continua, che rappresenti i dati,
sia il più possibile “vicina” matematicamente ai dati, dove questa vicinanza viene valutata complessivamente per
tutti i dati a disposizione.
!" #2 $ $
Y di = Yi − Yicalc = $Yi − Yicalc $
Yi
Yicalc
di
Xi X
La regressione lineare mediante una retta passante per l’origine si effettua risolvendo il problema di individuare
il coefficiente angolare della retta y = a · x + b che meglio rappresenta i dati forniti sotto forma di tabella a due
colonne (X, Y ), contenente n coppie di dati (Xi , Yi ) di una variabile independente Xi e del corrispondente valore
misurato della variabile dipendente Yi ; per fare ciò, si minimizza la somma dei quadrati delle distanze di dei punti
sperimentali dalla retta assegnata y = a · x + b, come mostrato in figura 0.1.
L’analisi si basa sulla definizione di una funzione obiettivo definita come segue:
n
X n
X X
2
φ= d2i = Yi − Yicalc = (Yi − a · Xi − b)2 =
i=1 i=1 i (0.1)
X X X X X
= Yi2 +a · 2
Xi2 2
+n·b −2·a· Xi · i Yi − 2b Yi + 2ab Xi
i i i i i
e per trovare il valore di a cercato, basta minimizzare la funzione della 0.1 rispetto alla stessa a1 :
∂φ P P P
∂a =2·a· Xi2 − 2 · Xi · Yi + 2 · b · i Xi = 0
i
∂φ P P (0.2)
∂b = 2 · nb − 2 i Yi + 2a · Xi = 0
1 Xi2 6= ( Xi )2 .
P P P P P
Si ricorda che (Xi · Yi ) 6= Xi · Yi e
2
Indicando con: P
i Xi
X̄ = Pn
i Yi
Ȳ = Pn
i X i Yi
XY =
P n 2
i Xi
X2 = n
i valori medi campionari delle grandezze indicate ( su n coppie di dati disponibili) , si trova, per i due coefficienti:
XY −(X̄ )·(Ȳ )
a= 2
X 2 −(X̄ )
Y ·X 2 −(X̄ )·XY
b= 2
X 2 −(X̄ )
Una misura complessiva della correlazione tra due variabili X e Y è data attraverso la cosidetta devianza totale
σT2 :
X X X
σT2 = (Yi − Ȳ )2 = (Yi − Yicalc )2 + (Yicalc − Ȳ )2 (0.3)
i i i
P
Yi
dove Ȳ = n
i
è il valore medio della variabile dipendente Y ed n è sempre il numero delle coppie di dati.
L’espressione 0.3 merita alcune spiegazioni e considerazioni:
P P P
1. per passare dalla definizione σT2 = i (Yi − Ȳ )2 = i (Yi − Yicalc )2 + i (Yi
calc
− Ȳ )2 è stato utilizzato il
teorema della partizione, ampiamente utilizzato in statistica;
P P
2. i termini σr2 = i (Yi − Yi
calc 2
) e σs2 = i (Yi
calc
− Ȳ )2 rappresentano le cosidette devianza residua e spiegata,
2
rispettivamente .
2 Dal confronto con la 0.1, si vede facilmente come la funzione obiettivo φ coincida con la devianza residua σr2 .