Sei sulla pagina 1di 2

1

Metodo per la regressione con i minimi quadrati di dati discreti

Spesso, nella formulazione di modelli, ci troviamo difronte alla necessità di validare i nostri modelli e ricavarne i
parametri caratteristici, analizzando dei dati sperimentali (di natura discreta).
Per effettuare quest’operazione, è necessario procedere in modo che la funzione continua, che rappresenti i dati,
sia il più possibile “vicina” matematicamente ai dati, dove questa vicinanza viene valutata complessivamente per
tutti i dati a disposizione.

!" #2 $ $
Y di = Yi − Yicalc = $Yi − Yicalc $

Yi
Yicalc

di

Xi X

Fig. 0.1: Metodo per la regressione lineare mediante minimi quadrati.

La regressione lineare mediante una retta passante per l’origine si effettua risolvendo il problema di individuare
il coefficiente angolare della retta y = a · x + b che meglio rappresenta i dati forniti sotto forma di tabella a due
colonne (X, Y ), contenente n coppie di dati (Xi , Yi ) di una variabile independente Xi e del corrispondente valore
misurato della variabile dipendente Yi ; per fare ciò, si minimizza la somma dei quadrati delle distanze di dei punti
sperimentali dalla retta assegnata y = a · x + b, come mostrato in figura 0.1.
L’analisi si basa sulla definizione di una funzione obiettivo definita come segue:
n
X n
X X
2
φ= d2i = Yi − Yicalc = (Yi − a · Xi − b)2 =
i=1 i=1 i (0.1)
X X X X X
= Yi2 +a · 2
Xi2 2
+n·b −2·a· Xi · i Yi − 2b Yi + 2ab Xi
i i i i i

e per trovare il valore di a cercato, basta minimizzare la funzione della 0.1 rispetto alla stessa a1 :

∂φ P P P
∂a =2·a· Xi2 − 2 · Xi · Yi + 2 · b · i Xi = 0
i
∂φ P P (0.2)
∂b = 2 · nb − 2 i Yi + 2a · Xi = 0
1 Xi2 6= ( Xi )2 .
P P P P P
Si ricorda che (Xi · Yi ) 6= Xi · Yi e
2

Indicando con: P
i Xi
X̄ = Pn
i Yi
Ȳ = Pn
i X i Yi
XY =
P n 2
i Xi
X2 = n

i valori medi campionari delle grandezze indicate ( su n coppie di dati disponibili) , si trova, per i due coefficienti:

XY −(X̄ )·(Ȳ )
a= 2
X 2 −(X̄ )
Y ·X 2 −(X̄ )·XY
b= 2
X 2 −(X̄ )

Una misura complessiva della correlazione tra due variabili X e Y è data attraverso la cosidetta devianza totale
σT2 :
X X X
σT2 = (Yi − Ȳ )2 = (Yi − Yicalc )2 + (Yicalc − Ȳ )2 (0.3)
i i i
P
Yi
dove Ȳ = n
i
è il valore medio della variabile dipendente Y ed n è sempre il numero delle coppie di dati.
L’espressione 0.3 merita alcune spiegazioni e considerazioni:
P P P
1. per passare dalla definizione σT2 = i (Yi − Ȳ )2 = i (Yi − Yicalc )2 + i (Yi
calc
− Ȳ )2 è stato utilizzato il
teorema della partizione, ampiamente utilizzato in statistica;
P P
2. i termini σr2 = i (Yi − Yi
calc 2
) e σs2 = i (Yi
calc
− Ȳ )2 rappresentano le cosidette devianza residua e spiegata,
2
rispettivamente .

Nel caso della regressione mediante una retta, la 0.3 diventa:


X X
σT2 = (Yi − a · Xi − b)2 + (a · X + bi − Ȳ )2
i i

In generale, il coefficiente di correlazione ρ è definito come:


s s P
σs2 · Xi + b − Ȳ )2
i (a
ρ=± =± P P (0.4)
σT2 2
i (Yi − a · Xi − b) + i (a · Xi + b − Ȳ )
2

il valore di ρ è positivo se i valori di Yi sono crescenti per Xi crescenti.

2 Dal confronto con la 0.1, si vede facilmente come la funzione obiettivo φ coincida con la devianza residua σr2 .