Interpolazione, Regressione, Correlazione

INTERPOLAZIONE, REGRESSIONE E CORRELAZIONE
1. Interpolazione di dati ed approssimazione
In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano “relazioni” fra

grandezze. Per esempio si può pensare allo studio della relazione fra reddito e risparmio di una
popolazione oppure alla relazione tra altezza e peso dei militari, ecc.
Gli esempi citati di indagini statistiche rappresentano analisi di tipo comparativo consistenti
nell’osservazione di più variabili su un medesimo gruppo di individui.
Il primo passo utile per indagare qualitativamente l’eventuale dipendenza fra due variabili x e y
consiste nel disegnare un grafico, detto “diagramma a dispersione” o “scatterplot”.
Si pongono in ascissa i dati relativi a una delle due variabili, in ordinata quelli relativi all’altra
variabile e si rappresentano con punti o cerchietti le singole osservazioni. Se esiste una relazione
semplice fra le due variabili, il diagramma dovrebbe evidenziarla.
Partendo da queste coppie di dati (x, y), si vuole determinare la funzione:
y = f(x)
che descrive il fenomeno.
Nelle indagini statistiche si ricorre all’uso di elaboratori mediante i quali si esegue un “fitting di
dati”.
La prima fase del processo di risoluzione di un problema mediante elaboratore consiste nella
descrizione del problema mediante modello matematico.
Spesso le uniche informazioni sul problema in esame consistono in un insieme finito di dati:
- misure sperimentali;
- valori assunti da una funzione in certi punti;
- dati provenienti da indagini statistiche.
Dall’insieme di dati a disposizione si vuole costruire una funzione che rappresenti il fenomeno in
modo attendibile.
Esempio 1
Si vuole stimare la percentuale di crescita della popolazione italiana dal 1921 al 1981. Dati registrati
nei censimenti in migliaia:
x 1921 1931 1951 1961 1971 1981

P 37404 40582 47159 49904 53745 65336
f(x): funzione interpolante
1
Esempio 2
Le misure della forza F necessaria per estendere una molla, con costante di elasticità K, per piccoli
spostamenti x dalla posizione di equilibrio sono riportate nella tabella:
x 1 2 4 7 9 12
F 1,5 3,9 6,6 11,7 15,6 18,8
f(x): funzione approssimante
I due esempi mostrano che per trovare la funzione f(x) si può procedere in due modi:
1) determinare la funzione che assuma esattamente i punti (x, y) osservati (interpolazione per punti
noti, o interpolazione matematica);
2) determinare la funzione che si accosti il più possibile ai punti (x, y) osservati (interpolazione fra
punti noti, o interpolazione statistica).
La scelta di interpolare per via matematica o statistica dipende dalla qualità e quantità dei dati del
problema.
L’interpolazione matematica ci consente di costruire una funzione passante per punti assegnati e
descrive il problema mediante un modello che assume esatti i dati.
Nell’esempio 1 la funzione f(x) è la linea che passa per tutti i punti osservati di coordinate (x,P).
L’interpolazione statistica o approssimazione ci consente di costruire una funzione che si scosti
poco dai dati e descrive il problema mediante un modello che assume affetti da errore i dati.
Nell’esempio 2 la funzione f(x) è la retta di equazione F = 1,6x + 0,39 che passa fra l’insieme di
punti dei punti di coordinate (x,F).
2
Definizioni:
per interpolazione si intende la ricerca di una funzione matematica che approssima l’andamento di un
insieme di punti.
TIPI DI INTERPOLAZIONE
Interpolazione MATEMATICA
Calcola una funzione che passa PER tutti i punti
Interpolazione STATISTICA
Calcola una funzione che passa FRA i punti
2. Costruzione di un polinomio di interpolazione
Assegnati n punti (xi,yi) si vuole costruire un polinomio p(x) che nei nodi xi soddisfi le condizioni:
p(xi) = yi, i = 1,……,n
Di che grado deve essere il polinomio interpolante affinché esista e sia unico?
Il polinomio deve essere di grado n-1 se i punti sono n:
y = a0 + a1x + a2x2 +...+ an-1xn-1
Le “a” sono i parametri e sono in numero uguale ai punti attraverso i quali bisognerà interpolare.
Esempio
Cercare l’equazione di una funzione passante per i punti: A(0;4), B(0,5;10), C(1;15).
Si tratta di determinare un’equazione di secondo grado y = a0 + a1x + a2x2 in quanto i punti da

interpolare sono 3.
Si costruisce un sistema imponendo le condizioni di passaggio della funzione per i 3 punti:
passaggio per A: a0 = 4
passaggio per B: a0 + 0,5a1 + 0,52a2 = 10
passaggio per C: a0 + 1a1 + 12a2 = 15
Risolvendo il sistema si determinano le incognite: a0 = 4, a1 = 13, a2 = -2.

L’equazione cercata è:
y = -2x² + 13x + 4
3
Esempio
Si cerchi una funzione p(x) che passi per le coppie date nella seguente tabella:
x p(x)
0 1
1 2
2 17
3 82
cioè tale che
p(0) = 1, p(1) = 2, p(2) = 17, p(3) = 82.
Se la funzione y = p(x) è cercata nell’insieme dei polinomi di grado 3, allora dovrà risultare
p(x) = a0 + a1x + a2x2 + a3x3
ed imponendo il passaggio per i punti dati si ottiene il sistema
a0 = 1
a0 + a11 + a21 + a31 = 2
a0 + a12 + a24 + a38 = 17
a0 + a13 + a29 + a327 = 82
la cui soluzione è
a0 = 1, a1 = 6, a2 = -11, a3 = 6
Il polinomio di interpolazione è allora il seguente:
p(x) = 1 + 6x - 11x2 + 6x3
METODO DEI COEFFICIENTI INDETERMINATI
Dati n punti (xi,yi), i = 1,2,……n si vuole costruire il polinomio interpolante di grado n-1 passante
per i punti assegnati:
p(xi) = yi, i = 1,……,n
Bisogna calcolare n coefficienti (a0, a1,…… ,an-1), imponendo n condizioni di interpolazione:
a 0 + a 1x 1 + a 2 x 12 + ……….. + a n-1x 1n-1 = y1


a 0 + a 1x 2 + a 2 x 2 + ……….. + a n-1x 2 = y 2
2 n -1

.................................................................
a + a x + a x 2 + ………. + a x n-1 = y
 0 1 n 2 n n -1 n n
In generale il metodo dei coefficienti indeterminati è equivalente alla risoluzione di un sistema

lineare: assegnati n punti si costruisce il sistema imponendo le condizioni di interpolazione.
4
La ricerca del polinomio interpolatore può essere effettuata anche con un altro metodo.
Secondo approccio: costruire il polinomio interpolante di grado n-1 come combinazione di

particolari polinomi li(x) (polinomi fondamentali di Lagrange) con coefficienti uguali alle yi
pn-1(x) = y1l1(x) + y2l2(x) + …+ ynln(x) (Formula di Lagrange)
Esempio
Si vuole determinare il polinomio p(x) di grado 2 tale che
x y
0 -1
1 2
2 7
allora i polinomi fondamentali di Lagrange sono
(x – 1)(x – 2)
l1(x) =
(0 – 1)(0 – 2)
(x – 0)(x – 2)
l2(x) =
(1 – 0)(1- 2)
(x – 0)(x – 1)
l3(x) =
(2 – 0)(2- 1)
Per cui il polinomio interpolante è dato da:
p(x) = -0,5(x – 1)(x – 2) – 2x(x – 2) + 3,5x(x – 1) = x2 + 2x -1
Esempio
Scrivere il polinomio di Lagrange interpolante i punti: A(0;-5), B(1;-6), C(2;-1), D(3;16).
I polinomi fondamentali di Lagrange sono
(x – 1)(x – 2)(x – 3)
l1(x) =
(0 – 1)(0 – 2)(0 – 3)
(x – 0)(x – 2)(x – 3)
l2(x) =
(1 – 0)(1 – 2)(1 – 3)
(x – 0)(x – 1)(x – 3)
l3(x) =
(2 – 0)(2 – 1)(2 – 3)
(x – 0)(x – 1)(x – 2)
l4(x) =
(3 – 0)(3 – 1)(3 – 2)
(x-1)(x-2)(x-3) x(x-2)(x-3) x(x-1)(x-3) x(x-1)(x-2)

p(x) = (-5) + (-6) + (-1) + (16)
(-6) (2) (-2) (6)
5
FORMULA DI LAGRANGE
Supponiamo di avere n punti sul piano cartesiano: (x1;y1), (x2;y2), …, (xn;yn).

Si vuole scrivere l’equazione della curva polinomiale di grado (n-1) che passi per tutti i punti dati.
La formula generale di Lagrange, scritta per esteso, è la seguente
(x – x2)(x – x3)…(x – xn) (x – x1)(x – x3)…(x – xn)

p(x) = y1 + y + …+
(x1 – x2)(x1 – x3)…(x1 – xn) (x2 – x1)(x2 – x3)…(x2 – xn) 2
(x – x1)(x – x2)…(x – xn-1)

+ y
(xn – x1)(xn – x2)…(xn – xn-1) n
3. Interpolazione statistica
Quando l’insieme di punti a disposizione è numeroso (come accade generalmente in statistica) è

poco probabile (o molto difficile) che essi siano disposti lungo una certa curva; in generale sono
dispersi dando luogo a quella che si chiama una nube di punti.(Fig.a)
In questo caso l’interpolazione matematica perde il suo significato logico in quanto essa darebbe
origine ad una funzione il cui grafico è estremamente contorto e che non trova riscontro nella
realtà.(Fig.b)
Quando si considera un insieme numeroso di punti si sostituisce alla “interpolante matematica” la
cosiddetta “interpolante statistica”, la quale invece che passare per i punti dati, passa fra i punti
dati.(Fig.c)
Si cerca, cioè, una curva che passi il più vicino possibile ai punti osservati.
6
In generale esiste più di una curva di un certo tipo che interpola l’insieme dei dati.
Al fine di evitare l’intervento della valutazione personale nella costruzione di rette, parabole o altre
curve interpolatrici è necessario mettersi d’accordo su una definizione della “migliore retta
interpolatrice”, “migliore parabola interpolatrice”, e così via.
Quando si è scelto un certo tipo di interpolante, per es. una parabola (vedi il grafico riportato sotto),
è evidente che ne esistono infinite che passano fra i punti dati, per cui bisogna scegliere un certo
criterio per l’individuazione di quella più adatta (criterio di accostamento).
INTERPOLAZIONE STATISTICA
L’interpolazione statistica viene utilizzata quando il numero di punti sperimentali è elevato.
Nell’interpolazione statistica occorre:

a) scegliere il tipo di funzione interpolante;
b) fissare un certo “criterio di accostamento”.
4. Il metodo dei minimi quadrati
La condizione di accostamento più usata è quella detta “metodo dei minimi quadrati”.
Questo metodo consiste nel determinare i parametri della funzione interpolante prescelta in modo
che sia minima la somma dei quadrati degli scostamenti dei punti dalla funzione.
Si consideri la fig.1 in cui i punti sono (x1,y1), (x2,y2), …, (xn,yn).

Per un dato valore di x, diciamo x1, ci sarà una differenza fra il valore di y1 e il corrispondente
valore determinato dalla curva C. Denotiamo questa differenza con d1, e la chiameremo “errore”;
essa potrà ovviamente essere sia positiva sia negativa o anche zero. In modo simile in
corrispondenza dei valori x2,…, xn otterremo gli errori d2,…, dn.
Una misura della “bontà dell’adattamento” della curva C all’insieme dei dati ci è fornita dalla
quantità (d1)2 + (d2)2 + …+ (dn)2. Se questa è piccola l’adattamento è buono, in caso contrario
l’adattamento è cattivo.
7
Definizione:
La miglior curva interpolatrice è quella che ha la proprietà di rendere minima la quantità
(d1)2 + (d2)2 + …+ (dn)2
Una curva avente questa proprietà è detta interpolare i dati nel senso dei minimi quadrati ed è detta
“curva di regressione dei minimi quadrati”, o semplicemente “curva dei minimi quadrati”. Una
retta con questa proprietà sarà quindi detta “retta dei minimi quadrati”, una parabola, “parabola dei
minimi quadrati”, e così via.
E’ usuale servirsi della definizione vista quando x è la variabile indipendente ed y la variabile
dipendente. Se x è la variabile dipendente, la definizione viene modificata introducendo errori
orizzontali anziché verticali, che corrisponde ad uno scambio degli assi del diagramma. In generale
queste due definizioni conducono a due diverse curve dei minimi quadrati.
4.1 La retta dei minimi quadrati
Si vuole stabilire la relazione tra due variabili x e y.

Sono state effettuate n misure e raccolte nella tabella seguente:
x x1 x2 … xn
y y1 y2 … yn
Consideriamo i valori di x e y come coordinate cartesiane ortogonali di n punti del piano.

Supponiamo che i punti aventi le coordinate corrispondenti alle coppie di valori della nostra tabella
siano pressoché allineati, cioè situati presso a poco lungo una certa retta. (Fig. 2)
E’ naturale considerare in questo caso le grandezze x e y legate da una relazione lineare (circa)
espressa, cioè, dalla formula:
y = ax + b, (1)
dove a e b sono coefficienti costanti da determinare.
8
La formula (1) può essere messa anche sotto la forma:
ax + b – y = 0. (2)
Poiché i punti (xi,yi) non stanno esattamente sulla nostra retta, le formule (1) e (2) sono formule
approssimate. Pertanto, introducendo nella (2) al posto di x e y i loro valori x1,y1; x2,y2;…; xn,yn,
riportati nella tabella, otteniamo un sistema di uguaglianze:
ax 1 + b - y1 = d 1
ax + b - y = d
 2 2 2

 …………………
ax n + b - y n = d n
dove d1, d2,…, dn sono gli errori.

Si tratta di scegliere i coefficienti a e b in modo tale che questi errori siano, in valore assoluto, il più
piccoli possibile. Bisogna imporre alla somma (d1)2 + (d2)2 + …+ (dn)2 di essere minima.
Occorre, cioè trovare il minimo della funzione a due variabili:
n
f (a, b ) = ∑ (ax i + b − y i ) ⇒ minima
2
i =1
Le costanti a e b si determinano risolvendo simultaneamente le equazioni:
a ∑ x i + bn = ∑ y i
 (3)
a ∑ x i + b∑ x i = ∑ x i y i
2
che sono dette “equazioni normali” della retta dei minimi quadrati.
Le equazioni normali si possono facilmente ricordare osservando che si può ottenere la prima
equazione sommando da entrambi i membri della (1) mentre la seconda equazione si ottiene
moltiplicando entrambi i membri della (1) per x e poi sommando.
9
La soluzione del sistema di equazioni normali è data da:
n∑ x i yi − ∑ x i ⋅ ∑ yi ∑x ⋅∑y − ∑x y ⋅∑x
2
a= b=
i i i i i
n ∑ x − (∑ x i ) n ∑ x − (∑ x )
2 2 2 2 (4)
i i i
Esempio
Dai dati la seguente tabella determinare la retta dei minimi quadrati:
x 1 3 4 6 8 9 11 14
y 1 2 4 4 5 7 8 9
L’equazione delle retta è y = ax + b. Le equazioni normali sono
a ∑ x + bn = ∑ y

a ∑ x + b∑ x = ∑ xy
2
x y x2 xy y2
1 1 1 1 1
3 2 9 6 4
4 4 16 16 16
6 4 36 24 16
8 5 64 40 25
9 7 81 63 49
11 8 121 88 64
14 9 196 126 81
∑ x = 56 ∑ y = 40 ∑ x 2 = 524 ∑ xy = 364 ∑ y 2 = 256
Poiché ci sono 8 coppie di valori di x e y, n = 8 e le equazioni normali diventano
10
56a + 8b = 40

524a + 56b = 364
Risolvendo il sistema si ottengono i valori:
a = 0,636 b = 0,545
e la retta dei minimi quadrati richiesta è:
y = 0,636x + 0,545
I valori di a e b possono anche essere ottenute dalle (4).
a=
n ∑ xy − ∑ x ⋅ ∑ y
=
(8)(364) − (56)(40) = 0,636
n ∑ x − (∑ x ) (8)(524) − (56)2
2 2
b=
∑ x ⋅ ∑ y − ∑ xy ⋅ ∑ x = (524)(40) − (364)(56) = 0,545
2
n ∑ x − (∑ x ) (8)(524) − (56)
2 2 2
Si può semplificare la determinazione della retta dei minimi quadrati riscrivendo le (4) in un’altra
forma, ottenuta a partire da alcune considerazioni geometriche.
11
OSSERVAZIONE
Consideriamo l’equazione della retta interpolante: y = ax + b.

Una equazione normale per la retta dei minimi quadrati è: ∑ y i = a ∑ x i + nb .
Dividendo ambo i membri per n, si ha: y = a x + b
essendo x =
∑ x i e y = ∑ y i le medie aritmetiche, rispettivamente, dei valori x e y.
n n
Sottraendo membro a membro dall’equazione della retta, si ha: y - y = a(x − x )
Il punto ( x , y ) si dice anche “baricentro della

distribuzione”.
Questa proprietà è suscettibile di una semplice
interpretazione geometrica. Operando la traslazione
rappresentata nella figura:
x' = x - x

 y' = y - y
prendendo come nuova origine il punto ( x , y ), la retta
interpolante ha equazione:
y' = ax'
Con opportuni calcoli si giunge alla forma più nota e
comoda per il calcolo di a e b:
a=
∑ x ' y ' = ∑ (x − x ) ⋅ (y − y)
i i i i
∑ (x ' )i
2
∑ (x − x ) i
2
(5)
b = y − ax
Esempio
Utilizzando i dati dell’esempio precedente costruiamo la seguente tabella.
x y x - x y-y (x - x )( y - y ) (x - x )2
1 1 -6 -4 24 36
3 2 -4 -3 12 16
4 4 -3 -1 3 9
6 4 -1 -1 1 1
8 5 1 0 0 1
9 7 2 2 4 4
11 8 4 3 12 16
14 9 7 4 28 49
∑ x = 56 ∑ y = 40 ∑ (x - x )(y − y) = 84 ∑ (x - x ) = 132
2
x =7 y =5
∑ (x − x ) ⋅ (y − y) 84
a= = = 0,636 b = y − a x = 0,545
∑ (x − x )
2
132
12
4.2 La parabola dei minimi quadrati
La parabola dei minimi quadrati interpolante l’insieme dei punti (x1,y1), (x2,y2), …, (xn,yn) può
essere espressa dall’equazione: y = ax2 + bx + c,
dove i coefficienti a, b, c vengono determinati trovando il minimo della funzione a tre variabili:
( )
n
f (a, b, c ) = ∑ ax i + bx i + c − y i
2 2
⇒ minima
i =1
Le costanti a, b, c si determinano risolvendo il sistema:
a ∑ x i 4 + b∑ x i 3 + c∑ x i 2 = ∑ x i 2 y i

a ∑ x i + b ∑ x i + c∑ x i = ∑ x i y i
3 2
(6)

a ∑ x i + b∑ x i + nc = ∑ y i
2
Esempio
Adattare una parabola dei minimi quadrati ai dati della seguente tabella:
x 1 2 4 6 8 12
y 9 5 4 5 6 10
x y x2 x3 xyx4 x2 y
1 9 1 1 91 9
2 5 4 8 16
10 20
4 4 16 64 256
16 64
6 5 36 216 1296
30 180
8 6 64 512 4096
48 384
12 10 144 1728 20736
120 1440
∑ x = 33 ∑ y = 39 ∑ x = 265 ∑ x = 2529 ∑ x = 26401 ∑ xy = 233 ∑ x 2 y = 2097
2 3 4
Poiché n = 6, le equazioni normali sono:
26401a + 2529b + 265c = 2097


2529a + 265b + 33c = 233
265a + 33b + 6c = 39

Risolvendo si ottiene:
a = 0,145
b = -1,636
c = 9,105
La parabola dei minimi quadrati cercata è:
y = 0,145x2 - 1,636x + 9,105
13
5. Rette e coefficienti di regressione
Applicando il metodo dei minimi quadrati si ottiene la retta:

y = a1x + b1
dove, come sappiamo:

∑ (x i − x ) ⋅ (y i − y)
a1 = , b1 = y − a 1 x
∑ (x i − x )
2
che è detta “ retta di regressione di y rispetto a x”. Il coefficiente angolare a1 è detto “coefficiente di
regressione di y rispetto a x”.
In modo analogo, si può calcolare l’equazione della “retta di regressione di x rispetto a y”, che ha
equazione:
x = a2y + b2,
dove:
∑ (x i − x ) ⋅ (y i − y )
a2= , b2 = x − a 2 y
∑ (y i − y )
2
Il numero a2 è detto “coefficiente di regressione di x rispetto a y”.

Il coefficiente a2 non è il coefficiente angolare di tale retta, ma ne è il reciproco.
OSSERVAZIONI
1. I due coefficienti di regressione hanno sempre lo stesso segno, perché hanno lo stesso
numeratore e al denominatore un numero sempre positivo.
2. Il coefficiente di regressione a1 indica come varia y al variare di x e, analogamente, a2 indica

come varia x al variare di y.
Se tali coefficienti sono positivi, al crescere di una variabile, cresce anche l’altra; se sono
negativi al crescere di una variabile, l’altra decresce.
3. Se sovrapponiamo in uno stesso diagramma le due rette di regressione, esse passano per il
“centro di distribuzione”, cioè per il punto di coordinate x , y .
Esempio
Data la tabella
x 1 3 4 6 8 9 11 14
y 1 2 4 4 5 7 8 9
determinare le rette di regressione.
Si tratta di determinare le rette di regressione y = a1x + b1 e x = a2y + b2.

Costruiamo una tabella come abbiamo fatto per la determinazione della retta dei minimi quadrati
(vedi pagina 12), aggiungendo la colonna per il calcolo di ∑ (y i − y) 2 .
14
x y x -x y -y (x - x )(y - y ) (x - x )2 (y - y )2
1 1 -6 -4 24 36 16
3 2 -4 -3 12 16 9
4 4 -3 -1 3 9 1
6 4 -1 -1 1 1 1
8 5 1 0 0 1 0
9 7 2 2 4 4 4
11 8 4 3 12 16 9
14 9 7 4 28 49 16
∑ x = 56 ∑ y = 40 ∑ (x - x )(y − y) = 84 ∑ (x - x ) = 132 ∑ (y - y) = 56
2 2
x =7 y =5
∑ (x − x ) ⋅ (y − y) 84 ∑ (x − x ) ⋅ (y − y)
a1 = = = 0,64 a 2= = 1,50
∑ (x − x ) ∑ (y − y)
2 2
132
b1 = y − a1 x = 0,55 b 2 = x − a 2 y = -0,50
Pertanto le rette cercate hanno equazione:
y = 0,64x + 0,55 retta di regressione di y rispetto a x

x = 1,50y – 0,50 retta di regressione di x rispetto a y
15
6. La correlazione
Finora abbiamo considerato il problema della regressione di una variabile rispetto ad un’altra.
Passiamo ora a studiare il problema della “correlazione” che ha lo scopo di misurare il grado di
interdipendenza tra variabili.
Definizioni
Si dice che due variabili sono perfettamente correlate, ossia che tra esse esiste una “correlazione
perfetta”, se tutti i valori delle variabili soddisfano esattamente un’equazione.
Esempio: l’area A e il raggio r di un cerchio sono perfettamente correlate, dal fatto che A = πr2.
Si dice che due varibili sono incorrelate (o indipendenti) se non esiste alcuna relazione tra i loro
valori.
Esempio: se due monete regolari sono lanciate simultaneamente 200 volte, non c’è alcuna
relazione tra gli esiti (testa o croce) delle due monete.
Negli altri casi, le variabili sono in qualche modo correlate.

Esempio: le variabili altezza e peso delle persone dovrebbero essere in qualche modo correlate.
In questi casi, si cerca appunto di determinare il grado di “interdipendenza”, nel senso che si vuole
vedere se si è più prossimi alla indipendenza, oppure alla correlazione perfetta (o dipendenza
funzionale).
Come nel caso della regressione, ci limiteremo allo studio della correlazione tra due variabili. In tal
caso si parla di “correlazione semplice”.
Come nel caso della regressione, si può parlare di “correlazione lineare”, oppure “non lineare”.
La più importante è certamente la prima, alla quale si limita il nostro studio.
IL COEFFICIENTE DI CORRELAZIONE LINEARE
La misura della correlazione lineare tra due variabili viene dal “coefficiente di correlazione
lineare” di BRAVAIS-PEARSON, così definito:
∑ (x i − x ) ⋅ (y i − y) σ xy
r = ± a 1a 2 = =
∑ (x i − x ) ⋅ ∑ (y i − y)
2 2 σx ⋅ σy
Dove
∑ (x i − x ) ⋅ (y i − y)
σ xy = è la covarianza di x e y
n
∑ (x i − x ) ∑ (y i − y)
2 2
σx = e σy = sono gli scarti quadratici medi di x e y.
n n
16
OSSERVAZIONI
Si osservi che il coefficiente di correlazione r è una grandezza adimensionale ed il suo valore è

compreso tra -1 e +1:
-1 ≤ r ≤ +1, cioè: | r | ≤ 1.
a. Se r è positivo (0 < r < 1), la correlazione è positiva, o “diretta”.

b. Se r è negativo (-1 < r < 0), la correlazione è negativa, o “inversa”.
c. Se r = +1, la correlazione è “perfetta diretta”.
d. Se r = -1, la correlazione è “perfetta inversa”.
e. Se r = 0, la correlazione è “nulla”.
0<r<1 -1<r<0
r=+1 r=-1 r=0
Esempio
Il coefficiente di correlazione lineare relativo ai dati riportati nell’esempio a pagina 15 è:
r = a 1a 2 = (0,64)(1,50) = 0,98
Dalle osservazioni fatte, essendo 0 < r < 1, possiamo affermare che tra le variabili x e y esiste una
correlazione diretta, come era stato evidenziato dalla rappresentazione delle due rette di regressione.
17

Interpolazione, Regressione, Correlazione

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Interpolazione, Regressione, Correlazione

Caricato da

Copyright:

Formati disponibili

INTERPOLAZIONE, REGRESSIONE E CORRELAZIONE

1. Interpolazione di dati ed approssimazione

In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano “relazioni” fra

x 1921 1931 1951 1961 1971 1981

f(x): funzione interpolante

f(x): funzione approssimante

2. Costruzione di un polinomio di interpolazione

p(xi) = yi, i = 1,……,n

Il polinomio deve essere di grado n-1 se i punti sono n:

y = a0 + a1x + a2x2 +...+ an-1xn-1

Si tratta di determinare un’equazione di secondo grado y = a0 + a1x + a2x2 in quanto i punti da

Risolvendo il sistema si determinano le incognite: a0 = 4, a1 = 13, a2 = -2.

cioè tale che

p(0) = 1, p(1) = 2, p(2) = 17, p(3) = 82.

p(x) = a0 + a1x + a2x2 + a3x3

ed imponendo il passaggio per i punti dati si ottiene il sistema

Il polinomio di interpolazione è allora il seguente:

p(x) = 1 + 6x - 11x2 + 6x3

METODO DEI COEFFICIENTI INDETERMINATI

Bisogna calcolare n coefficienti (a0, a1,…… ,an-1), imponendo n condizioni di interpolazione:

a 0 + a 1x 1 + a 2 x 12 + ……….. + a n-1x 1n-1 = y1

In generale il metodo dei coefficienti indeterminati è equivalente alla risoluzione di un sistema

Secondo approccio: costruire il polinomio interpolante di grado n-1 come combinazione di

pn-1(x) = y1l1(x) + y2l2(x) + …+ ynln(x) (Formula di Lagrange)

allora i polinomi fondamentali di Lagrange sono

Per cui il polinomio interpolante è dato da:

p(x) = -0,5(x – 1)(x – 2) – 2x(x – 2) + 3,5x(x – 1) = x2 + 2x -1

I polinomi fondamentali di Lagrange sono

(x-1)(x-2)(x-3) x(x-2)(x-3) x(x-1)(x-3) x(x-1)(x-2)

Supponiamo di avere n punti sul piano cartesiano: (x1;y1), (x2;y2), …, (xn;yn).

(x – x2)(x – x3)…(x – xn) (x – x1)(x – x3)…(x – xn)

(x – x1)(x – x2)…(x – xn-1)

Quando l’insieme di punti a disposizione è numeroso (come accade generalmente in statistica) è

L’interpolazione statistica viene utilizzata quando il numero di punti sperimentali è elevato.

Nell’interpolazione statistica occorre:

4. Il metodo dei minimi quadrati

Si consideri la fig.1 in cui i punti sono (x1,y1), (x2,y2), …, (xn,yn).

La miglior curva interpolatrice è quella che ha la proprietà di rendere minima la quantità

(d1)2 + (d2)2 + …+ (dn)2

4.1 La retta dei minimi quadrati

Si vuole stabilire la relazione tra due variabili x e y.

Consideriamo i valori di x e y come coordinate cartesiane ortogonali di n punti del piano.

dove a e b sono coefficienti costanti da determinare.

dove d1, d2,…, dn sono gli errori.

Le costanti a e b si determinano risolvendo simultaneamente le equazioni:

L’equazione delle retta è y = ax + b. Le equazioni normali sono

Risolvendo il sistema si ottengono i valori:

e la retta dei minimi quadrati richiesta è:

I valori di a e b possono anche essere ottenute dalle (4).

Consideriamo l’equazione della retta interpolante: y = ax + b.

Il punto ( x , y ) si dice anche “baricentro della

Le costanti a, b, c si determinano risolvendo il sistema:

Poiché n = 6, le equazioni normali sono:

26401a + 2529b + 265c = 2097

La parabola dei minimi quadrati cercata è:

y = 0,145x2 - 1,636x + 9,105

Applicando il metodo dei minimi quadrati si ottiene la retta:

dove, come sappiamo:

Il numero a2 è detto “coefficiente di regressione di x rispetto a y”.

2. Il coefficiente di regressione a1 indica come varia y al variare di x e, analogamente, a2 indica

determinare le rette di regressione.

Si tratta di determinare le rette di regressione y = a1x + b1 e x = a2y + b2.

Pertanto le rette cercate hanno equazione: