Sei sulla pagina 1di 5

Correlazione di due caratteri e retta di regressione

Siamo interessati a studiare se esiste una correlazione tra due tipi di carattere quantitativi X e Y di cui si
osservano le modalità (𝑥1 , … , 𝑥𝑛 ) e (𝑦, … , 𝑦𝑛 ).

Ad esempio, possiamo studiare il legame tra i caratteri peso e altezza di un gruppo di 10 persone le cui
modalità sono riportate nella seguente tabella.

Per osservare graficamente se esiste un legame tra X e Y si può disegnare il diagramma di dispersione (o
scatter-plot). Il diagramma di dispersione è un grafico dove sull’asse delle ascisse sono riportate le modalità
di X e sull’asse delle ordinate le modalità di Y. Ogni coppia di modalità (𝑥𝑖 , 𝑦𝑖 ) è rappresentata da un punto
del piano (vedi la seguente tabella).

Nell’esempio è evidente che i punti tendono a disporsi lungo una retta, dunque diciamo che tra di loro c’è
una relazione lineare, ovvero che all’aumentare dell’altezza il peso tende ad aumentare nello stesso modo.

La retta di regressione 𝑦 = 𝑎𝑥 + 𝑏 è una retta che meglio descrive il legame trai due caratteri X e Y.

Per trovare i parametri 𝑎 e 𝑏 utilizziamo il metodo dei minimi quadrati: la retta che meglio si avvicina ai punti
(𝑥1 , 𝑦1 ) … (𝑥𝑛 , 𝑦𝑛 ) del diagramma di dispersione è quella per cui la somma dei quadrati degli scarti è minima.
Lo scarto i-esimo è la quantità 𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏) e graficamente corrisponde alla distanza tra i punti (𝑥𝑖 , 𝑦𝑖 ) e
(𝑥𝑖 , 𝑎𝑥𝑖 + 𝑏) (vedi la seguente figura).

Dunque, cerchiamo i numeri reali 𝑎 e 𝑏 in maniera tale che la quantità


𝑛
2
𝑆(𝑎, 𝑏) = ∑(𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏))
𝑖=1

sia minima. Attraverso passaggi matematici troviamo che il valore minimo di 𝑆(𝑎, 𝑏) si ottiene in
corrispondenza dei seguenti valori di 𝑎 e 𝑏:
𝜎𝑥𝑦 𝜎𝑥𝑦
𝑎= e 𝑏 = 𝑦̅ − 𝑥̅
𝜎𝑥2 𝜎𝑦2

dove 𝑥̅ , 𝑦̅, 𝜎𝑥2 e 𝜎𝑦2 sono i valori medi e le varianze di X e Y. Il simbolo 𝜎𝑥𝑦 si chiama covarianza di X e Y ed è
definita dalla seguente formula:
𝑛
1
𝜎𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅). [1]
𝑛
𝑖=1

Quindi, l’espressione analitica della retta di regressione è la seguente:


𝜎𝑥𝑦 𝜎𝑥𝑦
𝑦= 𝜎𝑥2
𝑥 + 𝑦̅ − 𝜎𝑦2
𝑥̅ .

La covarianza si può calcolare più rapidamente rispetto alla definizione mediante la formula seguente, che
si può dimostrare essere equivalente alla [1].
Una volta appurata una correlazione lineare tra due variabili statistiche (caratteri) X e Y, si pone il problema
di stabilire se essa è forte o debole. Queste informazioni vengono date dalla varianza. Se la varianza è nulla,
allora 𝑎 = 0 e la retta di regressione è orizzontale e, in un certo senso, i valori del carattere 𝑦 non dipendono
da quelli del carattere 𝑥. Osserviamo comunque che il coefficiente angolare 𝑎 della retta di regressione ha lo
stesso segno della covarianza 𝜎𝑥𝑦 . Se dunque 𝜎𝑥𝑦 > 0, ciò indica che 𝑦 tende a crescere al crescere di 𝑥. Ci si
può aspettare qualcosa del genere, ad esempio, se 𝑥 e 𝑦 sono rispettivamente il peso e l’altezza di individui.
Se 𝜎𝑥𝑦 < 0, l’effetto di 𝑥 sulla 𝑦 sarà antagonista: al crescere dei valori di 𝑥 i valori di 𝑦 tenderanno a
decrescere.

Un altro indice che esprime quanto la relazione lineare tra X e Y è forte è il coefficiente di correlazione
lineare R.

Osserviamo che −1 ≤ 𝑅 ≤ 1.
Esempi

Osserviamo che R=0 vuol dire che tra X e Y non c’è correlazione di tipo lineare, ma è possibile che la
relazione tra X e Y sia espressa da un altro tipo di funzione matematica (nell’ultimo esempio è la funzione
quadratica cui grafico è una parabola).
Esercizio

In quattro supermercati di una nota catena sono stati rilevati la superficie di esposizione, in migliaia di
metri quadrati (X) e il fatturato settimanale, in migliaia di euro (Y). Sono stati ottenuti i seguenti dati.

Scrivi l’equazione della retta di regressione e stabilisci il tipo di relazione lineare tra X e Y utilizzando la
covarianza e il coefficiente di correlazione.

Potrebbero piacerti anche