Sei sulla pagina 1di 31

24.

Regressione lineare semplice


Statistica di Base :: Canale 2 (E-PA)

Stefania Gubbiotti

Dipartimento di Scienze Statistiche - Sapienza

16 dicembre 2021
To do list

I Correlazione e nesso causale


I Retta di regressione come strumento di previsione
I Bontà di adattamento
I Scomposizione della Devianza Totale
I Indice di Determinazione Multipla R 2
Correlazione spuria

Esempio
I Chi usa il dolcificante al posto dello zucchero tende ad essere
più grasso.
I Quindi. . . i dolcificanti fanno ingrassare?
I Non esattamente perché la correlazione non implica
causalità.
I Una possibile spiegazione: il consumo di dolcificante prevale tra
le persone (già) in sovrappeso o che seguono una dieta
alimentare.
Correlazione spuria
Just for fun...

https://www.tylervigen.com/spurious-correlations
Correlazione e nesso causale

Esempio
I Forte correlazione positiva tra il livello di colesterolo dei giovani
adulti e il tempo speso davanti alla TV.
I Quindi. . . guardare la tv causa un aumento del livello di
colesterolo?
I Non esattamente perché la correlazione non implica
causalità.
I Una possibile spiegazione: chi spende molto tempo davanti alla
TV, tende a non fare molta attività fisica. Questo può
comportare un incremento della massa grassa e del colesterolo.
Correlazione a blocchi
Esempio: Altezza & Peso

190
180
dati$alt

170
160

40 50 60 70 80 90

dati$pes

rXY = 0.716
Correlazione a blocchi

Esempio: Altezza & Peso: Stratificando per Sesso. . .

190
180
altezza

170
160

40 50 60 70 80 90

peso
Correlazione a blocchi
Esempio: Altezza & Peso: Stratificando per Sesso. . .

190
180
altezza

170
160

40 50 60 70 80 90

peso

...l’interpretazione cambia!
femmine maschi
rXY = 0.716, rXY = 0.517, rXY = 0.518
Retta di regressione come strumento di previsione
In base alla retta di regressione ŷ = 0.7362 + 0.01563x , quale è il
valore dell’indice CPI che si può prevedere per un ipotetico paese in
cui l’indice HDI sia pari a 7

ŷ = 0.7362 + 0.01563 · 7 = 0.8456


Retta di regressione come strumento di previsione

I Non è opportuno fare previsione fissando valori della variabile X


fuori dal range osservato
I Le previsioni sono tanto più attendibili se fanno riferimento a
valori della X vicini alla media
I L’affidabilità delle previsioni dipende dalla bontà globale del
modello. . .
Bontà di adattamento del modello

La relazione tra X e Y è ben descritta dalla retta di regressione?


Idea
Misurare la bontà di adattamento (Goodness-of-fit) come quota
della variabilità totale della risposta che la variabile esplicativa riesce
a spiegare
Scomposizione della Devianza Totale

DY = DSL + DRL
dove
PN
I DY = i=1 (yi − µy )2
PN
I DSL = i=1 (ŷi − µy )2
PN
I DRL = i=1 (yi − ŷi )2
(da dimostrare →)
Scomposizione della Devianza Totale

0.90 ●

● ●

● ●
● ●


0.85

● ●
● ●


Y



● ●

0.80

● ●

● ●
0.75

4 5 6 7 8 9

X
Scomposizione della Devianza Totale
Dimostrazione

N
X N
X
DRL = (yi − ŷi )2 = (yi − b0 − b1 xi )2 =
i=1 i=1
N
X N
X
= (yi − µY + b1 µX − b1 xi )2 = [(yi − µY ) − b1 (xi − µX )]2 =
i=1 i=1
N
X N
X N
X
= (yi − µY )2 + b12 (xi − µX )2 − 2b1 (yi − µY )(xi − µX ) =
i=1 i=1 i=1
N
X N
X N
X
= (yi − µY )2 + b12 (xi − µX )2 − 2b1 b1 (xi − µX )2 =
i=1 i=1 i=1
N
X N
X N
X N
X
= (yi − µY )2 − b12 (xi − µX )2 = (yi − µY )2 − (b1 xi − b1 µX )2 =
i=1 i=1 i=1 i=1
Scomposizione della Devianza Totale

Dimostrazione
(...continua...)

DRL = ...
N
X N
X
= (yi − µY )2 − (b1 xi − b1 µX + µY − µY )2
i=1 i=1
N
X N
X
= (yi − µY )2 − (b1 xi + b0 − µY )2
i=1 i=1
N
X N
X
= (yi − µY )2 − (ŷi − µY )2
i=1 i=1
= DY − DSL
Indice di Deteriminazione Multipla R 2

DSL DRL
R2 = =1−
DY DY

I 0 ≤ R2 ≤ 1
I R 2 = 1 se DSL = DY
I R 2 = 0 se DRL = DY
I R 2 = 0/0 se DSL = DRL = DY
Indice di Deteriminazione Multipla R 2

R2= 1 R2= 1

● ●

● ●

● ●

● ●

● ●
Y

Y
● ●

● ●

● ●

● ●

● ●

X X
Indice di Deteriminazione Multipla R 2

R2= 0.998 R2= 0.998

● ● ●
●●
●●
●●●
● ●
● ●
●●● ●
●● ●
●●
● ●
● ●
●●
●●



●●●

● ●● ● ●
● ●●
● ●●
●●●●
●●
● ●●
● ●
●●●

●●
● ●
● ●●
●●●


●● ●● ●●●●

●●
● ●

●● ●●
● ● ●●●
Y

Y
●● ●●
●● ●●
●● ● ●

● ●● ● ●●
● ●● ● ●
●●
● ●
● ●●
● ●
●●
●●●●●●
● ●●●●
●●
●● ●


● ●
● ● ● ●●

● ●●

● ●
● ●● ●
● ●● ●●
● ●●

● ●

● ●


● ●

X X
Indice di Deteriminazione Multipla R 2

R2= 0.829 R2= 0.825

● ●● ●
● ● ●
● ● ●
● ● ● ●
● ●

● ● ● ● ●
● ● ●


● ● ●
● ●
● ● ●
● ● ● ●
● ●
● ● ● ● ● ●● ●
● ●● ● ●
● ● ●
● ● ●
● ●● ● ●
●●● ● ● ●
● ● ● ●●

●● ● ●● ● ●
● ● ●●
● ● ●● ● ●● ●●● ●●
● ●
● ●●●
Y

Y
● ● ● ● ●
● ● ●●
● ● ● ● ●● ●
● ● ● ●
● ● ● ● ●● ●

● ● ●●
● ●● ● ● ●● ● ● ●
● ●
● ● ● ● ●
● ● ●
● ● ● ●
●● ●
● ● ●● ●
● ● ●
● ● ●

● ●
● ● ●
● ●●
●● ● ●

● ●●

● ●

X X
Indice di Deteriminazione Multipla R 2

R2= 0.323 R2= 0.307

● ● ●
● ●
● ● ●
● ● ●
● ●
● ●
● ●
● ● ●●
● ●
● ● ● ● ● ●
● ● ● ●
● ●
● ● ●
● ● ● ● ● ●

● ● ● ● ● ●
● ● ●
● ●
● ●● ●

●●
●● ● ●
● ●
● ● ● ●
● ●● ● ● ● ● ● ● ● ●
● ●●● ●● ●● ● ●
●● ● ● ● ●
●● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ●


● ● ● ● ● ● ●
● ●● ● ●
Y

Y
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ●● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ●
● ● ●
● ●
● ● ● ●
● ●
● ● ●
● ●


● ●

X X
Indice di Deteriminazione Multipla R 2

R2~= 0 R2= 0

● ● ● ● ● ● ● ● ● ● ●


●● ●●
● ● ● ● ●
●● ●
● ● ● ● ● ●

● ●● ● ●

● ● ●
● ●
●● ●
● ●● ● ●


● ● ● ● ●
● ● ● ● ●● ●

Y

Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ●
● ● ● ●
● ●



● ● ● ● ●
● ●
● ●
● ● ●

● ●


● ● ● ● ● ● ● ● ● ● ●

X X
Indice di Deteriminazione Multipla R 2

R2= 0 R2= 0/0

● ● ● ● ● ● ● ● ● ●
Y

Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ●

X X
Relazione tra rXY e R 2

(rXY )2 = R 2

Dimostrazione

N
(ŷi − µY )2 b12 Ni=1 (xi − µX )
2
P P
DSL
2
R = = Pi=1
N
= N
=
DY i=1 (yi − µY )
2
i=1 (yi − µY )
2
P
2
σXY PN 2
σXY
(σX2 )2 i=1 (xi − µX )2 (σX2 )2
NσX2
= =
NσY2
PN
− µY ) 2
i=1 (yi
2 2
σXY σXY

= = = (rXY )2
σX2 · σY2 σX · σY
Determinazione della retta di regressione e calcolo Rˆ2

Esempio
(dal libro di Di Ciaccio - Borra, pag. 137)

Su 27 paesi europei vengono misurati gli indici


X Human development index : misura il livello di sviluppo di un
paese sulla base di tre aspetti: aspettativa di vita alla nascita,
numero medio di anni di istruzione, PIL pro capite
Y Corruption perception index : misura il livello di integrità
percepito dai cittadini (minor valore maggiore corruzione)
(associazione Transparency International)
Determinazione della retta di regressione e calcolo Rˆ2
i paese X Y
1 AUSTRIA 7.90 0.85
2 BELGIO 7.10 0.87
3 BULGARIA 3.60 0.74
4 CIPRO 6.30 0.81
5 DANIMARCA 9.30 0.87
6 ESTONIA 6.50 0.81
7 FINLANDIA 9.20 0.87
8 FRANCIA 6.80 0.87
9 GERMANIA 7.90 0.89
10 GRECIA 3.50 0.85
11 IRLANDA 8.00 0.90
12 ITALIA 3.90 0.85
13 LETTONIA 4.30 0.77
14 LITUANIA 5.00 0.78
15 LUSSEMBURGO 8.50 0.85
16 MALTA 5.60 0.81
17 PAESI BASSI 8.80 0.89
18 POLONIA 5.30 0.80
19 PORTOGALLO 6.00 0.80
20 REGNO UNITO 7.60 0.85
21 REPUBBLICA CECA 4.60 0.84
22 ROMANIA 3.70 0.77
23 SLOVACCHIA 4.30 0.82
24 SLOVENIA 6.40 0.83
25 SPAGNA 6.10 0.86
26 SVEZIA 9.20 0.89
27 UNGHERIA 4.70 0.81
Determinazione della retta di regressione e calcolo Rˆ2
Diagramma a dispersione o scatterplot

0.90


● ●

● ●
● ●


0.85

● ●
● ●


Y



● ●

0.80

● ●

● ●
0.75

4 5 6 7 8 9

µX = 6.3, µY = 0.835
Determinazione della retta di regressione e calcolo Rˆ2
i (xi − µX ) (yi − µY ) (xi − µX )2 (yi − µY )2 (xi − µX )(yi − µY )
1 1.6000 0.0200 2.5600 0.0003 0.0261
2 0.8000 0.0300 0.6400 0.0010 0.0259
3 -2.7000 -0.0900 7.2900 0.0084 0.2475
4 0.0000 -0.0200 0.0000 0.0006 -0.0000
5 3.0000 0.0300 9.0000 0.0010 0.0940
6 0.2000 -0.0200 0.0400 0.0005 -0.0045
7 2.9000 0.0400 8.4100 0.0013 0.1054
8 0.5000 0.0400 0.2500 0.0014 0.0187
9 1.6000 0.0500 2.5600 0.0025 0.0805
10 -2.8000 0.0200 7.8400 0.0004 -0.0569
11 1.7000 0.0600 2.8900 0.0036 0.1026
12 -2.4000 0.0200 5.7600 0.0004 -0.0464
13 -2.0000 -0.0700 4.0000 0.0043 0.1313
14 -1.3000 -0.0500 1.6900 0.0027 0.0672
15 2.2000 0.0200 4.8400 0.0003 0.0381
16 -0.7000 -0.0200 0.4900 0.0004 0.0138
17 2.5000 0.0600 6.2500 0.0031 0.1383
18 -1.0000 -0.0400 1.0000 0.0016 0.0397
19 -0.3000 -0.0400 0.0900 0.0016 0.0119
20 1.3000 0.0100 1.6900 0.0002 0.0186
21 -1.7000 0.0100 2.8900 0.0000 -0.0108
22 -2.6000 -0.0700 6.7600 0.0046 0.1759
23 -2.0000 -0.0200 4.0000 0.0003 0.0333
24 0.1000 -0.0100 0.0100 0.0000 -0.0007
25 -0.2000 0.0300 0.0400 0.0008 -0.0057
26 2.9000 0.0500 8.4100 0.0025 0.1460
27 -1.6000 -0.0300 2.5600 0.0009 0.0475
0 0 91.96 0.0447 1.437
Determinazione della retta di regressione e calcolo Rˆ2

PN
i=1 (xi − µX )(yi − µY ) 1.437
rXY = qP =√ = 0.709
N
(xi − µ X )2·
PN
(y i − µ Y )2 91.96 · 0.0447
i=1 i=1

PN
i=1 (xi − µX )(yi − µY ) 1.437
b1 = PN = = 0.01563
i=1 (xi − µX )
2 91.96

b0 = µY − b1 · µX = 0.835 − 0.01563 · 6.3 = 0.736


Determinazione della retta di regressione e calcolo Rˆ2
xi yi ŷi êi = yi − ŷi êi2
1 7.9000 0.8510 0.8597 -0.0087 0.0001
2 7.1000 0.8670 0.8472 0.0198 0.0004
3 3.6000 0.7430 0.7925 -0.0495 0.0024
4 6.3000 0.8100 0.8347 -0.0247 0.0006
5 9.3000 0.8660 0.8816 -0.0156 0.0002
6 6.5000 0.8120 0.8378 -0.0258 0.0007
7 9.2000 0.8710 0.8800 -0.0090 0.0001
8 6.8000 0.8720 0.8425 0.0295 0.0009
9 7.9000 0.8850 0.8597 0.0253 0.0006
10 3.5000 0.8550 0.7909 0.0641 0.0041
11 8.0000 0.8950 0.8612 0.0338 0.0011
12 3.9000 0.8540 0.7972 0.0568 0.0032
13 4.3000 0.7690 0.8034 -0.0344 0.0012
14 5.0000 0.7830 0.8144 -0.0313 0.0010
15 8.5000 0.8520 0.8691 -0.0171 0.0003
16 5.6000 0.8150 0.8237 -0.0087 0.0001
17 8.8000 0.8900 0.8737 0.0163 0.0003
18 5.3000 0.7950 0.8190 -0.0240 0.0006
19 6.0000 0.7950 0.8300 -0.0350 0.0012
20 7.6000 0.8490 0.8550 -0.0060 0.0000
21 4.6000 0.8410 0.8081 0.0329 0.0011
22 3.7000 0.7670 0.7940 -0.0270 0.0007
23 4.3000 0.8180 0.8034 0.0146 0.0002
24 6.4000 0.8280 0.8362 -0.0082 0.0001
25 6.1000 0.8630 0.8315 0.0315 0.0010
26 9.2000 0.8850 0.8800 0.0050 0.0000
27 4.7000 0.8050 0.8097 -0.0047 0.0000
170.1 22.536 22.536 0 0.0223
Determinazione della retta di regressione e calcolo Rˆ2

R 2 = (rxy )2 = 0.7092 = 0.50


o equivalentemente

DSL DRL 0.0223


R2 = =1− =1− = 0.50
DY DY 0.0447

Interpretazione
La variabile X (indice di sviluppo HDI) è in grado di spiegare il 50%
della variabilità totale della Y (indice di percezione della corruzione
CPI).
Outlier e osservazioni influenti nella regressione

I Outlier: osservazione che non rispetta il modello adattato ai


dati e presenta quindi un residuo elevato (valore di Y elevato).
I Osservazione influente: osservazione che ha un forte impatto
sui coefficienti della retta (valore di X elevato). Se il punto
viene eliminato dal dataset la retta cambia.

Potrebbero piacerti anche