24 Slides

24.
Regressione lineare semplice

Statistica di Base :: Canale 2 (E-PA)
Stefania Gubbiotti
Dipartimento di Scienze Statistiche - Sapienza
16 dicembre 2021
To do list
I Correlazione e nesso causale

I Retta di regressione come strumento di previsione
I Bontà di adattamento
I Scomposizione della Devianza Totale
I Indice di Determinazione Multipla R 2
Correlazione spuria
Esempio
I Chi usa il dolcificante al posto dello zucchero tende ad essere
più grasso.
I Quindi. . . i dolcificanti fanno ingrassare?
I Non esattamente perché la correlazione non implica
causalità.
I Una possibile spiegazione: il consumo di dolcificante prevale tra
le persone (già) in sovrappeso o che seguono una dieta
alimentare.
Correlazione spuria
Just for fun...
https://www.tylervigen.com/spurious-correlations
Correlazione e nesso causale
Esempio
I Forte correlazione positiva tra il livello di colesterolo dei giovani
adulti e il tempo speso davanti alla TV.
I Quindi. . . guardare la tv causa un aumento del livello di
colesterolo?
I Non esattamente perché la correlazione non implica
causalità.
I Una possibile spiegazione: chi spende molto tempo davanti alla
TV, tende a non fare molta attività fisica. Questo può
comportare un incremento della massa grassa e del colesterolo.
Correlazione a blocchi
Esempio: Altezza & Peso
190
180
dati$alt
170
160
40 50 60 70 80 90
dati$pes
rXY = 0.716
Esempio: Altezza & Peso: Stratificando per Sesso. . .
190
180
altezza
170
160
40 50 60 70 80 90
peso
Esempio: Altezza & Peso: Stratificando per Sesso. . .
190
180
altezza
170
160
40 50 60 70 80 90
peso
...l’interpretazione cambia!
femmine maschi
rXY = 0.716, rXY = 0.517, rXY = 0.518
Retta di regressione come strumento di previsione
In base alla retta di regressione ŷ = 0.7362 + 0.01563x , quale è il
valore dell’indice CPI che si può prevedere per un ipotetico paese in
cui l’indice HDI sia pari a 7
ŷ = 0.7362 + 0.01563 · 7 = 0.8456

Retta di regressione come strumento di previsione
I Non è opportuno fare previsione fissando valori della variabile X

fuori dal range osservato
I Le previsioni sono tanto più attendibili se fanno riferimento a
valori della X vicini alla media
I L’affidabilità delle previsioni dipende dalla bontà globale del
modello. . .
Bontà di adattamento del modello
La relazione tra X e Y è ben descritta dalla retta di regressione?

Idea
Misurare la bontà di adattamento (Goodness-of-fit) come quota
della variabilità totale della risposta che la variabile esplicativa riesce
a spiegare
Scomposizione della Devianza Totale
DY = DSL + DRL
dove
PN
I DY = i=1 (yi − µy )2
PN
I DSL = i=1 (ŷi − µy )2
PN
I DRL = i=1 (yi − ŷi )2
(da dimostrare →)
0.90 ●
●
● ●
● ●
● ●
●
●
0.85
● ●
● ●
●
Y
●
●
● ●
●
0.80
● ●
● ●
0.75
4 5 6 7 8 9
X
Dimostrazione
N
X N
X
DRL = (yi − ŷi )2 = (yi − b0 − b1 xi )2 =
i=1 i=1
N
X N
X
= (yi − µY + b1 µX − b1 xi )2 = [(yi − µY ) − b1 (xi − µX )]2 =
i=1 i=1
N
X N
X N
X
= (yi − µY )2 + b12 (xi − µX )2 − 2b1 (yi − µY )(xi − µX ) =
i=1 i=1 i=1
N
X N
X N
X
= (yi − µY )2 + b12 (xi − µX )2 − 2b1 b1 (xi − µX )2 =
i=1 i=1 i=1
N
X N
X N
X N
X
= (yi − µY )2 − b12 (xi − µX )2 = (yi − µY )2 − (b1 xi − b1 µX )2 =
i=1 i=1 i=1 i=1
Dimostrazione
(...continua...)
DRL = ...
N
X N
X
= (yi − µY )2 − (b1 xi − b1 µX + µY − µY )2
i=1 i=1
N
X N
X
= (yi − µY )2 − (b1 xi + b0 − µY )2
i=1 i=1
N
X N
X
= (yi − µY )2 − (ŷi − µY )2
i=1 i=1
= DY − DSL
Indice di Deteriminazione Multipla R 2
DSL DRL
R2 = =1−
DY DY
I 0 ≤ R2 ≤ 1
I R 2 = 1 se DSL = DY
I R 2 = 0 se DRL = DY
I R 2 = 0/0 se DSL = DRL = DY
R2= 1 R2= 1
● ●
● ●
● ●
● ●
● ●
Y
Y
● ●
● ●
● ●
● ●
● ●
X X
R2= 0.998 R2= 0.998
● ● ●
●●
●●
●●●
● ●
● ●
●●● ●
●● ●
●●
● ●
● ●
●●
●●
●
●
●
●●●
●
● ●● ● ●
● ●●
● ●●
●●●●
●●
● ●●
● ●
●●●
●
●●
● ●
● ●●
●●●
●
●
●● ●● ●●●●
●
●●
● ●
●
●● ●●
● ● ●●●
Y
Y
●● ●●
●● ●●
●● ● ●
●
● ●● ● ●●
● ●● ● ●
●●
● ●
● ●●
● ●
●●
●●●●●●
● ●●●●
●●
●● ●
●
●
● ●
● ● ● ●●
●
● ●●
●
● ●
● ●● ●
● ●● ●●
● ●●
●
● ●
●
● ●
●
●
● ●
X X
R2= 0.829 R2= 0.825
● ●● ●
● ● ●
● ● ●
● ● ● ●
● ●
●
● ● ● ● ●
● ● ●
●
●
● ● ●
● ●
● ● ●
● ● ● ●
● ●
● ● ● ● ● ●● ●
● ●● ● ●
● ● ●
● ● ●
● ●● ● ●
●●● ● ● ●
● ● ● ●●
●
●● ● ●● ● ●
● ● ●●
● ● ●● ● ●● ●●● ●●
● ●
● ●●●
Y
Y
● ● ● ● ●
● ● ●●
● ● ● ● ●● ●
● ● ● ●
● ● ● ● ●● ●
●
● ● ●●
● ●● ● ● ●● ● ● ●
● ●
● ● ● ● ●
● ● ●
● ● ● ●
●● ●
● ● ●● ●
● ● ●
● ● ●
●
● ●
● ● ●
● ●●
●● ● ●
●
● ●●
●
●
● ●
X X
R2= 0.323 R2= 0.307
● ● ●
● ●
● ● ●
● ● ●
● ●
● ●
● ●
● ● ●●
● ●
● ● ● ● ● ●
● ● ● ●
● ●
● ● ●
● ● ● ● ● ●
●
● ● ● ● ● ●
● ● ●
● ●
● ●● ●
●
●●
●● ● ●
● ●
● ● ● ●
● ●● ● ● ● ● ● ● ● ●
● ●●● ●● ●● ● ●
●● ● ● ● ●
●● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ●
●
●
● ● ● ● ● ● ●
● ●● ● ●
Y
Y
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ●● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ●
● ● ●
● ●
● ● ● ●
● ●
● ● ●
● ●
●
●
●
● ●
X X
R2~= 0 R2= 0
● ● ● ● ● ● ● ● ● ● ●
●
●
●● ●●
● ● ● ● ●
●● ●
● ● ● ● ● ●
●
● ●● ● ●
●
● ● ●
● ●
●● ●
● ●● ● ●
●
●
● ● ● ● ●
● ● ● ● ●● ●
●
Y
Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ●
● ● ● ●
● ●
●
●
●
● ● ● ● ●
● ●
● ●
● ● ●
●
●
● ●
●
●
●
● ● ● ● ● ● ● ● ● ● ●
X X
R2= 0 R2= 0/0
● ● ● ● ● ● ● ● ● ●
Y
Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
X X
Relazione tra rXY e R 2
(rXY )2 = R 2
Dimostrazione
N
(ŷi − µY )2 b12 Ni=1 (xi − µX )
2
P P
DSL
2
R = = Pi=1
N
= N
=
DY i=1 (yi − µY )
2
i=1 (yi − µY )
2
P
2
σXY PN 2
σXY
(σX2 )2 i=1 (xi − µX )2 (σX2 )2
NσX2
= =
NσY2
PN
− µY ) 2
i=1 (yi
2 2
σXY σXY

= = = (rXY )2
σX2 · σY2 σX · σY
Determinazione della retta di regressione e calcolo Rˆ2
Esempio
(dal libro di Di Ciaccio - Borra, pag. 137)
Su 27 paesi europei vengono misurati gli indici

X Human development index : misura il livello di sviluppo di un
paese sulla base di tre aspetti: aspettativa di vita alla nascita,
numero medio di anni di istruzione, PIL pro capite
Y Corruption perception index : misura il livello di integrità
percepito dai cittadini (minor valore maggiore corruzione)
(associazione Transparency International)
i paese X Y
1 AUSTRIA 7.90 0.85
2 BELGIO 7.10 0.87
3 BULGARIA 3.60 0.74
4 CIPRO 6.30 0.81
5 DANIMARCA 9.30 0.87
6 ESTONIA 6.50 0.81
7 FINLANDIA 9.20 0.87
8 FRANCIA 6.80 0.87
9 GERMANIA 7.90 0.89
10 GRECIA 3.50 0.85
11 IRLANDA 8.00 0.90
12 ITALIA 3.90 0.85
13 LETTONIA 4.30 0.77
14 LITUANIA 5.00 0.78
15 LUSSEMBURGO 8.50 0.85
16 MALTA 5.60 0.81
17 PAESI BASSI 8.80 0.89
18 POLONIA 5.30 0.80
19 PORTOGALLO 6.00 0.80
20 REGNO UNITO 7.60 0.85
21 REPUBBLICA CECA 4.60 0.84
22 ROMANIA 3.70 0.77
23 SLOVACCHIA 4.30 0.82
24 SLOVENIA 6.40 0.83
25 SPAGNA 6.10 0.86
26 SVEZIA 9.20 0.89
27 UNGHERIA 4.70 0.81
Diagramma a dispersione o scatterplot
0.90
●
●
● ●
● ●
● ●
●
●
0.85
● ●
● ●
●
Y
●
●
● ●
●
0.80
● ●
● ●
0.75
4 5 6 7 8 9
µX = 6.3, µY = 0.835
i (xi − µX ) (yi − µY ) (xi − µX )2 (yi − µY )2 (xi − µX )(yi − µY )
1 1.6000 0.0200 2.5600 0.0003 0.0261
2 0.8000 0.0300 0.6400 0.0010 0.0259
3 -2.7000 -0.0900 7.2900 0.0084 0.2475
4 0.0000 -0.0200 0.0000 0.0006 -0.0000
5 3.0000 0.0300 9.0000 0.0010 0.0940
6 0.2000 -0.0200 0.0400 0.0005 -0.0045
7 2.9000 0.0400 8.4100 0.0013 0.1054
8 0.5000 0.0400 0.2500 0.0014 0.0187
9 1.6000 0.0500 2.5600 0.0025 0.0805
10 -2.8000 0.0200 7.8400 0.0004 -0.0569
11 1.7000 0.0600 2.8900 0.0036 0.1026
12 -2.4000 0.0200 5.7600 0.0004 -0.0464
13 -2.0000 -0.0700 4.0000 0.0043 0.1313
14 -1.3000 -0.0500 1.6900 0.0027 0.0672
15 2.2000 0.0200 4.8400 0.0003 0.0381
16 -0.7000 -0.0200 0.4900 0.0004 0.0138
17 2.5000 0.0600 6.2500 0.0031 0.1383
18 -1.0000 -0.0400 1.0000 0.0016 0.0397
19 -0.3000 -0.0400 0.0900 0.0016 0.0119
20 1.3000 0.0100 1.6900 0.0002 0.0186
21 -1.7000 0.0100 2.8900 0.0000 -0.0108
22 -2.6000 -0.0700 6.7600 0.0046 0.1759
23 -2.0000 -0.0200 4.0000 0.0003 0.0333
24 0.1000 -0.0100 0.0100 0.0000 -0.0007
25 -0.2000 0.0300 0.0400 0.0008 -0.0057
26 2.9000 0.0500 8.4100 0.0025 0.1460
27 -1.6000 -0.0300 2.5600 0.0009 0.0475
0 0 91.96 0.0447 1.437
PN
i=1 (xi − µX )(yi − µY ) 1.437
rXY = qP =√ = 0.709
N
(xi − µ X )2·
PN
(y i − µ Y )2 91.96 · 0.0447
i=1 i=1
PN
i=1 (xi − µX )(yi − µY ) 1.437
b1 = PN = = 0.01563
i=1 (xi − µX )
2 91.96
b0 = µY − b1 · µX = 0.835 − 0.01563 · 6.3 = 0.736

xi yi ŷi êi = yi − ŷi êi2
1 7.9000 0.8510 0.8597 -0.0087 0.0001
2 7.1000 0.8670 0.8472 0.0198 0.0004
3 3.6000 0.7430 0.7925 -0.0495 0.0024
4 6.3000 0.8100 0.8347 -0.0247 0.0006
5 9.3000 0.8660 0.8816 -0.0156 0.0002
6 6.5000 0.8120 0.8378 -0.0258 0.0007
7 9.2000 0.8710 0.8800 -0.0090 0.0001
8 6.8000 0.8720 0.8425 0.0295 0.0009
9 7.9000 0.8850 0.8597 0.0253 0.0006
10 3.5000 0.8550 0.7909 0.0641 0.0041
11 8.0000 0.8950 0.8612 0.0338 0.0011
12 3.9000 0.8540 0.7972 0.0568 0.0032
13 4.3000 0.7690 0.8034 -0.0344 0.0012
14 5.0000 0.7830 0.8144 -0.0313 0.0010
15 8.5000 0.8520 0.8691 -0.0171 0.0003
16 5.6000 0.8150 0.8237 -0.0087 0.0001
17 8.8000 0.8900 0.8737 0.0163 0.0003
18 5.3000 0.7950 0.8190 -0.0240 0.0006
19 6.0000 0.7950 0.8300 -0.0350 0.0012
20 7.6000 0.8490 0.8550 -0.0060 0.0000
21 4.6000 0.8410 0.8081 0.0329 0.0011
22 3.7000 0.7670 0.7940 -0.0270 0.0007
23 4.3000 0.8180 0.8034 0.0146 0.0002
24 6.4000 0.8280 0.8362 -0.0082 0.0001
25 6.1000 0.8630 0.8315 0.0315 0.0010
26 9.2000 0.8850 0.8800 0.0050 0.0000
27 4.7000 0.8050 0.8097 -0.0047 0.0000
170.1 22.536 22.536 0 0.0223
R 2 = (rxy )2 = 0.7092 = 0.50

o equivalentemente
DSL DRL 0.0223

R2 = =1− =1− = 0.50
DY DY 0.0447
Interpretazione
La variabile X (indice di sviluppo HDI) è in grado di spiegare il 50%
della variabilità totale della Y (indice di percezione della corruzione
CPI).
Outlier e osservazioni influenti nella regressione
I Outlier: osservazione che non rispetta il modello adattato ai

dati e presenta quindi un residuo elevato (valore di Y elevato).
I Osservazione influente: osservazione che ha un forte impatto
sui coefficienti della retta (valore di X elevato). Se il punto
viene eliminato dal dataset la retta cambia.

24 Slides

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

24 Slides

Caricato da

Copyright:

Formati disponibili

24.

Regressione lineare semplice

Dipartimento di Scienze Statistiche - Sapienza

I Correlazione e nesso causale

Esempio: Altezza & Peso: Stratificando per Sesso. . .

ŷ = 0.7362 + 0.01563 · 7 = 0.8456

I Non è opportuno fare previsione fissando valori della variabile X

La relazione tra X e Y è ben descritta dalla retta di regressione?

R2= 0.998 R2= 0.998

R2= 0.829 R2= 0.825

R2= 0.323 R2= 0.307

R2= 0 R2= 0/0

Su 27 paesi europei vengono misurati gli indici

b0 = µY − b1 · µX = 0.835 − 0.01563 · 6.3 = 0.736

R 2 = (rxy )2 = 0.7092 = 0.50

DSL DRL 0.0223

I Outlier: osservazione che non rispetta il modello adattato ai

Potrebbero piacerti anche