Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Stefania Gubbiotti
16 dicembre 2021
To do list
Esempio
I Chi usa il dolcificante al posto dello zucchero tende ad essere
più grasso.
I Quindi. . . i dolcificanti fanno ingrassare?
I Non esattamente perché la correlazione non implica
causalità.
I Una possibile spiegazione: il consumo di dolcificante prevale tra
le persone (già) in sovrappeso o che seguono una dieta
alimentare.
Correlazione spuria
Just for fun...
https://www.tylervigen.com/spurious-correlations
Correlazione e nesso causale
Esempio
I Forte correlazione positiva tra il livello di colesterolo dei giovani
adulti e il tempo speso davanti alla TV.
I Quindi. . . guardare la tv causa un aumento del livello di
colesterolo?
I Non esattamente perché la correlazione non implica
causalità.
I Una possibile spiegazione: chi spende molto tempo davanti alla
TV, tende a non fare molta attività fisica. Questo può
comportare un incremento della massa grassa e del colesterolo.
Correlazione a blocchi
Esempio: Altezza & Peso
190
180
dati$alt
170
160
40 50 60 70 80 90
dati$pes
rXY = 0.716
Correlazione a blocchi
190
180
altezza
170
160
40 50 60 70 80 90
peso
Correlazione a blocchi
Esempio: Altezza & Peso: Stratificando per Sesso. . .
190
180
altezza
170
160
40 50 60 70 80 90
peso
...l’interpretazione cambia!
femmine maschi
rXY = 0.716, rXY = 0.517, rXY = 0.518
Retta di regressione come strumento di previsione
In base alla retta di regressione ŷ = 0.7362 + 0.01563x , quale è il
valore dell’indice CPI che si può prevedere per un ipotetico paese in
cui l’indice HDI sia pari a 7
DY = DSL + DRL
dove
PN
I DY = i=1 (yi − µy )2
PN
I DSL = i=1 (ŷi − µy )2
PN
I DRL = i=1 (yi − ŷi )2
(da dimostrare →)
Scomposizione della Devianza Totale
0.90 ●
●
● ●
● ●
● ●
●
●
0.85
● ●
● ●
●
Y
●
●
● ●
●
0.80
● ●
● ●
0.75
4 5 6 7 8 9
X
Scomposizione della Devianza Totale
Dimostrazione
N
X N
X
DRL = (yi − ŷi )2 = (yi − b0 − b1 xi )2 =
i=1 i=1
N
X N
X
= (yi − µY + b1 µX − b1 xi )2 = [(yi − µY ) − b1 (xi − µX )]2 =
i=1 i=1
N
X N
X N
X
= (yi − µY )2 + b12 (xi − µX )2 − 2b1 (yi − µY )(xi − µX ) =
i=1 i=1 i=1
N
X N
X N
X
= (yi − µY )2 + b12 (xi − µX )2 − 2b1 b1 (xi − µX )2 =
i=1 i=1 i=1
N
X N
X N
X N
X
= (yi − µY )2 − b12 (xi − µX )2 = (yi − µY )2 − (b1 xi − b1 µX )2 =
i=1 i=1 i=1 i=1
Scomposizione della Devianza Totale
Dimostrazione
(...continua...)
DRL = ...
N
X N
X
= (yi − µY )2 − (b1 xi − b1 µX + µY − µY )2
i=1 i=1
N
X N
X
= (yi − µY )2 − (b1 xi + b0 − µY )2
i=1 i=1
N
X N
X
= (yi − µY )2 − (ŷi − µY )2
i=1 i=1
= DY − DSL
Indice di Deteriminazione Multipla R 2
DSL DRL
R2 = =1−
DY DY
I 0 ≤ R2 ≤ 1
I R 2 = 1 se DSL = DY
I R 2 = 0 se DRL = DY
I R 2 = 0/0 se DSL = DRL = DY
Indice di Deteriminazione Multipla R 2
R2= 1 R2= 1
● ●
● ●
● ●
● ●
● ●
Y
Y
● ●
● ●
● ●
● ●
● ●
X X
Indice di Deteriminazione Multipla R 2
● ● ●
●●
●●
●●●
● ●
● ●
●●● ●
●● ●
●●
● ●
● ●
●●
●●
●
●
●
●●●
●
● ●● ● ●
● ●●
● ●●
●●●●
●●
● ●●
● ●
●●●
●
●●
● ●
● ●●
●●●
●
●
●● ●● ●●●●
●
●●
● ●
●
●● ●●
● ● ●●●
Y
Y
●● ●●
●● ●●
●● ● ●
●
● ●● ● ●●
● ●● ● ●
●●
● ●
● ●●
● ●
●●
●●●●●●
● ●●●●
●●
●● ●
●
●
● ●
● ● ● ●●
●
● ●●
●
● ●
● ●● ●
● ●● ●●
● ●●
●
● ●
●
● ●
●
●
● ●
X X
Indice di Deteriminazione Multipla R 2
● ●● ●
● ● ●
● ● ●
● ● ● ●
● ●
●
● ● ● ● ●
● ● ●
●
●
● ● ●
● ●
● ● ●
● ● ● ●
● ●
● ● ● ● ● ●● ●
● ●● ● ●
● ● ●
● ● ●
● ●● ● ●
●●● ● ● ●
● ● ● ●●
●
●● ● ●● ● ●
● ● ●●
● ● ●● ● ●● ●●● ●●
● ●
● ●●●
Y
Y
● ● ● ● ●
● ● ●●
● ● ● ● ●● ●
● ● ● ●
● ● ● ● ●● ●
●
● ● ●●
● ●● ● ● ●● ● ● ●
● ●
● ● ● ● ●
● ● ●
● ● ● ●
●● ●
● ● ●● ●
● ● ●
● ● ●
●
● ●
● ● ●
● ●●
●● ● ●
●
● ●●
●
●
● ●
X X
Indice di Deteriminazione Multipla R 2
● ● ●
● ●
● ● ●
● ● ●
● ●
● ●
● ●
● ● ●●
● ●
● ● ● ● ● ●
● ● ● ●
● ●
● ● ●
● ● ● ● ● ●
●
● ● ● ● ● ●
● ● ●
● ●
● ●● ●
●
●●
●● ● ●
● ●
● ● ● ●
● ●● ● ● ● ● ● ● ● ●
● ●●● ●● ●● ● ●
●● ● ● ● ●
●● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ●
●
●
● ● ● ● ● ● ●
● ●● ● ●
Y
Y
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ●● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ●
● ● ●
● ●
● ● ● ●
● ●
● ● ●
● ●
●
●
●
● ●
X X
Indice di Deteriminazione Multipla R 2
R2~= 0 R2= 0
● ● ● ● ● ● ● ● ● ● ●
●
●
●● ●●
● ● ● ● ●
●● ●
● ● ● ● ● ●
●
● ●● ● ●
●
● ● ●
● ●
●● ●
● ●● ● ●
●
●
● ● ● ● ●
● ● ● ● ●● ●
●
Y
Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ●
● ● ● ●
● ●
●
●
●
● ● ● ● ●
● ●
● ●
● ● ●
●
●
● ●
●
●
●
● ● ● ● ● ● ● ● ● ● ●
X X
Indice di Deteriminazione Multipla R 2
● ● ● ● ● ● ● ● ● ●
Y
Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
X X
Relazione tra rXY e R 2
(rXY )2 = R 2
Dimostrazione
N
(ŷi − µY )2 b12 Ni=1 (xi − µX )
2
P P
DSL
2
R = = Pi=1
N
= N
=
DY i=1 (yi − µY )
2
i=1 (yi − µY )
2
P
2
σXY PN 2
σXY
(σX2 )2 i=1 (xi − µX )2 (σX2 )2
NσX2
= =
NσY2
PN
− µY ) 2
i=1 (yi
2 2
σXY σXY
= = = (rXY )2
σX2 · σY2 σX · σY
Determinazione della retta di regressione e calcolo Rˆ2
Esempio
(dal libro di Di Ciaccio - Borra, pag. 137)
0.90
●
●
● ●
● ●
● ●
●
●
0.85
● ●
● ●
●
Y
●
●
● ●
●
0.80
● ●
● ●
0.75
4 5 6 7 8 9
µX = 6.3, µY = 0.835
Determinazione della retta di regressione e calcolo Rˆ2
i (xi − µX ) (yi − µY ) (xi − µX )2 (yi − µY )2 (xi − µX )(yi − µY )
1 1.6000 0.0200 2.5600 0.0003 0.0261
2 0.8000 0.0300 0.6400 0.0010 0.0259
3 -2.7000 -0.0900 7.2900 0.0084 0.2475
4 0.0000 -0.0200 0.0000 0.0006 -0.0000
5 3.0000 0.0300 9.0000 0.0010 0.0940
6 0.2000 -0.0200 0.0400 0.0005 -0.0045
7 2.9000 0.0400 8.4100 0.0013 0.1054
8 0.5000 0.0400 0.2500 0.0014 0.0187
9 1.6000 0.0500 2.5600 0.0025 0.0805
10 -2.8000 0.0200 7.8400 0.0004 -0.0569
11 1.7000 0.0600 2.8900 0.0036 0.1026
12 -2.4000 0.0200 5.7600 0.0004 -0.0464
13 -2.0000 -0.0700 4.0000 0.0043 0.1313
14 -1.3000 -0.0500 1.6900 0.0027 0.0672
15 2.2000 0.0200 4.8400 0.0003 0.0381
16 -0.7000 -0.0200 0.4900 0.0004 0.0138
17 2.5000 0.0600 6.2500 0.0031 0.1383
18 -1.0000 -0.0400 1.0000 0.0016 0.0397
19 -0.3000 -0.0400 0.0900 0.0016 0.0119
20 1.3000 0.0100 1.6900 0.0002 0.0186
21 -1.7000 0.0100 2.8900 0.0000 -0.0108
22 -2.6000 -0.0700 6.7600 0.0046 0.1759
23 -2.0000 -0.0200 4.0000 0.0003 0.0333
24 0.1000 -0.0100 0.0100 0.0000 -0.0007
25 -0.2000 0.0300 0.0400 0.0008 -0.0057
26 2.9000 0.0500 8.4100 0.0025 0.1460
27 -1.6000 -0.0300 2.5600 0.0009 0.0475
0 0 91.96 0.0447 1.437
Determinazione della retta di regressione e calcolo Rˆ2
PN
i=1 (xi − µX )(yi − µY ) 1.437
rXY = qP =√ = 0.709
N
(xi − µ X )2·
PN
(y i − µ Y )2 91.96 · 0.0447
i=1 i=1
PN
i=1 (xi − µX )(yi − µY ) 1.437
b1 = PN = = 0.01563
i=1 (xi − µX )
2 91.96
Interpretazione
La variabile X (indice di sviluppo HDI) è in grado di spiegare il 50%
della variabilità totale della Y (indice di percezione della corruzione
CPI).
Outlier e osservazioni influenti nella regressione