Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Correlazione lineare
Statistica di Base :: Canale 2 (E-PA)
Stefania Gubbiotti
9 dicembre 2021
To do list
I Diagramma a dispersione
I Correlazione lineare
I Coefficiente di correlazione lineare
I Proprietà
I Esempi
Distribuzioni doppie
X e Y quantitative
0.90
●
●
● ●
● ●
● ●
●
Corruption Perception Index
●
0.85
● ●
● ●
●
●
● ●
●
0.80
● ●
● ●
0.75
4 5 6 7 8 9
X e Y quantitative
I correlazione positiva o concordanza se X e Y crescono
insieme
I correlazione negativa o discordanza se X cresce e Y
decresce (e viceversa)
Costruzione del coefficiente di correlazione lineare di
Bravais Pearson
1. Standardizzazione di X e di Y:
xi − µX yi − µY
zxi = zyi =
σX σY
Rappresentazione grafica :: standardizzazione
* variabili standardizzate *
●
●
● ●
1
● ●
● ●
●
● ●
● ●
●
●
0
scale(Y)
●
●
● ●
●
−1
● ●
● ●
−2
scale(X)
Rappresentazione grafica :: standardizzazione
2
●
●
● ●
1
● ●
●
Corruption Perception Index
●
●
● ● ●
● ●
●
0
●
●
●
●●
●
−1
● ●
● ●
−2
●
−3
−2 0 2 4 6 8 10
xi − µX y i − µY
zxi = zyi =
σX σY
2. Prodotti
ci = zxi · zyi
N
1 X
rXY = ci
N i=1
Coefficiente di correlazione lineare di Bravais Pearson
N N
1 X 1 X
rXY = ci = zx · zyi
N i=1 N i=1 i
N
1 X xi − µX yi − µY
= ·
N i=1 σX σY
PN
i=1 (xi − µX )(yi − µY ) σXY
= qP =
N
− µX )2 · N 2 σX σY
i=1 (yi − µY )
P
i=1 (xi
PN
(xi −µX )(yi −µY )
dove σXY = i=1
N è detta covarianza tra X e Y.
Coefficiente di correlazione lineare rXY
Proprietà
1. Simmetria
2. Massima dipendenza lineare di X con se stessa
3. E’ un indice normalizzato
4. Trasformazioni lineari
5. Perfetta relazione lineare
Proprietà di rXY
PN
i=1 (xi − µX )(yi − µY )
rXY = qP
N 2
PN 2
i=1 (xi − µX ) i=1 (yi − µY )
PN
i=1 (yi − µY )(xi − µX )
= qP qP = rYX
N 2 N
i=1 (yi − µY ) i=1 (xi − µX )2
Proprietà di rXY
PN
i=1 (xi − µX )(xi − µX )
rXX = qP qP
N N
i=1 (xi − µ X )2 i=1 (xi − µX )2
PN
i=1 (xi − µX )2
= PN =1
2
i=1 (xi − µX )
Proprietà di rXY
3. E’ un indice normalizzato: −1 ≤ rXY ≤ +1
Dimostrazione
= segno(a · c)rXY
Proprietà di rXY
● ●
● ●
● ●
● ●
● ●
Y
Y
● ●
● ●
● ●
● ●
● ●
X X
Coefficiente di correlazione lineare
forte relazione lineare positiva :: r = 0.999 forte relazione lineare negativa :: r = −0.999
● ●
●
●
●
●●
● ●
● ●
● ●
●●●●
● ●● ●
● ●
● ●●● ●
●
● ●
●
● ●● ●●
●
● ●●
●●● ●
●●
● ●●
●
●● ● ●●●
●●●
●●
● ● ●
●
●● ●
●●●●
● ●
Y
Y
●●● ●● ●
●●
●●●●●
●●●● ●●
●●
●● ●●
●●●
●●●●
●● ● ●
●● ● ●●
●
●●
●● ●● ●●●
●
●
●●
●
●● ●●
●
●●
●
●● ●
● ●●
● ●●●●
● ●
●●●
●
● ● ●●
●● ●
● ●●
●●
●●
●
●●
●
●
● ●
●
●
● ●
X X
Coefficiente di correlazione lineare
● ●
●
● ●
●
● ●
● ● ● ● ●
●
● ●
● ● ● ●●● ● ●
● ● ●●
● ● ●
●●
●
● ●●
● ● ● ●● ●
● ●
● ●
● ● ● ● ●● ● ● ●
● ● ● ●● ●
● ● ● ●● ● ●
● ●
● ● ● ●● ●
●
●
● ● ● ● ● ● ● ●
●
● ● ● ●
● ●
● ●● ●●
● ●●
●● ●
Y
Y
● ● ● ● ●●
● ● ● ●● ●
● ● ●●
● ●●● ● ● ●
● ● ●
● ● ●
●
●● ●
●
● ●
● ● ●●
● ●
●
● ● ● ●●
● ● ● ●
● ●●
● ● ● ●
● ● ●
● ● ●
● ● ●● ●
● ● ● ●
● ● ● ●
● ● ●
● ●
● ●
●● ● ●
●
●
●
● ●
X X
Coefficiente di correlazione lineare
lieve relazione lineare positiva :: r = 0.484 lieve relazione lineare negativa :: r = −0.662
● ●
● ●
● ●
● ●
● ●
●
● ●
●
● ● ● ●
● ● ● ●
●
● ●
● ● ●
● ●
●● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
●● ●
●
●●
●
●● ● ● ● ● ● ●
● ● ●● ● ● ●
● ● ● ● ●
Y
Y
● ● ● ● ●
● ●● ● ● ● ●
● ● ● ● ●● ● ●
● ● ●
●● ● ● ● ● ●
● ● ●
● ●● ● ● ●●
●
● ●
● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ● ●
● ●
●
●
● ● ● ● ● ● ●
● ● ● ●
● ● ●
● ●
● ●
● ● ●
●
●
● ● ●
X X
Incorrelazione & Indipendenza
● ●
●
●●
● ●
● ●
● ●● ● ●
● ●
●
● ●
● ● ● ●
● ●●
● ● ●
●
●● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ●
●
● ● ● ● ● ●● ●
●●
●● ● ● ●
● ●● ●
● ● ● ● ●
● ●
●
Y
Y
● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ●
● ● ● ● ● ●
● ● ●
●●
● ●
● ● ● ● ● ● ● ● ● ● ●
● ●
● ●
● ●
● ●
●
●
X X
Perfetta dipendenza NON lineare
perfetta relazione quadratica, ma assenza di correlazione lineare :: r = 0 assenza di correlazione lineare tra X e Y :: r = 0
● ● ● ● ● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
Y
Y
● ● ● ●
● ●
● ●
● ●
● ●
● ● ● ●
● ●
● ● ● ●
● ●
● ● ● ●
● ● ● ●
● ●
● ● ● ● ● ● ●
X X
Calcolo di rXY
Esempio
(dal libro di Di Ciaccio - Borra, pag. 137)
0.90
●
●
● ●
● ●
● ●
●
Corruption Perception Index
●
0.85
● ●
● ●
●
●
● ●
●
0.80
● ●
● ●
0.75
4 5 6 7 8 9
µX = 6.3, µY = 0.835
Calcolo di rXY
i (xi − µX ) (yi − µY ) (xi − µX )2 (yi − µY )2 (xi − µX )(yi − µY )
1 1.6000 0.0200 2.5600 0.0003 0.0261
2 0.8000 0.0300 0.6400 0.0010 0.0259
3 -2.7000 -0.0900 7.2900 0.0084 0.2475
4 0.0000 -0.0200 0.0000 0.0006 -0.0000
5 3.0000 0.0300 9.0000 0.0010 0.0940
6 0.2000 -0.0200 0.0400 0.0005 -0.0045
7 2.9000 0.0400 8.4100 0.0013 0.1054
8 0.5000 0.0400 0.2500 0.0014 0.0187
9 1.6000 0.0500 2.5600 0.0025 0.0805
10 -2.8000 0.0200 7.8400 0.0004 -0.0569
11 1.7000 0.0600 2.8900 0.0036 0.1026
12 -2.4000 0.0200 5.7600 0.0004 -0.0464
13 -2.0000 -0.0700 4.0000 0.0043 0.1313
14 -1.3000 -0.0500 1.6900 0.0027 0.0672
15 2.2000 0.0200 4.8400 0.0003 0.0381
16 -0.7000 -0.0200 0.4900 0.0004 0.0138
17 2.5000 0.0600 6.2500 0.0031 0.1383
18 -1.0000 -0.0400 1.0000 0.0016 0.0397
19 -0.3000 -0.0400 0.0900 0.0016 0.0119
20 1.3000 0.0100 1.6900 0.0002 0.0186
21 -1.7000 0.0100 2.8900 0.0000 -0.0108
22 -2.6000 -0.0700 6.7600 0.0046 0.1759
23 -2.0000 -0.0200 4.0000 0.0003 0.0333
24 0.1000 -0.0100 0.0100 0.0000 -0.0007
25 -0.2000 0.0300 0.0400 0.0008 -0.0057
26 2.9000 0.0500 8.4100 0.0025 0.1460
27 -1.6000 -0.0300 2.5600 0.0009 0.0475
0 0 91.96 0.0447 1.437
Calcolo di rXY
PN
i=1 (xi − µX )(yi − µY ) 1.437
rXY = qP =√ = 0.709
N
(x − µ )2·
PN
(y − µ )2 91.96 · 0.0447
i=1 i X i=1 i Y
Formula alternativa di rXY
dove
PN
I S1X = i=1 xi
PN
I S1Y = i=1 yi
PN 2
I S2X = i=1 xi
PN 2
I S2Y = i=1 yi
PN
I SXY = i=1 xi yi
Formula alternativa di rXY
Dimostrazione
1
PN
I numeratore N i=1 (xi − µX )(yi − µY ):
" N N N N
#
1 X X X X
= xi yi − µX yi − xi µ Y + µX µY
N i=1 i=1 i=1 i=1
" N #
1 X
= xi yi − NµX µY − NµX µY + NµX µY
N i=1
" N #
1 X
= xi yi − NµX µY
N i=1
1 S1X S1Y
= SXY − N
N N N
1
= 2 [NSXY − S1X S1Y ]
N
Formula alternativa di rXY
I denominatore:
v v !
u
u1 X N u
u1 X N XN
σX = t 2
(xi − µX ) = t 2 2
x + NµX − 2 xi µX
N i=1 N i=1 i i=1
v ! v
u
u1 X N u
u1 2 !
2 2 S1X
= t x − NµX = t S2X − N
N i=1 i N N
s
2
1 S1X 1
q
= S2X − = 2 ,
NS2X − S1X
N N N
1
q
σY = ... = NS2Y − S1Y2 ,
N
1
q q
⇒ σX σY = 2
NS2X − S1X 2 .
NS2Y − S1Y
N2
Calcolo di rXY con la formula alternativa
i xi yi xi2 yi2 xi · yi
1 7.90 0.85 62.41 0.72 6.72
2 7.10 0.87 50.41 0.75 6.16
3 3.60 0.74 12.96 0.55 2.67
4 6.30 0.81 39.69 0.66 5.10
5 9.30 0.87 86.49 0.75 8.05
6 6.50 0.81 42.25 0.66 5.28
7 9.20 0.87 84.64 0.76 8.01
8 6.80 0.87 46.24 0.76 5.93
9 7.90 0.89 62.41 0.78 6.99
10 3.50 0.85 12.25 0.73 2.99
11 8.00 0.90 64.00 0.80 7.16
12 3.90 0.85 15.21 0.73 3.33
13 4.30 0.77 18.49 0.59 3.31
14 5.00 0.78 25.00 0.61 3.92
15 8.50 0.85 72.25 0.73 7.24
16 5.60 0.81 31.36 0.66 4.56
17 8.80 0.89 77.44 0.79 7.83
18 5.30 0.80 28.09 0.63 4.21
19 6.00 0.80 36.00 0.63 4.77
20 7.60 0.85 57.76 0.72 6.45
21 4.60 0.84 21.16 0.71 3.87
22 3.70 0.77 13.69 0.59 2.84
23 4.30 0.82 18.49 0.67 3.52
24 6.40 0.83 40.96 0.69 5.30
25 6.10 0.86 37.21 0.74 5.26
26 9.20 0.89 84.64 0.78 8.14
27 4.70 0.81 22.09 0.65 3.78
S1X = 170.1 S1Y = 22.54 S2X = 1163.59 S2Y = 18.8548 SXY = 143.414
Calcolo di rXY con la formula alternativa
PN
I S1X = i=1 xi = 170.1
PN
I S1Y = i=1 yi = 22.536
PN 2
I S2X = i=1 xi = 1163.59
PN 2
I S2Y = i=1 yi = 18.8548
PN
I SXY = i=1 xi yi = 143.414
Ps Pt ?
i=1 j=1 (xi − µX )(yj? − µY )nij
rXY = qP qP
s ? 2 t ?
i=1 (xi − µX ) ni• j=1 (yj − µY )2 n•j
Calcolo di rXY per una distribuzione di frequenze
Esempio
Su una classe di 76 studenti del primo anno sono state rilevate:
I X: “Numero di esoneri superati”
I Y: “Numero di esami superati al primo appello”
La tabella di contingenza riporta la distribuzione doppia osservata:
Y
X 0 1 2 3
0 10 0 0 0
1 8 12 3 0
2 0 18 13 0
3 0 0 10 2
Calcolare rXY .
Calcolo di rXY per una distribuzione di frequenze
Esempio
Ricaviamo le marginali:
Y
X 0 1 2 3
0 10 0 0 0 10
1 8 12 3 0 23
2 0 18 13 0 31
3 0 0 10 2 12
18 30 26 2 76
Calcolo di rXY per una distribuzione di frequenze
Bubble plot
3.0
2.5
2.0
1.5
Y
1.0
0.5
0.0
X
Calcolo di rXY per una distribuzione di frequenze
Ps ?
i=1 xi · ni• 0 · 10 + 1 · 23 + 2 · 31 + 3 · 12 121
µX = = = = 1.592
Py N? 76 76
j=1 yj · n•j 0 · 18 + 1 · 30 + 2 · 26 + 3 · 2 88
µY = = = = 1.158
N 76 76
s
X
(xi? − µX )2 ni• = (0 − 1.592)2 · 10 + (1 − 1.592)2 · 23+
i=1
+ (2 − 1.592)2 · 31 + (3 − 1.592)2 · 12 = 62.355
t
X
(yj? − µY )2 n•j = (0 − 1.158)2 · 18 + (1 − 1.158)2 · 30+
j=1
s X
X t
(xi? − µX )(yj? − µY )nij
i=1 j=1