Sei sulla pagina 1di 38

22.

Correlazione lineare
Statistica di Base :: Canale 2 (E-PA)

Stefania Gubbiotti

Dipartimento di Scienze Statistiche - Sapienza

9 dicembre 2021
To do list

I Diagramma a dispersione
I Correlazione lineare
I Coefficiente di correlazione lineare
I Proprietà
I Esempi
Distribuzioni doppie

In generale è interessare studiare la relazione tra due variabili X e Y


per stabilire se e in che misura presentano un legame di dipendenza.
Il modo in cui valutiamo la dipendenza cambia a seconda della
tipologia di variabili considerate
I X qualitativa e Y qualitativa
I X qualitativa e Y quantitativa
I X quantitativa e Y quantitativa
Rappresentazione grafica :: diagramma a dispersione o
scatterplot

X e Y quantitative
0.90



● ●

● ●
● ●

Corruption Perception Index


0.85

● ●
● ●



● ●

0.80

● ●

● ●
0.75

4 5 6 7 8 9

Human Development Index


Rappresentazione grafica :: diagramma a dispersione o
scatterplot

X e Y quantitative
I correlazione positiva o concordanza se X e Y crescono
insieme
I correlazione negativa o discordanza se X cresce e Y
decresce (e viceversa)
Costruzione del coefficiente di correlazione lineare di
Bravais Pearson

1. Standardizzazione di X e di Y:

xi − µX yi − µY
zxi = zyi =
σX σY
Rappresentazione grafica :: standardizzazione

* variabili standardizzate *



● ●
1

● ●
● ●

● ●
● ●


0
scale(Y)



● ●

−1

● ●

● ●
−2

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

scale(X)
Rappresentazione grafica :: standardizzazione
2



● ●
1

● ●

Corruption Perception Index



● ● ●
● ●

0




●●

−1

● ●

● ●
−2


−3

−2 0 2 4 6 8 10

Human Development Index


Costruzione del coefficiente di correlazione lineare
1. Standardizzazione di X e di Y:

xi − µX y i − µY
zxi = zyi =
σX σY

2. Prodotti

ci = zxi · zyi

I zxi e zyi concordi ⇒ segno positivo


I zxi e zyi discordi ⇒ segno negativo

3. Misura di sintesi: media delle ci

N
1 X
rXY = ci
N i=1
Coefficiente di correlazione lineare di Bravais Pearson

N N
1 X 1 X
rXY = ci = zx · zyi
N i=1 N i=1 i
N 
1 X xi − µX yi − µY

= ·
N i=1 σX σY
PN
i=1 (xi − µX )(yi − µY ) σXY
= qP =
N
− µX )2 · N 2 σX σY
i=1 (yi − µY )
P
i=1 (xi

PN
(xi −µX )(yi −µY )
dove σXY = i=1
N è detta covarianza tra X e Y.
Coefficiente di correlazione lineare rXY

Proprietà
1. Simmetria
2. Massima dipendenza lineare di X con se stessa
3. E’ un indice normalizzato
4. Trasformazioni lineari
5. Perfetta relazione lineare
Proprietà di rXY

1. Simmetria: rXY = rYX


Dimostrazione
Segue banalmente dalla proprietà commutativa del prodotto. Infatti:

PN
i=1 (xi − µX )(yi − µY )
rXY = qP
N 2
PN 2
i=1 (xi − µX ) i=1 (yi − µY )
PN
i=1 (yi − µY )(xi − µX )
= qP qP = rYX
N 2 N
i=1 (yi − µY ) i=1 (xi − µX )2
Proprietà di rXY

2. Massima dipendenza lineare di X con se stessa: rXX = 1


Dimostrazione

PN
i=1 (xi − µX )(xi − µX )
rXX = qP qP
N N
i=1 (xi − µ X )2 i=1 (xi − µX )2
PN
i=1 (xi − µX )2
= PN =1
2
i=1 (xi − µX )
Proprietà di rXY
3. E’ un indice normalizzato: −1 ≤ rXY ≤ +1
Dimostrazione

I Dalla Disuguaglianza di Cauchy-Schwarz


P 2 P  P 
N N 2 N 2
i=1 vi ui ≤ i=1 vi i=1 ui .

I Ponendo vi = xi√−µX −µY


N
e ui = yi√ , si ha:
P 2 P N 2 P  2
N xi −µX yi −µY N −µX
xi√ N −µY
yi√
i=1

N

N
≤ i=1 N i=1 N
 P 2
1 N
I N i=1 (xi − µ X )(y i − µ Y ) ≤
1
PN 2 1 PN 2
N i=1 (xi − µX ) N i=1 (yi − µY )
2
I σXY ≤ σX2 σY2
I −σX σY ≤ σXY ≤ σX σY (prendendo la radice)
I −1 ≤ σXY
σX σY ≤1
Proprietà di rXY

4. Trasformazioni lineari: raX +b cY +d = segno(a · c)rXY


Dimostrazione
PN
i=1 (axi + b − [aµX + b])(cyi + d − [cµY + d])
raX +b cY +d = qP qP
N 2 N 2
i=1 (ax i + b − [aµ X + b]) i=1 (cyi + d − [cµY + d])
PN
i=1 a(xi − µX )c(yi − µY )
= qP qP
N 2 (x + −µ )2 N 2 2
i=1 a i X i=1 c (yi − µY )
PN
a·c i=1 (xi − µX )(yi − µY )
= qP qP
|a| · |c| N 2 N 2
i=1 (x i − µ X ) i=1 (yi − µY )

= segno(a · c)rXY
Proprietà di rXY

5. Perfetta relazione lineare: rXY = ±1 ⇔ Y = β0 + β1 X


Dimostrazione (solo ⇐)

I rXY = rX β0 +β1 X = segno(1 · β1 ) · rXX per la 4.


I segno(β1 ) · rXX = segno(β1 ) per la 2.
I rX β0 +β1 X = +1 se β1 > 0 perfetta relazione lineare positiva
I rX β0 +β1 X = −1 se β1 < 0 perfetta relazione lineare negativa
Coefficiente di correlazione lineare

perfetta relazione lineare positiva :: r = 1 perfetta relazione lineare negativa :: r = −1

● ●

● ●

● ●

● ●

● ●
Y

Y
● ●

● ●

● ●

● ●

● ●

X X
Coefficiente di correlazione lineare

forte relazione lineare positiva :: r = 0.999 forte relazione lineare negativa :: r = −0.999

● ●



●●
● ●
● ●
● ●

●●●●
● ●● ●
● ●
● ●●● ●

● ●

● ●● ●●

● ●●
●●● ●
●●
● ●●

●● ● ●●●
●●●
●●
● ● ●

●● ●
●●●●
● ●
Y

Y
●●● ●● ●
●●
●●●●●
●●●● ●●
●●
●● ●●
●●●
●●●●
●● ● ●
●● ● ●●

●●
●● ●● ●●●


●●

●● ●●

●●

●● ●
● ●●
● ●●●●
● ●
●●●

● ● ●●
●● ●
● ●●
●●
●●

●●


● ●


● ●

X X
Coefficiente di correlazione lineare

relazione lineare positiva :: r = 0.882 relazione lineare negativa :: r = −0.901

● ●

● ●

● ●
● ● ● ● ●

● ●
● ● ● ●●● ● ●
● ● ●●
● ● ●
●●

● ●●
● ● ● ●● ●
● ●
● ●
● ● ● ● ●● ● ● ●
● ● ● ●● ●
● ● ● ●● ● ●
● ●
● ● ● ●● ●


● ● ● ● ● ● ● ●

● ● ● ●
● ●
● ●● ●●
● ●●
●● ●
Y

Y
● ● ● ● ●●
● ● ● ●● ●
● ● ●●
● ●●● ● ● ●
● ● ●
● ● ●

●● ●

● ●
● ● ●●
● ●

● ● ● ●●
● ● ● ●
● ●●
● ● ● ●
● ● ●
● ● ●
● ● ●● ●
● ● ● ●
● ● ● ●
● ● ●
● ●
● ●
●● ● ●



● ●

X X
Coefficiente di correlazione lineare

lieve relazione lineare positiva :: r = 0.484 lieve relazione lineare negativa :: r = −0.662

● ●
● ●
● ●

● ●
● ●

● ●

● ● ● ●
● ● ● ●

● ●
● ● ●
● ●
●● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
●● ●

●●

●● ● ● ● ● ● ●
● ● ●● ● ● ●
● ● ● ● ●
Y

Y
● ● ● ● ●
● ●● ● ● ● ●
● ● ● ● ●● ● ●
● ● ●
●● ● ● ● ● ●
● ● ●
● ●● ● ● ●●

● ●
● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ● ●
● ●


● ● ● ● ● ● ●
● ● ● ●
● ● ●
● ●
● ●
● ● ●


● ● ●

X X
Incorrelazione & Indipendenza

sostanziale incorrelazione :: r = 0.038 indipendenza => incorrelazione :: r = 0

● ●


●●

● ●
● ●
● ●● ● ●
● ●

● ●
● ● ● ●
● ●●
● ● ●

●● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ●

● ● ● ● ● ●● ●
●●
●● ● ● ●
● ●● ●
● ● ● ● ●
● ●

Y

Y
● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ●
● ● ● ● ● ●
● ● ●
●●
● ●
● ● ● ● ● ● ● ● ● ● ●
● ●
● ●
● ●
● ●

X X
Perfetta dipendenza NON lineare

perfetta relazione quadratica, ma assenza di correlazione lineare :: r = 0 assenza di correlazione lineare tra X e Y :: r = 0

● ● ● ● ● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●

● ●
● ●
● ●

● ●
Y

Y
● ● ● ●

● ●

● ●
● ●
● ●

● ● ● ●
● ●
● ● ● ●
● ●
● ● ● ●
● ● ● ●
● ●
● ● ● ● ● ● ●

X X
Calcolo di rXY

Esempio
(dal libro di Di Ciaccio - Borra, pag. 137)

Su 27 paesi europei vengono misurati gli indici


X Human development index : misura il livello di sviluppo di un
paese sulla base di tre aspetti: aspettativa di vita alla nascita,
numero medio di anni di istruzione, PIL pro capite
Y Corruption perception index : misura il livello di integrità
percepito dai cittadini (minor valore maggiore corruzione)
(associazione Transparency International)
Calcolo di rXY
i paese X Y
1 AUSTRIA 7.90 0.85
2 BELGIO 7.10 0.87
3 BULGARIA 3.60 0.74
4 CIPRO 6.30 0.81
5 DANIMARCA 9.30 0.87
6 ESTONIA 6.50 0.81
7 FINLANDIA 9.20 0.87
8 FRANCIA 6.80 0.87
9 GERMANIA 7.90 0.89
10 GRECIA 3.50 0.85
11 IRLANDA 8.00 0.90
12 ITALIA 3.90 0.85
13 LETTONIA 4.30 0.77
14 LITUANIA 5.00 0.78
15 LUSSEMBURGO 8.50 0.85
16 MALTA 5.60 0.81
17 PAESI BASSI 8.80 0.89
18 POLONIA 5.30 0.80
19 PORTOGALLO 6.00 0.80
20 REGNO UNITO 7.60 0.85
21 REPUBBLICA CECA 4.60 0.84
22 ROMANIA 3.70 0.77
23 SLOVACCHIA 4.30 0.82
24 SLOVENIA 6.40 0.83
25 SPAGNA 6.10 0.86
26 SVEZIA 9.20 0.89
27 UNGHERIA 4.70 0.81
Calcolo di rXY
Diagramma a dispersione o scatterplot

0.90


● ●

● ●
● ●

Corruption Perception Index


0.85

● ●
● ●



● ●

0.80

● ●

● ●
0.75

4 5 6 7 8 9

Human Development Index

µX = 6.3, µY = 0.835
Calcolo di rXY
i (xi − µX ) (yi − µY ) (xi − µX )2 (yi − µY )2 (xi − µX )(yi − µY )
1 1.6000 0.0200 2.5600 0.0003 0.0261
2 0.8000 0.0300 0.6400 0.0010 0.0259
3 -2.7000 -0.0900 7.2900 0.0084 0.2475
4 0.0000 -0.0200 0.0000 0.0006 -0.0000
5 3.0000 0.0300 9.0000 0.0010 0.0940
6 0.2000 -0.0200 0.0400 0.0005 -0.0045
7 2.9000 0.0400 8.4100 0.0013 0.1054
8 0.5000 0.0400 0.2500 0.0014 0.0187
9 1.6000 0.0500 2.5600 0.0025 0.0805
10 -2.8000 0.0200 7.8400 0.0004 -0.0569
11 1.7000 0.0600 2.8900 0.0036 0.1026
12 -2.4000 0.0200 5.7600 0.0004 -0.0464
13 -2.0000 -0.0700 4.0000 0.0043 0.1313
14 -1.3000 -0.0500 1.6900 0.0027 0.0672
15 2.2000 0.0200 4.8400 0.0003 0.0381
16 -0.7000 -0.0200 0.4900 0.0004 0.0138
17 2.5000 0.0600 6.2500 0.0031 0.1383
18 -1.0000 -0.0400 1.0000 0.0016 0.0397
19 -0.3000 -0.0400 0.0900 0.0016 0.0119
20 1.3000 0.0100 1.6900 0.0002 0.0186
21 -1.7000 0.0100 2.8900 0.0000 -0.0108
22 -2.6000 -0.0700 6.7600 0.0046 0.1759
23 -2.0000 -0.0200 4.0000 0.0003 0.0333
24 0.1000 -0.0100 0.0100 0.0000 -0.0007
25 -0.2000 0.0300 0.0400 0.0008 -0.0057
26 2.9000 0.0500 8.4100 0.0025 0.1460
27 -1.6000 -0.0300 2.5600 0.0009 0.0475
0 0 91.96 0.0447 1.437
Calcolo di rXY

PN
i=1 (xi − µX )(yi − µY ) 1.437
rXY = qP =√ = 0.709
N
(x − µ )2·
PN
(y − µ )2 91.96 · 0.0447
i=1 i X i=1 i Y
Formula alternativa di rXY

NSXY − S1X S1Y


rXY = q
2 )(NS
(NS2X − S1X 2
2Y − S1Y )

dove
PN
I S1X = i=1 xi
PN
I S1Y = i=1 yi
PN 2
I S2X = i=1 xi
PN 2
I S2Y = i=1 yi
PN
I SXY = i=1 xi yi
Formula alternativa di rXY
Dimostrazione

1
PN
I numeratore N i=1 (xi − µX )(yi − µY ):
" N N N N
#
1 X X X X
= xi yi − µX yi − xi µ Y + µX µY
N i=1 i=1 i=1 i=1
" N #
1 X
= xi yi − NµX µY − NµX µY + NµX µY
N i=1
" N #
1 X
= xi yi − NµX µY
N i=1
 
1 S1X S1Y
= SXY − N
N N N
1
= 2 [NSXY − S1X S1Y ]
N
Formula alternativa di rXY
I denominatore:
v v !
u
u1 X N u
u1 X N XN
σX = t 2
(xi − µX ) = t 2 2
x + NµX − 2 xi µX
N i=1 N i=1 i i=1
v ! v
u
u1 X N u
u1  2 !
2 2 S1X
= t x − NµX = t S2X − N
N i=1 i N N
s 
2

1 S1X 1
q
= S2X − = 2 ,
NS2X − S1X
N N N
1
q
σY = ... = NS2Y − S1Y2 ,
N

1
q q
⇒ σX σY = 2
NS2X − S1X 2 .
NS2Y − S1Y
N2
Calcolo di rXY con la formula alternativa
i xi yi xi2 yi2 xi · yi
1 7.90 0.85 62.41 0.72 6.72
2 7.10 0.87 50.41 0.75 6.16
3 3.60 0.74 12.96 0.55 2.67
4 6.30 0.81 39.69 0.66 5.10
5 9.30 0.87 86.49 0.75 8.05
6 6.50 0.81 42.25 0.66 5.28
7 9.20 0.87 84.64 0.76 8.01
8 6.80 0.87 46.24 0.76 5.93
9 7.90 0.89 62.41 0.78 6.99
10 3.50 0.85 12.25 0.73 2.99
11 8.00 0.90 64.00 0.80 7.16
12 3.90 0.85 15.21 0.73 3.33
13 4.30 0.77 18.49 0.59 3.31
14 5.00 0.78 25.00 0.61 3.92
15 8.50 0.85 72.25 0.73 7.24
16 5.60 0.81 31.36 0.66 4.56
17 8.80 0.89 77.44 0.79 7.83
18 5.30 0.80 28.09 0.63 4.21
19 6.00 0.80 36.00 0.63 4.77
20 7.60 0.85 57.76 0.72 6.45
21 4.60 0.84 21.16 0.71 3.87
22 3.70 0.77 13.69 0.59 2.84
23 4.30 0.82 18.49 0.67 3.52
24 6.40 0.83 40.96 0.69 5.30
25 6.10 0.86 37.21 0.74 5.26
26 9.20 0.89 84.64 0.78 8.14
27 4.70 0.81 22.09 0.65 3.78
S1X = 170.1 S1Y = 22.54 S2X = 1163.59 S2Y = 18.8548 SXY = 143.414
Calcolo di rXY con la formula alternativa
PN
I S1X = i=1 xi = 170.1
PN
I S1Y = i=1 yi = 22.536
PN 2
I S2X = i=1 xi = 1163.59
PN 2
I S2Y = i=1 yi = 18.8548
PN
I SXY = i=1 xi yi = 143.414

NSXY − S1X S1Y


rXY = q
2 )(NS
(NS2X − S1X 2
2Y − S1Y )

27 · 143.414 − 170.1 · 22.536


=q = 0.709
(27 · 1163.59 − 170.12 )(27 · 18.8548 − 22.5362 )
Formula di rXY nel caso di distribuzioni di frequenze

Data una distribuzione doppia di frequenze (tabella di contingenza)


di X e Y

Ps Pt ?
i=1 j=1 (xi − µX )(yj? − µY )nij
rXY = qP qP
s ? 2 t ?
i=1 (xi − µX ) ni• j=1 (yj − µY )2 n•j
Calcolo di rXY per una distribuzione di frequenze

Esempio
Su una classe di 76 studenti del primo anno sono state rilevate:
I X: “Numero di esoneri superati”
I Y: “Numero di esami superati al primo appello”
La tabella di contingenza riporta la distribuzione doppia osservata:
Y
X 0 1 2 3
0 10 0 0 0
1 8 12 3 0
2 0 18 13 0
3 0 0 10 2
Calcolare rXY .
Calcolo di rXY per una distribuzione di frequenze

Esempio
Ricaviamo le marginali:
Y
X 0 1 2 3
0 10 0 0 0 10
1 8 12 3 0 23
2 0 18 13 0 31
3 0 0 10 2 12
18 30 26 2 76
Calcolo di rXY per una distribuzione di frequenze

Bubble plot
3.0
2.5
2.0
1.5
Y

1.0
0.5
0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0

X
Calcolo di rXY per una distribuzione di frequenze

Ps ?
i=1 xi · ni• 0 · 10 + 1 · 23 + 2 · 31 + 3 · 12 121
µX = = = = 1.592
Py N? 76 76
j=1 yj · n•j 0 · 18 + 1 · 30 + 2 · 26 + 3 · 2 88
µY = = = = 1.158
N 76 76
s
X
(xi? − µX )2 ni• = (0 − 1.592)2 · 10 + (1 − 1.592)2 · 23+
i=1
+ (2 − 1.592)2 · 31 + (3 − 1.592)2 · 12 = 62.355
t
X
(yj? − µY )2 n•j = (0 − 1.158)2 · 18 + (1 − 1.158)2 · 30+
j=1

+ (2 − 1.158)2 · 26 + (3 − 1.158)2 · 2 = 50.105


Calcolo di rXY per una distribuzione di frequenze

s X
X t
(xi? − µX )(yj? − µY )nij
i=1 j=1

= (0 − 1.592) · (0 − 1.158) · 10 + (1 − 1.592) · (0 − 1.158) · 8+


+ (1 − 1.592) · (1 − 1.158) · 12 + (1 − 1.592) · (2 − 1.158) · 3+
+ (2 − 1.592) · (1 − 1.158) · 18 + (2 − 1.592) · (2 − 1.158) · 13+
+ (3 − 1.592) · (2 − 1.158) · 10 + (3 − 1.592) · (3 − 1.158) · 2 =
= 49.199
Ps Pt ?
i=1 j=1 (xi− µX )(yj? − µY )nij
rXY = qP qP
s ? 2 t ? 2
i=1 (xi − µX ) ni• j=1 (yj − µY ) n•j
49.199
=√ √ = 0.88
62.355 50.105

Potrebbero piacerti anche

  • Slides
    Slides
    Documento32 pagine
    Slides
    Lorenzo Masperoni
    Nessuna valutazione finora
  • 23 Slides
    23 Slides
    Documento28 pagine
    23 Slides
    Lorenzo Masperoni
    Nessuna valutazione finora
  • 24 Slides
    24 Slides
    Documento31 pagine
    24 Slides
    Lorenzo Masperoni
    Nessuna valutazione finora
  • Cedolino 202106
    Cedolino 202106
    Documento2 pagine
    Cedolino 202106
    Lorenzo Masperoni
    Nessuna valutazione finora
  • Slides
    Slides
    Documento36 pagine
    Slides
    Lorenzo Masperoni
    Nessuna valutazione finora