Sei sulla pagina 1di 48

Cap.

11
Dipendenza e correlazione

Attenzione:
non significa necessariamente
dare una interpretazione di causaeffetto, ma solo misurare lintensit
della relazione

Premessa

Quanto visto nel capitolo 10 applicabile a


fenomeni di qualsiasi natura (quindi anche solo
qualitativi): utilizzando solo le frequenze abbiamo
potuto rilevare lesistenza o meno di una
relazione statistica tra X e Y e misurarne
lintensit con un indice sintetico normalizzato.
Quando almeno uno dei due fenomeni
congiuntamente osservati su U quantitativo
possibile aumentare il livello di analisi: utilizzando
sia le frequenze che le modalit possibile anche
dare un verso alla relazione, cio stabilire se,
quanto e come X influenza Y o viceversa.
Se entrambi i fenomeni sono quantitativi
e di
2
conseguenza lintera v.s. doppia numerica

Medie e varianze
marginali

1
y
N

1

N
2
Y

f j y j

j 1

f j y j y

j 1

j 1

f j y 2j y 2

0.35
20

0.352 0.328
20
14 0

51

1 2

14 x 0 5 x 1 1 x 2
Incidenti

9
7

10

10

14

20

Genere

Calcolare numero medio di incidenti e varianza

Medie e varianze
condizionate

1
y xi
f i

2
Y xi

f i

f ij y j

j 1

j 1

f ij y j y xi

f i

f
j 1

ij

2
j

y yx
i

f ij y 2j
f ij y j
2
j

f ij y
f ij y j

6 0 2
6 0

8 0
8 0

31
31

2 1
21

1 2 2
1 2
2

0 2
0 2

7
5

2
2

yM

2
Y M

5
0.5
10

7
0.52 0.45
10

2
yF
0.2
10
Y2 F

2
0.2 2 0.16
10

Calcolare numero medio di incidenti e varianza condizionati al genere

Propriet di associativit della media

xj x y

f j

i 1

f ij xi

1
x
N

j 1

f j x y j

La media marginale uguale alla media (ponderata) delle medie condizionate

Medie condizionate e propriet associativa delle medie


La media marginale uguale alla media (ponderata) delle medie condizionate

xy

f j

1
y xi
f i

f ij xi

i 1

1
x
N

j 1

f j x
y

f ij y j

j 1

y 1
N

i 1

f i y xi

Numero medio di incidenti marginali e condizionati al genere

7
0.35
20

yM

5
0.5
10

yF

2
0.2
10

Propriet associativa della media

1
y
N

i 1

1
0.35
20
?

f i

1
y xi
N

(f

y x1 f 2 y x2

( 10 0.5 10 0.2 )

20

CVD

Varianze marginali e condizionate al genere

y
Y2

7
0.35
20

9
0.352 0.328
20

yM
Y2 M

5
0.5
10

yF

7
0.52 0.45
10

Y2 F

2
0.2
10

2
0.2 2 0.16
10

Quale distribuzione pi variabile?

Y M
yM

0.45
1.34
0.5

Y F
yF

0.16 2.00

0.2

Scomponibilit della varianza marginale


(corrisponde allassociativit delle medie ma un po diversa)
La media marginale uguale alla media (ponderata)

delle medie condizionate

y 0.35

y M 0.5

y F 0.2

1
10 0.5 10 0.20 0.35
20

Y2 0.328

Y2 M 0.45

Y2 F 0.16

1
10 0.45 10 0.16 4.5 1.6 6.1 0.305
20
20
20

0.328

La varianza marginale (?) uguale alla media (ponderata) delle varianze

condizionate
+ la varianza delle medie condizionate

Scomponibilit della varianza marginale


(corrisponde allassociativit delle medie ma un po diversa)
La media marginale uguale alla media (ponderata)
delle medie condizionate

y 0.35

y M 0.5

y F 0.2

1
10 0.5 10 0.20 0.35
20
VARIANZA NEI GRUPPI

Y2 0.328

Y2 xi

2
NEI

Y2 M 0.45

Y2 x1

Y2 x2

Y2 F 0.16

1
10 0.45 10 0.16 4.5 1.6 6.1 0.305
20
20
20

0.328

La varianza marginale uguale alla media (ponderata) delle varianze

condizionate
+ la varianza delle medie condizionate

Scomponibilit della varianza marginale


(corrisponde allassociativit delle medie ma un po diversa)

y 0.35

y M 0.5

y F 0.2

20
VARIANZA NEI GRUPPI

Y2 0.328

2
FRA

VARIANZA FRA GRUPPI

f i

i 1

10 0.5 0.35

xi

10

Y2 xi

2
NEI

Y2 M 0.45

0.2 0.35 2 0.0225


Y2 x1

Y2 x2

Y2 F 0.16

1
4.5 1.6 6.1
10 0.45 10 0.16

0.305
20
20
20

0.328

La varianza marginale uguale alla media (ponderata) delle varianze

condizionate
+ la varianza delle medie condizionate

Scomponibilit della varianza marginale


(corrisponde allassociativit delle medie ma un po diversa)
La varianza marginale uguale alla media (ponderata) delle varianze

condizionate
+ la varianza delle medie condizionate

y 0.35

y M 0.5

Y2 M 0.45 Y2 F 0.16

0.328
2
Y

in
ti h
W

0.3275

VARIANZA NEI GRUPPI


2
NEI

0.305

i 1

f i

VARIANZA FRA GRUPPI

2
Y xi


2
Y

y F 0.2

2
NEI

2
FRA

N
2
FRA

i 1

Be
tw
ee
n

f i y xi y

0.0225

Scomponibilit della varianza


2
Y

2
NEI

i 1

f i

2
NEI

2
Y xi

2
FRA

2
FRA

i 1

f i

xi

f i
pi p X xi
N

2
NEI

i 1 p X xi
k

Media delle varianze


(condizionate)

2
Y xi

2
FRA

i 1 p X xi Y xi Y
k

Varianza delle medie


(condizionate)

X qualsiasi e Y quantitativo
Studio della dipendenza in media

Uninterpretazione grafica e alcune formule alternative


pY xi y j

Condizionate

pY xi y

pY x1 y

Marginale

pY y

pY x2 y

pY y j i 1 p X xi pY xi y j

pY y j

f j
N

f ij
f i
f i
p X xi
N

Parte di variabilit di Y
dovuta alla differenza tra
le medie condizionate

Y i 1 p X xi Y xi
k

2
NEI

i 1 p X xi
2
Y

2
Y xi

2
FRA

i 1 p X xi Y xi Y
k

2
FRA
0 2 1
Y

Interpretazione del rapporto


i 1 p X xi
k

2
Y

2
Y xi

i 1 p X xi Y xi Y
k

Quando accade che

2
Y xi

i 1 p X xi Y x Y
2
Y

2
Y X

2
FRA
2
Y

Parte di variabilit dovuta ad X


Si pu interpretare come parte di variabilit di Y
spiegata da X

Indice di dipendenza (rapporto di correlazione)


i 1 p X xi
2
Y

2
Y X

2
FRA
2
Y

2
Y xi

i 1 p X xi Y xi Y
k

Si pu interpretare come parte di variabilit di Y


spiegata da X

Solo se le varianze condizionate sono (quasi) uguali

Y2 xi 2 i

In questo caso, soprattutto se gi si sa che X causa di Y, il rapporto si


pu interpretare come misura di quanto Y dipende da X
Ma di per s un elevato rapporto non significa necessariamente che X sia causa di Y
Se le varianze condizionate sono molto diverse il rapporto si pu interpretare
solo come parte di variabilit di Y
dovuta alla differenza tra le medie
N.B. in tutti i libri di testo l interpretazione (1) viene estesa anche al caso in cui le
varianze condizionate siano diverse, ma a parer nostro azzardata

2
NEI

i 1 p X xi
2
Y

pY xi y

2
Y xi

2
FRA

i 1 p X xi Y xi Y
k

Fissate le varianze
condizionate

2
FRA
0 2 1
Y

Se cresce la distanza tra le medie

Aumenta

pY xi y

2
FRA
Y2

Aumenta la varianza marginale e quella FRA gruppi

2
NEI

i 1 p X xi
2
Y

pY xi y

2
Y xi

2
FRA

i 1 p X xi Y xi Y
k

Se le varianze
condizionate tendono
a ridursi

2
FRA
0 2 1
Y

Fissate le distanze tra le medie

Aumenta
2
FRA
Y2

pY xi y

In particolare

Y2 xi 0 i

2
NEI
0
2
FRA
1
2
Y

Si riduce la varianza
marginale e quella NEI
gruppi

Indipendenza Statistica e Rapporto di correlazione

i 1 p X xi
k

2
Y

2
Y xi

i 1 p X xi Y xi Y

Se tra X e Y ci fosse I.S.


allora le distribuzioni
condizionate sarebbero tutte
uguali alle marginali

pY xi y

Y x Y i
i

2
Y X

2
FRA
2
Y

Quando il rapporto pari a zero si


dice anche che c
indipendenza in media di Y da X

2
NEI

i 1 p X xi
2
Y

2
Y X

Indipendenza in
media di Y da X

0
pY xi y

2
Y xi

2
FRA

i 1 p X xi Y xi Y
k

2
FRA
2
Y

2
FRA
0 2 1
Y

Indice di dipendenza di Y da X
Rapporto di correlazione di Y da X
In genere non si sa se X causa Y, ma se il rapporto
molto alto, questo fa sorgere il dubbio che sia cos
Forte dipendenza
di Y da X

pY xi y

2
Y X

2
FRA
2
Y

Se il rapporto uguale a zero


si dice che
Y indipendente in media da X

LIndipendenza Statistica
implica
lIndipendenza in Media

2 0 Y2 X 0
X e Y statisticamente indipendenti

pY xi y pY y

Y2 X 0
Y x

Y i

LIndipendenza in Media
non implica
lIndipendenza Statistica

Y2 X 0 2 0

pY xi y pY y
X e Y non
statisticamente
indipendenti

Se NON c
Indipendenza in Media
NON ci pu essere
Indipendenza Statistica
pY xi y pY y

2
Y X

0 0
2

Alcuni elementi di riflessione importanti

Se si sicuri che X sia causa di Y come segue:


a) a valori diversi di X corrispondono valori diversi delle medie di Y|x
b) e le varianze condizionate sono quasi uguali

2
Y X

misura la parte di variabilit di Y dovuta ad X


Se non vale b) allora solo Parte di variabilit dovuta alla diversit delle medie

2
Y X

molto vicino ad 1, allora possibile


pensare che X sia causa di Y

Un alto rapporto di correlazione non garantisce lesistenza


di una relazione di causa effetto (quanto meno necessario affiancare una teoria)

Esempio: Genere e Incidenti stradali

2
Y X

2
FRA
2
Y

0.0225

0.07
0.3275
y 0.35

y M 0.5

in
ti h
W

0.3275

VARIANZA NEI GRUPPI


2
NEI

0.305

i 1

f i

VARIANZA FRA GRUPPI

2
Y xi


2
Y

y F 0.2

Y2 M 0.45 Y2 F 0.16

0.328
2
Y

Tuttavia le
varianze
sono molto
diverse

2
NEI

2
FRA

N
2
FRA

i 1

Be
tw
ee
n

f i y xi y

0.0225

Esempio

28

Senza dubbio laccesso allacqua influisce sulla


speranza di vita per cui in questo caso il rapporto
ci dice quanta parte (28%) della variabilit della
speranza di vita dipende da tale accesso

2
Y X

33.31

0.28
118 .74

La scomposizione ci dice che la variabilit della speranza di


vita nei Paesi ONU (cio il fatto che Paesi diversi abbiano
una diversa speranza di vita) complessivamente
misurabile con la varianza marginale 2Y = 118.74 che per la
parte 2FRA = 33.31 dipende dallaccesso allacqua potabile e
29
2
per la parte NEI = 85.43 non dipende dallaccesso allacqua

Y2 X 0 2 0

X e Y non sono indipendenti. Ad esempio:


(il 2 normalizzato intorno al 10%).

La connessione per
sparisce se si
sintetizzano le
distribuzioni
condizionate nelle
loro medie
30

Lelevato valore del rapporto


di correlazione induce a
pensare ad una relazione di
causa-effetto tra X e Y

La varianza NEI pari a 0, tutta la varianza totale dunque varianza FRA;


lindice di dipendenza pari a 1
31

2
Y X

2
XY

Esempio:

Y indipendente in media da X:

X dipende perfettamente da Y:

32

X e Y entrambi quantitativi
Covarianza e correlazione

Successioni doppie (X, Y) quantitative:


rappresentazione mediante scatterplot
Successione dei dati statistici

u 1

Y : peso

, y N

X ,Y u j

u 2
u j

x , y , , x , y , , x

La struttura
della nuvola
indicativa
delleventuale
tipo di
relazione
esistente tra
XeY

yj

u i

u N

x N x1 x2 x j

xi

Successione dei dati statistici

X : statura

Diagramma a dispersione (scatter plot)

La tabella osservata viene rappresentata sul diagramma come


una
nuvola di k h punti. Le coppie di valori osservati (xi,yj) sono le
coordinate.
Se X e Y sono statisticamente indipendenti, i punti si
presentano sparpagliati sul diagramma, senza alcuna struttura.
Se tra X e Y c una relazione statistica, la nuvola di punti si
presenta
strutturata. Questa struttura ci d informazioni sul
y
tipo di relazione esistente.

x
Le variabili sono
indipendenti tra loro

35

Posso avvicinarmi alla bocca del geiser Old Faithful?

Dovrei avere
almeno 68 di tempo
(ma meglio venire via prima)

Maggiore (X) la
durata delleruzione
pi alto (Y)
lintervallo di tempo
tra due eruzioni
successive

ovarianza: misura di variabilit congiunta


Tender ad assumere

XY
y
ymax

x x y
i 1

I quadrante

II quadrante

xi x 0

xi x 0

yi y 0
xi x yi y 0

yi y 0
xi x yi y 0

VI quadrante

XY 0

xi x 0
yi y 0
xi x yi y 0

yi y 0
xi x yi y 0
xmin

XY 0

III quadrante

xi x 0
ymin

il segno dei quadranti


in cui si concentrano i
punti

xmax

XY 0

La covarianza: misura la variabilit


congiunta
Successione dei dati statistici

x , y ,, x , y ,, x
1

, yN

XY

x x y
i

i 1

Tabella di frequenza doppia

XY

f x x y
k

ij

i 1

j 1

Una formula alternativa


XY
XY

x x y
i

i 1

x x y x x y
i 1

N
1

x x y

i 1

x x y
i

i 1

x x
i

i 1

i 1

xi yi 1
N

M XY x y

x
i 1

yi

La covarianza: formula alternativa


Successione dei dati statistici

x , y ,, x , y ,, x
1

, yN

XY

x
i 1

yi x y

XY M XY x y

Tabella di frequenza doppia

XY

i 1

j 1

f ij xi y j x y

Covarianza: propriet

X Y XY X Y
0
Tanto pi la covarianza si avvicina al limite inferiore o superiore, tanto pi la nuvola di
punti tende a concentrarsi su una retta y = a + b x inclinata negativamente o
positivamente a seconda del segno della covarianza

XY X Y

XY 0

XY 0

XY 0

XY X Y

Esercizio teorico

Dimostrare che se Y = a + b X allora

XY X Y

dove il segno determinato da quello di b

XY

x x y
i 1

Linearit della media

y ab x

Omogeneit della deviazione standard

Y b X
Correggere diapositive e appunti

XY

x x a bx a bx
i

i 1

1 N
1 N
xi x bxi bx xi x b xi x
N i 1
N i 1
2
1 N
2

b xi x
X sign b b X X
N i 1

Coefficiente di correlazione

X Y XY X Y
0

XY X Y

XY

X Y
XY
XY

X Y XY
XY

XY 0

XY 0

XY 0

XY X Y

Coefficiente di correlazione

1 XY

XY

1
X Y
0

Il coefficiente di correlazione misura il grado di relazione lineare tra X e Y


Tanto pi vicino a 1 (in valore assoluto) lindice, tanto pi vicina ad una relazione
lineare perfetta la relazione (e viceversa visto lesercizio teorico)

XY 1

XY 0

XY 0

XY 0

XY 1

Bolle con area


pari alla frequenza

In un diagramma a dispersione, le
osservazioni con la stessa coppia di
modalit sono punti sovrapposti. Per
rappresentare graficamente una coppia
di fenomeni con frequenze congiunte
molto differenziate (da valori piccoli a
valori grandi) allora meglio utilizzare un
diagramma a bolle
45

Calcolare il coefficiente di correlazione


lineare

x 78.03
y 24.54

X2 135.72

Y2 12.31

XY 1947.83

XY

XY
XY x y

XY
X Y

1947.83 78.03 24.54

135.72 12.31

0.81
46

Prendendo la retta tracciata come rappresentativa della


relazione tra X e Y individuare il voto medio che si pu
attendere uno studente con voto alla maturit pari ad 80

Correlazione spuria
Attenzione: una (elevata) correlazione tra X e Y non implica
necessariamente una relazione di causa-effetto.
Numero di gelati consumati e numero di accessi in piscina (positiva)
Alta marea e numero di auto che passano su un ponte (negativa)

Di fronte ad una elevata correlazione tra X e Y probabile vi possa


essere una relazione di causa-effetto, ma questa va giustificata
sempre sulla base di ragionamenti teoricamente validi
Minuti di eruzione di un geiser e minuti alleruzione successiva (positiva)

Correlazione ecologica
Origin of concept
The term comes from a 1950 paper by William S. Robinson.[11] For each of the 48 states + District of Columbia in the US
as of the 1930 census, he computed the literacy rate and the proportion of the population born outside the US. He showed
that these two figures were associated with a positive correlation of 0.53 in other words, the greater the proportion of
immigrants in a state, the higher its average literacy. However, when individuals are considered, the correlation was 0.11
immigrants were on average less literate than native citizens. Robinson showed that the positive correlation at the level
of state populations was because immigrants tended to settle in states where the native population was more literate. He
cautioned against deducing conclusions about individuals on the basis of population-level, or "ecological" data. In 2011, it
was found that Robinson's calculations of the ecological correlations are based on the wrong state level data. The
correlation of 0.53 mentioned above is in fact 0.46.[12]
An early example of the ecological fallacy was mile Durkheim's 1897 study of suicide in France although this has been
debated by some.[13][14]