Sei sulla pagina 1di 2

Analisi dei Dati - Alessandro Bogliolo

Lezione n. 18

Covarianza e correlazione.
Covarianza:

Date due variabili aleatorie X e Y , chiamiamo covarianza di X e Y la media dei prodotti dei loro scostamenti
dalla media:

Cov (X; Y ) = E [(X X )(Y


= E [XY ] XY

Y )]

dove X = E [X ].
Stima di covarianza:

Per stimare la covarianza occorre disporre di un campione di N osservazioni congiunte di X e Y . Indichiamo


con x(i) e y (i) gli i-esimi valori di X e Y , esiti dell'i-esima prova di un esperimento aleatorio composto. Indicate
con X e Y le medie campionarie di X e Y , la covarianza puo essere stimata sul campione utilizzando la seguende
formula:
1
Cov (X; Y ) =
(x(i) X )(y (i) Y )
N i=1;:::;N

La covarianza e positiva se, mediamente, X e Y subiscono oscillazioni concordi (quando X supera il valor medio
anche Y supera il valor medio), negativa se subiscono oscillazioni discordi (quando X supera il valor medio Y
non lo supera, e viceversa), nulla se subiscono oscillazioni indipendenti (quando X supera il valor medio, Y a
volte lo supera a volte no).
Correlazione:

La correlazione tra due variabili aleatorie X e Y e il rapporto tra la loro covarianza e il prodotto delle loro
deviazioni standard:
Cov (X; Y )
Corr(X; Y ) =
X Y
La divisione per le deviazioni standard normalizza il valore della correlazione, che risulta sempre de nito tra -1
e +1.
Casi limite:

Correlazione 1.

La correlazione di una variabile aleatoria X con se stessa e 1:

Corr(X; X ) =

Correlazione -1.

Correlazione 0.

Cov (X; X ) E [(X


=
X  X

X )]

V ar(X )
=1
V ar(X )

X )( X
2
X

( X ))]

V ar(X )
= 1
V ar(X )

La correlazione di due variabili aleatorie indipendenti e 0:

Corr(X; Y ) =

Osservazione:

X )(X
2
X

La correlazione di una variabile aleatori X con una variabile aleatoria Y = X e -1:

Corr(X; X ) =

Cov (X; X ) E [(X


=
X X

XY XY
E [XY ] XY
=
=0
X X
X X

Tanto maggiore e (in modulo) la correlazione tra due variabili aleatorie, tanto piu la conoscenza del valore
dell'una e utile a prevedere il valore dell'altra. Sono molti i casi in cui, in un esperimento composto, una
variabile aleatoria puo essere osservata prima dell'altra. A titolo di esempio si pensi ad un record di atletica

all'aperto in presenza di vento. Conoscendo la correlazione tra la forza e la direzione del vento e le prestazioni
dell'atleta, e possibile utilizzare la misura del vento (variabile aleatoria osservata) per prevedere la prestazione
dell'atleta (variabile aleatoria incognita).

Rappresentazione gra ca di un campione di due variabili


Scatter plot.

Rappresentiamo un campione di due variabili aleatorie su un piano cartesiano i cui assi sono associati alle due
variabili. La coppia di valori di X ed Y osservati all'i-esima prova dell'esperimento (x(i) ; y (i) ) e rappresentata
sul piano da un punto di coordinate (x(i) ; y (i) ). Lo scatter plot di un campione di cardinalita N e un insieme di
N punti sul piano cartesiano individuati dalle coppie di valori osservati delle due variabili aleatorie.
Y
(x(i),y(i) )

X
Scatter plot e correlazione.

Lo scatter plot di due variabili aleatorie con forte correlazione positiva e una nuvola di punti distribuiti in
prossimita di una retta crescente (a pendenza positiva).
Lo scatter plot di due variabili aleatorie con forte correlazione negativa e una nuvola di punti distribuiti in
prossimita di una retta decrescente (a pendenza negativa).
Lo scatter plot di due variabili aleatorie scorrelate (o debolmente correlate) e una nuvola di punti che non
individua alcuna retta.
Y

X
Correlazione nulla

X
Correlazione positiva

X
Correlazione negativa