Sei sulla pagina 1di 26

13 matrice cov e R aa20009/10

LE MATRICI DI
COVARIANZA E DI
CORRELAZIONE
Elementi di Statistica
a.a. 2009/10
13 matrice cov e R aa20009/10
OSSERVAZIONI INTRODUTTIVE
Riprendiamo in esame la matrice dei dati,
di dimensione np e supponiamo che tutte
le p variabili siano quantitative.
Lo studio delle relazioni fra i fenomeni pu
essere effettuato con riferimento a
ciascuna delle possibili coppie di variabili,
che verranno indicate con:
Xs ed Xv

s, v = 1, 2, , p

13 matrice cov e R aa20009/10
MATRICE DI COVARIANZA
I valori della covarianza tra ciascuna delle
coppie di variabili possono essere scritti in
forma compatta in una matrice detta di
covarianza (o anche di varianze-
covarianze), di dimensioni pp
13 matrice cov e R aa20009/10
MATRICE S

(
(
(
(

=
) ( ) , ( ) , (
) , ( ) ( ) , (
) , ( ) , ( ) (
2 1
2 2 1 2
1 2 1 1
p p p
p
p
X VAR X X COV X X COV
X X COV X VAR X X COV
X X COV X X COV X VAR

S
13 matrice cov e R aa20009/10
PROPRIETA I
La matrice di covarianza simmetrica,
essendo:

COV(Xs, Xv) = COV(Xv, Xs)
13 matrice cov e R aa20009/10
PROPRIETA II

Presenta lungo la diagonale principale i valori
delle varianze delle p variabili, dato che:

COV(Xs, Xs) = VAR(Xs)
13 matrice cov e R aa20009/10
TRACCIA
La traccia (ovvero la somma dei valori
sulla diagonale principale) rappresenta la
VARIANZA TOTALE:

Tr (S) =

=
p
i
i
X
1
) var(
13 matrice cov e R aa20009/10
MATRICE DI CORRELAZIONE



Essendo




la conoscenza della matrice di covarianza
consente di calcolare la seguente matrice di
correlazione
) ( ) (
) , (
v s
v s
sv
X VAR X VAR
X X COV
r =
13 matrice cov e R aa20009/10
MATRICE R

(
(
(
(

=
1
1
1
2 1
2 21
1 12

p p
p
p
r r
r r
r r
R
13 matrice cov e R aa20009/10
PROPRIETA I
E simmetrica, essendo r
sv
= r
vs
e

per tale motivo ci si
limita talvolta a scrivere soltanto i valori al di sopra
della diagonale principale.
Presenta valori tutti uguali ad 1 lungo la diagonale
principale.
Pone in luce le relazioni lineari tra le coppie di
variabili.
13 matrice cov e R aa20009/10
PROPRIETA II
Con riferimento alle sole relazioni bidimensionali, essa
permette di conoscere:
quali coppie di variabili forniscono informazioni
pressoch ripetitive (coefficiente di correlazione in
modulo ~ 1)
quali coppie di variabili non sono correlate linearmente
(coefficiente di correlazione ~ 0).
13 matrice cov e R aa20009/10
ESEMPIO
Considerino le seguenti variabili rilevate per 14 paesi in via di sviluppo:
X
1
= CO2 emissions, industrial (metric tons per capita) 2000
X
2
= Life expectancy at birth, total (years) 2000
X
3
= Urban population (% of total) 2000
X
4
= GNI per capita, Atlas method (current US$) 2000
13 matrice cov e R aa20009/10

COUNTRY_NAME
X
1
CO2
emissions,
industrial
(metric tons
per capita)
2000
X
2
Life
expectancy at
birth, total
(years) 2000
X
3
Urban
population (%
of total) 2000
X
4
GNI per
capita, Atlas
method (current
US$) 2000
Argentina 3,79 73,85 88,2 7480
Bangladesh 0,18 61,19 25 370
Botswana 2,42 38,97 49,03 3650
Burkina Faso 0,09 44,22 16,52 210
Cameroon 0,12 50,05 48,92 580
Central African Republic 0,07 43,47 41,19 280
Chile 4,06 75,65 85,79 4590
China 2,5 70,26 35,79 840
Congo, Rep. 0,64 51,32 65,39 570
Costa Rica 1,39 77,48 59,01 3830
Dominican Republic 2,5 67,33 65,39 2120
Ecuador 2,16 69,59 63 1190
Egypt, Arab Rep. 1,72 67,46 42,68 1490
El Salvador 1 70,15 60,31 2000
Media 1,617 61,499 53,301 2085,714
13 matrice cov e R aa20009/10
CALCOLO DI R
paesi X
1
X
2
X
3
X
4

X
1
1 0,58 0,71 0,78
X
2
1 0,53 0,47
X
3
1 0,74
X
4
1
13 matrice cov e R aa20009/10
INTERPRETAZIONE E
COMMENTI
Dalla matrice si nota che ogni coppia di variabili ha
unelevata correlazione positiva. In particolare, il
maggiore legame lineare presente tra emissione di
CO2 e GNI pro-capite (r = 0,78), quello inferiore,
seppur non modesto in termini assoluti, fra speranza di
vita alla nascita e % di popolazione urbana (r = 0,53).
13 matrice cov e R aa20009/10
CALCOLO DI R SU SERIE
STORICHE MULTIPLE

PIL

Consumi Investimenti
PIL 1 0,997 0,949
Consumi 1 0,955
Investimenti 1

PIL

Consumi Investimenti
PIL 1 0,748 0,587
Consumi 1 0,469
Investimenti 1

Correlazioni
riferite ai valori
assoluti
Correlazioni
riferite ai n.i. a
base mobile
13 matrice cov e R aa20009/10
OSSERVAZIONI
Si nota che le correlazione tra i n.i. a base mobile
sono pi deboli, non essendo influenzate dal trend
crescente di entrambe le serie storiche.
Si pu affermare che le variazioni da un anno
allaltro degli aggregati presentano tra loro un
legame lineare abbastanza debole, mentre i valori
in termini assoluti presentano un legame molto
forte (influenzato dalla correlazione spuria)
13 matrice cov e R aa20009/10
OSSERVAZIONI CONCLUSIVE SULLA
CORRELAZIONE (Significato della
correlazione )
Lesistenza duna correlazione elevata non implica una relazione causa-
effetto tra le due variabili. Infatti, un valore di r prossimo a +1 (1) tra le
variabili X
v
ed X
s
pu manifestarsi:
quando Y dipende effettivamente da X o viceversa; ad esempio, con
riferimento ad n famiglie, la spesa per consumi funzione del reddito;

quando X ed Y dipendono da una terza variabile Z o da un complesso di
altre variabili; ad es. relazione tra Povert assoluta (nel confronto tra
Paesi) e livello dello sviluppo umano (HDI) dipende dal livello di
sviluppo economico (PIL), dalla distribuzione del reddito, ecc;

quando tra le due variabili si accertata una semplice concordanza (o
discordanza) di andamento, senza che esista un nesso logico tra le
stesse.

13 matrice cov e R aa20009/10
OSSERVAZIONI CONCLUSIVE
SULLA CORRELAZIONE SPURIA
Relazioni spurie si manifestano pi frequentemente se
si calcola la correlazione tra i dati di due serie storiche,
poich in tal caso la presenza dun trend crescente in
entrambe porta comunque ad ottenere valori molto
elevati di r anche se non vi alcuna relazione, di natura
logica, tra le due variabili.
Nellanalisi esplorative dei dati, riferita ad n unit
statistiche, meno agevole riconoscere le correlazioni
spurie, poich uno degli obiettivi della ricerca proprio
quello di porre in luce relazioni non ancora inquadrate in
schemi teorici precisi
13 matrice cov e R aa20009/10
OSSERVAZIONI CONCLUSIVE
SULLA CORRELAZIONE SPURIA
Il problema sar affrontato al paragrafo 15
Quando si parler di correlazione
parziale
13 matrice cov e R aa20009/10
UN ESEMPIO DI CORRELAZIONE
SPURIA
Consideriamo tre indicatori socioeconomici disponibili per 47
province di un paese in via di sviluppo.
I tre indicatori considerati sono:

1. una misura di fertilit (nati per donna) standardizzata in
maniera tale che vari tra 0 e 100 [FERTILITA].
2. la percentuale degli occupati in agricoltura sul totale degli
occupati (che pu anche essere vista come un indicatore di
quanto urbanizzata la provincia) [AGRICOLTURA].
3. il logaritmo della percentuale della popolazione con un
istruzione superiore alla scuola primaria (il logaritmo stato
scelto perch ci occuperemmo di relazioni lineari e la linearit
sembra maggiore utilizzando questa
trasformazione)[ISTRUZIONE].
Il problema che ci poniamo di cercare di descrivere le relazioni
esistenti tra i tre indicatori.
13 matrice cov e R aa20009/10
La matrice dei diagrammi di dispersione
Il grafico mostra la matrice dei diagrammi di dispersione di tutte le
possibili coppie di variabili.
1
0
20
40
60
80
30 50 70 90
0 20 40 60 80
2
30
50
70
90
3
0
1
2
3
4
0 1 2 3 4
FERTILITA
AGRICOLTURA
ISTRUZIONE
13 matrice cov e R aa20009/10
Commenti
I grafici precedenti mostrano che:

1) la percentuale di occupati in agricoltura e fertilit sono positivamente
associati: provincie con una alta percentuale di occupati in agricoltura hanno
anche una alta fertilit, viceversa, basse percentuali di occupati in agricoltura
si osservano in provincie con bassi livelli di fertilit;
2) esiste una associazione negativa tra istruzione e fertilit; ovvero provincie
con un alto livello di istruzione hanno una fertilit pi bassa delle provincie
con un basso livello di istruzione.
3) lo stesso (associazione negativa) pu essere detto per la relazione tra
agricoltura e istruzione
4) almeno in prima approssimazione le relazioni sembrano lineari. la relazione
tra agricoltura e fertilit sembra pi debole della relazione esistente tra
agricoltura ed istruzione (si pensi, ad esempio, alla dispersione intorno a
delle ipotetiche rette di regressione).
5) Meno facile valutare la forza relativa delle relazioni intercorrenti tra
istruzione e, rispettivamente, agricoltura e fertilit. La prima (istruzione verso
agricoltura) sembra per in una qualche misura pi forte della seconda (si
osservi in particolare l'allargarsi del grafico fertilit verso istruzione per valori
bassi dell'istruzione.
13 matrice cov e R aa20009/10
La matrice delle varianze e
covarianze
In situazioni tipo quella che stiamo considerando pu
essere interessante essere in grado di descrivere
compattamente sia la direzione che la forza delle
relazioni intercorrenti tra le varie variabili.
Tipicamente, le covarianze per tutte le coppie di
variabili vengono organizzate, insieme alle varianze
delle singole variabili, in una matrice, chiamata
matrice delle varianze e covarianze o matrice di
dispersione, che nel caso in esame sarebbe:

13 matrice cov e R aa20009/10
La matrice delle varianze e
covarianze
X Y Z
fertilita

agricoltura educazione
X fertilita 152,7 98.00.00 -5.1
Y agricoltura 0,353079 504,8 -11.9
Z educazione -0,52429 -0,67592 0,61
Nella Tabella, l'elemento (s; v) dato dalla covarianza tra la variabile s-
esima e la variabile v-esima. Poich, come immediato verificare, cov(Y; Y)
= var(Y), sulla diagonale troviamo le varianze. Ad esempio, in questo caso
152;7 la varianza della fertilit . Si osservi che, poich cov(X; Y) =
cov(Y;X), la matrice di dispersione per costruzione simmetrica.
13 matrice cov e R aa20009/10
Coefficienti di correlazione delle tre
variabili considerate. La matrice di
correlazione
Nel caso in esame, immediato dalla matrice delle varianze e
covarianze data, calcolare
cor(fertilit,agricoltura) = 0;35;
cor(fertilit,istruzione) = -0;52;
cor(agricoltura,istruzione) = -0;68:
Similmente a quanto visto per le covarianze spesso, i coefficienti di
correlazione sono organizzati in una matrice, detta matrice di
correlazione, del tipo

X Y Z
fertilita agricoltura istruzione
X fertilita 1,00 0,35 -0,52
Y agricoltura 0,35 1,00 -0,68
Z istruzione -0,52 -0,68 1,00