Sei sulla pagina 1di 6

A1

Alcuni concetti di statistica:


medie, varianze, covarianze
e regressioni
Esistono svariati modi per presentare grandi quantit di dati. Una possibilit
presentarne la cosiddetta distribuzione, raggruppare cio i dati per singoli valori (o intervalli di valori) e indicare la frequenza relativa di ciascun valore (o
intervallo di valori). Unaltra possibilit presentare alcune statistiche di sintesi. Data una serie di dati, X1, X2, X3, Xn, in cui n rappresenta il numero di
osservazioni nella serie, le statistiche di sintesi pi utilizzate sono le seguenti:
La media (), che consiste appunto nella media aritmetica di tutte le osser-

vazioni della serie di dati.


j =n

Media = x =

j =1

La mediana, che il punto che divide la serie di dati in maniera tale che

met dei dati siano superiori alla mediana e met siano inferiori.
La varianza, che una misura della dispersione della distribuzione attorno

alla media, e si calcola sommando i quadrati delle deviazioni dalla media e


dividendo poi tale somma o per il numero di osservazioni n (se i dati rappresentano lintera popolazione) o per n 1 (se i dati rappresentano un campione della popolazione).
j =n

( X )
j

2
Varianza = x =

j =1

(se i dati rappresentano un campione,


dividere invece per n 1)

638

Appendice 1

In presenza di due serie di dati, esistono diverse misure statistiche che possono essere utilizzate per quantificare la tendenza delle due serie a muoversi
insieme nel corso del tempo. Le due misure pi utilizzate sono la correlazione
e la covarianza. Date due variabili X (X1, X2, ) e Y (Y1, Y2, ), la covarianza
fornisce una misura non standardizzata della loro tendenza a muoversi insieme, e viene stimata sommando il prodotto delle deviazioni dalla media per
ciascuna variabile in ciascun periodo.
j =n

( X
j

Covarianza = XY =

)( Yj Y )

j =1

(se i dati rappresentano un


campione, dividere invece
per n 1)

Il segno della covarianza indica il tipo di relazione che intercorre fra le due
variabili. Un segno positivo indica che si muovono nella stessa direzione, mentre uno negativo indica che si muovono in direzioni opposte. Inoltre, pi stretta la relazione fra le variabili, maggiore sar la covarianza. Ma difficile capire lintensit della relazione basandosi esclusivamente sulla covarianza, in
quanto non una misura standardizzata.
Una misura standardizzata della relazione che intercorre fra due variabili
rappresentata invece dalla correlazione, che pu essere cos calcolata a partire
dalla covarianza:
j=n

Correlazione = XY = XY / X Y =

( X j X )( Yj Y )

j 1
=

j=n

j 1
=

( X j X )2

j=n

( Yj Y )2

j 1
=

La correlazione non pu mai essere superiore a 1 o inferiore a 1. Valori prossimi allo zero indicano che la relazione fra le due variabili minima. Una correlazione positiva indica che le due variabili si muovono nella stessa direzione; la relazione tanto pi stretta quanto pi il valore della correlazione si
avvicina a 1. Una correlazione negativa indica che le due variabili si muovono
in direzioni opposte; in questo caso la relazione tanto pi stretta quanto pi
il valore della correlazione si avvicina a 1. Due variabili che sono positivamente perfettamente correlate ( = 1) si muovono in perfetta proporzione nella
stessa direzione, mentre due variabili negativamente perfettamente correlate
( = 1) si muovono in perfetta proporzione in direzioni opposte.
La regressione rappresenta unestensione dei concetti di covarianza e correlazione. Essa mira a spiegare landamento di una variabile, chiamata variabile dipendente (Y), con landamento di unaltra, chiamata variabile indipendente (X). Inserendo le due variabili in un diagramma, con Y sullasse verticale

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

639

e X su quello orizzontale, la regressione consiste nel trovare la retta di interpolazione che minimizzi la somma delle deviazioni dei dati dalla retta medesima
elevate al quadrato; per questo motivo si parla di metodo dei minimi quadrati (OLS, ordinary least squares regression).
Una volta ottenuta questa retta, emergono due parametri:
1. Il punto in cui la retta interseca lasse delle Y, chiamato intercetta della regressione (intercept);
2. Linclinazione della retta di regressione (slope).
Regressione OLS: Y = a + bX
Linclinazione (b) della regressione misura sia la direzione che lintensit della
relazione. Quando le due variabili sono positivamente correlate, linclinazione
sar positiva; quando le variabili sono negativamente correlate, linclinazione
sar negativa. Numericamente, linclinazione della regressione pu essere cos
interpretata: per ogni aumento unitario della variabile indipendente (X), la
variabile dipendente (Y) cambia di b (inclinazione). La stretta connessione fra
inclinazione della regressione e correlazione/covarianza non dovrebbe sorprendere, visto che linclinazione viene stimata a partire dalla covarianza:
Inclinazione della regressione = b =

CovarianzaYX YX
= 2
Varianza di X
X

640

Appendice 1

Lintercetta a della regressione pu essere interpretata in diversi modi: 1) il


valore assunto da Y quando X = 0; 2) la differenza fra il valore medio di Y, e il
valore medio di X corretto per tenere conto dellinclinazione. Questa seconda
interpretazione discende direttamente dalla formula con cui si calcola lintercetta:
Intercetta della regressione = a = Y (b X)
I parametri di regressione vengono sempre stimati con un margine di errore,
in parte dovuto al fatto che i dati stessi sono misurati con un margine di errore, e in parte perch il procedimento di stima si basa su un campione di dati.
Questo margine di errore rappresentato da due dati statistici. Il primo lR
quadrato (R-squared) della regressione, che misura la proporzione della variabilit di Y attribuibile alla variabilit di X. LR quadrato una funzione diretta
della correlazione fra le due variabili:
R2 = R quadrato della regressione = Correlazione2YX = 2YX =

b22X
2Y

Un valore dellR quadrato vicino a 1 indica una stretta correlazione fra le due
variabili, sebbene non indichi se essa sia positiva o negativa. Laltra misura
dellimprecisione di una regressione lerrore standard, che misura
la dispersione attorno a ciascuno dei due parametri stimati (intercetta e inclinazione). A ciascun parametro infatti associato un errore standard, cos
calcolato:

j =n

( X j )

j =1

Errore standard dellintercetta = SEa =

j =n

( Yj bX j )2

j =1
j =n

( X

( n 1)

)2

j =1

Errore standard dellinclinazione = SEb =

j =n

( Yj bX j )2

j =1

j =n

( X

( n 1)

)2

j =1

Se inoltre ipotizziamo che la distribuzione delle stime dellintercetta e dellinclinazione sia la distribuzione normale, possiamo combinare la stima dei pa-

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

641

rametri e lerrore standard per ottenere la cosiddetta t di Student, un test statistico utilizzato per capire se la relazione statisticamente significativa:
t di Student dellintercetta = a/SEa
t di Student dellinclinazione = b/SEb
Per campioni con pi di 120 osservazioni, una t di Student maggiore di 1,66
consente di affermare con una confidenza del 95% che la variabile significativamente diversa da zero, mentre una t di Student maggiore di 2,36 consente
la stessa affermazione con una confidenza del 99%. Per campioni pi piccoli, per
avere la stessa confidenza statistica necessaria una t di Student maggiore.1
La semplice regressione che misura la relazione fra due variabili diventa
una regressione multipla quando pi variabili indipendenti (X1, X2, X3, X4 )
vengono incluse nel tentativo di spiegare la variabile dipendente Y. Sebbene la
presentazione grafica si complichi, la regressione multipla risulta essere
unestensione della regressione semplice:
Y = a + b X1 + c X2 + d X3 + e X4
Anche in questo caso lR quadrato misura lintensit della relazione; per, per
neutralizzare la tendenza dellR quadrato ad aumentare al crescere del numero delle variabili indipendenti inserite nella regressione, sar utile calcolare
unaltra statistica, il cosiddetto R quadrato corretto (adjusted R-square). Se nella
regressione ci sono k variabili indipendenti, lR quadrato corretto sar:
2
R quadrato corretto = 1 (1 R )

( n 1)
(n k)

I valori necessari possono essere desunti dalla tabella della distribuzione della t di Student.