Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Media = x =
j =1
La mediana, che il punto che divide la serie di dati in maniera tale che
met dei dati siano superiori alla mediana e met siano inferiori.
La varianza, che una misura della dispersione della distribuzione attorno
( X )
j
2
Varianza = x =
j =1
638
Appendice 1
In presenza di due serie di dati, esistono diverse misure statistiche che possono essere utilizzate per quantificare la tendenza delle due serie a muoversi
insieme nel corso del tempo. Le due misure pi utilizzate sono la correlazione
e la covarianza. Date due variabili X (X1, X2, ) e Y (Y1, Y2, ), la covarianza
fornisce una misura non standardizzata della loro tendenza a muoversi insieme, e viene stimata sommando il prodotto delle deviazioni dalla media per
ciascuna variabile in ciascun periodo.
j =n
( X
j
Covarianza = XY =
)( Yj Y )
j =1
Il segno della covarianza indica il tipo di relazione che intercorre fra le due
variabili. Un segno positivo indica che si muovono nella stessa direzione, mentre uno negativo indica che si muovono in direzioni opposte. Inoltre, pi stretta la relazione fra le variabili, maggiore sar la covarianza. Ma difficile capire lintensit della relazione basandosi esclusivamente sulla covarianza, in
quanto non una misura standardizzata.
Una misura standardizzata della relazione che intercorre fra due variabili
rappresentata invece dalla correlazione, che pu essere cos calcolata a partire
dalla covarianza:
j=n
Correlazione = XY = XY / X Y =
( X j X )( Yj Y )
j 1
=
j=n
j 1
=
( X j X )2
j=n
( Yj Y )2
j 1
=
La correlazione non pu mai essere superiore a 1 o inferiore a 1. Valori prossimi allo zero indicano che la relazione fra le due variabili minima. Una correlazione positiva indica che le due variabili si muovono nella stessa direzione; la relazione tanto pi stretta quanto pi il valore della correlazione si
avvicina a 1. Una correlazione negativa indica che le due variabili si muovono
in direzioni opposte; in questo caso la relazione tanto pi stretta quanto pi
il valore della correlazione si avvicina a 1. Due variabili che sono positivamente perfettamente correlate ( = 1) si muovono in perfetta proporzione nella
stessa direzione, mentre due variabili negativamente perfettamente correlate
( = 1) si muovono in perfetta proporzione in direzioni opposte.
La regressione rappresenta unestensione dei concetti di covarianza e correlazione. Essa mira a spiegare landamento di una variabile, chiamata variabile dipendente (Y), con landamento di unaltra, chiamata variabile indipendente (X). Inserendo le due variabili in un diagramma, con Y sullasse verticale
639
e X su quello orizzontale, la regressione consiste nel trovare la retta di interpolazione che minimizzi la somma delle deviazioni dei dati dalla retta medesima
elevate al quadrato; per questo motivo si parla di metodo dei minimi quadrati (OLS, ordinary least squares regression).
Una volta ottenuta questa retta, emergono due parametri:
1. Il punto in cui la retta interseca lasse delle Y, chiamato intercetta della regressione (intercept);
2. Linclinazione della retta di regressione (slope).
Regressione OLS: Y = a + bX
Linclinazione (b) della regressione misura sia la direzione che lintensit della
relazione. Quando le due variabili sono positivamente correlate, linclinazione
sar positiva; quando le variabili sono negativamente correlate, linclinazione
sar negativa. Numericamente, linclinazione della regressione pu essere cos
interpretata: per ogni aumento unitario della variabile indipendente (X), la
variabile dipendente (Y) cambia di b (inclinazione). La stretta connessione fra
inclinazione della regressione e correlazione/covarianza non dovrebbe sorprendere, visto che linclinazione viene stimata a partire dalla covarianza:
Inclinazione della regressione = b =
CovarianzaYX YX
= 2
Varianza di X
X
640
Appendice 1
b22X
2Y
Un valore dellR quadrato vicino a 1 indica una stretta correlazione fra le due
variabili, sebbene non indichi se essa sia positiva o negativa. Laltra misura
dellimprecisione di una regressione lerrore standard, che misura
la dispersione attorno a ciascuno dei due parametri stimati (intercetta e inclinazione). A ciascun parametro infatti associato un errore standard, cos
calcolato:
j =n
( X j )
j =1
j =n
( Yj bX j )2
j =1
j =n
( X
( n 1)
)2
j =1
j =n
( Yj bX j )2
j =1
j =n
( X
( n 1)
)2
j =1
Se inoltre ipotizziamo che la distribuzione delle stime dellintercetta e dellinclinazione sia la distribuzione normale, possiamo combinare la stima dei pa-
641
rametri e lerrore standard per ottenere la cosiddetta t di Student, un test statistico utilizzato per capire se la relazione statisticamente significativa:
t di Student dellintercetta = a/SEa
t di Student dellinclinazione = b/SEb
Per campioni con pi di 120 osservazioni, una t di Student maggiore di 1,66
consente di affermare con una confidenza del 95% che la variabile significativamente diversa da zero, mentre una t di Student maggiore di 2,36 consente
la stessa affermazione con una confidenza del 99%. Per campioni pi piccoli, per
avere la stessa confidenza statistica necessaria una t di Student maggiore.1
La semplice regressione che misura la relazione fra due variabili diventa
una regressione multipla quando pi variabili indipendenti (X1, X2, X3, X4 )
vengono incluse nel tentativo di spiegare la variabile dipendente Y. Sebbene la
presentazione grafica si complichi, la regressione multipla risulta essere
unestensione della regressione semplice:
Y = a + b X1 + c X2 + d X3 + e X4
Anche in questo caso lR quadrato misura lintensit della relazione; per, per
neutralizzare la tendenza dellR quadrato ad aumentare al crescere del numero delle variabili indipendenti inserite nella regressione, sar utile calcolare
unaltra statistica, il cosiddetto R quadrato corretto (adjusted R-square). Se nella
regressione ci sono k variabili indipendenti, lR quadrato corretto sar:
2
R quadrato corretto = 1 (1 R )
( n 1)
(n k)
I valori necessari possono essere desunti dalla tabella della distribuzione della t di Student.