Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Sergio Polini
24 giugno 2010
Indice
1 Introduzione
1.1 Articolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Notazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dati cross-section
1
2
2
2 La regressione lineare
2.1 Aspettativa condizionata . . . . . . . . . . . . . . . . . .
2.2 Lerrore della regressione . . . . . . . . . . . . . . . . . .
2.3 Varianza condizionata . . . . . . . . . . . . . . . . . . .
2.4 La regressione lineare . . . . . . . . . . . . . . . . . . .
2.4.1 La regressione lineare come proiezione ortogonale
2.4.2 Il problema dellidentificazione . . . . . . . . . .
2.4.3 Il coefficiente di determinazione . . . . . . . . . .
2.4.4 Il modello lineare normale . . . . . . . . . . . . .
2.5 Applicazione a campioni di ampiezza finita . . . . . . .
2.5.1 Valore atteso e varianza dello stimatore OLS . .
2.5.2 Il teorema di Gauss-Markov . . . . . . . . . . . .
2.5.3 I residui . . . . . . . . . . . . . . . . . . . . . . .
2.5.4 Stima della varianza dellerrore . . . . . . . . . .
2.5.5 Multicollinearit . . . . . . . . . . . . . . . . . .
2.6 Necessit di un approccio asintotico . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
8
8
9
10
13
14
15
17
17
19
19
20
20
20
3 Lipotesi di esogeneit
3.1 Limportanza dellipotesi . . . . . . . . .
3.2 La stima dei parametri . . . . . . . . . .
3.2.1 Consistenza . . . . . . . . . . . .
3.2.2 Normalit asintotica . . . . . . .
3.2.3 Stima della varianza . . . . . . .
3.3 Test di ipotesi e intervalli di confidenza
3.3.1 Test z . . . . . . . . . . . . . . .
3.3.2 Intervalli di confidenza . . . . . .
3.3.3 Test di Wald . . . . . . . . . . .
3.3.4 Test F . . . . . . . . . . . . . . .
3.4 Il problema delle variabili omesse . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
25
26
26
28
31
31
33
34
36
38
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iv
INDICE
3.5
40
4 Le variabili strumentali
4.1 Una sola variabile strumentale . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Pi variabili strumentali . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
43
45
49
49
II
51
Serie storiche
6 La regressione spuria
6.1 Matrimoni religiosi e mortalit . .
6.2 Processi stocastici . . . . . . . . .
6.2.1 Con memoria . . . . . . . .
6.2.2 Senza memoria . . . . . . .
6.3 Definizioni . . . . . . . . . . . . . .
6.3.1 Persistenza . . . . . . . . .
6.3.2 Stazionariet ed ergodicit
6.3.3 White noise e Random walk
6.3.4 Cointegrazione . . . . . . .
.
.
.
.
.
.
.
.
.
53
53
54
54
55
56
57
57
59
61
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
64
65
66
67
68
71
71
72
74
74
75
8 I processi VAR
8.1 Macroeconomia e realt . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Condizioni di stazionariet . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Inferenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
77
78
80
9 Cointegrazione
9.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Modelli a correzione derrore . . . . . . . . . . . . . . . . . . . . . . . . .
9.3 Il teorema di rappresentazione di Granger . . . . . . . . . . . . . . . . . .
81
81
82
83
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 I processi ARMA
7.1 L: loperatore ritardo . . . . . . . . . . . . . .
7.2 MA: processi a media mobile . . . . . . . . .
7.2.1 Medie mobili finite . . . . . . . . . . .
7.2.2 Medie mobili infinite . . . . . . . . . .
7.3 AR: processi autoregressivi . . . . . . . . . .
7.3.1 Processi AR(1) . . . . . . . . . . . . .
7.3.2 Processi AR(p) . . . . . . . . . . . . .
7.4 ARMA: una generalizzazione . . . . . . . . .
7.5 Inferenza . . . . . . . . . . . . . . . . . . . .
7.5.1 Consistenza e normalit asintotica . .
7.5.2 Test di radice unitaria . . . . . . . . .
7.5.3 Test di stazionariet . . . . . . . . . .
7.5.4 La scomposizione di Beveridge-Nelson
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE
III
Appendici
85
.
.
.
.
87
87
89
91
94
95
95
96
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
103
103
104
104
105
105
106
106
107
108
Capitolo 1
Introduzione
Questi appunti si basano prevalentemente sulle lezioni e le dispense del corso di econometria del prof. Massimo Franchi (Universit di Roma La Sapienza, Facolt di Scienze Statistiche, a.a. 2009-2010, http://w3.uniroma1.it/mfranchi/) e sui testi da lui
indicati:
Jeffrey M. Wooldridge (2002), Econometric Analysis of Cross Section and Panel Data;
James D. Hamilton (1994), Time Series Analysis.
Mi sono poi avvalso di altri testi trovati navigando nella Rete. In realt, ho iniziato
dando unocchiata a gretl (http://gretl.sourceforge.net/), un software open source
per lanalisi econometrica, e al suo notevole manuale utente (Cottrell e Lucchetti 2010).
Da qui agli Appunti di analisi delle serie storiche del prof. Riccardo Lucchetti (Univestit
Politecnica delle Marche) il passo stato breve.
Gli Appunti mi sono stati utili perch si propongono espressamente come una introduzione divulgativa (Lucchetti 2008, p. 69) e lobiettivo appare perfettamente raggiunto;
in particolare, concetti tuttaltro che banali come persistenza e, soprattutto, ergodicit
vengono introdotti con parole semplici che ne spiegano il senso, anche se non vengono
definiti formalmente.
Unaffermazione a pag. 5, tuttavia, ha scatenato ulteriori curiosit: In linea generale,
si pu dire che linferenza possibile solo se il processo stocastico che si sta studiando
stazionario ed ergodico. La ricerca di unesposizione un po pi formale, ma non. . . al
livello di Hamilton, mi ha condotto al draft graduate textbook del prof. Bruce E. Hansen
(2010), dellUniversit del Wisconsin.
Il suo Econometrics contiene proprio quello che cercavo: una definizione accessibile
di ergodicit e del teorema ergodico, accompagnata dalla dimostrazione della loro necessit per linferenza. In realt la parte sulle serie storiche appare appena abbozzata ed
dichiaratamente incompleta, ma i capitoli sulla regressione si sono rivelati una piacevole
sorpresa.
Vi un riepilogo della regressione classica che mi risultato molto utile dopo aver
seguito il corso di Modelli statistici della prof.ssa Cecilia Vitiello. Quel corso, infatti, era
espressamente dedicato agli studi sperimentali e al modello lineare normale con ipotesi
di omoschedasticit.1 Hansen rivisita la regressione preparando il terreno allabbandono
1
1. Introduzione
di quellipotesi fin da pag. 15 e poi, quando giunge allapproccio asintotico, dimostra sia
la normalit asintotica dello stimatore OLS nel caso generale delleteroschedasticit, sia
la consistenza della matrice di White (che per Wooldridge solo il problema 4.4).
1.1
Articolazione
Dopo letture cos illuminanti, mi sembrato utile mettere insieme note prima sparse e
pensare perfino ad una tendenziale organicit. Ho quindi pomposamente articolato gli
appunti in due parti, dati cross section e serie storiche, con lintento di aggiungere in
futuro una parte sui dati panel, nonch capitoli su altri aspetti non trattati durante il
corso.
Il capitolo 2 riepiloga gli aspetti fondamentali della regressione lineare seguendo limpostazione di Hansen, il capitolo 3 tratta dellipotesi di esogeneit integrando Wooldridge
con Hansen. I capitoli 4 e 5, dedicati alle variabili strumentali e al caso di variabile risposta
qualitativa, sono basati su Wooldridge ma sono ancora solo abbozzi.
Il capitolo 6 introduce le serie storiche muovendo dal problema posto da Yule (1926) e
cerca soprattutto di definire alcuni concetti chiave: persistenza stazionariet, ergodicit,
integrazione e cointegrazione.
Il capitolo 7 dedicato ai processi MA, AR e ARMA. Le condizioni di stazionariet e
le relative dimostrazioni, apprese dal corso, sono diventate condizioni e dimostrazioni di
stazionariet ed ergodicit grazie a Hansen e Hamilton.
Il capitolo 8 si apre con lintroduzione dei processi VAR da parte di Sims (1980): un
interessante spezzone di storia dellanalisi econometrica illustrato negli Appunti del prof.
Lucchetti ed anche, con maggiore dettaglio, in altre dispense trovate in Rete (Carlucci
e Girardi sd). Seguono le condizioni di stazionariet e la relativa dimostrazione come
apprese nel corso ma estese anche qui allergodicit. Il capitolo si conclude con accenni ai
test di radice unitaria e di stazionariet ed alla scomposizione di Beveridge-Nelson, tratti
anchessi dagli Appunti del prof. Lucchetti.
Il capitolo 9 dedicato alla cointegrazione, ai modelli a correzione derrore e al teorema
di rappresentazione di Granger. piuttosto sintetico perch la lettura di Engle e Granger
(1987) e di Johansen (1991) mi ha fatto pensare che, per capire meglio, occorre estendere
la casistica dei processi stocastici (introducendo trend lineari, intercette ecc.) rispetto a
quanto trattato nel corso.
In sostanza, solo un work in progress e, soprattutto, riflette quanto ho creduto di
poter capire (il titolo, Econometria for dummies, autoreferenziale).
1.2
Notazione
Notazione
a) le lettere minuscole in corsivo indicano sempre scalari, siano essi variabili aleatorie oppure le loro realizzazioni, essendo normalmente chiaro dal contesto a cosa ci si riferisce;
in particolare:
la variabile risposta compare senza indici quando ci si riferisce al modello della
popolazione, con un indice i = 1, 2, . . . , n quando ci si riferisce alla i-esima unit del
campione estratto (dati cross-section), oppure con un indice t = 1, 2, . . . , T quando
ci si riferisce allosservazione effettuata al tempo t (serie storiche);
le variabili esplicative, quando indicate con una stessa lettera, vengono distinte mediante un indice j = 1, 2, . . . , k; se xj una variabile esplicativa, la sua realizzazione
rilevata sulli-esima unit si indica con xij ;
b) le lettere minuscole in neretto indicano vettori; in particolare, se sono presenti k
variabili esplicative xj , j = 1, . . . , k, queste vengono collettivamente indicate con x;
c) le lettere maiuscole in neretto indicano matrici; in particolare, le osservazioni delle
realizzazioni di k variabili esplicative xj su n unit vengono collettivamente indicate
con X, una matrice di n righe e k colonne; le righe della matrice vengono indicate con
xi e intese come vettori colonna k 1 (si tratta delle i-esime realizzazioni di k variabili
aleatorie; in questo caso, quindi, x un vettore di variabili aleatorie, xi un vettore di
loro realizzazioni);
d) le lettere greche indicano i parametri incogniti di un modello econometrico; se in neretto
indicano vettori di parametri. Gli stimatori dei parametri vengono indicati ponendo
un accento circonflesso , detto comunemente hat (cappello), sul relativo simbolo
oppure con la corrispondente lettera dellalfabeto latino; ad esempio si possono usare
sia che b per lo stimatore del parametro .
In queste note, infine, uso parentesi quadre per vettori e matrici, ma parentesi tonde
per indicare su una sola riga vettori colonna:
h
(x1 , . . . , xn ) x1 . . . xn
i0
1. Introduzione
Parte I
Dati cross-section
Capitolo 2
La regressione lineare
In econometria si usa spesso il metodo dei minimi quadrati (OLS, Ordinary Least Squares), noto anche come regressione, con il quale si cerca di stimare laspettativa condizionata di una variabile (detta variabile risposta o variabile dipendente) dato un insieme
di altri variabili (dette variabili esplicative, o regressori o covariate). In questo capitolo si analizzano le propriet della regressione, in particolare della regressione lineare, si
richiamano gli aspetti fondamentali dellapplicazione della regressione a campioni di ampiezza finita, si conclude mostrando la necessit di un approccio asintotico nelle analisi
econometriche.1
2.1
Aspettativa condizionata
E[y2] < ;
E[x2j ] < per ogni j = 1, . . . , k;
Tale ipotesi assicura che tutte le variabili abbiano media e varianza finite. In particolare,
necessario che [|y|] < perch possa esistere la sua aspettativa condizionata, definita come segue (v. anche lappendice C per la definizione e le propriet dellaspettativa
condizionata):
E[y | x] =
Z +
y f (y | x) dy
2. La regressione lineare
2.2
E[y | x]
quindi:
E f (x)E[u] | x
h
E[0 | x] = 0
Cov(x, u) =
2.3
E[xu] E[x]E[u] = 0
Varianza condizionata
Laspettativa condizionata fornisce una buona approssimazione della distribuzione condizionata di y, ma va considerata anche la dispersione di tale distribuzione, comunemente
misurata dalla varianza condizionata:2
Si ha:
E (y E[y | x])
|x =
La regressione lineare
(qui 2 un numero).
Lipotesi di omoschedasticit semplifica molto alcuni aspetti della teoria, ma non si
deve dimenticare che si tratta solo di una comoda eccezione utile sul piano astratto.
Peraltro, anche assumendo eteroschedasticit possibile definire 2 come varianza
dellerrore:
i
h
(y [y | x])2 = [u2 ] = 2
2.4
E[u2] = E E[u2 | x]
h
E[2(x)]
La regressione lineare
dove il primo parametro, 0 , viene detto intercetta. Si dice lineare nei parametri perch
i parametri j compaiono tutti con esponente 1, ma nulla vieta che qualche xj sia una
qualsiasi funzione di qualche altro; ad esempio, lequazione precedente potrebbe essere in
realt:
[y | x] = 0 + 1 x1 + 2 x21 + + k xk1
xj1 .
con xj =
Quando si scrive laspettativa condizionata come funzione di un vettore,
0
x , si intende x come un vettore di k + 1 elementi il primo dei quali sia 1:
E[y | x] =
1 x1 x2
E[y | x] =
i
1
. . . xk .
..
k
Altre volte, in modo del tutto equivalente (forse preferibile), si intende x1 = 1 e si scrive:
1 x2
i
2
. . . xk .
..
10
2. La regressione lineare
2.4.1
S()
= 2 [xy] + 2 [xx0 ] = 0
da cui:
E[xy] = E[xx0]
yi = xi0 + ui
In forma matriciale:
y = X + u
dove:
y un vettore n 1 contenente le n osservazioni della variabile risposta;
X una matrice n k contenente in ciascuna riga le k osservazioni delle variabili
esplicative sullunit i-esima; la prima colonna costituita da tutti 1;
xi il vettore colonna della i-esima riga della matrice X;
un vettore k 1 contenente i parametri (i coefficienti di regressione o di proiezione);
u un vettore n 1.
Lerrore quadratico medio da minimizzare diventa:
n
1X
(yi xi0 )2
Sn () =
n i=1
11
La regressione lineare
Essendo n dato, si tratta di minimizzare la somma dei quadrati dei residui RSSn () =
Pn
2
0
2
i=1 ei =
i=1 (yi xi ) (Residual Sum of Squares) e si ha:
Pn
RSSn () =
n
X
i=1
RSSn ()
= 2X0 y + 2X0 X = 0
X0 y = X0 X
Se X0 X risulta, oltre che simmetrica, anche invertibile, si ottiene b come stima di da:
0
b = (X X)
Xy=
n
X
!1
xi xi0
i=1
n
X
xi yi
i=1
n
1X
xi xi0
n i=1
!1
n
1X
xi yi
n i=1
= Xb = X(X0 X)1 X0 y = Hy
y
La matrice H = X(X0 X)1 X0 risulta simmetrica (in quanto prodotto di matrici con le
loro trasposte) e idempotente, in quanto:
H2 = X(X0 X)1 X0 X(X0 X)1 X0 = X[(X0 X)1 (X0 X)](X0 X)1 X0
= XI(X0 X)1 X0 = XI(X0 X)1 X0 = H
quindi una matrice di proiezione ortogonale di rango k che proietta y sullo spazio
generato dalle colonne di X (cfr. lappendice A).
I residui e, a loro volta, sono dati da:
= y Hy = (I H)y
e=yy
dove IH una matrice di rango nk, anchessa simmetrica e idempotente, che proietta
y in uno spazio che il complemento ortogonale di quello generato dalle colonne di X.
La lunghezza del vettore e misura quindi la distanza tra y e la sua proiezione ortogonale
(v. figura 2.1).
y
Analogamente a quanto si ha per lerrore, anche i residui hanno media nulla e sono
incorrelati con le variabili esplicative. Infatti:
che un altro modo di esprimere il fatto che, da un punto di vista geometrico, il vettore
e ortogonale al piano generato dalle colonne di X.
12
2. La regressione lineare
Esempio 2.1. Sia y una variabile che si ritiene spiegata da una sola variabile esplicativa.
Siano x = (1, 2, 3) e y = (2.9, 5.2, 6.9) i valori osservati su tre unit. Si ha:
1 1 " #
2.9
1
+u
5.2 = 1 2
2
1 3
6.9
y = X + u
La stima di porta a:
"
1 1
b = (X0 X)1 X0 y =
"
#
"
# 2.9
# 1 1
b1 = 1
1 1 1
1
5.2 =
1 2
1 2 3
1 2 3
1 3
6.9
b2 = 2
Oppure, con R:
> x <- c(1, 2, 3)
> y <- c(2.9, 5.2, 6.9)
> reg <- lm(y ~ x)
> coef(reg)
(Intercept)
x
1
2
dellaspettativa condizionata, dette valori teorici o valori predetti,
Ne seguono le stime y
e i residui (che hanno media 0):
y1 = b1 + b2 x12 = 1 + 2 1 = 3
y2 = b1 + b2 x22 = 1 + 2 2 = 5
y3 = b1 + b2 x32 = 1 + 2 3 = 7
e1 = y1 y1 = 2.9 3 = 0.1
e2 = y2 y2 = 5.2 5 = 0.2
e3 = y3 y3 = 6.9 7 = 0.1
Con R:
>
1
3
>
predict(reg)
2 3
5 7
residuals(reg)
1
2
3
-0.1 0.2 -0.1
La matrice H :
0
1 0
H = X(X X) X = 1/3 1/3 1/3
1/6 1/3 5/6
Lo spazio su cui y viene proiettato limmagine della matrice H, ovvero lo spazio generato
dalle sue colonne linearmente indipendenti. Dato che H risulta dal prodotto di matrici
di rango 2 e delle loro trasposte, ha anchessa rango 2. Essendo peraltro simmetrica,
possibile e conveniente diagonalizzarla, pervenendo a H = MM1 :
13
La regressione lineare
(2, 1, 0)
(1, 0, 1)
(1, 2, 1)
y = (2.9, 5.2, 6.9)
Si ottengono cos tre autovettori (le colonne di M), i primi due dei quali, essendo non
nulli i relativi autovalori, costituiscono una base dellimmagine. Si nota anche che il terzo
autovettore (una base del kernel) ortogonale ai primi due, che generano il piano cui
:
appartiene il vettore y
1
2
3
5 = 5 1 + 7 0
1
0
7
I residui appartengono invece allo spazio immagine della matrice I H; diagonalizzando:
si ritrovano gli stessi autovettori, ma ora c un solo autovalore non nullo e il relativo
autovettore, che costituisce una base dellimmagine, ortogonale agli altri due. Si vede
1
cos che il vettore dei residui, (0.1, 0.2, 0.1) = 10
(1, 2, 1), appartiene ad uno spazio
ad una dimensione ortogonale a quello cui appartiene il vettore delle stime (v.figura 2.1).
2.4.2
Il problema dellidentificazione
E[xy] = E[xx0]
ha ununica soluzione, si possono cio trovare valori univoci per i k parametri j .
In caso contrario, lequazione ha infinite soluzioni. Si pu trovare una soluzione usando
la pseudoinversa di Moore-Penrose (v. appendice A):
=
E[xx0]+E[xy]
14
2.4.3
2. La regressione lineare
Il coefficiente di determinazione
I dati osservati nel vettore y presentano una variabilit che si tenta di spiegare con la
sul piano generato dalle colonne della matrice X. In tale contesto, una
sua proiezione x
misura tipica della variabilit costituita dalla somma dei quadrati degli scarti tra i singoli
valori di y e la loro media aritmetica y, che viene detta T SS (Total Sum of Squares).
Analogamente, viene detta ESS (Explained Sum of Squares) la somma degli scarti degli
yi dalla media y. Si verifica facilmente che:
T SS = ESS + RSS
ovvero:
n
X
n
X
i=1
i=1
(yi y)2 =
(
yi y)2 +
n
X
(yi yi )2
i=1
Si dice anche che la devianza totale uguale alla somma della devianza spiegata e della
devianza residua.
Si usa calcolare la bont delladattamento della funzione di regressione ai dati mediante il rapporto tra devianza spiegata e devianza totale, detto coefficiente di determinazione
multipla e indicato con R2 :
R2 =
ESS
RSS
=1
T SS
T SS
0 R2 1
R =1
RSS/(n k)
T SS/(n 1)
dove n k sono i gradi di libert della devianza residua (n e k sono le dimensioni della
matrice mX) e n 1 quelli della devianza totale.
Si deve inoltre tenere presente che non esiste alcuna legge che stabilisca unassociazione tra il valore dei coefficienti di determinazione e la bont di una regressione,
e che anche in caso di valori piccoli possibile una stima accurata dei coefficienti di
regressione se lampiezza del campione grande.
Esempio 2.2. Usando la semplice regressione dellesempio precedente:
T SS = (2.9 5)2 + (5.2 5)2 + (6.9 5)2 = 4.41 + 0.04 + 3.61 = 8.06
ESS = (3 5)2 + (5 5)2 + (7 5)2 = 4 + 0 + 4 = 8
RSS = (2.9 3)2 + (5.2 5)2 + (6.9 7)2 = 0.01 + 0.04 + 0.01 = 0.06
R2 = 8/8.06 = 0.9926
0.06/(3 2)
2
= 0.9851
R =1
T SS/(3 1)
La figura 2.2 mostra loutput del comando summary() di R, con i coefficienti R2 e R
insieme ad altri risultati che verranno commentati nella sezione successiva.
15
La regressione lineare
> summary(reg)
Call:
lm(formula = y ~ x)
Residuals:
1
2
3
-0.1 0.2 -0.1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.0000
0.3742
2.673
0.228
x
2.0000
0.1732 11.547
0.055 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.2449 on 1 degrees of freedom
Multiple R-squared: 0.9926,Adjusted R-squared: 0.9851
F-statistic: 133.3 on 1 and 1 DF, p-value: 0.055
Figura 2.2. Output del comando summary() di R per una semplice regressione di y = (2.9, 5.2, 6.9) su
x = (1, 2, 3).
2.4.4
Negli studi sperimentali molto spesso lerrore viene indicato con e si assume che sia
distribuito normalmente; poich x0 il prodotto di un vettore di dati osservati e di parametri, ne segue che anche y una variabile aleatoria normale, in quanto trasformazione
lineare di una variabile aleatoria normale.
Lipotesi di normalit comporta anche che, se y e sono incorrelati, sono anche
indipendenti; da ci segue naturalmente lipotesi di omoschedasticit:
(
y = x0 +
N (0, 2 )
E[y | x] = x0
V[y | x] = E[2 | x] = E[2] = 2
y N (x0 , 2 )
f (y) =
n
2 2
1
exp 2 (y X)0 (y X)
2
la funzione di log-verosimiglianza :
n
n
(y X)0 (y X)
`(, 2 ) = ln(2) ln 2
2
2
2 2
Si vede che `(, 2 ), per qualsiasi valore di 2 , massimizzata dai valori di che minimizzano il numeratore dellultimo termine, che a sua volta altro non che la quantit
RSSn (), minimizzata da bM L = (X0 X)1 X0 y. Il metodo di massima verosimiglianza
porta dunque ad uno stimatore uguale a quello OLS.
16
2. La regressione lineare
Lipotesi di normalit consente di definire test per la verifica di ipotesi sia sulla stima
dei singoli coefficienti di regressione, sia sullintera funzione di regressione.
Quanto alla stima di un singolo coefficiente, da b = (X0 X)1 X0 y e da [y | x] = 2
segue:
ovvero:
bi N (1 , 2 aii )
bi 0
Sotto ipotesi nulla i = 0, si pu definire la variabile normale standard 2 . Poich
aii
2 non nota, si pu sostituire con una stima data dalla devianza residua divisa per i
suoi gradi di libert, ottenendo cos la statistica test:
t = s
bi
RSS
aii
nk
tnk
RSS
aii viene detto errore
nk
RSS
2nk
2
Lipotesi nulla consiste nel supporre pari a zero tutti i coefficienti tranne lintercetta
(in due dimensioni, retta di regressione orizzontale). Ci vuol dire ipotizzare che tutti gli
yi siano uguali allintercetta e che abbiano pertanto la stessa media, oltre che la stessa
varianza. Si pu quindi costruire la statistica test:
ESS
ESS
/(k 1)
2
= k 1 Fk1,nk
F =
RSS
RSS
/(n k)
2
nk
che si distribuisce come una F di Snedecor.
I software statistici propongono sempre i risultati dei test t e F (v. esempio 2.2).
Tuttavia, se non si assume normalit i test devono essere diversamente fondati.
17
2.5
E[ui | xi] = 0
4) momenti secondi finiti per tutte le variabili:
E[yi2] <
5) invertibilit della matrice E[xx0 ]:
j = 2, . . . , k :
E[x2ij ] <
rk( [xx0 ]) = k
2.5.1
.
.
[y | X] =
[yi | X] = [yi | xi ] = xi = X
..
.
..
.
..
.
..
.
E[b] = E E[b | X]
h
Si tratta di un risultato che rafforza il precedente, in quanto afferma che b uno stimatore
corretto quale che sia la matrice X.
18
2. La regressione lineare
Quanto alla varianza, in generale per un vettore n 1 di variabili aleatorie z si ha:
E[zz0] E[z]E[z]0
Si tratta di una matrice diagonale in quanto gli elementi della diagonale prinicipale sono:
V[b | X] = (X0X)1X0DX(X0X)1
n
X
xi xi0
X0 DX =
n
X
xi xi0 i2
i=1
i=1
b
a
d , allora X0 X =
b
f
"
c
d
e
f
"a
2
b
a + c2 + e2
d =
ab + cd + ef
f
#
c
e
ab + cd + ef
, che la somma
b 2 + d2 + f 2
di:
x1 x10
a2
b =
ab
a
a
=
b
ab
,
b2
x2 x20
c2
d =
cd
c
c
=
d
cd
,
d2
x3 x30
e2
f =
ef
e
e
=
f
Inoltre,
a
X DX =
b
0
"
=
c
d
e
f
"12
0
0
0
22
0
0
0
32
#"
a
c
e
b
a12
d =
b12
f
"
a2 12 + c2 22 + e2 32
ab12 + cd22 + ef 32
ab12 + cd22 + ef 32
b2 12 + d2 22 + f 2 32
c22
e32
b22
b32
#"
a
c
e
b
d
f
"
x1 x10 12
a2 12
ab12
ab12
b2 12
"
,
x2 x20 22
c2 22
cd22
cd22
d2 22
"
,
x3 x30 32
e2 32
ef 32
ef 32
f 2 32
ef
f2
2.5.2
19
Il teorema di Gauss-Markov
Teorema 2.4 (Gauss-Markov). In un modello di regressione lineare con ipotesi di omoschedasticit, lo stimatore lineare corretto di minima varianza lo stimatore OLS
b = (X0 X)0 X0 y
In un modello di regressione lineare con eteroschedasticit, lo stimatore lineare corretto
di minima varianza :
= (X0 D1 X)1 X0 D1 y
La prima parte del teorema afferma s che lo stimatore OLS efficiente (minima
varianza) in caso di omoschedasticit, ma lascia aperta la possibilit che risultino ancora
migliori stimatori non lineari oppure distorti.
La seconda parte definisce uno stimatore lineare efficiente per il caso generale, che
viene detto stimatore GLS (Generalized Least Squares); si tratta tuttavia di uno stimatore
non direttamente praticabile, in quanto la matrice D non nota. Si usa quindi un un
approccio detto F GLS, Feasible GLS, in cui le varianze i2 vengono sostituite con loro
stime.
2.5.3
I residui
A rigore, il vettore dei residui e non uno stimatore del vettore degli errori u, ma una
sua trasformata:
e = (I H)y = (I H)X + (I H)u = [X X(X0 X)1 (X0 X)] + (I H)u
= (X X) + (I H)u
= (I H)u
dove H la matrice di proiezione ortogonale definita nella sezione 2.4.1.
Da ci segue che, come per lerrore, laspettativa condizionata dei residui zero:
V[e | X] = (I H)2
V[ei | X] = (1 hii)2
dove 1 hii li-esimo elemento della diagonale principale della matrice I H. Si vede
cos che, anche nellipotesi che lerrore sia omoschedastico, i residui sono eteroschedastici
e non indipendenti: [ei ej | X] = (1 hij ) 2 .
Ci nonostante i residui, come lerrore, sono incorrelati con le variabili esplicative in
quanto sono una proiezione di y su uno spazio ortogonale a quello generato dalle colonne
di X; ci consente di usare i residui per una stima della varianza dellerrore.
20
2.5.4
2. La regressione lineare
La varianza dellerrore, 2 [u2 ] (sez. 2.3), misura la variabilit di y non spiegata dalla
regressione. Il suo stimatore col metodo dei momenti :
2 =
n
1X
e2
n i=1 i
2 =
1
1
1
1 0
e e = u0 (I H)u = tr u0 (I H)u = tr (I H)uu0
n
n
n
n
da cui:
1
1
tr (I H) [uu0 | X] = tr (I H)D
n
n
Le matrici idempotenti hanno traccia uguale al rango (cfr. appendice A). In caso di
omoschedasticit, quindi, lespressione si semplifica:
2
D= I
1
[
| X] = tr (I H) 2 =
n
2
nk
2
n
e si vede cos che lo stimatore distorto. Si pu ottenere uno stimatore corretto dividendo
per n k:
n
1 X
s2 =
e2
n k i=1 i
2.5.5
Multicollinearit
2.6
Lapproccio dei campioni finiti risulta poco utile nellanalisi econometrica, in quanto succede raramente di poter estrarre pi campioni da una stessa popolazione (la popolazione,
infatti, cambia nel tempo).
21
E[u | x] = 0
E[u] = 0
E[f (x)u] = 0
E[xu] = 0
22
2. La regressione lineare
Capitolo 3
Lipotesi di esogeneit
In economia una variabile viene detta endogena se determinata nellambito di un modello, ad esempio se variabile dipendente in equazioni in cui compaiono altre variabili,
dette esogene, i cui valori sono assunti come dati. In econometria, invece, una variabile
esplicativa viene detta endogena se correlata con la variabile non osservabile u, esogena
in caso contrario.
Nella regressione lineare con ipotesi di esogeneit si muove da un modello della popolazione del tipo y = x0 + u assunto come vero e si assume, inoltre, lipoesi di
esogeneit [u | x] = 0]. Come si visto (sez. 2.2), da ci seguono [u] = 0, [xu] = 0 e
Cov(x, u) = 0.
Obiettivo dellanalisi la stima degli effetti parziali delle variabili esplicative sullaspettativa condizionata di y:
[y | x] =
(1 + 2 x2 + k xk ) = j
xj
xj
3.1
Limportanza dellipotesi
Va notato che il modello non afferma che y dipende solo da x2 , x3 , ma piuttosto che,
anche se u contiene altre variabili che hanno effetto su y, queste non sono correlate alle
due considerate.
Il modello consente di definire gli effetti parziali delle variabili x2 , x3 sullaspettativa
condizionata di y; ad esempio:
[y | x2 , x3 ] =
(1 + 2 x2 + 3 x3 ) = 2
x2
x2
Questo capitolo e il successivo seguono liberamente la traccia di Wooldridge (2002, capp. 4-5), con
elementi tratti da Hansen (2010, capp. 5-6).
23
24
3. Lipotesi di esogeneit
Se per si usasse il modello
y = 1 + 2 x2 + v
v = 3 x3 + u
quindi
[y | x2 ] = 2 + 3 c
x2
dove 2 sarebbe leffetto diretto, 3 c quello indiretto, di x2 ; 2 non potrebbe quindi essere
considerato leffetto parziale di x2 . In altri termini, non sarebbe possibile concludere: se
x2 aumenta di una unit, allora [y | x2 ] aumenta di 2 .
Da altro punto di vista, non si potrebbe pi definire lerrore v come differenza tra y
e la sua aspettativa condizionata, infatti:
Ne seguirebbe:
25
3.2
E[u | x] = 0.
E[xx0].
E[xx0]1E[xy]
Per stimare [xx0 ] e [xy] si pu ricorrere al metodo dei momenti, sostituendoli con
le rispettive medie campionarie:
b=
n
X
!1
xi xi0
i=1
n
X
n
X
xi yi
=n
i=1
!1
n
X
xi xi0
i=1
n
X
i=1
!1
xi xi0
n
X
xi yi
i=1
xi yi
i=1
n
X
i=1
!1
xi xi0
n
X
i=1
xi ui
26
3. Lipotesi di esogeneit
Lo stimatore b non altro che lo stimatore OLS. Tuttavia, mentre nel caso di campioni di ampiezza finita risulta uno stimatore corretto, nellapproccio asintotico rilevano
consistenza e normalit asintotica.
3.2.1
Consistenza
b = (X X)
n
X
XY=+
!1
n
X
xi xi0
i=1
xi ui
i=1
consistente:
p
b
Dimostrazione. Lespressione di b in termini di medie campionarie rende evidente che b
dipende anche da n; si pu quindi considerare la successione
0 1
i=1 xi xi
Pn
bn = +
Pn
0
i=1 xi xi
n1
Pn
i=1 xi ui
Pn
0
i=1 xi xi
E[xx0]
i=1 xi ui
E[xu] = 0
Si assume inoltre il rango pieno di [xx0 ], quindi lesistenza di [xx0 ]1 . Per il lemma di
Slutsky (v. appendice C), essendo linversa una funzione continua,
Pn
0
i=1 xi xi
E[xx ]
e si ha:
p
bn +
3.2.2
0 1
p
i=1 xi xi
Pn
E[xx0]1 <
E[xx0]1 0 =
Normalit asintotica
b = (X X)
n
X
XY=+
!1
xi xi0
i=1
asintoticamente normale:
n(b ) N (0, V)
n
X
i=1
xi ui
27
0 1 Pn x u
i=1 xi xi
i=1 i i
Pn
n(bn ) =
0 1
p
i=1 xi xi
Pn
i=1 xi ui
E[xx0]1 < .
Pn
E[xu] = 0. Inoltre:
i q
h
2 0
u xx 4 (u)4 (x) <
i=1 xi ui
N (0,
Pn
i=1 xi ui :
V[xu])
n(bn ) risulta cos una trasformazione lineare (una moltiplicazione per una quantit che tende a [xx0 ]1 , che una matrice simmetrica) di una successione di v.a.
asintoticamente normali e si ha:
Ponendo
A=
E[xx0]
B=
V[xu] = E[u2xx0]
Il simbolo pu stare per asintoticamente distribuito come (cos Wooldridge 2002, p.38), oppure
d
per distribuito approssimativamente come. Nel primo significato, il simbolo equivalente allaltro ;
inoltre, se n non si pu dividere impunemente per n. Si usa quindi qui il secondo significato,
intendendo che vale per n grande, ma comunque finito.
28
3.2.3
3. Lipotesi di esogeneit
E[u2xx0] = 2E[xx0]
La varianza asintotica di
2 =
E[u2]
n(b ) diventerebbe:
A1 BA1 =
E[xx0]12E[xx0]E[xx0]1 = 2E[xx0]1
2 [xx0 ]1
n
ee 4
. Infatti:5
n
Teorema 3.5. Se valgono gli assunti 3.2, la varianza campionaria dei residui:
2 =
uno stimatore consistente di 2 =
ee0
n
E[u2].
2 =
n
1X
e2
n i=1 i
n
n
1X
1X
=
u2i 2
x0 ui (b ) + (b )0
n i=1
n i=1 i
n
1X
xi xi0 (b )
n i=1
2
ricordando che per gli assunti e per la legge dei grandi numeri:
Pn
0
i=1 xi xi
E[xx ] <
0
Pn
i=1 xi ui
E[xu] = 0
4
Si potrebbe usare anche una varianza campionaria corretta, dividendo per n 1 o n k, in quanto
la consistenza per n non ne risentirebbe.
5
Le dimostrazioni dei teoremi 3.5 e 3.6 sono tratte da Hansen (2010, pp. 73-74, 76-77).
29
X0 X
n
1
=
2 (X0 X)1
Pn
2
0
i=1 ei xi xi
E[u2xx0].
i
h
xih xil u2i
E[u2xx0] = B
Applicando la disuguaglianza triangolare alla norma del secondo addendo, la disuguaglianza di Schwarz, poi luguaglianza kvv0 k = kvk2 , infine ancora la disuguaglianza di
Schwarz:
n
n
2 X
2X
0
0
xi x0 (b )0 xi ui
xi xi (b ) xi ui
i
n
n i=1
i=1
n
2X
xi x0
(b )0 xi |ui |
i=1
n
X
2
n
i=1
kxi k3 |ui | kb k
30
3. Lipotesi di esogeneit
Per la disuguaglianza di Hlder (di cui quella di Cauchy-Schwarz caso particolare) e per
lassunto dei momenti quarti finiti:
kxi k3 |ui |
kxi k4
i3/4
u4i
i1/4
<
kxi k kb k
i=1
Nel caso di HC1 ci appare evidente. Per le altre varianti basta considerare che la somma degli hii
uguale al numero k dei parametri e la loro media quindi uguale a n/k (Kutner et al. 2005, pp. 398-399).
31
Osservazione 3.7. Nella sez. 2.6 si rilevava che, mentre negli studi sperimentali le variabili esplicative sono spesso deterministiche, in econometria sono aleatorie. Pu essere utile tornare al semplice scenario dellomoschedasticit per esplicitare una conseguenza della diversit degli approcci. Si assume comunque che Cov(x, u) = 0, quindi [y] = [x0 ] + [u]. Se per le variabili esplicative non hanno variabilit, allora
[x0 ] = 0 e si ha:
V[y] = V[u] = 2
Ne segue, tra laltro, che la variabilit di y dipende anche dalla scelta delle esplicative.
In generale, infatti, non esiste alcuna garanzia che si considerino tutte le variabili di
controllo, rispetto alle quali sono possibili scelte diverse e pu succedere, inoltre, che
alcune variabili prima non osservabili lo diventino; la variabilit della variabile risposta
pu quindi cambiare da modello a modello.
3.3
3.3.1
Test z
Si visto che, nel modello lineare normale con ipotesi di omoschedasticit (sez. 2.4.4),
si usano test t in quanto la varianza 2 dellerrore non nota e viene sostituita con una
varianza campionaria corretta dei residui. In un approccio asintotico le differenze rispetto
ad un test z diventano trascurabili, mentre appare pi rivelante labbandono dellipotesi
di omoschedasticit.
La libreria lmtest di R contiene, tra altre, una funzione coeftest() che esegue test
analoghi a quelli calcolati da summary() sul risultato di lm() (cfr. fig. 2.2), con le seguenti
differenze (cfr. Zeileis 2004):
a) il parametro df (degrees of freedom) ha n k come valore di default e, se lo si accetta
o si assegna un numero finito e positivo, viene calcolato un test t; con df=Inf si usa
invece unapprossimazione normale;
b) il parametro vcov. (NB: con un punto finale, per distinguerlo dalla funzione vcov())
consente di passare una matrice di varianza e covarianza diversa da quella calcolata
dalla funzione lm().
La libreria sandwich consente di calcolare la matrice di White (anche le sue varianti)
con una funzione vcovHC().7 La funzione usa per default la matrice HC3, ma si pu usare
quella di White assegnando HC0 al parametro type.
7
La libreria si chiama sandwich perch prodotti come quelli che compaiono nella matrice di White,
BA1 , vengono detti a forma di sandwich.
32
3. Lipotesi di esogeneit
Esempio 3.8. Si vuole determinare se il salario delle donne influenzato dalla condizione
familiare, in particolare dallet e dal numero dei figli. Le relative variabili esplicative sono:
age: let anagrafica in anni;
kidslt6: il numero dei figli di et minore di 6 anni;
kidsge6: il numero dei figli di et compresa tra 6 e 18 anni.
Si prendono in considerazione anche altre variabili, che appaiono correlate almeno allet
anagrafica (variabili di controllo):
exper: lanzianit di lavoro;
expersq: il quadrato dellanzianit di lavoro (si ipotizza che intervengano negli anni
avanzamenti di qualifica, quindi che leffetto dellanzianit sul salario non sia lineare);
educ: il livello di istruzione, misurato con gli anni di frequentazione delle scuole.
Si sceglie il seguente modello per la popolazione:
log(wage) = 1 + 2 exper + 3 expersq + 4 educ + 5 age + 6 kidslt6 + 7 kidsge6 + u
si sceglie cio di usare come variabile risposta il logaritmo del salario, lwage. Si carica il
file mroz.csv8 e si esegue la regressione lineare:
>
>
>
>
33
> library(sandwich)
> library(lmtest)
> coeftest(reg, df=Inf, vcov.=vcovHC(reg, type="HC0"))
z test of coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.42090796 0.31572069 -1.3332 0.182477
exper
0.03981902 0.01513251 2.6314 0.008504 **
expersq
-0.00078123 0.00040632 -1.9227 0.054519 .
educ
0.10783196 0.01351167 7.9807 1.456e-15 ***
age
-0.00146526 0.00588632 -0.2489 0.803418
kidslt6
-0.06071057 0.10522938 -0.5769 0.563983
kidsge6
-0.01459101 0.02910954 -0.5012 0.616199
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Figura 3.1. Test sui singoli coefficienti con approssimazione normale e matrice di White.
3.3.2
Intervalli di confidenza
Date le stime di un parametro incognito e della radice quadrata della sua varianza
(dello standard error), un intervallo di confidenza Cn viene definito come linsieme dei
valori cui appartiene con probabilit (1)% per un qualche . Nellapproccio asintotico
si usano i quantili della distribuzione normale e la stima della varianza approssimata,
quindi:
jj , + c V
jj
C n = bj c V
dove c = 1.96 se = 0.05, in quanto la probabilit che una variabile normale standard
sia minore di 1.96 0.025, che sia maggiore di 1.96 0.975, quindi che sia compresa tra
1.96 e 1 96 0.95 = 1 0.05.
R fornisce una funzione confint() che, usando il risultato di lm(), calcola intervalli di
confidenza basati sulla distribuzione t e sullipotesi di omoschedasticit. Esite anche una
funzione confint.default() che usa unapprossimazione normale, ma rimane vincolata
allipotesi di omoschedasticit; la funzione confintHC(), proposta nella figura 3.3, calcola
gli intervalli usando la matrice di White (o eventuali varianti).
Esempio 3.11. Partendo dalla regressione dellesempio precedente, confintHC() calcola
gli intervalli di confidenza mostrati nella figura 3.2. Se si confrontano gli intervalli con i
risultati dei test z (fig. 3.1), si pu notare che:
a) quasi tutti gli intervalli lasciano dubbi sul segno dei coefficienti (quindi sulla stessa
direzione degli effetti parziali!); si salvano quelli di exper e di educ, che risultano
anche quelli statisticamente pi significativi;
b) il coefficiente di expersq risulta moderatamente significativo (al 94.5%), ma il relativo
intervallo talmente stretto intorno allo zero che apparirebbe comunque avventato
ipotizzare leffettiva significativit di un valore non nullo.
34
3. Lipotesi di esogeneit
3.3.3
Test di Wald
r,k k,1
r,1
r,1
dove R una r 1 (r il numero delle restrizioni) e k colonne (il numero dei parametri).
Ad esempio, dato il modello:
y = 1 + 2 x2 + 3 x3 + 4 x4 + u
a) se lipotesi nulla :
H0 : 2 = 3 , 4 = 5
si usa:
"
R q =
0 1
0 0
" # "
# " # " #
# 1
0
2 3
0
0
1 0
2
=
=
5
4
5
0
0 1 3
4
b) se lipotesi nulla :
H0 : 2 + 3 + 4 = 1
si usa:
1
h
i h i h
i h i h i
2
R q = 0 1 1 1 1 = 2 + 3 + 4 1 = 0
3
4
Essendo lo stimatore di approssimativamente normale per grandi campioni, tale
anche la sua trasformazione lineare Rb q:
a
b R0
Rb q N R q, RV
b R0 )
Rb q N (0, RV
> confintHC(reg)
2.5 %
(Intercept) -1.03971
exper
0.01016
expersq
-0.00158
educ
0.08135
age
-0.01300
kidslt6
-0.26696
kidsge6
-0.07164
97.5 %
0.19789
0.06948
0.00002
0.13431
0.01007
0.14554
0.04246
Figura 3.2. Intervalli di confidenza (con approssimazione normale e matrice di White) dei parametri della
regressione di cui allesempio 3.8.
35
36
3. Lipotesi di esogeneit
1
2
0.9185
Figura 3.5. Esempio di utilizzo della funzione waldtest() per un confronto tra un modello pieno e un
modello ridotto.
La libreria lmtest contiene invece una funzione waldtest() che opera confrontando
due o pi modelli e accetta anchessa i parametri test e vcov (senza punto finale).
Esempio 3.13. Restando alla regressione degli esempi precedenti, si nota che i coefficienti
relativi alla condizione anagrafica e familiare risultano tutti non significativi (figura 3.1)
e con intervalli di confidenza che non consentono di determinarne il segno (figura 3.2). Si
pu quindi sottoporre a verifica lipotesi nulla H0 : 4 = 5 = 6 . Invece di costruire una
matrice R, si pu eseguire una seconda regressione sul modello ridotto:
log(wage) = 1 + 2 exper + 3 expersq + 4 educ + u
quindi passare a waldtest() i risultati di entrambe le regressioni (figura 3.5). Il p-value
consente di accettare lipotesi nulla i due modelli sono equivalenti.
3.3.4
Test F
Si visto che, nel modello lineare normale (sez. 2.4.4), si usano test F per sottoporre
a verifica lipotesi nulla tutti i coefficienti nulli tranne lintercetta. Con R si possono
37
p-value: 1.057e-13
T 2r
T a
Fr,nk
r
38
3. Lipotesi di esogeneit
accettazione di unipotesi nulla generale si riduce a tal punto che la relativa statistica F
risulta quasi sempre molto significativa, quindi inutile.9
3.4
Nella pratica, lipotesi di esogeneit si scontra spesso con la mancanza di dati o con la
difficolt di una loro espressione quantitativa. Pu esserne un esempio il modello:
log(wage) = 1 + 2 exper + 3 expersq + 4 educ + abil + u
in cui risulta arduo disporre di misure dellabilit e, quindi, di relativi dati. Come gi
visto, ci comporta che, se si regredisse la variabile risposta solo sulle variabili disponibili,
verrebbe meno la consistenza degli stimatori e non sarebbe possibile stimare gli effetti
parziali. In tali casi, si dice che lequazione strutturale (quella relativa al modello vero)
non stimabile e si cerca, quindi, una equazione stimabile.
In generale si cerca di escludere le variabili non disponibili e di sostituirle con altre. Il
prossimo capitolo dedicato allinclusione di variabili strumentali, mentre qui si illustra
il metodo delle variabili proxy: una variabile proxy una variabile che ha sulla variabile
risposta un effetto paragonabile a quello della variabile mancante ed a questa correlata
al punto di poter ipotizzare che la variabile proxy agisce sulla variabile risposta per
procura di quella mancante (una persona proxy appunto una persona che agisce per
procura).
Pi formalmente, se lequazione strutturale :
y = 1 + 2 x2 + + k xk + q + u
se q correlata con qualche xj (quindi non pu essere relegata nellerrore) ma non
disponibile, si pu sostituire q con una variabile proxy z che soddisfi le seguenti condizioni:
a) ridondanza: se q fosse disponibile, z sarebbe inutile:
E[y | x, q, z] = E[y | x, q]
b) correlazione forte: z deve essere correlata a q in modo che, una volta inclusa z nellequazione, q non sia pi correlata con alcuna xj :
L(q | 1, x2 , . . . , xk , z) = L(q | 1, z)
dove L(a | b) indica la proiezione ortogonale di a sullo spazio generato da b.
La seconda condizione ricorre allaspetto geometrico dei modelli di regressione lineare
(cfr. sez. 2.4.1). Sia Xxz una matrice avente k +2 colonne, una prima costituita da tutti 1,
le altre per le variabili x2 , . . . , xk e z. Xxz pu essere vista come somma di due matrici Xx ,
le cui colonne non nulle contengono x2 , . . . , xk , e Xz , le cui colonne non nulle contengono
1 e z. Indicando con Im(X) lo spazio generato dalle colonne di una matrice X, si ha (cfr.
proposizione A.23):
Im(Xxz ) = Im(Xx ) + Im(Xz )
9
ESS/(k 1)
aumenta allaumentare di n.
RSS/(n k)
39
ne segue che [q] = 1 + 2 z pu essere espresso come combinazione lineare dei vettori
di una base sia di Im(Xxz ) che di Im(Xz ), ma nel primo caso i coefficienti dei termini xj
sarebbero tutti nulli. Quanto a r = q [q], se vale luguaglianza r ortogonale a tutto
Im(Xxz ), quindi per ogni j = 2, . . . , k:
L(q | 1, x2 , . . . , xk , z) = L(q | 1, z)
Cov(r, xj ) = 0, Cov(q, xj ) = 0
E[r] = 0, Cov(z, r) = 0
si perviene allequazione:
y = (1 + 1 ) + 2 x2 + + k xk + (2 z) + (r + u)
che risulta stimabile in quanto viene rispettata lipotesi di esogeneit (in particolare,
lerrore r + u non correlato con alcuna variabile esplicativa).
Esempio 3.15. Si vuole ragionare sul salario usando i dati del National Longitudinal
Survey del 1980.10 Si definisce lequazione strutturale:
log(wage) =1 + 2 exper + 3 tenure + 4 married + 5 south
+ 6 urban + 7 black + 8 educ + abil + u
dove:
wage il salario mensile, lwage il suo logaritmo;
exper lanzianit di lavoro totale in anni;
tenure lanzianit di lavoro nellazienda;
married vale 1 se il lavoratore sposato;
south vale 1 se il lavoratore vive negli stati del sud;
urban vale 1 se il lavoratore vive in unarea metropolitana;
black vale 1 se il lavoratore nero;
educ il livello di istruzione misurato con gli anni di frequentazione delle scuole;
abil labilit.
10
File http://web.mclink.it/MC1166/Econometria/nls80.csv. Rispetto ai dati contenuti nel file scaricabile dal sito di Wooldridge (2002), si sono assegnati i nomi di colonna e si usata la stringa NA per i
dati mancanti.
40
3. Lipotesi di esogeneit
Non disponibile una misura dellabilit, che non pu essere scartata in quanto facile
supporre una sua correlazione almeno con educ. Sono disponibili i quozienti di intelligenza
iq; si valuta che, se fossero disponibili dati circa labilit, il quozienge di intelligenza
sarebbe inutile (ridondanza), si ipotizza che sia rispettata anche la seconda condizione. Si
prova quindi ad eseguire una regressione sia sullequazione strutturale senza la variabile
abil, sia su unequazione stimabile con iq al posto di abil:
>
>
+
>
+
Si possono confrontare i risultati unendo i test sui coefficienti e gli intervalli di confidenza
delle due regressioni, con comandi del tipo:
> cbind(coeftest(reg, ...), confintHC(reg, ...))
Osservando la figura 3.7, si pu notare che nella regressione con la variabile proxy il
coefficiente di educ si riduce da 0.065 a 0.054 e aumenta lo standard error, anche se il suo
intervallo di confidenza al 95% rimane coerente (estremi entrambi positivi) e piuttosto
stretto.
3.5
Pu succedere che una variabile sia osservabile, ma che i dati disponibili non siano pienamente attendibili. Si pu pensare, per un esempio, ai risparmi delle famiglie: si tratta di
un aggregato che potrebbe essere misurato con esattezza, ma se i dati disponibili derivano
da risposte dei diretti interessati potrebbero essere imprecisi.
Se lerrore di misura riguarda la variabile risposta, il modello assume la forma:
y = 1 + 2 x2 + + k xk + (u + )
dove lerrore di misura della variabile risposta. Appare naturale assumere che [] = 0,
pu esserlo meno assumere anche che sia incorrelato con le variabili esplicative. Se ci
appare possibile, si pu comunque procedere con la regressione. Si pu solo notare che,
se u e non sono correlati (come spesso ragionevole assumere), la varianza complessiva
dellerrore sar somma delle loro varianze; si avranno quindi stime con un maggiore
standard error, ma comunque consistenti.
In realt lerrore di misura problematico quello relativo alle variabili esplicative, che
pu presentarsi in due forme.
Sia xk una variabile affetta da un errore k e si disponga solo della sua misura x
k , con
k = x
k xk . Il modello diventa:
y = 1 + 2 x2 + + k xk + u
= 1 + 2 x2 + + k (
x k k ) + u
= 1 + 2 x2 + + k x
k + (u k k )
41
> round(cbind(
+ coeftest(regomitted, df=Inf, vcov.=vcovHC(regomitted, type="HC0")),
+ confintHC(regomitted)), 5)
Estimate Std. Error z value Pr(>|z|)
2.5 %
97.5 %
(Intercept) 5.39550
0.11264 47.89935 0.00000 5.17472 5.61627
exper
0.01404
0.00322 4.35484 0.00001 0.00772 0.02036
tenure
0.01175
0.00253 4.64721 0.00000 0.00679 0.01670
married
0.19942
0.03952 5.04552 0.00000 0.12195 0.27688
south
-0.09090
0.02725 -3.33644 0.00085 -0.14430 -0.03750
urban
0.18391
0.02700 6.81251 0.00000 0.13100 0.23682
black
-0.18835
0.03655 -5.15375 0.00000 -0.25998 -0.11672
educ
0.06543
0.00638 10.25271 0.00000 0.05292 0.07794
> round(cbind(
+ coeftest(regproxy, df=Inf, vcov.=vcovHC(regproxy, type="HC0")),
+ confintHC(regproxy)), 5)
Estimate Std. Error z value Pr(>|z|)
2.5 %
97.5 %
(Intercept) 5.17644
0.12064 42.90859 0.00000 4.93999 5.41289
exper
0.01415
0.00322 4.38964 0.00001 0.00783 0.02046
tenure
0.01140
0.00252 4.51376 0.00001 0.00645 0.01634
married
0.19976
0.03890 5.13520 0.00000 0.12352 0.27601
south
-0.08017
0.02760 -2.90424 0.00368 -0.13427 -0.02607
urban
0.18195
0.02661 6.83678 0.00000 0.12979 0.23411
black
-0.14313
0.03746 -3.82032 0.00013 -0.21655 -0.06970
educ
0.05441
0.00724 7.51747 0.00000 0.04022 0.06860
iq
0.00356
0.00095 3.73942 0.00018 0.00169 0.00542
Figura 3.7. Risultati di una regressione con variabile omessa e di unaltra con variabile proxy.
Se Cov(
xk , k ) = 0 non c problema: lipotesi di esogeneit rispettata e si ottengono
stimatori consistenti, anche se con una maggiore varianza dellerrore.
Se, tuttavia, Cov(xk , k ) = 0, allora x
k e k sono necessariamente correlate. Infatti,
assumendo [k ] = 0 (se cos non fosse, basterebbe aggiungere la media allintercetta del
modello),
E[xk k ] = 0
Cov(
xk , k ) = E[
xk k ] = E[(xk + k )k ] = E[2k ] = 2
Cov(xk , k ) =
42
3. Lipotesi di esogeneit
Capitolo 4
Le variabili strumentali
Se il modello della popolazione comprende k 1 variabili esogene (compresa, al solito,
x1 = 1) e una endogena:
E[u] = 0
y = 1 + 2 x2 + + k xk + u
Cov(xj , u) = 0, j = 2, . . . , k 1
Cov(xk , u) 6= 0
4.1
Una variabile z1 , diversa dalle xj , pu essere usata come variabile strumentale se soddisfa
le seguenti due condizioni:
a) esogeneit:
Cov(z1 , u) = 0
b) correlazione parziale: deve esistere una proiezione ortogonale di xk sullo spazio generato
da tutte le esogene, compresa in particolare z1 :
xk = 1 + 2 x2 + + k1 xk1 + 1 z1 + rk ,
1 6= 0
ovvero z1 deve risultare parzialmente correlata con xk al netto delle altre esogene.2
1
Si usa spesso chiamare strumenti le nuove variabili, strumentali tutte le variabili esogene (sia quelle
gi presenti nel modello che quelle nuove). Qui si diranno strumentali solo le variabili aggiunte alle esogene
gi considerate.
2
In altri termini, z1 non deve risultare correlata a xk solo perch correlata con alcune delle x2 , . . . , xk1
a loro volta sono correlate con xk .
43
44
4. Le variabili strumentali
Si giunge quindi, analogamente a quanto gi visto nel capitolo precedente (sez. 3.2),
allo stimatore consistente:
bIV =
n1
n
X
!1
zi xi0
n1
i=1
n
X
z i yi
= (Z0 X)1 Z0 y
i=1
Affinch [zx0 ] abbia rango pieno, deve essere rispettata la condizione di correlazione
parziale: xk non deve risultare correlata solo con x2 , . . . , xk1 .3
Osservazione 4.1. Le condizioni che una variabile proxy deve soddisfare non sono verificabili, in quanto la variabile sostituita , per definizione, non osservabile. Quando si
considera una possibile variabile strumentale risulta non verificabile la condizione di esogeneit (cfr. osservazione 3.1), ma la condizione di correlazione parziale pu, e dovrebbe,
essere verificata.
3
"
1
Z0 X = x12
z11
1+1+1+1
1
x22
z21
1
x32
z31
# 1
1
1
x42
1
z41
1
x12
x22
x32
x42
x13
x23
x33
x43
Se fosse x3 = x2 , la terza colonna sarebbe proporzionale alla seconda e la matrice non avrebbe rango
pieno; prendendo la terza riga:
z11 x13 + z21 x23 + z31 x33 + z41 x43 = (z11 x12 + z21 x22 + z31 x32 + z41 x42 )
Se invece x3 = x2 + z1 , 6= 0, la proporzionalit viene meno.
45
Pi variabili strumentali
4.2
Pi variabili strumentali
n
X
!1
ix
x
i=1
n
X
i yi
x
0 X)1 X
0y
= (X
i=1
46
4. Le variabili strumentali
# secondo stadio
# - creazione della matrice X
n <- nrow(cigarettes)
X <- matrix(c(rep(1,n),log(cigarettes$price),log(cigarettes$income)), nrow=n)
# - creazione della matrice con le stime di log(price)
Xhat <- X
Xhat[,2] <- olsreg$fitted.values
# - stima dei coefficienti beta
solve(t(Xhat) %*% Xhat) %*% t(Xhat) %*% log(cigarettes$packs)
[,1]
[1,] 9.8949555
[2,] -1.2774241
[3,] 0.2804048
Figura 4.1. Esecuzione separata dei due stadi di una regressione 2SLS. La stima dei coefficienti identica
a quella che si ottiene con la funzione ivreg().
Adattato dal dataset CigarettesSW contenuto nella libreria AER di R e scaricabile da http://web.
mclink.it/MC1166/Econometria/cigarettes.csv.
47
Pi variabili strumentali
> coef(reg)
(Intercept)
9.8949555
log(price) log(income)
-1.2774241
0.2804048
La figura 4.1 mostra come si potrebbe ottenere lo stesso risultato eseguendo separatamente i due stadi della regressione.
Osservazione 4.3. Nellesempio precedente prezzi e redditi sono reali, non nominali. Ci
consente di ritenere le due variabili non correlate. Si potrebbe forse pensare di risolvere il
problema della endogeneit dei prezzi semplicemente eliminandoli dal modello. Per quanto
ovvio, si sottolinea che cos si otterrebbero s stimatori consistenti, ma diminuirebbe
la quota spiegata della variabilit della variabile risposta (misurata da R2 ). In questo
caso la diminuzione sarebbe vistosa. La libreria AER contiene una versione di summary()
specifica per il risultato di ivreg(); eseguendo summary(reg) sulla regressione descritta
2
nellesempio si ottengono R2 = 0.43 e R = 0.40. Eseguendo una regressione OLS solo su
log(income):
> lm(log(packs) ~ log(income), data=cigarettes)
2
48
4. Le variabili strumentali
Capitolo 5
5.1
Logit e probit
Nei modelli logit e probit Si usa sottindere un modello a variabile latente: si muove dai
consueti vettori di esplicative x e di parametri , si definisce una variabile
y = x0 + ,
y = I(y > 0)
ez
1 + ez
G(z) = (z)
G(z) =
Poich p(x) una funzione di x0 , per determinare gli effetti parziali di una variabile
esplicativa continua si deve ricorrere alla regola di derivazione delle funzioni composte:
p(x)
= g(x0 )j ,
xj
g(z) =
49
dG(z)
dz
50
k
X
j=1
j xj G
k
X
j xj
j=1, j6=h
Parte II
Serie storiche
Capitolo 6
La regressione spuria
Nei dati cross-section le singole osservazioni sono contraddisinte da un indice i che si
riferisce alla i-esima unit del campione estratto. Nelle serie storiche le singole osservazioni
si riferiscono a istanti o periodi di tempo diversi, quindi di usa un indice t. Sembra una
modifica solo formale: se posso usare vari tipi di regressione su dati del tipo:
yi = 1 xi1 + 2 xi2 + + k xik
sembrerebbe ovvio usare le stesse tecniche su dati del tipo:
yt = 1 xt1 + 2 xt2 + + k xtk
Eppure, cos facendo, si perviene a risultati paradossali, a volte palesemente assurdi.
Il problema venne posto con chiarezza da G. Udny Yule nel 1926 e ha poi trovato una
soluzione solo gradualmente.1
6.1
I capitoli della parte II si basano liberamente su Hamilton (1994), Hansen (2010) e Lucchetti (2008).
I dati sono scaricabili da http://web.mclink.it/MC1166/Econometria/yule.csv. Per caricarli in R
come serie storica si pu usare il comando read.ts("yule.csv", header=TRUE, sep=",", start=1866).
3
Ovviamente, visto che R2 il quadrato del coefficiente di correlazione.
2
53
54
70
65
18
14
16
mortality
20
22 60
churchmarriages
75
6. La regressione spuria
1870
1880
1890
1900
1910
Time
Figura 6.1. Percentuali di matrimoni religiosi e indici di mortalit (numero di morti per 1000 abitanti) in
Inghilterra e nel Galles dal 1866 al 1911.
La conclusione pu apparire opinabile, lipotesi di correlazione spuria forse meno fantasiosa di quanto Yule credeva, ma in seguito emersa sempre pi chiaramente la possibilit di individuare serie temporali indiscutibilmente indipendenti e tuttavia tali da esibire
coefficienti R2 di tutto rispetto. Una regressione che non tenesse conto di ci rischierebbe
di rivelarsi una regressione spuria.4
6.2
6.2.1
Processi stocastici
Con memoria
55
Processi stocastici
10
p1
p2
10
20
30
40
50
Figura 6.2. Due passeggiate governate dal lancio di una moneta: se viene testa si va in su, se viene croce
si va in gi.
n <- 50
m1 <- rbinom(n, 1, 0.5)
m1[m1==0] <- -1
p1 <- cumsum(m1)
m2 <- rbinom(n, 1, 0.5)
m2[m2==0] <- -1
p2 <- cumsum(m2)
La figura 6.2 propone una rappresentazione grafica dei due processi. La correlazione
tra p1 e p2 maggiore di 0.82 e, se si esegue una regressione, si ottiene un R2 pari a
0.675!
6.2.2
Senza memoria
Lordine dei processi p1 e p2 intoccabile, ma non basta a spiegare lapparente correlazione tra processi indipendenti.
56
6. La regressione spuria
d1
d2
10
20
30
40
50
Figura 6.3. Grafici delle differenze tra due passi consecutive delle passeggiate mostrate nella figura 6.2.
Lasciando inalterato lordine, si possono esaminare le differenze tra i singoli passi delle
due passeggiate:
> d1 <- diff(p1)
> d2 <- diff(p2)
Lo scenario cambia radicalmente (figura 6.3). Soprattutto, il coefficiente di correlazione e R2 precipitano, rispettivamente, a 0.03 e 0.001. Cosa successo?
Appare chiara lesigenza di una struttura teorica di riferimento.
6.3
Definizioni
Z +
se:
yt = t + t ,
t iid, t N (0, 2 )
si ha:
E[yt] = t
V[yt] = E
(yt t)2 =
E[2] = 2
57
Definizioni
E[ytytj ] E[yt]E[ytj ]
Ad esempio, se:
t iid, t N (0, 2 )
yt = c + t ,
si ha:
(t, t j) Cov(yt , ytj ) =
6.3.1
Persistenza
6.3.2
Stazionariet ed ergodicit
E[yt] = y < ;
V[yt] = y2 < ;
Laffermazione non brilla per rigore (cfr. Lucchetti 2008, pp. 5-6, poi DallAglio 2003, p. 296), ma
sufficiente nel contesto di queste note.
58
6. La regressione spuria
E[yt] = c
Cov(yt , ytj ) =
E[ttj ] =
2
0
se j = 0
se j =
6 0
X
j=0
lim (j) = 0
In sostanza, un processo ergodico se, quanto pi due suoi elementi sono lontani nel
tempo, tanto meno sono correlati. Tale aspetto diventa importante non appena si passi
dal processo stocastico come variabile aleatoria alle sue realizzazioni. Quando si osserva
la realizzazione di un processo stocastico, infatti, si pongono alcuni problemi: si osserva
solo un sottoinsieme finito di una realizzazione, non si pu sapere n se un altro sottoinsieme presenterebbe le stesse caratteristiche, n se queste sarebbero presenti in altre
realizzazioni. Se per un processo ergodico, allora losservazione di una sua realizzazione abbastanza lunga equivalente, ai fini inferenziali, allosservazioni di diverse sue
realizzazioni.7 Si usano allo scopo i teoremi seguenti.
Teorema 6.9. Se un processo stocastico yt stazionario ed ergodico, una sua funzione
xt = f (yt , yt1 , . . . ) a sua volta stazionaria ed ergodica.
6
A rigore questa solo una versione dellergodicit per la media, ma non si pu approfondire pi di
tanto in questa sede.
7
Va notato che, mentre lipotesi di stazionariet pu essere verificata, almeno in alcuni contesti, quella
di ergodicit non verificabile se si dispone di una sola realizzazione di un processo (Lucchetti 2008, p. 5).
59
Definizioni
T
1X
p
yt
T t=1
E[yt]
E[yt2] < ,
E[yt];
p
(j) (j);
p
(j) (j).
Dimostrazione. Il primo asserto segue direttamente dal teorema ergodico. Quanto al
secondo:
T
1X
(j) =
(yt
)(ytj
)
T t=1
T
T
T
T
1X
1X
1X
1X
2
yt ytj
yt
ytj
+
=
yt ytj 2
2 +
2
=
T t=1
T t=1
T t=1
T t=1
T
1X
=
yt ytj
2
T t=1
La successione yt ytj stazionaria ed ergodica per il teorema 6.9 e ha media finita per
lipotesi [yt2 ] < . Per il teorema ergodico:
T
1X
p
yt ytj
T t=1
Quindi:
(j)
E[ytytj ]
E[ytytj ] 2 = (j)
6.3.3
E[t] = 0
V[t] = 2
Cov(t , tj ) = 0, j 6= 0
60
6. La regressione spuria
Random walk
6 4 2
10 12 14
White noise
20
40
60
80
100
20
40
60
80
100
T
X
t=1
quindi:
E[yt] = 0
V[yt] = V
" T
X
t = T 2
t=1
61
Definizioni
0.8
0.6
0.2
0.2
0.4
ACF
0.4
0.2
0.2
ACF
0.6
0.8
1.0
Random walk
1.0
White noise
10
15
20
10
15
20
6.3.4
Cointegrazione
yt yt1 = t W N
La funzione po.test() contenuta nella libreria tseries. Le statistiche test dei processi stocastici
62
6. La regressione spuria
> po.test(cbind(p1,p2))
Phillips-Ouliaris Cointegration Test
data: cbind(p1, p2)
Phillips-Ouliaris demeaned = -7.5615, Truncation lag parameter = 0,
p-value = 0.15
Warning message:
In po.test(cbind(p1, p2)) : p-value greater than printed p-value
Lipotesi nulla la non cointegrazione, che non pu essere rifiutata. Ne segue che
qualsiasi regressione sarebbe spuria.
Eseguendo lo stesso test sulle serie dei matrimoni religiosi e della mortalit si otterrebbe un risultato diverso, quasi a pensare che, in quel caso, la nonsense correlation di
Yule non fosse tanto nonsense, ma questo tutto un altro discorso. . .
presentano spesso distribuzioni atipiche e i valori del p-value vengono quindi calcolati per interpolazione
da tabelle; questo il motivo per cui compare il messaggio che avverte che il p-value vero maggiore
di quello mosrato.
Capitolo 7
I processi ARMA
In questo capitolo si illustra in primo luogo loperatore ritardo L, che viene definito con
riferimento alla generica serie storica. Loperatore ritardo viene poi usato per definire i
processi stocastici MA (Moving Average), AR (AutoRegressive) e ARMA (loro generalizzazione). Si esaminano le condizioni di stazionariet di tali processi e si conclude con la
possibilit di usare gli abituali stimatori e test di ipotesi in caso di stazionariet.
In tutto il capitolo si intende t W N .
7.1
L: loperatore ritardo
Un operatore su serie storiche una funzione che trasforma una o pi serie storiche in
unaltra. Vi sono operatori su serie storiche molto simili a operatori familiari come la
somma e il prodotto; ad esempio:
y t = x t + wt
yt = xt
Nel primo caso si definisce una serie storica il cui valore al tempo t non altro che la
somma dei valori allo stesso tempo t di x e di w, nel secondo yt il prodotto di una
costante per il valore che x assume al tempo t. Lunica differenza rispetto alla somma
e al prodotto di scalari che qui si tratta di successioni infinite di somme e prodotti.
Risulta particolarmente utile loperatore ritardo, indicato con L (Lag), che trasforma
una serie storica {xt } in unaltra {yt } tale che il valore di y al tempo t sia uguale a quello
di x al tempo t 1:
yt = Lxt = xt1
Loperatore ritardo lineare, ovvero additivo e omogeneo (di grado 1):
L(xt + wt ) = Lxt + Lwt
L(xt ) = Lxt
Loperatore ritardo pu essere applicato pi volte; in questi casi, si usa indicare con
un esponente il numero delle iterazioni. Ad esempio:
L3 xt = L(L(Lxt )) = L(Lxt1 ) = Lxt2 = xt3
In generale:
Lk xt = xtk
Grazie a questa notazione, possibile definire polinomi in L:
(1 + aL + bL2 + cL3 )xt = xt + axt1 + bxt2 + cxt3
63
64
7. I processi ARMA
7.2
Un processo a media mobile di ordine q una successione di variabili aleatorie del tipo:
yt = t + c1 t1 + + cq tq =
q
X
cn tn
n=0
e si indica con M A(q). Si ha una media mobile finita se q < , altrimenti una media
mobile infinita.
Il processo viene detto a media mobile di ordine q perch yt la somma di t e di
una media ponderata dei q valori precedenti pi vicini di , media che cambia al variare
di t. Loperatore ritardo consente una definizione pi sintetica:
yt = C(L)t
dove C(L) = 1 + c1 L + c2 L2 + + cq Lq un polinomio di grado q nelloperatore ritardo.
7.2.1
E[yt] = E
" q
X
cn tn =
n=0
q
X
cn [tn ] = 0
n=0
!2
q
X
V[yt] = E[yt2] = E
cn tn
n=0
V[yt] = E
Cov(yt , ytj ) =
" q
X
c2n 2tn
n=0
q
X
q
X
q
X
cm tm
m=0
m=0
cm
!#
cn tnj
n=0
q
X
q
X
c2n
n=0
n=0
"
q
X
c2n [2tn ] = 2
" q
X
m=0
cm
q
X
!#
cm tm tnj
m=0
cn [tm tnj ]
n=0
q
X
cn cn+j
n=0
65
7.2.2
Per dimostrare le propriet di una media mobile infinita occorre fissare alcuni risultati
preliminari, poi avvalersi della rappresentazione del processo mediante loperatore ritardo:
yt = C(L)t ,
C(L) =
cn Ln
n=0
n=0 cn z
|cn z n | < ,
n=0
Lemma 7.3. Una successione sommabile in valore assoluto sommabile al quadrato (ma
non viceversa):
|an | <
n=0
a2n <
n=0
ci cij
i=0
f (z) =
cn z n < ,
z D(0, r)
n=0
cn cnj
v
uX
2u
t
n=j
n=j
X
n=0
cn cn+j
c2n
X
n=j
c2nj <
66
7. I processi ARMA
n=0
|cn cn+j |
n=0
|(j)| 2
j=0
|cn cn+j | = 2
j=0 n=0
|cn | |cn+j | = 2
j=0 n=0
|cn |
n=0
|cn+j |
j=0
X
j=0
7.3
|(j)| <
(j) <
(j) 0
j=0
A(0) = 1
dove A(L) un polinomio di grado p nelloperatore ritardo. Tale rappresentazione consente di indagare le propriet del processo; a tale scopo, analogamente a quanto fatto
nella dimostrazione del teorema 7.4, si studiano le propriet algebriche del corrispondente
polinomio A(z), detto polinomio caratteristico.
Teorema 7.5. Un processo autoregressivo AR(p) stazionario ed ergodico se e solo se
le radici del polinomio caratteristico sono tutte fuori del cerchio unitario. In questo caso,
il processo ammette la rappresentazione M A():
yt =
cn etn
n=0
67
p
X
A(z) = 1
an z =
n=1
l
Y
n=1
z
1
zn
mn
dove zn una radice e mn la sua molteplicit algebrica (si pu dividere per zn in quanto
0 non una radice). Quanto al reciproco:
C(z) = A(z)1 = Q
l
n=1
1
z
zn
m n
|zzn |0
C(z) =
X
C (n) (0) n X
cn z n
z =
C(z) =
n=0
n!
n=0
Ma questa la stessa serie esaminata nella dimostrazione del teorema 7.4. Ne segue che,
perch si abbia stazionariet, il raggio di convergenza r deve essere maggiore di 1. Il
raggio di convergenza, peraltro, giunge fino alla prima singolarit: r = min |zn |, quindi le
n
radici devono essere fuori del cerchio unitario. In tal caso, |z| < |zn |, il processo ammette
una rappresentazione M A() stazionaria ed ergodica.
7.3.1
Processi AR(1)
Se p = 1 il processo diventa:
yt = ayt1 + t
A(L)yt = (1 a)yt = t
Partendo da un y0 = 0 si avrebbe:
y1 = 1
y2 = ay1 + 2 = a1 + 2
y3 = ay2 + 3 = a2 1 + a2 + 3
...
yT =
T
X
j=0
In generale, yt =
X
j=0
aj tj .
aj T j
68
7. I processi ARMA
Se il processo stazionario, la sua rappresentazione M A() :
yt =
cn = an
cn etn ,
n=0
V[yt] = 2
c2n = 2
n=0
a2n =
n=0
2
1 a2
Infatti, lunica radice del polinomio 1 az z1 = a1 e |z1 | > 1 comporta |a| < 1; in tal
P
1
2n una serie geometrica convergente a
caso =
.
n=0 a
1a2
1
Quanto allautocovarianza:
(j) = 2
cn cnj = 2
n=j
X
j 2
=a
X
n=0
a2n = aj
n=0
cn cn+j = 2
an an+j = 2
n=0
a2n+j
n=0
2
1 a2
Infine, lautocorrelazione:
(j) =
(j)
= aj
(0)
indica una persistenza tanto maggiore quanto maggiore |a|, ma, poich |a| < 1, decresce
allaumentare di j: un processo autoregressivo stazionario ha s memoria infinita, ma il
passato remoto gioca un ruolo di fatto irrilevante.
Al contrario, se fosse |a| = 1 il processo non avrebbe varianza costante (yt = yt1 + t
un random walk, in cui la varianza aumenta col tempo) ed esploderebbe se |a| > 1
(figura 7.1).
7.3.2
Processi AR(p)
Un aspetto interessante dei processi autoregressivi con p > 1 risiede nel fatto che tra le
radici del polinonio caratteristico potrebbero esservi coppie di radici complesse coniugate;
in questo caso, il processo assume un andamento ciclico (v. poi esempio 7.6).
Per il resto, le autocovarianze di un processo autoregressivo stazionario di ordine p:
yt = a1 yt1 + a2 yt2 + + ap ytp + t
possono essere ricavate moltiplicando entrambi i membri per ytj e prendendo i valori
attesi:
(j) =
a1 (1) + + ap (p) + 2
a1 (j 1) + + ap (j p)
per j = 0
per j = 1, 2, . . .
1
Nello sviluppo si usa unespressione della covarianzia tale che a risulti elevato ad un esponente j
inteso come non negativo (dati yt e ys , j = |t s|). Si pu anche lasciare che j sembri negativo, ma poi
scrivere, come fanno alcuni testi, a|j| .
69
2 1
0 2 4
20
40
60
80
100
0 100
20
40
60
80
5e+17
200
0
100
40
60
80
100
80
100
AR(1), a=1.5
1e+17 2e+17
20
20
40
60
Figura 7.1. Andamento di processi AR(1) per diversi valori del parametro a.
(0)
(1)
..
.
(p 1)
p,q
a11 B
..
AB= .
am1 B
In R il prodotto di Kronecher si esegue con A %x% B.
...
..
.
...
a1n B
..
.
amn B
70
7. I processi ARMA
15
10
15
50
100
150
200
Figura 7.2. Un modello AR(2) con coppia di radici coniugate del polinomio caratteristico mostra un
andamento cicliclo.
i
le radici del polinomio caratteristico 1 1.8z + 0.9z 2 sono z1,2 = 1 , entrambe maggiori
3
di 1 in valore assoluto.3 La figura 7.2 mostra landamento ciclico del processo. Quanto
alle autocovarianze, operando con R come nella figura 7.3 si ottiene:
(0) =
>
>
>
>
>
>
>
Se z
C, |z| = |a + bi| = a
a1 <- 1.8
a2 <- -0.9
F <- matrix(c(a1, a2,
FkF <- F %x% F
I <- diag(4)
M <- solve(I-FkF)
M
[,1]
[,2]
[1,] 51.35135 -43.78378
[2,] 48.64865 -36.21622
[3,] 48.64865 -46.21622
[4,] 51.35135 -43.78378
V[yt] = 51.35
(1) = 48.65
+ b2 . Quindi:
|1 + i/3| =
|1 i/3| =
1 + 1/9 = 1.054
1 + 1/9 = 1.054
[,3]
-43.78378
-46.21622
-36.21622
-43.78378
[,4]
41.59459
39.40541
39.40541
42.59459
71
7.4
La classe dei processi ARMA comprende sia i processi AR che i processi MA come casi
particolari. Un processo ARM A(p, q) definito da:
yt = a1 yt1 + + ap ytp + t + c1 t1 + + cq tq
yt a1 yt1 ap ytp = t + c1 t1 + + cq tq
(1 a1 L ap Lp )yt = (1 + c1 L + + cq Lq )t
A(L)yt = C(L)t
Dato che qualsiasi processo M A(q) stazionario ed ergodico per q finito, le propriet
di un modello ARM A(p, q) dipendono solo dalla sua componente autoregressiva.
7.5
Inferenza
Tradizionalmente lanalisi delle serie storiche si basava sulla individuazione di tre componenti: trend (un andamento di fondo espresso spesso con una funzione polinomiale
di grado non troppo elevato), ciclo (oscillazioni regolari di lungo periodo) e stagionalit
(oscillazioni regolari di breve periodo). Ad esse si aggiungeva la consueta componente
accidentale (lerrore).
Nei termini dellapproccio descritto in questo capitolo il trend chiaramente non
stazionario, mentre ciclo e stagionalit possono essere considerati componenti stazionarie
in quanto oscillazioni a media 0.
Nel caso di trend deterministico, ad esempio T (t) = 1 + 2 t, processi del tipo yt =
T (t) + ut , con ut stazionario a media 0, vendono detti processi TS (Trend-Stationary). In
essi compaiono oscillazioni che tendono a smorzarsi sul trend di lungo periodo.
Viene invece detto trend stocastico un processo in cui compaia una componente non
stazionaria, eventualmente accompagnata da altre componenti stazionarie. Pu anche
accadere che, pur non essendo stazionario yt = T (t) + ut , sia stazionaria la serie delle
differenze prime yt ; in questo caso il processo viene detto DS (Difference-Stationary).
In ogni caso, se il trend stocastico eventuali shock producono oscillazioni persistenti che
non vengono riassorbite.
Quando si ha a che fare con un processo stazionario, i suoi parametri possono essere
stimati via OLS. In particolare, nel caso di un processo AR(p) stazionario, si pu muovere
dal modello:
y t = x 0 + t
dove:
yt1
a1
yt2
a2
x=
.. = ..
.
.
ytp
ap
Disponendo di T osservazioni, la relativa equazione diventa:
y = X +
72
7. I processi ARMA
dove X una matrice T p ciascuna riga xt della quale contiene i valori osservati di ytj ,
j = 1, . . . , p, per diversi valori di t = 1, . . . , T , e lo stimatore OLS :
bT = (X0 X)1 X0 y
Le variabili in gioco non sono indipendenti, ma la consistenza e la normalit asintotica
dello stimatore valgono in virt di teoremi analoghi alla legge dei grandi numeri e al
teorema del limite centrale per variabili iid.
Teorema 7.7. Se yt processo stazionario con media e autocovarianza (j), la media
T
1X
campionaria y =
yt soddisfa le seguenti propriet:4
T t=1
p
a) y ;
b) lim
E[(y )2)]
+
X
(j).
j=
Come si vede, il primo asserto coincide col teorema ergodico come sopra formulato
(pag. 59).
Teorema 7.8 (Anderson). Sia
yt = +
aj tj
j=0
X
d
j
T (
y ) N 0,
j=0 |aj |
< ,
j=
7.5.1
b = (X0 X)1 X0 y,
Pp
n=1 an ytn +t , t
W N (0, 2 ), stazionario
y1,t1 . . . y1,tp
X = . . . . . . . . . . . . . . . . . .
y
.
.
.
y
T,t1
T,tp
y = (y , . . . , y )
1
consistente:
p
b ,
4
= (a1 , . . . , ap )
A rigore, per la media campionaria vale la propriet pi forte della convergenza in media quadratica:
> 0, N :
E[(y
)2 ] < t
73
Inferenza
Dimostrazione. Lo stimatore OLS pu essere scritto nella forma:
b=+ n
T
X
!1
xt x0t
t=1
T
X
xi ut
t=1
2
i
y
y
yt2
. . . yt2 ytp
y
t2 t1
t2
0
.
.
.
.
.
.
2
ytp yt1 ytp yt2 . . .
ytp
ytp
2 ]
E[yt1
E[yt1yt2]
2 ]
E[yt2
E[y y ]
E[xtxt0 ] = t2.. t1
..
.
.
E[ytpyt1] E[ytpyt2]
...
...
..
.
E[yt1ytp]
E[yt2ytp]
E
...
..
<
.
2 ]
[ytp
Inoltre, [xt t ] = 0.
Quindi, per il teorema 7.7 e per il lemma di Slutsky (cfr. teorema 3.3):
p
b+
E[xx0]1E[xu] =
Pp
n=1 an ytn
+ t , t W N (0, 2 ), stazio-
b = (X0 X)1 X0 y
asintoticamente normale:
n(b ) N (0, V)
+
X
j ,
j=
che in effetti finita se il processo stazionario ed ergodico, cio se (j) < per ogni j
P
e
j=0 |(j)| < . In questo caso, quindi, si pu procedere analogamente a quanto visto
nella dimostrazione del teorema 3.4.
Se un processo non stazionario, invece, consistenza e normalit asintotica non valgono pi. In un processo random walk, ad esempio, lunico parametro da stimare il numero
d
1 e non vale pi la lenta convergenza T (bT 1) N (0, V ), ma si ha:
p
T (bT 1) 0
ovvero bT converge a 1 pi rapidamente che nei processi stazionali ( superconsistente).
Si dimostra, inoltre, che T (bT ) converge ad una distribuzione definita in termini
di integrali di moti browniani e i cui quantili sono stati calcolati attraverso simulazioni
numeriche, la prima volta da Dickey e Fuller; viene quindi detta distribuzione DF.
quindi necessario poter stabilire se processo stazionario o non stazionario, in
particolare se I(0) o I(1).
74
7. I processi ARMA
7.5.2
Si tratta di test che usano come ipotesi nulla la non stazionariet. In prima approssimazione, tali test si basano sulle semplici relazioni:
yt = ayt1 + t
yt yt1 = ayt1 yt1 + t
yt = yt1 + t ,
=a1
Eseguita una regressione, si tratta di sottoporre a verifica lipotesi nulla yt ha una radice
unitaria, ovvero = 0 (a = 1, il processo un random walk).
La statistica test q
, tuttavia, non distribuita n come una t di Student, come
[
[]
nel modello lineare normale, n asintoticamente normale, come accade negli altri modelli
visti finora. Ai fini dei test, infatti, rileva la distribuzione sotto ipotesi nulla, che la
distribuzione DF cui tendono gli stimatori. Tali test vengono quindi detti test DF.
Si deve aggiungere che un processo I(1) potrebbe non essere un random walk; potrebbe
infatti presentare, al posto del white noise t , un processo AR(p) con persistenza di breve
periodo. I test ADF (Augmented Dickey-Fuller) e P P (da Phillips e Perron, che lo hanno
proposto) tengono conto di tale possibilit, facendo in modo che la distribuzione del test
non risenta della memoria di breve periodo.5
7.5.3
Test di stazionariet
Altri test seguono lapproccio inverso, scegliendo la stazionarit come ipotesi nulla. Il pi
noto il test KPSS (da Kwiatkowski, Phillips, Schmidt e Shini), la cui idea di fondo
supporre un processo trend-stazionario, effettuare una regressione e verificare se i residui
sono I(0).6
Va notato che i test di radice unitaria e quelli di stazionariet danno spesso, ma non
sempre, risultati coerenti.
5
6
75
Inferenza
7.5.4
La scomposizione di Beveridge-Nelson
Si appena sottolineato che un random walk solo un caso particolare di processo I(1);
possono esservi processi del tipo yt = xt + ut dove xt un random walk ma ut non un
white noise.
In altri termini, dato un processo I(1) si pu stimare un modello ARMA sulle differenze prime, ma non detto che queste descrivano un white noise; in realt il processo di
partenza potrebbe contenere, accanto alla componente non stazionaria, una componente
I(0) responsabile di oscillazioni di breve periodo.
La scomposizione di Beveridge-Nelson consente di separare le due componenti. Essa
si basa su una semplice propriet dei polinomi: dato un polinomio C(z) di ordine q,
sempre possibile trovare un polinomio C (z) di ordine q 1 tale che:
C(z) = C(1) + C (z)(1 z)
dove C(1) non altro che la somma dei coefficienti di C(z).
Infatti, il polinomio D(z) = C(z) C(1) ancora di grado q e 1 una sua radice; si
ha quindi:
D(z)
C(z) C(1)
D(z) = C (z)(1 z) C (z) =
=
1z
1z
Se yt e I(1), allora yt I(0) e ammette una rappresentazione come media mobile:
yt = C(L)t
Scomponendo C(L) si pu scrivere:
yt = [C(1) + C (L)(1 L)] t
= C(1)t + C (L)t C (L)t1
= C(1)t + C (L)t
Definendo un processo rt per cui valga rt = t , quindi un random walk, si giunge a:
yt = C(1)rt + C (L)t
dove C(1)rt un random walk, la componente permanente ad alta persistenza, mentre
C (L)t un processo I(0), la componente transitoria a bassa persistenza.
Esempio 7.11. Dato un processo yt , si valuta che si tratta di un processo I(1) e si stima
il modello ARMA(1, 1):
(1 aL)yt = (1 + cL)t
C(1) non altro che
quindi
C(L) =
1 + cL
1 aL
1+c
. Quanto a C ( L), svolgendo i semplici calcoli si ottiene:
1a
a+c
C (L) =
(1 a)(1 aL)
e poi:
1+c
a+c
rt
(1 aL)1 t
1a
1a
Quindi yt pu essere rappresentato come combinazione di un random walk e di un processo
AR(1) tanto pi persistente quanto maggiore |a|.
yt =
76
7. I processi ARMA
Capitolo 8
I processi VAR
La serie storica del cambio euro/dollaro un processo univariato. Le serie dei cambi
euro/dollaro, euro/yen, /euro/sterlina invece un processo multivariato. Se si considerano
insieme k processi AR(p) univariati, si ottiene un processo VAR(p) multivariato:
yt
k,1
k,k
k,1
k,1
k,k
k,1
k,1
"
y1,t
a
= 11,1
y2,t
a12,1
a11,2
a12,2
#"
"
y1,t1
a
+ 21,1
y2,t1
a22,1
a21,2
a22,2
#"
"
y1,t2
+ 1,t
y2,t2
2,t
Il white noise vettoriale, indicato con VM N (Vector White Noise), molto simile a
quello univariato e presenta propriet analoghe:
E[t] = 0
(j) =
V[t] =
[t 0tj ]
se j = 0
se j =
6 0
La matrice di varianze e covarianze simmetrica e definita positiva, ma non necessariamente diagonale. Ci vuol dire che qualsiasi it incorrelato con qualsiai presente nella
storia passata (j 6= 0), ma potrebbe essere anche correlato con elementi contemporanei.
Esistono versioni vettoriali anche degli altri processi visti nel capitolo precedente,
quindi VM A(q) e VARMA(p, q), ma sono nettamente pi difficili da stimare. Nella pratica,
quindi, si usano molto spesso i processi VAR(p).
Il capitolo illustra la motivazione originaria dei processi VAR, le condizioni di stazionariet e gli aspetti inferenziali.
8.1
Macroeconomia e realt
Il titolo della sezione quello dellarticolo di Sims (1980) che ha introdotto i modelli VAR.
Sims mosse da unanalisi critica dei modelli basati su equazioni simultanee, del tipo:1
(
yt = ct + it + u1t
ct = 0 yt + 1 yt1 + 2 yt2 + 3 + u2t
La sezione si basa su Carlucci e Girardi (sd, pp. 2-4) e Lucchetti (2008, pp. 84-85).
77
78
8. I processi VAR
in cui yt il reddito, ct il consumo e it linvestimento. Si tratta di modelli ricavati direttamente dalla teoria economica, detti quindi strutturali, e basati sulla distinzione tra
variabili endogene ed esogene (in senso economico, non econometrico; cfr. cap. 3).
Sims mosse tre critiche:
a) la distinzione tra endogene e esogene arbitraria; ad esempio, nel modello appena visto
it unesogena, ma si potrebbe aggiungere unequazione in cui linvestimento fosse
a sua volta dipendente dal reddito (ipotesi tuttaltro che avventata) e diventerebbe
endogena;
b) ciascuna singola equazione costituisce un modello di equilibrio parziale e, come tale, si
basa su ipotesi economiche che impongono una serie di vincoli del tipo ceteris paribus;
tali vincoli, per, variano da equazione a equazione e possono risultare contraddittori
quando si esamina il modello nel suo complesso;
c) il numero dei parametri spesso maggiore del numero delle equazioni, rendendo i
parametri non identificabili (non stimabili in modo univoco); il problema viene risolto
adottando ipotesi economiche che consentano di introdurre restrizioni sui parametri,
ad esempio di azzerarne alcuni; si tratta per di restrizioni poco credibili, in quanto
derivate dalla teoria economica solo per risolvere un problema prettamente statistico.
Propose invece i VAR. In essi le singole equazioni, tutte in forma matriciale e tante
quante sono le unit temporali considerate, non costituiscono modelli di equilibrio parziale, ma ciascuna variabile pu dipendere a priori da ogni altra; si ha infatti ununica
variabile multipla, yt , che dipende da se stessa ritardata di 1, 2, . . . , p unit temporali.
Non vi bisogno di basare le equazioni su ipotesi economiche (almeno non nella formulazione iniziale del modello), soprattutto non si deve ricorrere a ipotesi economiche per
giustificare restrizioni motivate solo da considerazioni di tipo statistico.
Allinizio i modelli vennero etichettati come a-teorici, e non sembrava un complimento, ma si sono poi molto diffusi e hanno ormai sostituito i sistemi di equazioni
simultanee.
8.2
Condizioni di stazionariet
A(L) = I A1 L A2 L2 Ap Lp
79
Condizioni di stazionariet
Cn tn
n=0
C. Si ha:
A(z)1 =
adj A(z)
det A(z)
n=1
z mn
zn
dove zn una radice e mn la sua molteplicit algebrica (si pu dividere per zn in quanto
0 non pu essere una radice: det A(0) = det I = 1). Le radici zn sono punti di singolarit:
lim
|zzn |0
C(z) =
cn z n ,
cn =
n=0
C(n) (0)
n!
cn Ln tn
n=0
cn <
n=0
In questo caso, il processo VAR(p) rappresentabile come un processo VMA() stazionario ed ergodico (Hamilton 1994).
Esempio 8.2. Dato il processo:
"
yt = Ayt1 + t ,
3 6
A=
1 4
80
8. I processi VAR
si ha:
"
1 3z 6z
A(z) = I Az =
,
z
1 4z
1
Le radici del polinomio caratteristico sono z1 = 1 e z2 = . Ne risulta che il processo
6
esplosivo in quanto ha una matrice dentro il cerchio unitario.
8.3
Inferenza
Capitolo 9
Cointegrazione
possibile definire processi stocastici che siano combinazioni lineari di processi stocastici.
La combinazione lineare di due processi stazionari ancora un processo stazionario, quella
di un processo I(1) e un processo I(0) I(1).1 La combinazione lineare di due processi
I(1), invece, non sempre I(1); se risulta I(0) i due processi vengono detti cointegrati.
Una combinazione lineare I(0), se esiste, vuol dire che i due processi possono ciascuno
tendere verso qualche asintoto, ma c comunque tra loro una relazione che vale sempre.
In termini economici, potrebbe voler dire che esiste tra loro una relazione di equilibrio di
lungo periodo.
9.1
Definizioni
Dati due processi stocastici xt I(d) e yt I(b), una loro combinazione lineare zt =
xt + ayt I(c), dove:
(
c = max{d, b} se d 6= b
c max{d, b} se d = b
Se d = b e c < max{d, b} (secondo caso con disuguaglianza stretta), si ha cointegrazione.
Si considera spesso il caso di due processi I(1) per i quali esista una combinazione
lineare I(0). Ad esempio:
x1t = x1t1 + t
x2t = x1t + ut
dove t e ut sono I(0). I due processi sono chiaramente I(1). Il processo
zt = x2t x1t = ut
altrettanto chiaramente I(0). Quindi c cointegrazione.
Si pu costruire un vettore yt = (x1t , x2t ) contenente i due processi I(1) come elementi
e scrivere:
" #
" #
x1t
1
0
zt = yt = ut
yt =
, =
x2t
1
1
81
82
9. Cointegrazione
Il vettore viene detto vettore di cointegrazione. Nel caso ce ne fossero pi duno si parla
di matrice di correlazione e il numero di vettori linearmente indipendenti viene detto
rango di correlazione.
Un processo I(1) multivariato per il quale esista almeno un vettore di cointegrazione
viene detto sistema cointegrato.
9.2
=AI
n,n
r = 0:
r,n r,1
n,1
r,1
r,n n,1
83
Esempio 9.1. Si pu supporre di esaminare le serie storiche dei logaritmi del PIL, yt , e
dellofferta reale di moneta, mt . Si avrebbe un modello del tipo:
"
"
"
y
y
xt = t = A t1 + 1t
2t
mt1
mt
9.3
t
X
i=0
t +
X
n=0
cn tn ,
C = (M)1 0
84
9. Cointegrazione
0 yt = 0 C
t
X
t + 0
i=0
= 0 (M)1
X
n=0
t
X
0
i=0
= 0
cn tn
t + 0
cn tn
n=0
cn tn
n=0
Parte III
Appendici
Appendice A
Come noto, data una matrice quadrata A di ordine n a rango pieno, si dice sua inversa
e si indica con A1 una matrice tale che:
AA1 = A1 A = I
La definizione di inversa pu essere tuttavia resa pi generale e cos applicabile anche a
matrici non quadrate e/o non di rango pieno.
Definizione A.1. Data una matrice A , si dicono sua inversa destra una matrice A R ,
m,n
n,m
A L A = I
A A R = I
m,n n,m
m,m
n,m
m,n
n,n
2
3
1
A= 1
2 1
"
"
si verifica facilmente che B e C sono entrambe inverse sinistre di A e che le loro trasposte
sono entrambe inverse destre della trasposta di A:
A0 B0 = A0 C0 = I2
BA = CA = I2
Esempio A.4. In generale:
87
88
A0A
n,m m,n
una matrice
(A0 A)
A0
n,m
n,n
m,n
n,n
n,m
m,n
m,m
m,m
n,m
Teorema A.5. Se A una matrice quadrata di rango pieno, le sue inverse destra e
sinistra coincidono e sono uniche. La matrice AL = AR = A1 viene detta linversa
di A.
Definizione A.6. Data una matrice A , si dice sua inversa generalizzata una matrice
m,n
A tale che:
n,m
A A A = A
m,n n,m
m,n
m,n
Osservazione A.7. Se A ha uninversa destra o sinistra, questa anche una sua inversa
generalizzata; infatti:
AAR A = IA = A
AAL A = AI = A
Ne segue che linversa generalizzata non unica, a meno che A sia quadrata e di rango
pieno; in tal caso, infatti, AR = AL = A1 e AA1 A = A, oppure, se A non
quadrata o non di rango pieno, che linversa generalizzata sia tale da soddisfare le
propriet esposte nella definizione che segue.
Definizione A.8. Data una matrice A , uninversa generalizzata A + tale che:
m,n
a)
AA+ A
b)
A+ AA+
n,m
= A;
= A+ ;
c) AA+ = (AA+ )0 ;
d) A+ A = (A+ A)0 ;
viene detta pseudoinversa (di Moore-Penrose).
Esempio A.9. La matrice B dellesempio A.3 la presudoinversa della matrice A, come
si verifica facilmente. Non lo invece C, in quanto AC non simmetrica.
Una matrice pu avere uninversa destra o sinistra solo se a rango pieno, ma si
dimostra che ogni matrice ha una pseudo inversa di Moore-Penrose e, inoltre, che questa
unica.
Osservazione A.10. Per trovare la pseudoinversa di una matrice si pu ricorrere alla scomposizione ai valori singolari, mediante la quale la matrice viene scomposta nel
prodotto di tre matrici:
A = U V0
m,n
dove:
89
Matrici di proiezione
U una matrice ortogonale le cui colonne sono autovettori di AA0 ;
11 . . . . . .
. . . . . . . . . O
m,n
. . . . . . rr
O
O
1/11 . . .
...
. . .
.
.
.
.
. . O
+ =
n,m
...
. . . 1/rr
O
O
e si ha:
1 ... ...
. . . . . . . . . O
+ =
... ... 1
O
O mm
1 ... ...
. . . . . . . . . O
+ =
... ... 1
O
O nn
A.2
Matrici di proiezione
Come noto:
a) dato uno spazio vettoriale V , due suoi sottospazi U e W sono detti ortogonali se,
comunque presi due vettori u U e w W , si ha u0 w = w0 u = 0;
b) se V = U W , la somma diretta U W viene detta scomposizione ortogonale di V , U
viene scritto anche come W e W come U , U e W vengono detti luno il complemento
ortogonale dellaltro;
c) se U un sottospazio di
Rn, U U = Rn;
d) se i vettori di una base di uno spazio vettoriale sono tra loro a due a due ortogonali,
la base viene detta ortogonale;
e) se i vettori di uba base di uno spazio vettoriale sono tra loro a due a due ortogonali e
hanno norma unitaria, la base viene detta ortonormale.
Esempio A.11. Prima di procedere, potrebbe essere utile qualche esempio basato sui
familiari spazi n . Se U 2 uno spazio ad una dimensione, pu essere linsieme delle
rette proporzionali al vettore unitario e1 = (1, 0) (lasse delle ascisse); il suo complemento
ortogonale il sottospazio W delle rette proporzionali al vettore e2 = (0, 1); la somma
diretta dei due sottospazi il piano 2 , con base ortonormale {(1, 0), (0, 1)}. Analogamente, se U 3 uno spazio a due dimensioni con base {e1 = (1, 0, 0), e2 = (0, 1, 0)}
90
pu essere visto come il piano xy, i cui punti hanno ascissa x, ordinata y e quota nulla; il suo complemento ortogonale il sottospazio W delle rette proporzionali al vettore
e3 = (0, 0, 1); la loro somma diretta lo spazio tridimensionale 3 con base ortonormale
{e1 , e2 , e3 }.
v = v1 + v2
v1 U, v2 U
a) Pv U per ogni v
Rn;
b) Pv = v per ogni v U .
Osservazione A.14. Dalla definizione di matrice di proiezione segue che PPv = Pv (da
destra verso sinistra: Pv trasforma v in un vettore di U ; la successiva moltiplicazione per
P lascia immutato il risultato); segue cio che una matrice di proiezione una matrice
idempotente: P2 = P.
Osservazione A.15. La matrice identit I chiaramente idempotente. Se P una
matrice idempotente, tale anche I P. Infatti:
(I P)2 = I2 IP PI + P2 = I 2P + P = I P
R R
P0 (I P) = P0 P0 P = O
Ci possibile se e solo se P0 P = (P0 )2 = P0 , cio se e solo se P = P0 .
Esempio A.18. Sia {u1 = (1, 0, 0), u2 = (1, 1, 0)} una base di U
1 0 1
P = 0 1 1
0 0 0
0 0 1
I P = 0 0 1
0 0 1
R3. Le matrici:
91
1 0 0
P = 0 1 0
0 0 0
R3. Le matrici:
0 0 0
I P = 0 0 0
0 0 1
A.3
noto che una qualsiasi matrice pu essere considerata come associata ad unapplicazione lineare e che, quindi, si usa parlare di immagine di una matrice; ad esempio, data
unapplicazione lineare L : n m , ad essa pu essere associata una matrice A tale
R
m,n
che, per ogni v Rn , L(v) = Av Rm . Limmagine di una matrice quindi linsieme di
92
m,np
rk(AA0 ) = rk(A)
Dimostrazione. Per luguaglianza delle immagini si tratta di dimostrare che valgono sia
Im(A) Im(AA0 ) che Im(AA0 ) Im(A). La seconda inclusione segue dalla proposizione
precedente.
Se v un vettore appartenente al complemento ortogonale di Im(AA0 ), v appartiene
anche al complemento ortogonale di Im(A):
v Im(AA0 )
v0 AA0 = 0
Av = 0
v0 AA0 v = 0
v Im(A)
kAvk = 0
m,n
C = A B
m,p
m,n n,p
Dimostrazione. Im(C) lo spazio generato dalle colonne di C. Perch questo sia incluso
nellimmagine di A, per ciascuna colonna ci di C deve esservi un vettore bi tale che
Abi = ci . Quindi C = {c1 : : cp } deve essere uguale a AB con B = {b1 : : bp }.
Proposizione A.27. Date due matrici A e B, se Im(B) Im(A) allora AA B = B,
quale che sia linversa generalizzata di A. Analogamente, se Im(B0 ) Im(A0 ) allora
BA A = B.
93
BA
1 C BA2 C = NAA1 AM NAA2 AM = N(AA1 A AA2 A)M
= N(A A)M = O
Si pu dimostrare anche limplicazione inversa.
Proposizione A.29. Il prodotto di due matrici A e B nullo se e solo se limmagine
delluna inclusa nel complemento ortogonale dellimmagine dellaltra:
Im(B0 A) = O
Im(B) Im(A)
Dimostrazione. Si pu vedere A come associata allapplicazione L : n m . Limmagine di A un sottospazio di m di dimensione pari al rango di A; essendo m =
Im(A) Im(A) , la dimensione di Im(A) m rk(A).
94
A.4
Rn in quanto:
n,p p,n
p,n
Py = A(A0 A) A0 y = A(A0 A) 0 = 0
Inoltre, per qualsiasi vettore v
(In P)y = y
Appendice B
Definizione B.1. Se y una variabile che assume valori diversi nel tempo, indicando
con yt il suo valore al tempo t, si dice equazione alle differenze lineare del primo ordine
unequazione del tipo:
yt = yy1 + wt
(B.1)
in cui wt un termine di una successione {w0 , w1 , w2 , . . . }.
Unequazione alle differenze descrive lo stato di un sistema al variare del tempo.
Definizione B.2. Data unequazione alle differenze lineare del primo ordine, si dice
moltiplicatore dinamico leffetto di un cambiamento di wt sul valore di yt+j .
Proposizione B.3. Il moltiplicatore dinamico di unequazione alle differenze lineare del
primo ordine dipende solo dal coefficiente e dal numero j di periodi compresi tra t e
t + j.
Dimostrazione. Per determinare leffetto su yt di un cambiamento nel valore di w0 si pu
adottare una sostituzione ricorsiva; ipotizzando dato y1 :
y0 = y1 + w0
y1 = y0 + w1
y2 = y1 + w2
..
.
yt = yt1 + wt
da cui:
yt = yt1 + wt = (yt2 + wt1 ) + wt
= 2 yt2 + wt1 + wt = 2 (yt3 + wt2 ) + wt1 + wt
= 3 yt3 + 2 wt2 + wt1 + wt
...
= t+1 y1 + t w0 + t1 w1 + t2 w2 + + wt1 + wt
95
96
B.2
Definizione B.5. Se y una variabile che assume valori diversi nel tempo, indicando con
yt il suo valore al tempo t, si dice equazione alle differenze lineare di ordine p unequazione
del tipo:
yt = 1 yt1 + 2 yt2 + + p ytp + wt
(B.2)
in cui wt un termine di una successione {w0 , w1 , w2 , . . . }.
Risulta comodo riscrivere la (B.2) in forma matriciale. Ponendo:
yt
1 2
1
0
0
1
F=
..
..
.
.
0 0
t1
t =
t2 ,
..
.
ytp+1
wt
0
0
vt =
..
.
. . . p1 p
...
0
0
...
0
0 ,
..
..
...
.
.
...
1
0
Si pu scrivere:
t = Ft1 + vt
ovvero:
yt
1 2
y
1
0
t1
1
yt2 = 0
..
.. ..
. .
.
ytp+1
0 0
(B.3)
yt1
p1 p
wt
0
0 yt2 0
..
0
0
+0
.
..
..
.
. yt(p1) ..
1
0
0
ytp
Si tratta di un sistema di p equazioni, la prima delle quali la (B.2), la seconda semplicemente yt1 = tt1 , la terza yt2 = yt2 , la p-esima ytp+1 = ytp+1 .
97
wt
wt1
w1
w0
y1
0 0
0
0
y
2
t1
.. ..
..
..
..
..
. .
.
.
.
.
0
0
0
0
yp
ytp+1
yt
(k)
Indicando con frc lelemento (r, c) della matrice Fk , la prima equazione di tale sistema
:
(t+1)
yt = f11
(t+1)
y1 + f12
(t)
(t1)
+ f11 w0 + f11
(t+1)
y2 + + f1p
yp
(1)
w1 + + f11 wt1 + wt
Generalizzando:
t+j = Fj+1 t1 + Fj vt + Fj1 vt+1 + Fj2 vt+2 + + Fvt+j1 + vt+j
da cui:
(j+1)
yt+j = f11
(j+1)
yt1 + f12
(j)
(j1)
+ f11 wt + f11
(j+1)
yt2 + + f1p
ytp
(1)
98
t11 t12
t
21 t22
Fj =
..
..
.
.
tp1 tp2
t1p j1 0
j
t2p
0 2
. .
..
.. ..
.
tpp
0 0
t11 j1 t12 j2
j
j
t21 1 t22 2
=
..
..
.
.
j
tp1 1 tp2 j2
0
t11 t12
21 22
t
0 t
.
..
..
.
. ..
p1 tp2
j
t
p
..
..
.
.
. ..
p1 tp2
j
t
tpp p
t1p
t2p
..
.
tpp
t1p
t2p
..
.
tpp
f11 = (t11 t11 )j1 + (t12 t21 )j2 + + (t1p tp1 )jp
Dal momento che TT1 = I, la somma dei prodotti tij tji uguale a 1. Si ha quindi:
(j)
f11 = c1 j1 + c2 j2 + + jp
c1 + + cp = 1
p1
i
p
Q
(i k )
k=1,k6=i
Se gli autovalori di F sono tutti reali, il sistema stabile se essi sono tutti minori di
uno in valore assoluto, esplosivo se almeno uno maggiore di 1 in valore assoluto.
Esempio B.9. La funzione R lde.dm(), proposta nella figura B.1, accetta come argomenti un vettore di coefficienti i e, opzionalmente, un numero di ritardi per default
pari a 40. Un terzo parametro opzionale consente di evitare la produzione del grafico dei
moltiplicatori dinamici al crescere dei ritardi. La funzione calcola gli autovalori, il loro
valore assoluto e i coefficienti ci . Se lequazione :
yt = 0.6yt1 + 0.2yt2 + wt
si ottiene:
> lde.dm(c(0.6, 0.2))
$lambda
[1] 0.8385165 -0.2385165
$mod
[1] 0.8385165 0.2385165
$c
[1] 0.778543 0.221457
99
Gli autovalori sono tutti minori di 1 in valore assoluto, quindi il sistema stabile (figura
B.2, primo grafico dallalto). Se invece lequazione :
yt = 0.6yt1 + 0.8yt2 + wt
si ottiene:
> lde.dm(c(0.6, 0.8))
$lambda
[1] 1.2433981 -0.6433981
$mod
[1] 1.2433981 0.6433981
$c
[1] 0.6589997 0.3410003
Ora un autovalore maggiore di 1, quindi il sistema esplosivo (figura B.2, secondo
grafico dallalto).
Se alcuni autovalori di F sono complessi, essi compaiono a coppie (un complesso e il
suo coniugato). Per elevare a potenza un autovalore complesso, lo si scrive nella forma:
i = r[cos() + i sin()]
dove r = |i |, e si ha:
ji = rj [cos(j) + i sin(j)]
100
0.0
0.2
0.4
0.6
10
20
30
40
30
40
30
40
30
40
30
40
1000
3000
10
20
0.6
0.2
0.2
0.6
10
20
80000
20000
40000
10
20
0.5
0.0
0.5
10
20
Figura B.2. Moltiplicatori dinamici tendenti a zero, allinfinito o periodici al variare dei coefficienti i .
il cui coniugato :
ji+1 = rj [cos(j) i sin(j)]
Il moltiplicatore dinamico diventa, nel caso di unequazione del secondo ordine con
due autovalori complessi coniugati:
yt+j
= c1 j1 + c2 j2 = c1 rj [cos(j) + i sin(j)] + c1 rj [cos(j) i sin(j)]
wt
= (c1 + c2 )rj cos(j) + i (c1 c2 )rj sin(j)
Per la proposizione B.8, se 1 e 2 sono complessi coniugati sono tali anche c1 e c2 ,
ovvero:
c1 = + i
c2 = i
101
102
> lde.dm(c(-0.9,0.1))
$lambda
[1] -1.0 0.1
$mod
[1] 1.0 0.1
$c
[1] 0.9090909 0.0909091
Gli autovalori sono reali, il maggior valore assoluto uguale a 1 e i moltiplicatori mostrano
un andamento periodico (figura B.2, primo grafico dal basso).
Infine, se la matrice F non diagonalizzabile i risultati precedenti possono essere
generalizzati usando la decomposizione di Jordan:
F = MJM1
Fj = MJj M1
Appendice C
Richiami di probabilit e di
statistica
C.1
FX,Y (x, y) =
fX,Y (u, v) du dv
dove fX,Y (x, y) la funzione di densit della v.a. con funzione di ripartizione F (x, y).
Considerando la sola componente X di una v.a. doppia (X, Y ), la sua funzione di
ripartizione
Z x
Z +
du
fX,Y (u, v) dv
Z x
fX (u) du, le
fX (x) =
Z +
fX,Y (x, y) dy
fY (y) =
fX,Y (x, y) dx
Sempre nel caso di una v.a. doppia (X, Y ), la densit condizionata di X dato levento
Y =y
fX,Y (x, y)
fX|Y (x | y) =
fY (y)
103
104
C.2
Aspettativa condizionata
Date due variabili aleatorie assolutamente continue X e Y definite nello stesso spazio
di probabilit, [X | Y ] anchessa una variabile aleatoria, detta aspettativa (o media)
condizionata, e assume i valori:
E[X | Y
Z +
= y] =
xfX|Y (x | y) dx =
Z +
fX,Y (x, y)
fY (y)
dx
E[a | Y ] = a;
b) E[aX + bZ | Y ] = aE[X | Y ] + bE[Z | Y ] (linearit);
c) E[X | Y ] 0 se X 0;
d) E[X | Y ] = E[X] se X e Y sono indipendenti, infatti in questo caso:
a) se a una qualsiasi costante,
E[X | Y
= y] =
Z +
fX,Y (x, y)
Z +
dx =
Z +
fX (x)fY (y)
x fX (x)dx =
=
e)
fY (y)
ind
fY (y)
dx
E[X]
=y
E[g(Y )X | Y
= y] =
g(y)xfX|Y (x | y) dx
Z
= g(y)
xfX|Y (x | y) dx = g(y) [X | Y = y]
C.2.1
E E[X | Y ]
h
Infatti,
E E[X | Y ]
h
dove
E[X | Y
Z +
= y] =
xfX (x) dx
E[X]
E[X | Y
Z +
Si ha quindi:
E[X] =
= y]fY (y) dy
xfX|Y (x | y) dx
105
Z Z
fX,Y (x, y) dy
=
Z
dx
Z Z
xfX|Y (x | y)dx
E[X | Y
dy
= y]fY (y) dy =
E E[X | Y ]
h
Informalmente, la legge dice che il valore atteso totale di X uguale alla somma dei
valori attesi di X | Y per tutti i diversi possibili valori che Y pu assumere, ciascuno
ponderato con la propria probabilit.
C.2.2
La legge della varianza totale (LTV, Law of Total Variance stabilisce che:
V[X] = E V[X | Y ]
h
V E[X | Y ]
h
Infatti:
E E[X | Y ]
i2
E V[X | Y ] + E[X | Y ]2
h
E E[X | Y ]
i2
E:
E V[X | Y ] + E E[X | Y ]2
h
i
h
i
= E V[X | Y ] + V E[X | Y ]
=
C.3
h
E E[X | Y ]
h
i2
Data una variabile aleatoria X con funzione di ripartizione FX (x) = P [X < x], la funzione
caratteristica della v.a. X una funzione X : definita da:1
R C
X (t) =
E[eitX ] =
Z +
eitx fX (x) dx
Esiste una corrispondenza biunivoca tra la funzione caratteristica e la funzione di ripartizione di una qualsiasi variabile aleatoria. La funzione caratteristica presenta, tra altre,
le seguenti propriet:
1
106
X (0) = 1
dn
(n)
X (0) = in [X n ]
(t)
X
n
dt
t=0
c) la f.c. di una trasformazione affine di X, Z = aX + b,
Z (t) =
E[eitc] = eitc
t2 2
2
Z (t) = e 2
C.4
C.4.1
Dal momento che FX (x) = P [X < x], la convergenza in distribuzione comporta che,
al crescere di n, la probabilit che la successione assuma valori minori di x diventa sempre
pi simile alla probabilit che X assuma valori minori di x, ma non che Xn e X tendano
ad assumere gli stessi valori.
Si dice invece che una successione Xn di variabili aleatorie converge in probabilit alla
p
variabile aleatoria X, e si scrive Xn X oppure plim Xn = X, se
> 0,
oppure, equivalentemente, se
> 0,
Se vale la convergenza quasi certa, allaumentare di n le variabili Xn e X tendono a differire solo per
eventi di probabilit nulla.
107
Xn X
Xn X
Xn c
Xn c
Inoltre:
Teorema di Slutsky. Se Xn e Yn sono due successioni di variabili aleatorie tali che
d
Xn converge in distribuzione ad una variabile aleatoria X, Xn X, e Yn converge in
p
probabilit ad una costante reale c, Yn c, allora:
d
Xn + Yn X + c;
d
Xn Yn cX;
d
Xn /Yn X/c, se c 6= 0.
Lemma di Slutsky. Date una successione Xn di variabili aleatorie k-dimensionali e
p
una funzione g : k
una funzione continua in X k , se Xn X allora
p
g(Xn ) g(X):
p
p
Xn X g(Xn ) g(X)
C.4.2
Teorema C.1 (Legge dei grandi numeri, LLN (Law of Large Numbers)). Data una
successione Xn di variabili aleatorie indipendenti e identicamente distribuite, con [X] =
n = Sn la loro media,
< , indicando con Sn la somma dei primi n termini e con X
n
si ha:
i
h
p
Xn
ovvero
> 0, lim P X
n < = 1
Sn (t) =
V[X] < .
eitXn ]
Passando per il logaritmo, log X (t)n = n log X (t). Sviluppando log X (t) secondo
Taylor nellintorno di 0:
log X (t)
(1)
t=0
(2)
(1)
(0)
X (0)X (0) X (0)2 t2
= log X (0) + X
t+
+ R(t)t3
X (0)
X (0)2
2
t2
= 0 + i [X]t + (i2 [X 2 ] (i [X])2 ) + R(t)t3
2
2
t
= i [X]t + ( [X 2 ] + [X]2 ) + R(t)t3
2
t2
= i [X]t [X] + R(t)t3
2
E
E
108
Si ha quindi:
t2
[X] + R(t)t3
2
n si ha:
Poich aX (t) = X (at), per X
t
n
X n (t) = 1 Sn (t) = Sn
n
t
n
t
= n i [X]
n
a) se
t
V[X] 2n
+R
2
= i [X]t
Ora:
3!
t
t2
t
[X] 2 + R
2n
n
n3
3
t t
n2
E[X] = = 0,
V
t t3
t2
+R
log Xn (t) = [X]
2n
n n2
lim log Xn (t) = 0
lim Xn (t) = [eitXn ] = 1
b) se [X] = 6= 0, ponendo Yn = Xn ,
analogo a:
n
X
Yj
j=1
n
X
Xj
j=1
n
X
Xj
j=1
p
n
=X
0
p
n
X
C.4.3
Teorema C.2 (Teorema del limite centrale, CLT (Central Limit Theorem)). Data una
successione Xn di variabili aleatorie indipendenti e identicamente distribuite, con [X] =
< e [X] = 2 < , indicando con Sn la somma dei primi n termini, si ha:
Sn [Sn ] d
N (0,
n
V[X])
109
Dimostrazione. Sia
Un (t) = Sn
nonch:
t2
t3
= n [X] 2 + R(t/ n) 3
2( n)
( n)
= [X]
t2
t3
+ R(t/ n) 1/2
2
n
quindi:
da cui:
lim Un (t) = e
t2
t2 [X]
2
V[X]
2
Ma questa la funzione caratteristica di una v.a. normale con media nulla e varianza
[X], quindi:
d
Un N (0, [X])
Se
N (0, V[X])
n
110
Bibliografia
Carlucci, F. e Girardi, A. (s.d.), Modelli autoregressivi vettoriali, http://dep.eco.
uniroma1.it/~carlucci/docs/Modulo10-01.pdf.
Cottrell, A. e Lucchetti, R. (2010), Gretl Users Guide, manuale utente distribuito con
gretl 1.8.1, http://gretl.sourceforge.net/.
Cribari-Neto, F. (2004), Asymptotic inference under heteroskedasticity of unknown form,
Computational Statistics & Data Analysis, Vol. 45 (2), pp. 215233, http://dx.doi.org/10.
1016/S0167-9473(02)00366-3.
DallAglio, G. (2003), Calcolo delle probabilit, Zanichelli, Bologna.
Engle, R. F. e Granger, C. W. J. (1987), Co-Integration and Error Correction: Representation, Estimation, and Testing, Econometrica, Vol. 55 (2), pp. 251276, http://www.jstor.
org/stable/1913236.
Hamilton, J. D. (1994), Time Series Analysis, Princeton University Press, Princeton (NJ).
Hansen, B. E. (2010), Econometrics, draft graduate textbook, http://www.ssc.wisc.edu/
~bhansen/econometrics/Econometrics.pdf.
Johansen, S. r. (1991), Estimation and Hypothesis Testing of Cointegration Vectors in
Gaussian Vector Autoregressive Models, Econometrica, Vol. 59 (6), pp. 15511580, http:
//www.jstor.org/stable/2938278.
Kutner, M. H. et al. (2005), Applied Linear Statistical Models, McGraw-Hill, New York (NY).
Lucchetti, R. (2008), Appunti di analisi delle serie storiche, http://www.econ.univpm.it/
lucchetti/didattica/matvario/procstoc.pdf.
McCloskey, D. N. e Ziliak, S. T. (1996), The Standard Error of Regressions, Journal of
Economic Literature, Vol. 34 (1), pp. 97114, http://www.jstor.org/stable/2729411.
Sims, C. A. (1980), Macroeconomics and Reality, Econometrica, Vol. 48 (1), pp. 148, http:
//www.jstor.org/stable/1912017.
Wonnacott, T. H. e Wonnacott, R. J. (1982), Introduzione alla statistica, Franco Angeli,
Milano.
Wooldridge, J. M. (2002), Econometric Analysis of Cross Section and Panel Data, MIT Press,
Cambridge (MA).
Yule, G. U. (1926), Why do we Sometimes get Nonsense-Correlations between Time-Series?A
Study in Sampling and the Nature of Time-Series, Journal of the Royal Statistical Society,
Vol. 89 (1), pp. 163, http://www.jstor.org/stable/2341482.
111
112
BIBLIOGRAFIA
Zeileis, A. (2004), Econometric Computing with HC and HAC Covariance Matrix Estimators,
Journal of Statistical Software, Vol. 11 (10), pp. 117, http://www.jstatsoft.org/v11/i10.
Ziliak, S. T. e McCloskey, D. N. (2004), Size matters: the standard error of regressions
in the American Economic Review, Journal of Socio-Economics, Vol. 33 (5), pp. 527546,
http://dx.doi.org/10.1016/j.socec.2004.09.024.