Sei sulla pagina 1di 18

Corso di Laurea in Economia dei Mercati

e degli Intermediari Finanziari


Metodi Quantitativi per l'Economia
Prof.ssa Marianna Brunetti

Questa dispensa ha lo scopo di raccogliere tutte le dimostrazioni o i metodi in cui sono stati ricavati
alcuni risultati presentati in aula. In nessun modo sostituisce lo studio sul libro di testo.

Valore atteso e varianza di una variabile standardizzata Data una v.a. X con E(X) = µ
e V (X) = σ , la sua versione standardizzata è Z =
2 X−µ
σ
, ed ha E(Z) = 0 e V(Z) = 1.
Dimostrazione

X−µ
= σ1 [E(X) − µ] = 0

• E(Z) = E σ

X−µ
= V ( Xσ − σµ ) = 1 1
+ σ2 [Cov(X, µ)] = 1

• V (Z) = V σ σ2
[V (X)] + [V (µ)]
σ 2 | {z } | {z }
=0 =0

Legge delle aspettative iterate E(Y ) = E[E(Y |Xi )]

Dimostrazione (caso discreto)


Poichè E(Y |Xi ) = yj P (Y |Xi ), si ha:
Pk
j=1
n X
k
X XX P (Xi Yj )
E[E(Y |Xi )] = yj P (Y |Xi )P (Xi ) = yj P (Xi ) =
i=1 j=1 i j
P (Xi )
X X X
= yj P (Xi Yj ) = yj P (Yj ) = E(Y )
j i j

1
Covarianza nulla tra due variabili indipendenti Se X ed Y sono idipendenti ⇒ σXY = 0
Dimostrazione (caso discreto)

XX
COV (X, Y ) = σXY = E(XY ) − E(X)E(Y ) = Xi Yj P (Xi Yj ) − E(X)E(Y )
i j
XX
= Xi Yj P (Xi )P (Yj ) − E(X)E(Y )
i j
X X
= Xi P (Xi ) Yj P (Yj ) − E(X)E(Y ) = 0
i j
| {z }| {z }
E(X) E(Y )

dove nel secondo passaggio si è sfruttato il fatto che, in caso di indipendenza, P (Xi Yj ) = P (Xi )P (Yj ).

− X̄)2 è uno stimatore non


1
Pn
Non distorsione della Varianza Campionaria s2 = n−1 i=1 (xi
distorto per σ 2
Dimostrazione

n
! n
!
1 X 1 X
E(s2 ) = E (xi − X̄)2 = E (xi − µ + µ − X̄)2
n − 1 i=1 n−1 i=1
 

1 X X 
= E  (xi − µ)2 − n(X̄ − µ)2 − 2(X̄ − µ) (xi − µ)
 
n−1  i 
| i {z }
=0
!
1 X n
= E (xi − µ)2 − E(X̄ − µ)2
n−1 i
n − 1
1 X n
= E(xi − µ)2 − E(X̄ − µ)2
n−1 i n−1
1 n σ2
= nσ 2 − = σ2
n−1 n−1 n

dove
P nel quarto passaggio si è sfruttata la proprietà di linearità del valore atteso e nell'ultimo che
i (xi − µ) = σ e i (X̄ − µ) = n .
2 2 2 σ2
P

Stimatore dei Minimi Quadrati (OLS) per i parametri della retta di regressione linea-
re Si veda l'appendice 3.A1 del libro di testo.

2
Gli stimatori OLS dei parametri della retta di regressione lineare come trasformazioni
Si ricavino α̂ e β̂ come combinazioni lineari di yt , ovvero α̂ = ,
P P
lineari di yt t at yt , β̂ = t bt y t
dove
1 xt − x̄
at = − x̄bt e bt = P 2
T t (xt − x̄)
Si dimostrino inoltre le proprietà dei pesi at e bt .
Dimostrazione

P P P x − x̄
COV (XY ) t −x̄)
(xP (yt −ȳ) P(xt −x̄)y2t P t
P
β̂ = V (X)
= (xt −x̄)2
= (xt −x̄)
= yt
(xt − x̄)2
| {z }
bt
 
1
P P 1
P P 1
α̂ = ȳ − β̂ x̄ = T t yt − t bt y t T t xt = − x̄bt yt
T
| {z }
at

P xt −x̄ 2 = 0 per la proprietà della media


P P
bt = (xt −x̄)

P
P P (xt −x̄)xt P
Pt −x̄)(xt2−x̄)
(x
bt x t = P
(xt −x̄)2
− (xt − x̄)x̄ = (xt −x̄)
=1

1 T
bt = 1, dove nell'ultimo passaggio si è sfruttato il risultato prece-
P P  P
at = − x̄b
T t = T
− x̄
dente per cui bt = 0
P

1
− x̄bt xt =PT1 xt − x̄ bt xt = 0, dove nell'ultimo passaggio si è sfruttato il
P P  P P
at x t = T
risultato precedente per cui bt xt = 1

Distribuzione campionaria degli stimatori OLS dei parametri della retta di regressione
lineare
σ2 x̄2
     
1
β̂ ∼ N β; α̂ ∼ N α; + σ2
T × V (xt ) T T × V (xt )
Dimostrazione

1. α̂ e β̂ hanno distribuzione Normale


Una delle implicazioni dell'assuzione di ortogonalità è che yt ed ut hanno la medesima di-
stribuzione, a meno del valore atteso. Pertanto, sotto l'assunzione che ut ∼ N (0; σ 2 ), si avrà
che yt ∼ N (α + βxt ; σ 2 ).
Ricordando che una combinazione lineare di variabili aleatorie normali è essa stessa una
normale, e ricordando il risultato della dimostrazione precedente, secondo cui α̂ e β̂ sono
combinazioni lineari di yt , si conclude che α̂ e β̂ hanno distribuzione Normale.

3
2. E(β̂) = β
Poichè yt = α + βxt + ut e ȳ = α + β x̄ + ū, si ha che (yt − ȳ) = β(xt − x̄) + (ut − ū).
Sostituendo tale quantità nella denizione di β̂ = Σ(xΣ(x
t −x̄)(yt −ȳ)
t −x̄)
2 si ottiene:

βΣ(xt − x̄)2 + Σ(xt − x̄)(ut − ū)) Σ(xt − x̄)ut


β̂ = 2
=β+
Σ(xt − x̄) Σ(xt − x̄)2
dove, nell'ultimo passaggio, si è sfruttato il fatto che ū = 0.
Applicando l'operatore Valore Atteso e la legge delle Aspettative Iterate, secondo cui E(ut ) =
E(E(ut |xt )), si ha:
 
Σ(xt − x̄)E(ut |xt )
E(β̂) = β + E =β
Σ(xt − x̄)2
poichè E(ut |xt ) = 0 (assunzione di ortogonalità).
3. V (β̂) = σ2
T ×V (xt )

Ricordando che β̂ = e che Cov(yi , yj ) = 0 ∀ i 6= j si ha che:


P
t bt y t
X X
V (β̂) = V ( bt y t ) = b2t V (yt )

.
Ricordando che V (yt ) = σ 2 e sostituendo i pesi bt = P xt −x̄ 2
t (xt −x̄)
, si ottiene:

X
V (β̂) = b2t V (yt )
(xt − x̄)2 (xt − x̄)2 2 σ2
P
X
2 1 2
= P σ = P σ = P σ =
( t (xt − x̄)2 )2 ( t (xt − x̄)2 )2 t (xt − x̄)
2 T × V (xt )

dove nell'ultimo passaggio la devianza di xt è stata scritta come T × V (xt ).


4. E(α̂) = α
Sostituendo ȳ = α + β x̄ + ū nello stimatore per l'intercetta della retta di regressione, α̂ =
ȳ − β̂ x̄, ed applicando il valore atteso si ha:

E(α̂) = E(α + β x̄ + ū − β̂ x̄) = α + E(β − β̂)x̄ = α

dove si è sfruttato il fatto che ū = 0 e che E(β − β̂) = β − E(β̂) = 0 come derivato al punto
2.
 
5. V (α̂) = 1
T
+ x̄2
T ×V (xt )
σ2

Ricordando che α̂ = at yt e che Cov(yi , yj ) = 0 ∀ i 6= j si ha che:


P
t
X X
V (α̂) = V ( at y t ) = a2t V (yt )

4
.
Ricordando che V (yt ) = σ 2 e sostituendo i pesi at = 1
T
− P(xt −x̄)x̄ 2
t (xt −x̄)
, si ottiene:

X
V (α̂) = a2t V (yt )
X1 (xt − x̄)x̄

= −P 2
σ2
T t (x t − x̄)
X 1 (xt − x̄)2 x̄2

2 (xt − x̄)x̄
= + P − P σ2
T 2 ( t (xt − x̄)2 )2 T t (xt − x̄)2
(xt − x̄)2 x̄2
X P P 
1 2x̄ (xt − x̄)
= 2
+ P 2 2
− P 2
σ2
T ( t (xt − x̄) ) T t (xt − x̄)
2
x̄2
   
T x̄ 2 1
= +P σ = + σ2
T2 t (x t − x̄)2 T T × V (x t )

dove nell'ultimo passaggio si è sfruttata la proprietà della media secondo cui


P
t (xt − x̄) = 0
e si è riscritta la devianza di xt come T × V (xt ).

Covarianza tra gli stimatori OLS dei parametri della retta di regressione lineare


COV (α̂, β̂) = − σ2
T × V (xt )

Dimostrazione

X X  X X
COV (α̂, β̂) = COV at yt bt y t = at bt COV (yt , yt ) = at bt V (yt )
   
X 1 (xt − x̄)x̄ (x − x̄)
= −P 2
P t 2
σ2
T (x
t t − x̄) (x
t t − x̄)
X  1 (xt − x̄)  X  (xt − x̄)2 x̄ 
= P 2
σ2 − P 2 2
σ2
T (xt − x̄) ( t (xt − x̄) )
 P t
(xt − x̄)2 x̄ (xt − x̄)2 x̄
  P   P 
1 (xt − x̄) 2 2
= P σ − P σ =− P σ2
T t (xt − x̄)2 ( t (xt − x̄)2 )2 ( t (xt − x̄)2 )2
 
x̄ x̄
=− P 2
σ2 = − σ2
(x
t t − x̄) T × V (x t )

dove nel penultimo passaggio si è sfruttata della media secondo cui t (xt − x̄) = 0 e nell'ultimo
P
si è riscritta la devianza di xt come T × V (xt ).

5
Stimatore di Massima Verosimiglianza (MLE) dei parametri della retta di regressione
lineare Gli stimatori MLE dei parametri nel modello di regressione lineare semplice sono
σxy
β̂ = α̂ = ȳ − β̂ x̄
σx2

Dimostrazione

Lo stimatore è ricavato massimizzando la probabilità del campione osservato.


{α̂, β̂} argmax L(α, β, σ 2 , yt ) = Πni=1 f (yt )
Ricordando che, sotto l'ipotesi ut ∼ N (0, σ 2 ), yt ∼ N (α + βxt ; σ 2 ), la funzione di densità sarà
(y −α−βxt )2
1
f (yt ) = √2πσ 2
e− t
2σ 2 .
Inoltre, poichè le osservazioni sono assunte i.i.d. (indipendenti ed indenticamente distribuite), la
probabilità del campione osservato y1 , y2 , ..., yT è data dalla produttoria delle funzioni di densità.
Pertanto, la funzione di verosimiglianza risulta:
 T
1 Σ(yt −α−βxt )2
2
L(α, β, σ , yt ) = √ e− 2σ 2
2πσ 2
La massimizzazione di tale funzione richiede un sistema di (due) derivate parziali (una per cia-
scuno dei parametri, α e β ). Poichè la trasformazione logaritmica è monotona e semplica la
massimizzazione, si procede dapprima applicando il logaritmo alla funzione di verosimiglianza:

Σ(yt − α − βxt )2
 
2 1
lnL(α, β, σ , yt ) =T ln √ −
2πσ 2 2σ 2
T T 1
=T ln(1) − ln(2π) − ln(σ 2 ) − 2 Σ(yt − α − βxt )2
2 2 2σ
T T 1
= − ln(2π) − ln(σ 2 ) − 2 Σ(yt − α − βxt )2
2 2 2σ

per poi individuare il vettore {α̂, β̂} che la massimizza. Si ricavano quindi le due derivate parziali
e si mettono a sistema:

(
δ
= 0 → − 2σ1 2 t (yt − α − βxt )(−1) = 0 → t (yt − α − βxt ) = 0
P P
δα
δ
= 0 → − 2σ1 2 t (yt − α − βxt )(−xt ) = 0 → t (yt − α − βxt )xt = 0
P P
δβ

Esse coincidono con il sistema delle "equazioni normali" che portano agli stimatori OLS, per cui:
σxy
β̂ = σx2
α̂ = ȳ − β̂ x̄

6
Stimatore di Massima Verosimiglianza (MLE) della varianza della regressione Lo
stimatore MLE dela varianza della regressione lineare semplice è:
2 RSS
σ̂M LE =
T
Dimostrazione
Occorre individuare il valore di σ 2 che minimizza la (log) funzione di massima verosimiglianza,
nella quale sono stati inserite le stime di ha e β̂ , ovvero:
T T 1
σˆ2 argmax lnL(α̂, β̂, σ 2 , yt ) = − ln(2π) − ln(σ 2 ) − Σ(yt − α̂ − β̂xt )2
2 2 2σ 2
Uguagliando a zero la derivata prima rispetto a σ 2 si ottiene:

δlnL(.) T Σ(yt − α − βxt )2


=− + =0
δσ σ σ3
−T σ 2 + Σ(yt − α − βxt )2
= =0
σ3
= − T σ 2 + Σ(yt − α − βxt )2 = 0
da cui:
Σ(yt − α̂ − β̂xt )2 û2t
P
2 RSS
σ̂M LE = = =
T T T

Indice di bontà dell'adattamento, R2 Si veda il paragrafo 4.8.1 del libro di testo.

Nel modello di regressione lineare semplice R2 = ρyx Per il solo caso di regressione lineare
semplice si dimostra che R = 2
ρ2yx

Dimostrazione
Si parta dalla denizione di R2 = 1 − RSS
2
2 . Si riscriva ora RSS come:
P
ut
T SS
= 1 − P(yt −ȳ)

X X
û2t = (yt − α̂ − β̂xt )2
X X
= (yt − (ȳ − β̂ x̄) − β̂xt )2 = [(yt − ȳ) − β̂(xt − x̄)]2

dove nel secondo passaggio si è eettuata la sostituzione di α̂ con la sua espressione ȳ − β̂ x̄.
Svolgendo il quadrato ed applicando la sommatoria a tutti i termini si ottiene
X X X X
û2t = (yt − ȳ)2 + β̂ 2 (xt − x̄)2 − 2β̂
(yt − ȳ)(xt − x̄)
P
X X (yt − ȳ)(xt − x̄) X
= (yt − ȳ)2 + β̂ 2 (xt − x̄)2 − 2β̂ P (xt − x̄)2
(xt − x̄)2
| {z }
β̂
X X
= (yt − ȳ)2 − β̂ 2 (xt − x̄)2

7
dove nel secondo passaggio si è moltiplicato e si diviso il terzo termine per la devianza della variabile
esplicativa.
Sostituendo tale espressione in quella di R2 si ottiene:

u2t (yt − ȳ)2 − β̂ 2 (xt − x̄)2


P P P
2
R =1− P =1− P
(yt − ȳ)2 (yt − ȳ)2
(xt − x̄)2 COV (yt , xt )2 (xt − x̄)2
P P
2
= 1 − 1 − β̂ P = P
(yt − ȳ)2 V (xt )2 (yt − ȳ)2
2
COV (yt , xt )2 T × V (xt ) COV (yt , xt )2

COV (yt , xt )
= = = = ρ2yx
V (xt )2 T × V (yt ) V (xt )V (yt ) SD(xt )SD(yt )

Stimatore dei Minimi Quadrati (OLS) per i parametri del modello di regressione
lineare multipla Lo stimatore dei parametri del modello di regressione lineare multipla è

β̂ = (X 0 X)−1 X 0 y
Dimostrazione
Si veda l'appendice 4.1 del libro di testo.

Varianza dello stimatore OLS per i parametri del modello di regressione lineare
multipla La varianza dello stimatore dei parametri del modello di regressione lineare multipla è
V (β̂) = σ 2 (X 0 X)

Dimostrazione
Si veda l'appendice 4.1 del libro di testo.

Teorema di Gauss-Markov Gli stimatori dei Minimi Quadrati Ordinari sono i più ecienti
nella classe degli stimatori lineari e non distorti (OLS sono BLUE, Best Linear Unbiased
Estimator ).

Dimostrazione

Occorre innanzitutto dimostrare che lo stimatore OLS è lineare (punto 1. di seguito) e non distorto
(punto 2.).

1. Lineare
Lo stimatore del vettore dei parametri β̂ è una combinazione lineare della y . Questo risulta
già evidente dalla formula stessa dello stimatore β̂ = (X 0 X)−1 X 0 y

8
2. Non Distorto
Occorre dimostrare che E(β̂) = β .
E(β̂) = E (X 0 X)−1 X 0 y = E (X 0 X)−1 X 0 (Xβ + u)
   

= E (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 u)
 

= E β + (X 0 X)−1 X 0 u)
 

= β + (X 0 X)−1 X 0 E(u) = β + (X 0 X)−1 X 0 E(E(u|X)) = β

dove nell'ultimo passaggio si è sfruttata la legge delle Aspettative Iterate, secondo cui E(u) =
E(E(u|X)), e l'assunzione di ortogonalità, secondo cui E(u|X) = 0.

Si conclude quindi che lo stimatore OLS appartiene alla classe degli stimatori lineari e non
distorti.
Ora si dimostra che, all'interno di questa classe di stimatori lo stimatore OLS è il più
eciente.
3. Più Eciente
Occorre dimostrare che lo stimatore OLS ha Errore Quadratico Medio (o Mean Squared
Error, MSE) inferiore a qualsiasi altro stimatore lineare e non distorto. Ricordando che,
dato uno stimatore Sn , il suo MSE è dato da M SE(Sn ) = V (sn ) + B(sn )2 e che il confronto
va eettuato tra stimatori non distorti (stimatore OLS e altri stimatori della classe dei lineari
e non distorti), è suciente eettuare il confronto sulla base delle Varianze di questi stimatori.
Si consideri quindi lo stimatore β̃ = Cy con C tale che CX = I . Si dimostra che tale
stimatore è:
• lineare in y : per come è denito β̃ è una trasformazione lineare del vettore y

• non distorto, ovvero E(β̃) = β .


Infatti, E(Cy) = CE(y) = CXβ . Poichè CX = I , si ha che β̃ = β .

Si procede quindi calcolando la varianza di tale stimatore. A tal ne, si noti che β̃ può essere
riscritto come β̃ = Cy = C(Xβ + u) = CXβ + Cu = β + Cu, poichè CX = I . Pertanto si
avrà che V (β̃) = V (β)+CV (u)C 0 = CV (u)C 0 , dove l'ultimo passaggio è dovuto alla varianza
nulla del vettore dei parametri β ed alla covarianza nulla tra quest'ultimo e u .
Inoltre, senza perdita di generalità, sia D matrice t.c. C = (X 0 X)−1 X 0 + D. Si noti che la
condizione CX = I impone CX = (X 0 X)−1 X 0 X + DX = I , ovvero che DX = 0.
Si ha quindi che

V (β̃) = +CV (u)C 0


= [(X 0 X)−1 X 0 + D]V (u)[(X 0 X)−1 X 0 + D]0
= [(X 0 X)−1 X 0 + D]V (u)[X(X 0 X)−1 + D0 ]
= V (u)[(X 0 X)−1 + (X 0 X)−1 X 0 D0 + DX(X 0 X)−1 + DD0 ]
= σ 2 (X 0 X)−1 + σ 2 DD0

9
dove l'ultimo passaggio sfrutta l'implicazione ricordata in precedenza, ovvero che DX = 0
(e che pertanto anche X 0 D0 = 0).
Poichè DD0 è semidenita positiva, si ha che V (β̂) ≤ V (β̃). Questo dimostra che qualsiasi
altro stimatore appartenente alla classe degli stimatori lineari e non distorti ha varianza
non inferiore a quella dello stimatore OLS, che quindi risulta essere il più eciente tra gli
stimatori lineari e non distorti.

Stimatore non distorto per σ2 Uno stimatore non distorto per σ 2 è


RSS
s2 =
T −k
Dimostrazione

Poichè β̂ = (X 0 X)−1 X 0 y , si ha che ŷ = X β̂ = X(X 0 X)−1 X 0 y .


| {z }
H
Quindi i residui del modello stimato û possono essere riscritti come:
û = y − ŷ = y − Hy = (I| −
{zH})y = M y = M (Xβ + u) = M Xβ + M u = M u
M

Ne deriva che
RSS = û0 û = u0 M 0 M u = u0 M u
dove nell'ultimo passaggio si è sfruttato il fatto che M è idempotente e simmetrica.
Proprietà delle matrici H ed M

H M
T × T e simmetrica T × T e simmetrica
HX = X MX = 0
HX = X(X 0 X)−1 X 0 X = X M X = (I − H)X = X − X = 0
idempotente, H = H
2
idempotente, M 2 = M
0 −1 0 0 −1 0
H = X(X X) X X(X X) X M 2 = (I − H)(I − H) =
2

= X(X 0 X)−1 X 0 = H I − IH − HI + H 2 = I − H = M
ortogonali tra loro, HM = 0
HM = H(I − H) = H − H 2 = H − H = 0

Si noti che Ne deriva che u0 M u è uno scalare, pertanto E(u0 M u) = E(tr(M uu0 )). Si ha quindi
che:

E(RSS) = E(u0 M u) = E(tr(M uu0 ))


= tr(M E(uu0 )) = tr(M σ 2 IT ) = σ 2 tr(M )
dove
tr(M ) = tr(IT − H) = tr(IT ) − tr(X(X 0 X)−1 X 0 )
= tr(IT ) − tr(X 0 X(X 0 X)−1 ) = tr(IT ) − tr(Ik ) = T − k

10
Dove nell'ultimo passaggio tr(X(X 0 X)−1 X 0 ) = tr(X 0 X(X 0 X)−1 ) per la proprietà della traccia tale
per cui tr(AB) = tr(BA). Si conclude quindi che E(RSS) = σ 2 (T − k). Al ne di ottenere una
stima non distorta per σ 2 è quindi necessario utilizzare:
RSS
s2 =
T −k

Omissioni di Variabili Rilevanti o Inclusione di Variabili Irrilevanti sulla distorsione


di β̂OLS L'omissione di Variabili Rilevanti rende lo stimatore β̂OLS distorto, mentre l'inclusione
di Variabili Irrilevanti non incia la non-distorsione di β̂OLS .
Dimostrazione

1. L'omissione di Variabili Rilevanti rende lo stimatore β̂OLS distorto


Si supponga che y sia funzione di un certo numero di regressori, raccolti in due matrici, X1
ed X2 . Il modello vero per y sarà pertanto: y = X1 β1 + X2 β2 + u.
Si ipotizzi ora di procedere alla stima di un modello che include solo alcuni di questi regressori,
ovvero quelli nella matrice X1 . In altre parole, il modello stimato, che omette delle variabili
rilevanti per modellare y , sarà: y = X1 β1 + e.
Lo stimatore OLS in tal caso sarà dunque:

β̂1 = (X10 X1 )−1 X10 y = (X10 X1 )−1 X10 (X1 β1 + X2 β2 + u)


= β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 u
| {z }
θ

Al ne di vericare se tale stimatore è non distorto, si verica se E(β̂1 ) = β1 .

E(β̂1 ) = E(β1 + θ + (X10 X1 )−1 X10 u) = E(β1 ) + E(θ) + E[(X10 X1 )−1 X10 u]
= β1 + θ + (X10 X1 )−1 X10 E(u) = β1 + θ

dove E(θ) = θ perchè θ è una costante, in quanto funzione del parametro β2 e delle variabili
deterministiche in X2 , e dove nell'ultimo passaggio si è sfruttata l'assunzione E(U ) = 0.
Si nota che E(β̂1 ) 6= β1 (e quindi è distorto) se e solo se θ 6= 0, e questo si verica se e solo
se β2 6= 0 e E(X1 X2 ) 6= 0. Queste sono di fatto le due condizioni che rendono X2 rilevante
ed omessa, infatti:

• β2 6= 0 ⇒ X2 sono variabili rilevanti per spiegare y


• E(X1 X2 ) 6= 0 ⇒ la variabile omessa X2 è correlata con quelle incluse nel modello X1

11
Si conclude che sotto tali due condizioni, lo stimatore β̂1 è distorto.
2. L'inclusione di Variabili Irrilevanti non rende β̂OLS distorto.
Utilizzando la stessa impostazione vista al punto 1., si avrà che in tal caso il modello vero
per y è y = X1 β1 + u, mentre quello stimato è y = X1 β1 + X2 β2 + e.
Gli errori del modello stimato possono essere riscritti come segue:
e = y − X1 β1 − X2 β2 = u − X2 β2
Anchè gli stimatori utilizzati nel modello stimato siano non distorti (ovvero anchè E(β̂1 ) =
β1 e E(β̂2 ) = β2 ) deve essere rispettata l'assunzione di ortogonalità, E(e|X1 , X2 ) = 0.
Si dimostra che tale ipotesi è rispettata, in quanto:
E(e|X1 , X2 ) = E(u − X2 β2 |X1 , X2 ) = E(u|X1 , X2 ) − E(X2 β2 |X1 , X2 )
= E(u|X1 ) − X2 β2
| {z } |{z}
0 0

dove la prima condizione è richiesta dalle assunzioni OLS sul modello stimato e la seconda
discende direttamente dall'ipotesi che le variabili inserite nel modello non siano rilevanti per
spiegare y .

Durbin-Watson statistica test La statistica per il test di autocorrelazione del primo ordine
proposta da Durbin-Watson è funzione del coeciente di correlazione ρ tra i residui ed i loro ritardi
di ordine 1:
PT 2
t=2 (ût − ût−1 )
DW = PT 2
' 2(1 − ρ)
t=2 ût
Dimostrazione

PT 2
t=2 (ût − ût−1 )
DW = PT 2
t=2 ût
PT 2 2
PT
t=2 (ût + ût−1 − 2 t=2 ût ût−1 )
= PT 2
t=2 ût
PT 2
P T 2
PT
t=2 ût + t=2 ût−1 − 2 t=2 ût ût−1
= PT 2
t=2 ût
PT
(û22 + û23 + û24 + ...û2T ) + (û21 + û22 + û23 + ...û2T −1 ) − 2 t=2 ût ût−1
= PT 2
t=2 ût
−1 2
(û21 + 2 Tt=2 ût + û2T ) − 2 Tt=2 ût ût−1
P P
= PT 2
t=2 ût

Per T → ∞, si ha che:

12
P −1 2 PT −1 2
• û21 + 2 Tt=2 ût + û2T ' 2 t=2 ût
PT −1 2 PT 2
• t=2 ût ' t=2 ût

Si può quindi riscrivere:

PT PT PT !
2
2 t=2 ût − 2 t=2 ût ût−1 t=2 ût ût−1
DW ' PT =2 1− T
û2t 2
P
t=2 t=2 ût

Si consideri ora il rapporto dentro la parentesi, che può essere riscritto come segue:

PT PT
t=2 ût ût−1 ût ût−1 − ut ut−1
t=2
P T 2
= PT 2 2
t=2 ût t=2 ût − ut
T × COV (ut , ut−1 ) COV (ut , ut−1 ) COV (ut , ut−1 )
= = =
T × V (ut ) V (ut ) SD(ut ) × SD(ut )
COV (ut , ut−1 )
= = ρut ,ut−1
SD(ut ) × SD(ut−1 )

dove nel primo passaggio sono state inserite nella formula le quantità nulle ut , ut 2 , e ut e nell'ultimo
si è sfruttato il fatto che per T → ∞, SD(ut ) ' SD(ut−1 ).
Si conclude quindi che
PT !
t=2 ût ût−1
DW ' 2 1 − P T 2
= 2(1 − ρ)
t=2 ût

Struttura dei momenti di un Random Walk con drift Dato il seguente Random Walk con
drift (µ 6= 0)
yt = µ + yt−1 + t dove t ∼ W N (0, σ 2 )

si dimostra che Valore Atteso, Varianza e struttura di Autocorrelazione sono rispettivamente pari
a:

1. E(yt ) = tµ + y0
2. V (yt ) = tσ 2 < ∞
q
3. ρs = t−s
t

Dimostrazione

Si cominci col sostituire yt−1 con µ + yt−2 + t−1 , nel processo in t, ottenendo:

13
yt =µ + yt−1 + t
µ + µ + yt−2 + t−1 + t

Procedendo in modo analogo iterativamente per t volte, si avrà:

yt = µ + yt−1 + t
= µ + µ + yt−2 + t−1 + t
= µ + µ + µ + yt−3 + t−2 t−1 + t
... = ...
= tµ + yt−t + t−t+1 + ... + t−2 + t−1 + t
t
X
= tµ + y0 + i
i=1

1. Il valore attesoPrisulta:
E(tµ + y0 + ti=1 i ) = tµ + y0 + E(i ) = tµ + y0 poichè E(i ) = 0∀i in quanto
Pt
i=1
t ∼ W N (0, σ 2 )

2. In modo analogoP
si ricava laPvarianza del processo:
γ0 = V (tµ+y0 + ti=1 i ) = ti=1 V (i ) = tσ 2 poichè V (i ) = σ 2 ∀i in quanto t ∼ W N (0, σ 2 ).

3. Riguardo alla ACF, si procede ricavando in prima battuta la struttura di autocovarianza ∀ s:

γs = COV (yt ; yt−s ) = E[yt − E(yt )][yt−s − E(yt−s )]


= E[yt − tµ − y0 ][yt−s − (t − s)µ − y0 ]
t
X t−s
X
= E[tµ + y0 + i − tµ − y0 ][(t − s)µ + y0 + i − (t − s)µ − y0 ]
i=1 i=1
t
" # " t−s #
X X
=E i i = E [1 + 2 + ... + t ] [1 + 2 + ... + t−s ]
i=1 i=1
" t−s # t−s
X X
=E 2i + cross products = E(2i ) = (t − s)σ 2
i=1 i=1

La struttura di autocorrelazione ∀ s è data da ρs = √V ar(y )√


γh
V ar(y
, ovvero:
t t−s )

r
γh (t − s)σ 2 t−s
ρs = = p =
γ0 t(t − s)σ 2 t

14
Struttura dei momenti di un Random Walk a media nulla Dato il seguente Random
Walk a media nulla (µ = 0)
yt = yt−1 + t dove t ∼ W N (0, σ 2 )

si dimostra che Valore Atteso, Varianza e struttura di Autocorrelazione sono rispettivamente pari
a:
1. E(yt ) = y0
2. V (yt ) = tσ 2 < ∞
q
3. ρs = t−s
t

Dimostrazione

Vedi dimostrazione precedente, ssando µ = 0.

Struttura dei momenti di un processo MA(q) Dato il seguente processo Moving Average
di ordine q
yt = µ + ut + θ1 ut−1 + θ2 ut−2 + ... + θq ut−q dove ut ∼ W N (0, σ 2 )

si dimostra che Valore Atteso e Varianza sono rispettivamente pari a:


1. E(yt ) = µ
2. γ0 = V (yt ) = (1 + θ12 + θ22 + ... + θq2 )σ 2
Dimostrazione

Si riscriva il processo come yt = µ + e se ne calcolino valore atteso e varianza:


Pq
i=0 θi ut−i

1. Circa il valore
P atteso si avrà:
E(yt ) = µ+ qi=0 θi E(ut−i ) = µ, dove nell'ultimo passaggio si è sfruttato il fatto che E(ut−i =
0∀i poichè ut ∼ W N (0, σ 2 ).
2. In modo analogo, la varianza sarà pari a:

q
X
V (yt ) = V (µ + θi ut−i )
i=0
q
X
= θi2 V (ut−i ) = (1 + θ12 + θ22 + ... + θq2 )σ 2
i=0

15
Struttura dei momenti di un MA(2) Si consideri il processo yt = ut + θ1 ut−1 + θ2 ut−2 , con
ut ∼ W N (0, σ 2 ), si dimostra che:

1. E(yt ) = 0
2. γ0 = V (yt ) = (1 + θ12 + θ22 )σ 2

2
(θ1 + θ2 θ1 )σ
 s=1
3. γs = θ2 σ 2 s=2

0 s>2

Dimostrazione

Si veda la sezione 6.3 del libro di testo.

Struttura dei momenti di un AR(1) Si consideri il processo yt = φ0 + φ1 yt−1 + ut , con


ut ∼ W N (0, σ ), si dimostra che:
2

1. E(yt ) = φ0 (1 + φ1 + φ21 + φ31 + ...) = φ0


1−φ1

2. γ0 = V (yt ) = (1 + φ21 + φ41 + φ61 + ...)σ 2 = σ2


1−φ21
 φ1 σ 2
s=1

φ1 s=1
2
 1−φ

 1 
 φ21 σ2

s=2 φ2

s=2
3. γs = 1−φ21
→ ρs = 1


 ... .... 

 ... ....
 φs1 σ2

∀s
 s
φ1 ∀s
1−φ21

Dimostrazione

Si veda la sezione 6.4 del libro di testo.

Stazionarietà dei residui di un modello VAR(1) standard Si dimostra che i residui di un


VAR(1) sono stazionari in senso debole, ovvero hanno valore atteso, varianza e auto-covarianza
costanti.
Dimostrazione

Si consideri un VAR(1) strutturale e ne si pre-moltiplichino ambo i lati per A−1 :

Yt = A−1 β0 + A−1 β1 Yt−1 + A−1 ut


| {z } | {z } | {z }
A0 A1 et

dove il vettore ut contiene n processi white noise, ovvero uit con i = 1, ..., n sono tali che:
a) E(uit ) = 0

16
b) V (uit ) = σui
2

c) E(uit , ui,t−s ) = 0 ∀ s
d) E(uit , ujt ) = 0 ∀ i 6= j
I residui di un modello VAR(1) standard sono pertanto pari a et = A−1 ut . Preso ad esempio un
modello con n = 2 si avrà:
 −1  
1 −α12 u1t
et =
−α22 1 u2t
  
1 1 α12 u1t
=
1 − α12 α22 α22 1 u2t
" #
1
(u 1t + α u
12 2t )
= (1−α12 1
α22 )

(1−α12 α22 )
(α u
22 1t + u2t )

Si ricavano ora i valore attesi, le varianze e l'autocovarianza.


1. I valori attesi
h sono tutti nulli: i
E(e1t ) = E 1
(1−α12 α22 )
(u1t + α u
12 2t ) = 1
(1−α12 α22 )
[E(u1t ) + α12 E(u2t )] = 0, poichè E(uit ) =
0∀ i
2. Le varianze sono pari a:
 
1
V (e1t ) = V (u1t + α12 u2t )
(1 − α12 α22 )
1  2

= V (u 1t ) + α 12 V (u 2t )
(1 − α12 α22 )2
1 2 2 2

= σ u1 + α 12 σ u2
(1 − α12 α22 )2

 
1
V (e2t ) = V (α22 u1t + u2t )
(1 − α12 α22 )
1  2 
= α V (u 1t ) + V (u 2t )
(1 − α12 α22 )2 22
1 2 2 2

= α 22 σ u1 + σu2
(1 − α12 α22 )2

3. Le auto-covarianze sono pari a:

COV (e1t ; e1,t−1 ) = E (e1t e1,t−1 ) − E(e1t )E(e1,t−1 )


 
u1t + α12 u2t u1,t−1 + α12 u2,t−1
=E ×
(1 − α12 α22 ) (1 − α12 α22 )
1 2

= E u 1t u 1,t−1 + α12 u2t u1,t−1 + α 12 u1t u 2,t−1 + α 12 u 2t u2,t−1
(1 − α12 α22 )2
=0

17
dove nel secondo passaggio si è sfruttato il fatto che E(e1t ) = E(e1,t−1 ) = 0 come dimostrato al pun-
to 1 di cui sopra, mentre nell'ultimo passaggio si sono sfruttate le proprietà di non-autocorrelazione
(ricordata al punto c) di cui sopra) ed incorrelazione (ricordata al punto d) di cui sopra) dei processi
white noise uit .
Poichè i valori attesi, le varianze e le autocovarianze sono costanti nel tempo, si è conclude che et
è stazionario.

18

Potrebbero piacerti anche