Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Questa dispensa ha lo scopo di raccogliere tutte le dimostrazioni o i metodi in cui sono stati ricavati
alcuni risultati presentati in aula. In nessun modo sostituisce lo studio sul libro di testo.
Valore atteso e varianza di una variabile standardizzata Data una v.a. X con E(X) = µ
e V (X) = σ , la sua versione standardizzata è Z =
2 X−µ
σ
, ed ha E(Z) = 0 e V(Z) = 1.
Dimostrazione
X−µ
= σ1 [E(X) − µ] = 0
• E(Z) = E σ
X−µ
= V ( Xσ − σµ ) = 1 1
+ σ2 [Cov(X, µ)] = 1
• V (Z) = V σ σ2
[V (X)] + [V (µ)]
σ 2 | {z } | {z }
=0 =0
1
Covarianza nulla tra due variabili indipendenti Se X ed Y sono idipendenti ⇒ σXY = 0
Dimostrazione (caso discreto)
XX
COV (X, Y ) = σXY = E(XY ) − E(X)E(Y ) = Xi Yj P (Xi Yj ) − E(X)E(Y )
i j
XX
= Xi Yj P (Xi )P (Yj ) − E(X)E(Y )
i j
X X
= Xi P (Xi ) Yj P (Yj ) − E(X)E(Y ) = 0
i j
| {z }| {z }
E(X) E(Y )
dove nel secondo passaggio si è sfruttato il fatto che, in caso di indipendenza, P (Xi Yj ) = P (Xi )P (Yj ).
n
! n
!
1 X 1 X
E(s2 ) = E (xi − X̄)2 = E (xi − µ + µ − X̄)2
n − 1 i=1 n−1 i=1
1 X X
= E (xi − µ)2 − n(X̄ − µ)2 − 2(X̄ − µ) (xi − µ)
n−1 i
| i {z }
=0
!
1 X n
= E (xi − µ)2 − E(X̄ − µ)2
n−1 i
n − 1
1 X n
= E(xi − µ)2 − E(X̄ − µ)2
n−1 i n−1
1 n σ2
= nσ 2 − = σ2
n−1 n−1 n
dove
P nel quarto passaggio si è sfruttata la proprietà di linearità del valore atteso e nell'ultimo che
i (xi − µ) = σ e i (X̄ − µ) = n .
2 2 2 σ2
P
Stimatore dei Minimi Quadrati (OLS) per i parametri della retta di regressione linea-
re Si veda l'appendice 3.A1 del libro di testo.
2
Gli stimatori OLS dei parametri della retta di regressione lineare come trasformazioni
Si ricavino α̂ e β̂ come combinazioni lineari di yt , ovvero α̂ = ,
P P
lineari di yt t at yt , β̂ = t bt y t
dove
1 xt − x̄
at = − x̄bt e bt = P 2
T t (xt − x̄)
Si dimostrino inoltre le proprietà dei pesi at e bt .
Dimostrazione
P P P x − x̄
COV (XY ) t −x̄)
(xP (yt −ȳ) P(xt −x̄)y2t P t
P
β̂ = V (X)
= (xt −x̄)2
= (xt −x̄)
= yt
(xt − x̄)2
| {z }
bt
1
P P 1
P P 1
α̂ = ȳ − β̂ x̄ = T t yt − t bt y t T t xt = − x̄bt yt
T
| {z }
at
P
P P (xt −x̄)xt P
Pt −x̄)(xt2−x̄)
(x
bt x t = P
(xt −x̄)2
− (xt − x̄)x̄ = (xt −x̄)
=1
1 T
bt = 1, dove nell'ultimo passaggio si è sfruttato il risultato prece-
P P P
at = − x̄b
T t = T
− x̄
dente per cui bt = 0
P
1
− x̄bt xt =PT1 xt − x̄ bt xt = 0, dove nell'ultimo passaggio si è sfruttato il
P P P P
at x t = T
risultato precedente per cui bt xt = 1
Distribuzione campionaria degli stimatori OLS dei parametri della retta di regressione
lineare
σ2 x̄2
1
β̂ ∼ N β; α̂ ∼ N α; + σ2
T × V (xt ) T T × V (xt )
Dimostrazione
3
2. E(β̂) = β
Poichè yt = α + βxt + ut e ȳ = α + β x̄ + ū, si ha che (yt − ȳ) = β(xt − x̄) + (ut − ū).
Sostituendo tale quantità nella denizione di β̂ = Σ(xΣ(x
t −x̄)(yt −ȳ)
t −x̄)
2 si ottiene:
.
Ricordando che V (yt ) = σ 2 e sostituendo i pesi bt = P xt −x̄ 2
t (xt −x̄)
, si ottiene:
X
V (β̂) = b2t V (yt )
(xt − x̄)2 (xt − x̄)2 2 σ2
P
X
2 1 2
= P σ = P σ = P σ =
( t (xt − x̄)2 )2 ( t (xt − x̄)2 )2 t (xt − x̄)
2 T × V (xt )
dove si è sfruttato il fatto che ū = 0 e che E(β − β̂) = β − E(β̂) = 0 come derivato al punto
2.
5. V (α̂) = 1
T
+ x̄2
T ×V (xt )
σ2
4
.
Ricordando che V (yt ) = σ 2 e sostituendo i pesi at = 1
T
− P(xt −x̄)x̄ 2
t (xt −x̄)
, si ottiene:
X
V (α̂) = a2t V (yt )
X1 (xt − x̄)x̄
= −P 2
σ2
T t (x t − x̄)
X 1 (xt − x̄)2 x̄2
2 (xt − x̄)x̄
= + P − P σ2
T 2 ( t (xt − x̄)2 )2 T t (xt − x̄)2
(xt − x̄)2 x̄2
X P P
1 2x̄ (xt − x̄)
= 2
+ P 2 2
− P 2
σ2
T ( t (xt − x̄) ) T t (xt − x̄)
2
x̄2
T x̄ 2 1
= +P σ = + σ2
T2 t (x t − x̄)2 T T × V (x t )
Covarianza tra gli stimatori OLS dei parametri della retta di regressione lineare
x̄
COV (α̂, β̂) = − σ2
T × V (xt )
Dimostrazione
X X X X
COV (α̂, β̂) = COV at yt bt y t = at bt COV (yt , yt ) = at bt V (yt )
X 1 (xt − x̄)x̄ (x − x̄)
= −P 2
P t 2
σ2
T (x
t t − x̄) (x
t t − x̄)
X 1 (xt − x̄) X (xt − x̄)2 x̄
= P 2
σ2 − P 2 2
σ2
T (xt − x̄) ( t (xt − x̄) )
P t
(xt − x̄)2 x̄ (xt − x̄)2 x̄
P P
1 (xt − x̄) 2 2
= P σ − P σ =− P σ2
T t (xt − x̄)2 ( t (xt − x̄)2 )2 ( t (xt − x̄)2 )2
x̄ x̄
=− P 2
σ2 = − σ2
(x
t t − x̄) T × V (x t )
dove nel penultimo passaggio si è sfruttata della media secondo cui t (xt − x̄) = 0 e nell'ultimo
P
si è riscritta la devianza di xt come T × V (xt ).
5
Stimatore di Massima Verosimiglianza (MLE) dei parametri della retta di regressione
lineare Gli stimatori MLE dei parametri nel modello di regressione lineare semplice sono
σxy
β̂ = α̂ = ȳ − β̂ x̄
σx2
Dimostrazione
Σ(yt − α − βxt )2
2 1
lnL(α, β, σ , yt ) =T ln √ −
2πσ 2 2σ 2
T T 1
=T ln(1) − ln(2π) − ln(σ 2 ) − 2 Σ(yt − α − βxt )2
2 2 2σ
T T 1
= − ln(2π) − ln(σ 2 ) − 2 Σ(yt − α − βxt )2
2 2 2σ
per poi individuare il vettore {α̂, β̂} che la massimizza. Si ricavano quindi le due derivate parziali
e si mettono a sistema:
(
δ
= 0 → − 2σ1 2 t (yt − α − βxt )(−1) = 0 → t (yt − α − βxt ) = 0
P P
δα
δ
= 0 → − 2σ1 2 t (yt − α − βxt )(−xt ) = 0 → t (yt − α − βxt )xt = 0
P P
δβ
Esse coincidono con il sistema delle "equazioni normali" che portano agli stimatori OLS, per cui:
σxy
β̂ = σx2
α̂ = ȳ − β̂ x̄
6
Stimatore di Massima Verosimiglianza (MLE) della varianza della regressione Lo
stimatore MLE dela varianza della regressione lineare semplice è:
2 RSS
σ̂M LE =
T
Dimostrazione
Occorre individuare il valore di σ 2 che minimizza la (log) funzione di massima verosimiglianza,
nella quale sono stati inserite le stime di ha e β̂ , ovvero:
T T 1
σˆ2 argmax lnL(α̂, β̂, σ 2 , yt ) = − ln(2π) − ln(σ 2 ) − Σ(yt − α̂ − β̂xt )2
2 2 2σ 2
Uguagliando a zero la derivata prima rispetto a σ 2 si ottiene:
Nel modello di regressione lineare semplice R2 = ρyx Per il solo caso di regressione lineare
semplice si dimostra che R = 2
ρ2yx
Dimostrazione
Si parta dalla denizione di R2 = 1 − RSS
2
2 . Si riscriva ora RSS come:
P
ut
T SS
= 1 − P(yt −ȳ)
X X
û2t = (yt − α̂ − β̂xt )2
X X
= (yt − (ȳ − β̂ x̄) − β̂xt )2 = [(yt − ȳ) − β̂(xt − x̄)]2
dove nel secondo passaggio si è eettuata la sostituzione di α̂ con la sua espressione ȳ − β̂ x̄.
Svolgendo il quadrato ed applicando la sommatoria a tutti i termini si ottiene
X X X X
û2t = (yt − ȳ)2 + β̂ 2 (xt − x̄)2 − 2β̂
(yt − ȳ)(xt − x̄)
P
X X (yt − ȳ)(xt − x̄) X
= (yt − ȳ)2 + β̂ 2 (xt − x̄)2 − 2β̂ P (xt − x̄)2
(xt − x̄)2
| {z }
β̂
X X
= (yt − ȳ)2 − β̂ 2 (xt − x̄)2
7
dove nel secondo passaggio si è moltiplicato e si diviso il terzo termine per la devianza della variabile
esplicativa.
Sostituendo tale espressione in quella di R2 si ottiene:
Stimatore dei Minimi Quadrati (OLS) per i parametri del modello di regressione
lineare multipla Lo stimatore dei parametri del modello di regressione lineare multipla è
β̂ = (X 0 X)−1 X 0 y
Dimostrazione
Si veda l'appendice 4.1 del libro di testo.
Varianza dello stimatore OLS per i parametri del modello di regressione lineare
multipla La varianza dello stimatore dei parametri del modello di regressione lineare multipla è
V (β̂) = σ 2 (X 0 X)
Dimostrazione
Si veda l'appendice 4.1 del libro di testo.
Teorema di Gauss-Markov Gli stimatori dei Minimi Quadrati Ordinari sono i più ecienti
nella classe degli stimatori lineari e non distorti (OLS sono BLUE, Best Linear Unbiased
Estimator ).
Dimostrazione
Occorre innanzitutto dimostrare che lo stimatore OLS è lineare (punto 1. di seguito) e non distorto
(punto 2.).
1. Lineare
Lo stimatore del vettore dei parametri β̂ è una combinazione lineare della y . Questo risulta
già evidente dalla formula stessa dello stimatore β̂ = (X 0 X)−1 X 0 y
8
2. Non Distorto
Occorre dimostrare che E(β̂) = β .
E(β̂) = E (X 0 X)−1 X 0 y = E (X 0 X)−1 X 0 (Xβ + u)
= E (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 u)
= E β + (X 0 X)−1 X 0 u)
dove nell'ultimo passaggio si è sfruttata la legge delle Aspettative Iterate, secondo cui E(u) =
E(E(u|X)), e l'assunzione di ortogonalità, secondo cui E(u|X) = 0.
Si conclude quindi che lo stimatore OLS appartiene alla classe degli stimatori lineari e non
distorti.
Ora si dimostra che, all'interno di questa classe di stimatori lo stimatore OLS è il più
eciente.
3. Più Eciente
Occorre dimostrare che lo stimatore OLS ha Errore Quadratico Medio (o Mean Squared
Error, MSE) inferiore a qualsiasi altro stimatore lineare e non distorto. Ricordando che,
dato uno stimatore Sn , il suo MSE è dato da M SE(Sn ) = V (sn ) + B(sn )2 e che il confronto
va eettuato tra stimatori non distorti (stimatore OLS e altri stimatori della classe dei lineari
e non distorti), è suciente eettuare il confronto sulla base delle Varianze di questi stimatori.
Si consideri quindi lo stimatore β̃ = Cy con C tale che CX = I . Si dimostra che tale
stimatore è:
• lineare in y : per come è denito β̃ è una trasformazione lineare del vettore y
Si procede quindi calcolando la varianza di tale stimatore. A tal ne, si noti che β̃ può essere
riscritto come β̃ = Cy = C(Xβ + u) = CXβ + Cu = β + Cu, poichè CX = I . Pertanto si
avrà che V (β̃) = V (β)+CV (u)C 0 = CV (u)C 0 , dove l'ultimo passaggio è dovuto alla varianza
nulla del vettore dei parametri β ed alla covarianza nulla tra quest'ultimo e u .
Inoltre, senza perdita di generalità, sia D matrice t.c. C = (X 0 X)−1 X 0 + D. Si noti che la
condizione CX = I impone CX = (X 0 X)−1 X 0 X + DX = I , ovvero che DX = 0.
Si ha quindi che
9
dove l'ultimo passaggio sfrutta l'implicazione ricordata in precedenza, ovvero che DX = 0
(e che pertanto anche X 0 D0 = 0).
Poichè DD0 è semidenita positiva, si ha che V (β̂) ≤ V (β̃). Questo dimostra che qualsiasi
altro stimatore appartenente alla classe degli stimatori lineari e non distorti ha varianza
non inferiore a quella dello stimatore OLS, che quindi risulta essere il più eciente tra gli
stimatori lineari e non distorti.
Ne deriva che
RSS = û0 û = u0 M 0 M u = u0 M u
dove nell'ultimo passaggio si è sfruttato il fatto che M è idempotente e simmetrica.
Proprietà delle matrici H ed M
H M
T × T e simmetrica T × T e simmetrica
HX = X MX = 0
HX = X(X 0 X)−1 X 0 X = X M X = (I − H)X = X − X = 0
idempotente, H = H
2
idempotente, M 2 = M
0 −1 0 0 −1 0
H = X(X X) X X(X X) X M 2 = (I − H)(I − H) =
2
= X(X 0 X)−1 X 0 = H I − IH − HI + H 2 = I − H = M
ortogonali tra loro, HM = 0
HM = H(I − H) = H − H 2 = H − H = 0
Si noti che Ne deriva che u0 M u è uno scalare, pertanto E(u0 M u) = E(tr(M uu0 )). Si ha quindi
che:
10
Dove nell'ultimo passaggio tr(X(X 0 X)−1 X 0 ) = tr(X 0 X(X 0 X)−1 ) per la proprietà della traccia tale
per cui tr(AB) = tr(BA). Si conclude quindi che E(RSS) = σ 2 (T − k). Al ne di ottenere una
stima non distorta per σ 2 è quindi necessario utilizzare:
RSS
s2 =
T −k
E(β̂1 ) = E(β1 + θ + (X10 X1 )−1 X10 u) = E(β1 ) + E(θ) + E[(X10 X1 )−1 X10 u]
= β1 + θ + (X10 X1 )−1 X10 E(u) = β1 + θ
dove E(θ) = θ perchè θ è una costante, in quanto funzione del parametro β2 e delle variabili
deterministiche in X2 , e dove nell'ultimo passaggio si è sfruttata l'assunzione E(U ) = 0.
Si nota che E(β̂1 ) 6= β1 (e quindi è distorto) se e solo se θ 6= 0, e questo si verica se e solo
se β2 6= 0 e E(X1 X2 ) 6= 0. Queste sono di fatto le due condizioni che rendono X2 rilevante
ed omessa, infatti:
11
Si conclude che sotto tali due condizioni, lo stimatore β̂1 è distorto.
2. L'inclusione di Variabili Irrilevanti non rende β̂OLS distorto.
Utilizzando la stessa impostazione vista al punto 1., si avrà che in tal caso il modello vero
per y è y = X1 β1 + u, mentre quello stimato è y = X1 β1 + X2 β2 + e.
Gli errori del modello stimato possono essere riscritti come segue:
e = y − X1 β1 − X2 β2 = u − X2 β2
Anchè gli stimatori utilizzati nel modello stimato siano non distorti (ovvero anchè E(β̂1 ) =
β1 e E(β̂2 ) = β2 ) deve essere rispettata l'assunzione di ortogonalità, E(e|X1 , X2 ) = 0.
Si dimostra che tale ipotesi è rispettata, in quanto:
E(e|X1 , X2 ) = E(u − X2 β2 |X1 , X2 ) = E(u|X1 , X2 ) − E(X2 β2 |X1 , X2 )
= E(u|X1 ) − X2 β2
| {z } |{z}
0 0
dove la prima condizione è richiesta dalle assunzioni OLS sul modello stimato e la seconda
discende direttamente dall'ipotesi che le variabili inserite nel modello non siano rilevanti per
spiegare y .
Durbin-Watson statistica test La statistica per il test di autocorrelazione del primo ordine
proposta da Durbin-Watson è funzione del coeciente di correlazione ρ tra i residui ed i loro ritardi
di ordine 1:
PT 2
t=2 (ût − ût−1 )
DW = PT 2
' 2(1 − ρ)
t=2 ût
Dimostrazione
PT 2
t=2 (ût − ût−1 )
DW = PT 2
t=2 ût
PT 2 2
PT
t=2 (ût + ût−1 − 2 t=2 ût ût−1 )
= PT 2
t=2 ût
PT 2
P T 2
PT
t=2 ût + t=2 ût−1 − 2 t=2 ût ût−1
= PT 2
t=2 ût
PT
(û22 + û23 + û24 + ...û2T ) + (û21 + û22 + û23 + ...û2T −1 ) − 2 t=2 ût ût−1
= PT 2
t=2 ût
−1 2
(û21 + 2 Tt=2 ût + û2T ) − 2 Tt=2 ût ût−1
P P
= PT 2
t=2 ût
Per T → ∞, si ha che:
12
P −1 2 PT −1 2
• û21 + 2 Tt=2 ût + û2T ' 2 t=2 ût
PT −1 2 PT 2
• t=2 ût ' t=2 ût
PT PT PT !
2
2 t=2 ût − 2 t=2 ût ût−1 t=2 ût ût−1
DW ' PT =2 1− T
û2t 2
P
t=2 t=2 ût
Si consideri ora il rapporto dentro la parentesi, che può essere riscritto come segue:
PT PT
t=2 ût ût−1 ût ût−1 − ut ut−1
t=2
P T 2
= PT 2 2
t=2 ût t=2 ût − ut
T × COV (ut , ut−1 ) COV (ut , ut−1 ) COV (ut , ut−1 )
= = =
T × V (ut ) V (ut ) SD(ut ) × SD(ut )
COV (ut , ut−1 )
= = ρut ,ut−1
SD(ut ) × SD(ut−1 )
dove nel primo passaggio sono state inserite nella formula le quantità nulle ut , ut 2 , e ut e nell'ultimo
si è sfruttato il fatto che per T → ∞, SD(ut ) ' SD(ut−1 ).
Si conclude quindi che
PT !
t=2 ût ût−1
DW ' 2 1 − P T 2
= 2(1 − ρ)
t=2 ût
Struttura dei momenti di un Random Walk con drift Dato il seguente Random Walk con
drift (µ 6= 0)
yt = µ + yt−1 + t dove t ∼ W N (0, σ 2 )
si dimostra che Valore Atteso, Varianza e struttura di Autocorrelazione sono rispettivamente pari
a:
1. E(yt ) = tµ + y0
2. V (yt ) = tσ 2 < ∞
q
3. ρs = t−s
t
Dimostrazione
Si cominci col sostituire yt−1 con µ + yt−2 + t−1 , nel processo in t, ottenendo:
13
yt =µ + yt−1 + t
µ + µ + yt−2 + t−1 + t
yt = µ + yt−1 + t
= µ + µ + yt−2 + t−1 + t
= µ + µ + µ + yt−3 + t−2 t−1 + t
... = ...
= tµ + yt−t + t−t+1 + ... + t−2 + t−1 + t
t
X
= tµ + y0 + i
i=1
1. Il valore attesoPrisulta:
E(tµ + y0 + ti=1 i ) = tµ + y0 + E(i ) = tµ + y0 poichè E(i ) = 0∀i in quanto
Pt
i=1
t ∼ W N (0, σ 2 )
2. In modo analogoP
si ricava laPvarianza del processo:
γ0 = V (tµ+y0 + ti=1 i ) = ti=1 V (i ) = tσ 2 poichè V (i ) = σ 2 ∀i in quanto t ∼ W N (0, σ 2 ).
r
γh (t − s)σ 2 t−s
ρs = = p =
γ0 t(t − s)σ 2 t
14
Struttura dei momenti di un Random Walk a media nulla Dato il seguente Random
Walk a media nulla (µ = 0)
yt = yt−1 + t dove t ∼ W N (0, σ 2 )
si dimostra che Valore Atteso, Varianza e struttura di Autocorrelazione sono rispettivamente pari
a:
1. E(yt ) = y0
2. V (yt ) = tσ 2 < ∞
q
3. ρs = t−s
t
Dimostrazione
Struttura dei momenti di un processo MA(q) Dato il seguente processo Moving Average
di ordine q
yt = µ + ut + θ1 ut−1 + θ2 ut−2 + ... + θq ut−q dove ut ∼ W N (0, σ 2 )
1. Circa il valore
P atteso si avrà:
E(yt ) = µ+ qi=0 θi E(ut−i ) = µ, dove nell'ultimo passaggio si è sfruttato il fatto che E(ut−i =
0∀i poichè ut ∼ W N (0, σ 2 ).
2. In modo analogo, la varianza sarà pari a:
q
X
V (yt ) = V (µ + θi ut−i )
i=0
q
X
= θi2 V (ut−i ) = (1 + θ12 + θ22 + ... + θq2 )σ 2
i=0
15
Struttura dei momenti di un MA(2) Si consideri il processo yt = ut + θ1 ut−1 + θ2 ut−2 , con
ut ∼ W N (0, σ 2 ), si dimostra che:
1. E(yt ) = 0
2. γ0 = V (yt ) = (1 + θ12 + θ22 )σ 2
2
(θ1 + θ2 θ1 )σ
s=1
3. γs = θ2 σ 2 s=2
0 s>2
Dimostrazione
Dimostrazione
dove il vettore ut contiene n processi white noise, ovvero uit con i = 1, ..., n sono tali che:
a) E(uit ) = 0
16
b) V (uit ) = σui
2
c) E(uit , ui,t−s ) = 0 ∀ s
d) E(uit , ujt ) = 0 ∀ i 6= j
I residui di un modello VAR(1) standard sono pertanto pari a et = A−1 ut . Preso ad esempio un
modello con n = 2 si avrà:
−1
1 −α12 u1t
et =
−α22 1 u2t
1 1 α12 u1t
=
1 − α12 α22 α22 1 u2t
" #
1
(u 1t + α u
12 2t )
= (1−α12 1
α22 )
(1−α12 α22 )
(α u
22 1t + u2t )
1
V (e2t ) = V (α22 u1t + u2t )
(1 − α12 α22 )
1 2
= α V (u 1t ) + V (u 2t )
(1 − α12 α22 )2 22
1 2 2 2
= α 22 σ u1 + σu2
(1 − α12 α22 )2
17
dove nel secondo passaggio si è sfruttato il fatto che E(e1t ) = E(e1,t−1 ) = 0 come dimostrato al pun-
to 1 di cui sopra, mentre nell'ultimo passaggio si sono sfruttate le proprietà di non-autocorrelazione
(ricordata al punto c) di cui sopra) ed incorrelazione (ricordata al punto d) di cui sopra) dei processi
white noise uit .
Poichè i valori attesi, le varianze e le autocovarianze sono costanti nel tempo, si è conclude che et
è stazionario.
18