Sei sulla pagina 1di 22

Panel Data

Giulio Palomba
Agosto 2008
I dati in formato panel combinano le informazioni relative alle caratteristiche di N individui nello stesso
istante temporale con quelle rilevate per gli stessi individui in T diversi periodi di tempo. Nei modelli di tipo
panel i dati disponibili hanno perci`o entrambe le caratteristiche di
Dati Cross Section: per un dato istante sono osservate le caratteristiche di pi` u individui,
Dati Time Series: per un dato collettivo di individui sono rilevate le diverse caratteristiche in diversi
istanti
1
.
La seguente matrice mostra la disposizione dei dati in formato panel relativi ad una variabile Y ; ogni colonna
si riferisce ad un diverso individuo per cui la variabile `e stata rilevata, mentre per riga sono disposte le diverse
osservazioni nel tempo. Ovviamente la variabile Y `e composta di NT osservazioni.
Y
(NT)
=
_

_
y
11
y
21
. . . y
i1
. . . y
N1
y
12
y
22
. . . y
i2
. . . y
N2
.
.
.
.
.
.
.
.
.
.
.
.
y
1t
y
2t
. . . y
it
. . . y
Nt
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
y
1T
y
2T
. . . y
iT
. . . y
NT
_

_
(1)
Poiche i dati cross section e quelli time series hanno ciascuno le proprie peculiarit`a, essi portano con se
tutte le complicazioni soprattutto per quanto riguarda il venir meno di alcune ipotesi classiche del modello di
regressione lineare
Y = X +. (2)
Attraverso la (2) `e possibile introdurre la notazione. Il vettore Y di dimensione (NT 1) `e ottenuto
applicando loperatore vec alla matrice (1) e rappresenta la variabile dipendente, la matrice dei regressori X ha
dimensione (NT k), mentre il vettore k-dimensionale contiene i parametri incogniti da stimare. Il termine
di disturbo ha le stesse dimensioni della variabile dipendente.
In molti testi spesso `e utilizzata una notazione meno compatta rispetto allequazione (2): molto spesso i
modelli per i dati panel vengono presentati nella formulazione che tiene conto della singola osservazione, quindi
lequazione del modello lineare di regressione diventa
y
it
= x

it
+
it
, (3)
dove tutte le variabili si riferiscono allosservazione relativa alli-esimo individuo nellistante t-esimo di tempo; in
questo contesto y
it
e
it
sono scalari, mentre la matrice dei regressori `e data da un vettore riga con k componenti.
A volte pu`o capitare di imbattersi in una notazione che accorpa tutte le osservazioni relative alli-esimo
individuo per il quale vengono rilevate T osservazioni. Lequazione che ne scaturisce `e perci`o la seguente:
y
i
(T1)
= x
i
(Tk)

(k1)
+
i
(T1)
,
1
Talvolta i termini cross section e time series sono tradotti rispettivamente con cross-sezionali e serie storiche.
1
Nelle pagine che seguiranno, salvo alcune eccezioni, sar`a utilizzata la notazione compatta introdotta nelle-
quazione (2).
La matrice delle varianze e delle covarianze del termine di errore del modello panel `e quadrata, simmetrica
ed ha dimensione (NT NT). Essa `e denita come
= V ar() = E(

)
La convenienza dellutilizzo dei modelli di tipo panel risiede soprattutto nel guadagno di ecienza della
stima perche il maggior numero di osservazioni che si ha rispetto alla sola dimensione cross section o time series
genera uno stimatore con variannza pi` u piccola.
1 Modelli per serie storiche pooled
Questa sezione consiste in una rassegna dei principali modelli di regressione lineare per serie storiche pooled
man mano che le ipotesi classiche si fanno sempre meno stringenti.
Le serie storiche pooled consistono in una combinazione di pochi individui osservati attraverso un campione di
T osservazioni ritenuto sucientemente ampio da consentire regressioni di tipo time series per ciascun individuo.
Questo tipo di modelli permette lottenimento di stime pi` u ecienti rispetto al caso delle singole regressioni
perche utilizza un set informativo maggiore dovuto alla presenza di pi` u individui.
1.1 Modello lineare classico
Data lequazione (2), devono essere rispettate le ipotesi classiche
1. E( | X) = 0,
2. La matrice X ha rango pieno pari a k,
3. E(X

) = 0,
4. = V ar() = E(

) =
2
I
NT
: questultima ipotesi (di omoschedasticit`a) implicitamente assume che
(a) la varianza di ciascuna osservazione
2
it
`e costante per i e t,
(b) E(
it

is
) per ogni t = s, cio`e non c`e correlazione tra le osservazioni relative allo stesso individuo in
istanti diversi,
(c) E(
it

jt
) per ogni i = j, cio`e non c`e correlazione istantanea tra le osservazioni relative ad individui
diversi.
Sotto queste condizioni lo stimatore OLS risulta essere non distorto, consistente, BLUE.
1.2 Modello con eteroschedasticit`a pura
Rispetto al modello lineare classico di cui sopra viene rimossa lipotesi per la quale la varianza `e costante
lungo la diagonale principale della matrice . In particolare, si assume che ciascun individuo allinterno del
campione conserva lipotesi di omoschedasticit`a nel periodo di tempo considerato, ma pu`o presentare una
varianza dierente rispetto agli altri individui.
Leteroschedasticit`a pura si congura perci`o come una situazione in cui la matrice resta diagonale, ma
con varianze che variano ogni T osservazioni. Analiticamente si ha
=
_

2
1
I
T
0 . . . 0 . . . 0
0
2
2
I
T
. . . 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
2
i
I
T
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . 0 . . .
2
N
I
T
_

_
. (4)
2
La presenza di eteroschedasticit`a pura `e condizione necessaria anche si utilizzi lo stimatore GLS

GLS
= (X

1
X)
1
X

1
Y (5)
Ovviamente, data la forma diagonale di , lo stimatore GLS in pratica `e uno stimatore dei minimi quadrati
ponderati (stimatore WLS) in quanto pu`o essere ottenuto attraverso la regressione OLS di
1/2
Y su
1/2
X,
con
1/2
matrice diagonale i cui elementi (pesi) sono dati da N sequenze di lunghezza T con valori pari a 1/
i
.
Poiche gli N parametri
2
i
non sono noti, occorre una loro stima consistente. La soluzione a questo problema
risiede in due strade alternative e non equivalenti:
si stima un modello OLS su tutte le NT osservazioni, si salvano i residui (vettore di dimensione NT),
si stimano N regressioni del tipo
y
i
(T1)
= x
i
(Tk)

i
(k1)
+
i
(T1)
.
In entrambi i casi, per ciascuno degli N individui, si calcola la statistica

i
=

i

i
T k
.
Naturalmente, una volta ottenuta la stima

, lo stimatore (5) diviene feasible (FGLS) con le usuali
propriet`a di non distorsione e consistenza. Inoltre, per T , esso risulta asintoticamente eciente.
1.3 Modello con eteroschedasticit`a pura e correlazione tra individui
Rispetto allapproccio precedente viene rimossa lassunzione di incorrelazione contemporanea tra gli individui.
In pratica si ha
E(
it

jt
) =
2
ij
per ogni i e j, quindi la matrice delle varianze e delle covarianze del termine di disturbo diventa
= I
T
(6)
dove

(NN)
=
_

2
1

12
. . .
1N

12

2
2
. . .
2N
.
.
.
.
.
.
.
.
.
.
.
.

1N

2N
. . .
NN
_

_
.
La struttura della matrice di fatto consiste nellaccostamento di N
2
matrici diagonali quadrate di dimen-
sione T T, struttura coerente con il modello Seemingly Related Regression (SUR) dato da
_

_
y
1
y
2
.
.
.
y
N
_

_
=
_

_
X
1
0 . . . 0
0 X
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . X
N
_

_
_

2
.
.
.

N
_

_
+
_

2
.
.
.

N
_

_
Y = ( X
i
(Tk)
I
N
)
(Nk1)
+,
sotto lipotesi che
1
=
2
= . . . =
N
(quindi in tutto k parametri da stimare). Dato che la matrice non
rispetta lipotesi di omoschedasticit`a, anche in questo caso lo stimatore FGLS risulta essere il pi` u appropriato
e le covarianze stimate
ij
possono essere ottenut attraverso i due metodi introdotto nel precedente paragrafo.
Una volta ottenuta

, quindi

=

I
T
, lo stimatore FGLS diventa

FGLS
= (X

1
X)
1
X

1
Y (7)
con X = (X
i
I
N
). Lo stimatore FGLS `e non distorto, consistente ed asintoticamente eciente per T ,
dato N.
3
1.4 Modello con eteroschedasticit`a e correlazioni pure
In questo caso sono le correlazioni ad essere pure e non leteroschedasticit`a: ci`o signica che la matrice delle
varianze e delle covarianze per ciascun individuo tiene conto del fatto che c`e autocorrelazione tra le osservazioni,
mentre tra diversi individui tale autocorrelazione `e inesistente.
eteroschedasticit`a pura: E(
it

jt
) =
2
ij
(nello stesso istante c`e correlazione tra diversi individui),
correlazioni pure: E(
it

is
) =
i,ts
(per lo stesso individuo c`e correlazioni per le osservazioni in diversi
istanti).
Considerando il vettore (T 1)
i
, si ha perci`o che
E(
i

i
) =
2
i

i
(8)
con

i
(TT)
=
_

_
1
i

2
i
. . .
T1
i

i
1
i
. . .
T2
i

2
i

i
1 . . .
T3
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

T1
i

T2
i

T3
i
. . . 1
_

_
.
Gli elementi extradiagonali della matrice
i
sono ottenuti ricorsivamente mediante un modello AR(1)
calcolato sugli errori relativi alli-esimo individuo (
i
), cio`e

i,t
=
i

i,t1
+u
i,t
con i = 1, 2, . . . , N e t = 2, 3, . . . , T. Per il calcolo di tutte le altre autocorrelazioni si procede mediante
sostituzioni ricorsive
2
. Dal punto di vista analitico la matrice diagonale di cui alla (4) diventa diagonale a
blocchi in quanto le matrici identit`a I
T
(diagonali) vengono rimpiazzate con le matrici
i
(piene), quindi si ha
=
_

2
1

1
0 . . . 0 . . . 0
0
2
2

2
. . . 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
2
i

i
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . 0 . . .
2
N

N
_

_
. (9)
Il modello pertanto va stimato in due stadi: nel primo si eettua una regressione OLS di Y su X per ottenere
i residui . A questo punto, per ciascun individuo, si eettua un ulteriore OLS
i,t
=
i

i,t1
+u
i,t
per ottenere
la stima consistente del parametro
i
.
Il secondo step consiste in una stima WLS analoga alla (5) nella quale la matrice dei pesi `e nota come
Trasformazione di Prais e Winsten denita come segue
z
i,t
=
i
z
i,t1
2
In particolare, per lautocorrelazione di ordine 2 risulta

i,t
=
i

i,t1
+u
i,t
=
i
(
i

i,t2
+u
i,t1
) +u
i,t
=
2
i

i,t2
+
i
u
i,t1
+u
i,t
.
Generalizzando, per lautocorrelazione di ordine s si ha

i,t
=
s
i

i,ts
+
s1
X
r=0

r
i
u
i,tr
.
Ovviamente il coeciente
s
i
`e quello che va immesso allinterno della matrice
i
.
4
dove z
i,t
= y
i,t
, x
i,t
. Inoltre, per evitare la perdita della prima osservazione, si moltiplica z
i,1
per la quantit`a

1
i
.
Anche in questo caso lo stimatore ottenuto ha le usuali propriet`a della non distorsione, della consistenza e
dellecienza asintotica per T .
1.5 Modello con eteroschedasticit`a e correlazioni pura e con correlazione tra
individui
Questo modello `e il pi` u generale di tutti quelli proposti nora in quanto
c`e eteroschedasticit`a dei termini di errore tra gli individui,
c`e correlazione istantanea tra i diversi individui,
c`e autocorrelazione tra le osservazioni relative ad ogni individuo.
La logica conseguenza di queste assunzioni `e che la matrice sia piena, quindi assuma la forma
=
_

2
1

11

12

12
. . .
1i

1i
. . .
1N

1N

21

21

2
2

22
. . .
2i

2i
. . .
2N

2N
.
.
.
.
.
.
.
.
.
.
.
.

i1

i1

i2

i2

2
i

ii

iN

iN
.
.
.
.
.
.
.
.
.
.
.
.

N1

N1

N2

N2
. . .
Ni

Ni
. . .
2
i

ii
_

_
. (10)
in questo caso il metodo di stima adottato sostanzialmente ricalca quello presentato nel precedente paragrafo.
2 Modelli per dati longitudinali
Quando si parla di dati longitudinali si intende una struttura come quella illustrata dalla matrice (1) nella
quale generalmente la numerosit`a degli individui `e elevata, mentre quella relativa alla dimensione temporale `e
piuttosto contenuta.
Si tenga presente che, qualora le ipotesi circa la matrice delle varianze e delle covarianze e la costante
(qualora ci fosse) rispettino quelle proprie dei modelli di serie storiche pooled, questi divengono automaticamente
utilizzabili in questo contesto semplicemente scambiando gli indici relativi agli individui e al tempo.
2.1 Modello ad eetti ssi
Considerando li-esimo individuo, il modello ad eetti ssi si congura come segue
y
i
=
i
+x
i
+
i
, (11)
dove y
i
e
i
hanno dimensione (T 1), x
i
ha dimensione (T k) e `e il vettore contenente k parametri da
stimare. La peculiarit`a della (11) riguarda la costante che si congura come un vettore di T elementi costanti
pari ad
i
: questa caratteristica indica innanzi tutto che per ciascun individuo occorre stimare un solo valore
della costante e che, se
i
=
j
per ogni i = j, tale costante misura leffetto individuale, cio`e quellinsieme
di caratteristiche speciche proprie di ciascun individuo che per`o restano immutate nel tempo. In pratica, nel
modello ci sono in tutto k + N parametri da stimare, k contenuti nel vettore ed N costanti per i diversi
individui. Queste costanti rappresentano leterogeneit`a presente tra gli individui nel sistema, caratteristica
peculiare dei panel data.
5
Generalizzando la (11) riscrivendola in forma matriciale si ottiene:
_

_
y
1
y
2
.
.
.
y
N1
y
N
_

_
=
_

T
0 . . . 0 X
1
0
T
. . . 0 X
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . 0 X
N1
0 0 . . .
T
X
N
_

_
_

2
.
.
.

_
+
_

2
.
.
.

N1

N
_

_
, (12)
dove
T
`e un vettore contenente T elementi pari a 1. In forma compatta si ha perci`o
Y = [ (I
N

T
) X ]
_

_
+ (13)
oppure
Y
(NT1)
= (I
N

T
)
(NTN)

(N1)
+ X
(NTk)

(k1)
+
(NT1)
(14)
Poiche i valori del vettore non sono osservabili essi entrerebbero a pieno titolo allinterno dellerrore del
modello ma, se cos` fosse, essi potrebbero essere correlati con le variabili esplicative X
i
e la stima risulterebbe
distorta.
Le formulazione (14) permette di stimare il modello attraverso lOLS in quanto tutte le ipotesi classiche sono
rispettate. Il modello prende il nome di modello a variabili dummy poiche occorre costruire N (nuerosit`a
degli eetti individuali) variabili dummy da inserire allinterno della matrice dei regressori. Lo stimatore che si
ottiene `e non distorto, consistente e BLUE. La sua forma analitica `e ottenibile come
_

_
=
_
(I
N

T
)

(I
N

T
) (I
N

T
)

X
X

(I
N

T
) X

X
_
1
_
(I
N

T
)

Y
X

Y
_
Dato che per le propriet`a del prodotto di Kronecker vale (I
N

T
)

(I
N

T
) = I
N

T
= TI
N
, risulta
_

_
=
_
TI
N
(I
N

T
)

X
X

(I
N

T
) X

X
_
1
_
(I
N

T
)

Y
X

Y
_
.
Per invertire la matrice contenuta allinterno dellespressione dello stimatore OLS si ricorre ad un noto risultato
sulle matrici partizionate e, dopo alcuni calcoli
3
si arriva a
_

_
=
_

_
1
T
(I
N

T
)

(Y X

)
(X

MX)
1
X

MY
_

_, (15)
dove M = I
NT
P `e la matrice di proiezione che, applicata ad una variabile, per ogni individuo restituisce lo
scostamento dalla media aritmetica temporale. Tale matrice, per denizione, risulta essere quadrata (NT NT),
diagonale a blocchi, simmetrica ed idempotente
4
.
3
In particolare ci si riferisce alla seguente inversione

A
11
A
12
A
21
A
22

1
=

A
1
11
+A
1
11
A
12
S
2
A
21
A
1
11
A
1
11
A
12
S2
S
2
A
21
A
1
11
S
2

,
dove S
2
= (A
22
A
21
A
1
11
A
12
)
1
. LAppendice A-2 contiene tutta la derivazione analitica dello stimatore del modello ad eetti
ssi.
4
Denizione e propriet`a delle matrici P e M sono discusse nellAppendice A-1.
6
2.2 Stimatore within
Prendendo in considerazione lo stimatore

determinato nellequazione (15) e tenendo presente la propriet`a di
idempotenza della matrice M si ha

= (X

MX)
1
X

MY
= (

X

X)
1

X

Y . (16)
Tale stimatore `e perci`o ottenibile anche attraverso la regressione OLS di

Y = MY su

X = MX; in pratica si
tratta di applicare il modello lineare classico dove sia la variabile dipendente, sia la matrice dei regressori sono
espressa in deviazione dalle corrispondenti medie individuali calcolate rispetto al tempo
5
.
Lo stimatore

prende perci`o il nome di Stimatore Within in quanto tiene conto degli eetti individuali
grazie alla trasformazione eettuata attraverso la matrice M, ma li elimina
6
dal modello utilizzando per ciascun
individuo linformazione derivante dalle variazioni temporali (variazioni nei gruppi).
Lo stimatore within e lo stimatore a variabili dummy producono sempre gli stessi valori numerici.
Una volta ottenuto lo stimatore within, gli eetti individuali esclusi dal suo computo possono essere sfruttati
attraverso lequazione (14), infatti
(I
N

T
) = Y X

1
T
(I
N

T
)

(I
N

T
) =
1
T
(I
N

T
)

(Y X

)
1
T
(I
N

T
)(I
N

T
) =
1
T
(I
N

T
)

(Y X

)
1
T
(I
N
T) =
1
T
(I
N

T
)

(Y X

)
=
1
T
(I
N

T
)

(Y X

). (17)
Lequazione (17) mostra che, per ogni singolo individuo, la costante `e pari alla dierenza tra la media individuale
della variabile dipendente e le medie individuali dei regressori ponderate per lo stimatore within. Dal punto di
vista dellindividuo, analiticamente si ha

i
= y
i
x
i

(18)
Le costanti
i
con i = 1, 2, . . . , N catturano leetto di quelle variabili che variano tra individuo e individuo,
ma restano immutate nel tempo; lo stimatore within perci`o tiene conto solo delleterogeneit`a tra gli individui.
Il limite pi` u evidente di questo approccio consiste nellimpossibilit`a di includere nel modello regressori che
assumano un valore costante allinterno delle osservazioni relative al singolo individuo: dal punto di vista
statistico, questa impossibilit`a deriva dal fatto che una variabile esplicativa con questa caratteristica risulterebbe
collineare con (I
N

T
) nellequazione (14), mentre dal punto di vista algebrico calcolare lo scostamento di queste
variabili dal loro valore medio individuale (attraverso la matrice M) produrrebbe colonne di zeri nella matrice
dei regressori che quindi non avrebbe rango pieno. In questo caso il metodo OLS non sarebbe perci`o applicabile.
Per la verica di ipotesi relativa allassenza di eterogeneit`a tra gli individui il test t di azzeramento delle
costanti
i
non `e di alcuna utilit`a pratica.
`
E invece possibile costruire un test F nel quale lipotesi nulla `e
H
0
:
1
=
2
= . . . =
N
(N 1 vincoli in tutto); la statistica test `e



NT N K 1
N 1
F
N1,NTNK1
, (19)
dove e sono i residui rispettivamente del modello vincolato e di quello libero, mentre lo stimatore corretto e
consistente per la varianza `e

2


NT N K 1
.
5
Si tenga presente che, per lipotesi classica E() = 0, quindi risulta M =
6 `
E ovvio che il prodotto M(I
N

T
) = 0 quindi le costanti del modello sono rimosse attraverso il calcolo dello stimatore within.
7
Alla luce di questo risultato si ha inoltre V ar(

) =
2

(X

MX)
1
. Si noti inne che, sotto H
0
, di fatto lo
stimatore within coincide con lo stimatore pooled.
Lo stimatore within `e
BLUE,
consistente per NT ,
asintoticamente normale poiche

NT(

)
d
N
_
0,
2

Q
1
_
,
dove Q = lim
NT
_
1
NT
X

MX
_
1
.
2.3 Modello ad eetti casuali
Il modello ad eetti casuali tratta gli eetti individuali come parte del termine di errore, quindi li considera
come componenti stocastiche sicuramente incorrelate con i regressori: in questo modo `e possibile includere
allinterno della matrice X variabili che cambiano tra soggetto e soggetto, pur rimenendo costanti allinterno
delle T osservazioni relative al singolo individuo. Con il modello ad eetti ssi questa opportunit`a era preclusa.
Considerando li-esimo individuo, la forma analitica del modello ad eetti casuali `e
y
i
=
i
+x
i
+
i
y
i
= +x

i
+
i
+
i
(20)
dove il vettore (T 1) relativo alla costante
i
= +
i
`e dato dalla somma di una componente indipendente
da i e da t e da unaltra che varia da individuo ad individuo. Ovviamente, dato i,
i
`e un vettore di costanti.
Anche si ottengano stime consistenti con questapproccio, la condizione necessaria `e lincorrelazione tra
i
e
la matrice dei regressori x
i
per ogni i.
Rispetto al modello ad eetti ssi il termine di errore
i
ha esattamente tutte le stesse propriet`a, mentre
occorre introdurre alcune ipotesi aggiuntive riguardo alla componente
i
.
1. E(
i
) = 0,
2. V ar(
i
) =
2

per ogni i = 1, 2, . . . , N,
3. E(
i
,
j
) = 0 per ogni i = j (incorrelazione tra gli eetti individuali),
4. E(
i
,
j,t
) = 0 per ogni i, j, t (incorrelazione tra eetti individuali e disturbi).
Riscrivendo il modello in forma compatta si ha
Y
(NT1)
=
(NT1)
+ X
(NTk)

(k1)
+ (
T
)
(NT1)
+
(NT1)
(21)
dove di dimensione N `e il vettore contenente gli eetti individuali. Denendo inoltre il vettore U = (
T
)+
si nota immediatamente che lerrore del modello ad eetti casuali `e composto di una componente che varia tra
gli individui, ma resta costante nel tempo, ed unaltra che varia stocasticamente tra gli individui e nel tempo.
Date le ipotesi aggiuntive di cui sopra, la matrice delle varianze e delle covarianze di U ricopre un ruolo
determinante. Essa `e denita come
= V ar(U)
= E(UU

)
= E{[(
T
) +][(
T
) +]

}
= E[(
T
)(
T
)

]
= E(

T
+

)
= E(

T
) +E(

).
8
Dato che E(

) =
2

I
N
, la matrice E(

T
) assume una struttura diagonale a blocchi quindi, tenendo
presente anche che E(

) =
2

I
NT
, si ottiene
=
2

(I
N

T

T
) +
2

I
NT
= I
N
(
2

T
+
2

I
T
). (22)
La matrice `e anchessa diaginale a blocchi e ciascun blocco `e dato da

i
(TT)
=
_

+
2

. . .
2

+
2

. . .
2

.
.
.
.
.
.
.
.
.
.
.
.

. . .
2

+
2

_
.
La matrice
i
mostra che lerrore composto (U) ha autocorrelazione non nulla e costante nel tempo e soprattutto
che la struttura di autocorrelazione non varia da individuo ad individuo (la matrice `e priva degli indici i e t).
Poiche tale matrice delle varianze e delle covarianze `e diagonale a blocchi, il modello ad eetti casuali deve
essere stimato attraverso il metodo GLS, quindi si ha

b = (X

1
X)
1
X

1
Y (23)
dove

b = [

]

ha dimensione (k + 1).
La matrice inversa
1
`e data da

1
= (I
N

i
)
1
= I
N

1
i
= I
N
(
2

T
+
2

I
T
)
1
.
Aggiungendo e togliendo P

si ottiene

1
= I
N
[(T
2

+
2

)P

+
2

(I
T
P

)]
1
= I
N
[(T
2

+
2

)P

+
2

]
1
= [(T
2

+
2

)P +
2

M]
1
.
Ponendo
2
= (T
2

+
2

), per le propriet`a delle matrici P e M si ha


7

1
=
1

2
P +
1

M (24)
e quindi

1/2
=
1

P +
1

M. (25)
Da questa denizione emerge che lo stimatore GLS per il modello ad eetti casuali coincide con lo stimatore
OLS della regressione di

Y =
1/2
Y su

X =
1/2
X. Le propriet`a di questo stimatore sono
1. se
2

e
2

sono noti, lo stimatore GLS `e consistente per N e T ,


2. per T dato, lo stimatore GLS `e pi` u eciente dello stimatore within; per N tale ecienza tende a
svanire,
3. se
1
M lo stimatore GLS coincide con lo stimatore within, quindi il modello ad eetti casuali coincide
con quello ad eetti ssi: ci`o pu`o accadere se lunica fonte di variabilit`a deriva dagli eetti individuali
i
.
Analiticamente deve perci`o risultare che

2

= 0 (vettore costante per ogni i e t),


7
Si veda lAppendice A-1.
9
T (per denizione
2

= 0): in questo caso gli eetti individuali diventano osservabili


8
,
,
4. se
1
I
NT
il modello ad eetti casuali diventa un modello OLS standard e coincide con un modello di
serie storiche pooled; in questo caso naturalmente
2

= 0 quindi non ci sono eetti individuali e tutta la


variabilit`a dipende dal termine di disturbo .
2.4 Stimatore between
Considerando il modello ad eetti casuali di cui alla (21), la trasformazione Between consiste nellesprimere le
variabili attraverso le medie temporali di ciascun individuo; in pratica algebricamente si tratta di premoltiplicare
lintera equazione per la matrice P,
PY = P +PX +P[(
T
) +]
= PXb +Pu.
Lo stimatore che si allpica `e perci`o un GLS che si congura come un modello OLS della regressione di

Y = PY
su

X = PX, infatti

b = (X

P
1
X)
1
X

P
1
Y
= (

X


X)
1

X


Y (26)
dove

b = [

]

ha dimensione (k +1). Lo stimatore di cui alla (26) risulta essere non distorto e consistente
per N .
Analogamente allo stimatore within, lo stimatore between determina una perdita di informazione poiche si
basa sul calcolo delle medie temporali di ciascun individuo. Per denizione, tale trasformazione produce una
perdita di ecienza.
Mentre lo stimatore within sfrutta la variazione che avviene allinterno delle osservazioni relative a ciascun
individuo (deviazioni dalle medie o variazioni nei gruppi), lo stimatore between sfrutta quelle derivanti dalla
variabilit`a delle osservazioni tra diversi individui (variazioni tra i gruppi), in quanto opera una regressione di
N medie su un set di regressori nel quale sono state calcolate le N medie corrispondenti.
2.5 Stimatore GLS, within e between
I tre stimatori visti nora possono essere messi in relazione in quanto lo stimatore GLS `e una media ponderata
degli stimatori within e between; considerando i parametri a
1
[0, 1] e a
2
= 1 a
1
e le due trasformazioni
within e between si ha
(a
1
P +a
2
M)Y = (a
1
P +a
2
M)X +a
1
P
bet
+a
2
M
wit
.
Lo stimatore GLS che ne risulta `e

GLS
= [X

(a
1
P +a
2
M)

(a
1
P +a
2
M)X]
1
X

(a
1
P +a
2
M)

(a
1
P +a
2
M)Y
= [X

(a
2
1
P +a
2
2
M)X]
1
X

(a
2
1
P +a
2
2
M)Y. (27)
`
E perci`o possibile esprimere lo stimatore GLS semplicemente imponendo
1
= (a
1
P + a
2
M). Poiche dalle-
quazione (25) risulta a
1
= 1/ e a
2
= 1/

, dove = (T
2

+
2

)
1/2
, si hanno i seguenti scenari:
se
2

= 0 a
2
(peso innito assegnato allo stimatore within),
se T a
1
= 0 (lo stimatore GLS coincide con lo stimatore within, gli eetti individuali sono
osservabili),
se
2

= 0 =

, a
1
= a
2
(lo stimatore GLS in realt`a `e uno stimatore OLS, omoschedasticit`a).
8
Considerando il modello per la singola osservazione y
it
x

it
=
i
+
it
, se T signica che il valore atteso della
componente
it
`e davvero nullo quindi lespressione a sinistra del segno di uguaglianza rappresenta la singola osservazione per
i
.
In questo caso lo stimatore GLS `e consistente.
10
2.6 Stimatore FGLS
Quando
2

e
2

sono osservabili in pratica lo stimatore GLS pu`o essere applicato senza alcun problema; nella
pratica questa situazione capita raramente.
Per ovviare a questo inconveniente si ricorre allo stimatore Feasible GLS (FGLS). Innanzi tutto si ricorre
ai residui dello stimatore within
wit
per ottenere lo stimatore

2

wit
M
wit
NT N k
, (28)
dove la correzione per i gradi di libert`a `e data dal numero dei parametri da stimare che ammonta a N +k.
9
Successivamente si ricorre al modello ad eetti casuali e si considera il modello relativo alli-esima media
individuale rispetto al tempo y
i
x
i
=
i
+
i
; la varianza rispetto allo scalare u
i
=
i
+
i
`e data da
V ar(u
i
) = V ar(
i
+
i
)
= V ar(
i
) +V ar
_
1
T
T

t=1

it
_
=
2

+

2

T
=
2
R
.
Considerando perci`o li-esimo individuo, uno stimatore corretto e consistente per
2
R
`e

2
R
=
u

i
u
i
N k
, (29)
dove u
i
sono i residui del modello e k indica il numero dei regressori escludendo la costante. Data la denizione
analitica di
2
R
`e immediato stimare indirettamente la varianza degli eetti individuali attraverso lequazione

2

=
2
R

T
(30)
Attraverso questa relazione `e quindi possibile stimare il modello col metodo GLS (che diviene feasible).
Lunico inconveniente di questo metodo `e determinato dal fatto che, in campioni niti, pu`o accadere che la (30)
restituisca un valore negativo.
2.7 Test statistici
Per decidere se `e preferibile la stima di un modello ad eetti ssi o uno ad eetti casuali `e possibile utilizzare
alcune procedure di test. I pi` u famosi sono il test di Breusch e Pagan (1980) e quello di Hausman (1978).
2.7.1 Test di Breusch e Pagan
Il test di Breusch e Pagan (test BP) `e uno dei test diagnostici pi` u popolari per valutare la presenza di
eteroschedasticit`a allinterno del modello lineare di regressione Y = X + con N(0,
2
). Lipotesi
nulla del test `e lassenza di eteroschedasticit`a quindi, poiche vale lassunzione
V ar() =
2
f(Z) =
2
f(
0
+
1
Z
1
+. . . +
q
Z
q
),
essa si struttura come
H
0
:
1
=
2
= . . . =
q
= 0 (q vincoli), (31)
9
Se si considerasse lo scenario relativo a ciascun individuo si avrebbero N(T k 1) g.d.l. in tutto, quindi una stima in eccesso
del loro numero.
11
dove Z `e una matrice dove ciascuna delle (q +1) colonne costituisce una variabile esplicativa per la varianza del
termine di errore. La statistica test, nella sua forma generale, si congura come un test LM e risulta essere
LM
BP
=
1
2
0
2
(
2

0
)

Z(Z

Z)
1
Z

(
2

0
), (32)
dove
0
=


n
`e lo stimatore OLS non corretto della varianza, mentre n `e il numero totale delle osservazioni.
In pratica, la statistica test (32) `e esprimibile come
10
LM
BP
= nR
2
dove lindice R
2
`e quello relativo alla regressione di (
2
/
0
1) su Z. La distribuzione limite della statistica
test BP `e LM
BP

2
q
. Per il calcolo di questa statistica occorre procedere come segue:
stima OLS del modello Y = X +,
calcolo dello stimatore
0
,
stima della regressione ausiliaria,
calcolo dellindice R
2
.
Nellambito dei modelli panel data `e possibile ricorrere al test BP per sottoporre a verica di ipotesi la
signicativit`a degli eetti individuali. Lipotesi nulla impone il solo vincolo
H
0
:
2

= 0, (33)
che garantisce omoschedasticit`a, quindi la matrice diagonale. Il test BP necessita solo dei residui del modello
vincolato che in questo contesto `e dato dal modello ad eetti ssi, quindi la statistica test assume la forma
LM
BP
=
NT
2(T 1)
_

wit
(I
N

T
)(I
N

T
)


wit

wit

wit

wit

wit
_
2
(34)
=
NT
2(T 1)
_

wit
(I
N

T

T
)
wit

wit

wit
1
_
2
, (35)
dove
wit
`e il residuo del modello stimato attraverso lo stimatore within. Poiche in questo caso lipotesi nulla
impone solo un vincolo, la distribuzione limite della statistica test `e data da una
2
1
.
2.7.2 Test di Hausman
Unaltra procedura di test per la scelta del modello panel da adottare `e data dal test di Hausman (1978); lo
stimatore withi `e costoso in termini di variabili da inserire nel modello e ci`o genera una perdita di g.d.l., mentre
lo stimatore ad eetti casuali deve avere la prerogativa che gli eetti individuali devono essere incorrelati coi
regressori altrimenti lo stimatore stesso `e inconsistente.
Ponendo u =
T
+, il test di Hausman si occupa perci`o di testare lipotesi nulla
_
H
0
: E(X

u) = 0
H
1
: E(X

u) = 0.
Considerando gli stimatori within (OLS) e GLS si hanno i seguenti scenari:
H
0
H
1
consistente consistente

OLS
ineciente
consistente inconsistente

GLS
eciente
10
Si veda lAppendice A-3 per la dimostrazione.
12
Naturalmente il test `e basato sulla dierenza q =

OLS

GLS
: se questa risulta essere statisticamente irrilevante
`e preferibile lutilizzo degli eetti casuali, mentre se q `e diversa da zero lo stimatore within `e preferibile
11
.
La statistica test `e data da
H = q

[V ar( q)]
1
q (36)
dove
V ar( q) = V ar(

OLS
) +V ar(

GLS
) + 2Cov(

OLS
,

GLS
).
Sotto H
0
si pu`o dimostrare che la covarianza tra i due stimatori OLS e GLS `e nulla, infatti basta considerare
lo stimatore

denito dalla seguente combinazioe lineare

GLS
+

OLS
,
dove `e uno scalare diverso da zero; calcolando la sua varianza si ottiene
V ar(

) = V ar(

GLS
) +
2
V ar(

GLS
) + 2Cov(

OLS
,

GLS
)
V ar(

) V ar(

GLS
) =
2
V ar(

GLS
) + 2Cov(

OLS
,

GLS
).
Poiche V ar(

) V ar(

GLS
) 0 per denizione, occorre necessariamente che anche lequazione di secondo
grado spuria al secondo membro sia maggiore o uguale a zero, cio`e
[V ar(

GLS
) + 2Cov(

OLS
,

GLS
)] 0.
Le soluzioni per questa disequazione sono 0 e 2
Cov(

OLS
,

GLS
)
V ar(

OLS
)
. Ovviamente, la condizione di
positivit`a V ar(

) V ar(

GLS
) `e garantita per ogni se e solo se i due stimatori OLS e GLS sono incorrelati.
Alla luce di questo risultato si ha semplicemente che q = V ar(

OLS
) +V ar(

GLS
). La distribuzione del test
di Hausman `e H
2
k
dove k `e il numero delle colonne di X (numero di regressori).
3 Panel dinamici
Uno sviluppo naturale e recente della letteratura sui modelli di tipo panel `e quella relativa ai panel dinamici
caratterizzati dalla presenza della variabile dipendente ritardata allinterno della matrice dei regressori. In
questo modo `e possibile modellare, quindi distinguere tra due diversi tipi di correlazione:
1. vera: autocorrelazione della variabile dipendente,
2. spuria: correlazione dovuta ad eterogeneit`a non osservata.
Prendendo come riferimanto la singola osservazione e limitando per semplicit`a la trattazione ai modelli con
un solo ritardo, lequazione generale per un panel dinamico `e
y
it
= X

it
+y
it1
+u
it
, (37)
dove u
it
=
i
+
it
e `e il parametro relativo alla componente autoregressiva del modello.
Il problema principale di questo tipo di modelli `e dato dal fatto che il termine di errore u
it
non `e incorrelato
con y
it1
e ci`o genera stime OLS e GLS inconsistenti. In particolare
E(u
it
y
it1
) = E[u
it
(X

it1
+y
it2
+u
it1
)]
= E[(
i
+
it
)(X

it1
+y
it2
+
i
+
it1
)]
= E(
2
i
)
=
2

= 0,
11 `
E pertanto possibile dimostrare che lo stimatore GLS con eetti casuali correlati coi regressori si identica nello stimatore
within.
13
quindi i valori nel tempo della variabile dipendente dipendono da
i
e non possono essere incorrlati col termine
di errore. Gli stimatori applicabili nellapproccio statico sono perci`o inconsistenti
12
.
Applicando la trasformazione within allequazione (37) implica lipotesi di una trattazione degli eetti in-
dividuali come ssi, ma tale strategia conduce ugualmente ad uno stimatore inconsistente; anche se si ha la
seguente equazione che rimuove gli eetti ssi
y
it
y
i
= (X
it
x
i
)

+(y
it1
y
i
) + (
it

i
),
tuttavia risulta
E[(y
it1
y
i
)(
it

i
)] = E[y
it1

it
y
it1

i
y
i

it
+ y
i

i
]
= E[ y
i

it
]
= E
_

_
1
T
T

t=1
y
it
_

it
_
= E
_

1
T
(y
i1
+y
i2
+. . . +y
it
. . . +y
iT
)
it
_
= E
_

1
T
y
it

it
_
=
1
T
E[
2
it
]
=
1
T

2

= 0.
Lo stimatore within `e perci`o anchesso inconsistente per T nito, mentre diviene consistente per T .
3.1 Stimatore di Anderson-Hsiao
Riscrivendo lequazione (37) in termini di dierenze prime si ottiene
y
it
= X

it
+y
it1
+
it
, (38)
quindi gli eetti individuali vengono eliminati in quanto u
it
=
it

it1
; in particolare si ha
it
MA(1),
dove il coeciente associato alla componente ritardata `e ovviamente pari a 1.
Anche in questo caso per`o il problema della correlazione tra variabile dipendente ed errore ha il suo peso,
infatti
E(y
it1

it
) = E[(y
it1
y
it2
)(
it

it1
)]
= E[y
it1

it
y
it2

it
y
it1

it1
+y
it2

it1
]
= E[y
it1

it1
] = 0,
in quanto y
it1
dipende da
it1
. Tale problema pu`o essere superato ricorrendo allo stimatore a variabili
strumentali (IV o 2SLS) utilizzando y
it2
come strumento per il quale vale
E(y
it2

it
) = 0.
Naturalmente la scelta dei ritardi della variabile dipendente da utilizzare come strumenti nella stima dipende
strettamente dalla presenza di autocorrelazione negli errori. Tecnicamente, `e perci`o possibile spingersi molto
indietro nel tempo per trovare uno strumento incorrelato coi regressori, ma ci`o presenta il costo della perdita
di osservazioni.
12
Sostituendo ricorsivamente nella (37) si ottiene
y
it
=
t
y
i0
+
0
@
t1
X
j=0

j
X

itj
1
A
+
t1
X
j=0

j
u
itj
.
La variabile dipendente `e funzione dallerrore presente e passato, quindi `e correlata con esso. Per la denizione di u
it
emerge inoltre
che essa dipende dagli eetti individuali
i
. Se si considerano i ritardi di tale variabile il discorso non cambia.
14
3.2 Stimatore di Arellano-Bond
Lo stimatore di Arellano-Bond (1991) `e uno stimatore a variabili strumentali che rappresenta lo strumento
principe nella stima dei modelli di tipo panel dinamico.
3.2.1 Modello autoregressivo puro
Per semplicit`a, per la spiegazione del modello di Arellano-Bond si ricorre inizialmente al modello autoregressivo
puro nel quale i regressori esogeni sono omessi ( = 0); si ha perci`o lequazione
y
it
= y
it1
+
i
+
it
. (39)
Le ipotesi alla base di questo metodo di stima sono:
T `e sso,
N ,

it
i.i.d.(0,
2

).
Si considera pertanto il modello in dierenze prime
y
it
= y
it1
+
it
= (y
it1
y
it2
) +
it

it1
(40)
dove ovviamente
it
MA(1), i = 1, 2, . . . , N e t = 3, 4, . . . , T. Lequazione (40) equivale ad un sistema di
equazioni simultanee con (T 2) equazioni con N osservazioni ciascuna del tipo
_

_
y
i3
= y
i2
+
i3
strumenti: y
i1
y
i4
= y
i3
+
i4
strumenti: y
i1
, y
i2
.
.
.
y
iT
= y
iT1
+
iT
strumenti: y
i1
, y
i2
, . . . , y
iT2
,
(41)
dove gli strumenti sono selezionati in base alla loro propriet`a di essere incorrelati coi termini di errore. In questo
modo `e possibile ottenere una stima consistente del modello dinamico.
A queso punto `e importante costruire la matrice delle varianze e delle covarianze di
it
che risulta essere
composta da
V ar(
it
) = V ar(
it

it1
) = 2
2

,
Cov(
it

it1
) = E(
it

it1

2
it1

it

it2
+
it1

it2
) =
2

Cov(
it

itk
) = E(
it

itk

it1

itk

it

itk1
+
it1

itk1
) = 0 per k > 1.
Utlizzando la forma matriciale, per lindividuo i-esimo si ha perci`o una matrice quadrata e simmetrica di
dimensione (T 2) (T 2) cos` composta
V
i
= E(
i

i
) =
2

_
2 1 0 0 . . . 0 0 0 0
1 2 1 0 . . . 0 0 0 0
0 1 2 1 . . . 0 0 0 0
0 0 1 2 . . . 0 0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 0 . . . 2 1 0 0
0 0 0 0 . . . 1 2 1 0
0 0 0 0 . . . 0 1 2 1
0 0 0 0 . . . 0 0 1 2
_

_
. (42)
15
Naturalmente, considerando il modello nella forma generale la matrice delle varianze e delle covarianze
13
`e data
da
V = I
N
V
i
. (43)
Allo stesso modo si denisce la matrice (T 2) C degli strumenti, dove C =
T2

j=1
j
Z
i
=
_

_
y
i1
0 0 0 0 0 . . . 0 0 . . . 0
0 y
i1
y
i2
0 0 0 . . . 0 0 . . . 0
0 0 0 y
i1
y
i2
y
i3
. . . 0 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 0 0 0 . . . y
i1
y
i2
. . . y
iT2
_

_
, (44)
dove ogni riga contiene gli strumenti validi per ciascun istante nel tempo t = 3, 4, . . . , T. Considerando tutte le
osservazioni del modello, tale matrice `e denita come
Z =
N
Z
i
(45)
ed ha dimensione N(T 2) C. Naturalmente, se gli strumenti sono validi, deve risultare E(Z

) = 0.
Riscrivendo la (40) nella forma compatta si ha
Y
t
N(T2)1
= Y
t1
N(T2)1
+
t
N(T2)1
, (46)
dove `e un parametro scalare. Il modello (46) `e caratterizzato dalla presenza di correlazione tra lerrore ed i
regressori, nonche dalla presenza di eteroschedasticit`a; Arellano e Bond (1991) risolvono il primo inconveniente
strumentando lequazione come segue
Z

Y
t
C1
= Z

Y
t1
C1
+Z

t
C1
. (47)
Per quanto riguarda leteroschedasticit`a, la matrice delle varianze e delle covarianze dipende strettamente
dalla presenza di N individui e risulta essere
= V ar(Z

)
= E(Z

Z)
=
2

V Z
=
2

(I
N
V
i
)Z. (48)
Lo stimatore di Arellano-Bond `e perci`o uno stimatore GLS del tipo

= (Y

t1
Z
1
Z

Y
t1
)
1
Y

t1
Z
1
Z

Y
t
= {Y

t1
Z[Z

(I
N
V
i
)Z]
1
Z

Y
t1
}
1
Y

t1
Z[Z

(I
N
V
i
)Z]
1
Z

Y
t
. (49)
Tale stimatore `e noto col nome Stimatore di Arellano-Bond One step consistent. Lo stimatore
Two step consistent invece `e ottenibile sostituendo la matrice dei momenti secondi della popolazione
V
i
= E(

) con quella dei corrispondenti momenti secondi campionari data da W


i
= E(

), dove

varepsilon `e ottenuto come residuo del modello (40) stimato attraverso lo stimatore (49). I due stimatori sono
asintoticamente equivalenti per N .
13
Tale matrice ha dimensione N(T 2) N(T 2).
16
3.2.2 Regressori esogeni
Inserendo nella trattazione anche i regressori esogeni lequazione (39) si modica nella seguente espressione
y
it
= y
it1
+X

it
+
i
+
it
, (50)
dove X

it
ha K 1 colonne; in questo modo il numero totale dei parametri da stimare sia pari a K (tutte le
componenti di pi` u lo scalare ).
Anche in questo contesto si esprime il modello utilizzando le dierenze prime in modo da determinare quali
siano gli strumenti validi. Analiticamente si ottiene perci`o
y
it
= y
it1
+ X

it
+
it
, (51)
dove gli eetti ssi sono rimossi. A questo punto occorre distinguere due casi:
1. Regressori predeterminati E(X

it

is
) = 0 solo quando t > s. La matrice degli strumenti `e analoga alla
(44) con laggiunta di altri strumenti ottenibili dalla matrice dei regressori esogeni, infatti
Z
i
=
_

_
y
i1
X
i1
X
i2
0 0 0 0 0 . . . 0 0 . . . 0 0 0 . . . 0
0 0 0 y
i1
y
i2
X
i1
X
i2
X
i3
. . . 0 0 . . . 0 0 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 0 0 0 0 0 . . . y
i1
y
i2
. . . y
iT2
X
i1
X
i2
. . . X
T1
_

_. (52)
2. Regressori esogeni in senso stretto E(X

it

is
) = 0 per ogni t, s = 1, 2, . . . , T 2. In questo caso le variabili
X
i1
, X
i2
, . . . , X
iT1
sono sempre tutti strumenti validi e vanno inseriti nelle righe della matrice Z
i
.
Una volta determinate le matrici degli strumenti validi la procedura illustrata nella sezione 3.2.1 resta valida
anche in questambito.
Appendice
A-1 Propriet`a delle matrici P e M
Matrice P
La matrice di proiezione P `e denita come P = (I
N
P

) con P

=
T
(

T
)
1

T
. Essa risulta essere
quadrata: dato che P

=
T
(

T
)
1

T
`e quadrata di dimensione (T T)
P

=
1
T
_

_
1 1 . . . 1
1 1 . . . 1
.
.
.
.
.
.
.
.
.
.
.
.
1 1 . . . 1
_

_
,
il prodotto P = (I
N
P

) `e esso stesso una matrice quadrata di dimensione (NT NT).


diagonale a blocchi: in tutto ci sono N blocchi composti dalla matrice P

P =
_

_
P

0 . . . 0
0 P

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . P

_
.
simmetrica: poiche tutti i blocchi sono simmetrici, naturalmente risulta anche P = P

.
17
idempotente: dato che P

=
T
(

T
)
1

T
(

T
)
1

T
=
T
(

T
)
1

T
= P

risulta
PP =
_

_
P

0 . . . 0
0 P

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . P

_
_

_
P

0 . . . 0
0 P

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . P

_
=
_

_
P

0 . . . 0
0 P

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . P

_
=
_

_
P

0 . . . 0
0 P

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . P

_
= P
Quando moltiplica una matrice in formato panel X di dimensione (NT k), P ritorna la matrice

X avente le
stesse dimensioni della matrice data e contenente le sue medie individuali calcolate sulle colonne.
PX = (I
N
P

)
(NTNT)
X
(NTk)
=
_

T
(

T
)
1

T
0 . . . 0
0
T
(

T
)
1

T
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
T
(

T
)
1

T
_

_
_

_
x
1
x
2
.
.
.
x
N
_

_
=
_

T
(

T
)
1

T
x
1

T
(

T
)
1

T
x
2
.
.
.

T
(

T
)
1

T
x
N
_

_
Dato che (

T
)
1

T
x
i
=
1
T
T

j=1
x

ij
= x

i
(vettore riga k-dimensionale contenente le medie aritmetiche temporali
relative alli-esimo individuo), si ottiene
PX =
_

T
x

T
x

2
.
.
.

T
x

N
_

_
=

X.
Dal punto di vista geometrico P si congura come la matrice delle proiezioni ortogonali sullo spazio generato
da
T
di tutte le variabili individuali y
i
(N1)
e x
i
(Nk)
.
Matrice M
La matrice M `e denita come M = (I
N
M

) con M

= I
T
P

= I
T

T
(

T
)
1

T
. Anche la matrice M `e
18
quadrata: dato che M

= I
T
P

`e quadrata di dimensione (T T)
M

=
_

_
1 0 . . . 0
0 1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . 1
_

1
T
_

_
1 1 . . . 1
1 1 . . . 1
.
.
.
.
.
.
.
.
.
.
.
.
1 1 . . . 1
_

_
,
il prodotto P = (I
N
M

) `e esso stesso una matrice quadrata di dimensione (NT NT).


diagonale a blocchi: analogamente a quanto accadeva per la matrice P, anche in questo caso ci sono in tutto
N blocchi composti dalla matrice M

P =
_

_
M

0 . . . 0
0 M

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . M

_
.
simmetrica: poiche sia I
t
sia P

, sono simmetriche, tutti i blocchi di M sono simmetrici, quindi M = M

.
idempotente: dato che
M

= [I
T
P

][I
T
P

]
= I
T
P

= I
T
P

= M

,
risulta
MM =
_

_
M

0 . . . 0
0 M

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . M

_
_

_
M

0 . . . 0
0 M

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . M

_
=
_

_
M

0 . . . 0
0 M

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . M

_
=
_

_
M

0 . . . 0
0 M

. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . M

_
= M
Quando moltiplica una matrice in formato panel X di dimensione (NT k), M ritorna la matrice X

X avente
le stesse dimensioni della matrice data e, per ciascun individuo, contenente gli scarti delle colonne dalle
loro medie individuali. Questo risultato `e facilmente dimostrabile come segue considerando la matrice X di
19
dimensione NT k:
MX = (I
N
M

)
(NTNT)
X
(NTk)
=
_

_
I
T

T
(

T
)
1

T
0 . . . 0
0 I
T

T
(

T
)
1

T
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . I
T

T
(

T
)
1

T
_

_
_

_
x
1
x
2
.
.
.
x
N
_

_
=
_

_
x
1

T
(

T
)
1

T
x
1
x
2

T
(

T
)
1

T
x
2
.
.
.
x
N

T
(

T
)
1

T
x
N
_

_
=
_

_
x
1

T
x
1
x
2

T
x
2
.
.
.
x
T

T
x
N
_

_
= X

X.
Dal punto di vista della singola osservazione si ha perci`o x
it
x
i
che rappresenta lo scarto dalla media aritmetica
individuale calcolata attraverso le diverse osservazioni nel tempo.
Dal punto di vista geometrico M si congura come la matrice della distanza tra i vettori colonna delle
variabili individuali y
i
(N1)
e x
i
(Nk)
e le loro proiezioni ortogonali sullo spazio generato da
T
.
Relazioni tra P e M
Date le propriet` a delle matrici P ed M risulta:
P +M = I
NT
M infatti equivale a I
NT
P,
PM = 0 PM = P(I
NT
P) = P PP = P P = 0.
Naturalmente, per i singoli blocchi, vale P

+M

= I
T
e P

= 0.
Inoltre, valgono le seguenti relazioni

T
M

= M

T
= 0,

T
P

= P

T
=
T
.
Dati due numeri scalari c
1
e c
2
risulta
(c
1
P +c
2
M)
s
= c
s
1
P +c
s
2
M,
quindi risulta facile ad esempio determinare
la matrice inversa
(c
1
P +c
2
M)
1
=
1
c
1
P +
1
c
2
M.
La dimostrazione si basa sulle propriet`a di idempotenza, somma e prodotto delle matrici P ed M, infatti
(c
1
P +c
2
M)
_
1
c
1
P +
1
c
2
M
_
=
c
1
c
1
PP +
c
2
c
1
MP +
c
1
c
2
PM +
c
2
c
2
MM
= P +M
= I
NT
20
la forma quadratica
(c
1
P +c
2
M)

(c
1
P +c
2
M) = c
2
1
P +c
2
2
M.
Anche in questo caso, sfruttando le propriet`a di idempotenza, somma e prodotto delle matrici P ed M, si
ottiene
(c
1
P +c
2
M)

(c
1
P +c
2
M) = (c
1
P +c
2
M)
2
= c
2
1
PP +c
2
c
1
MP +c
1
c
2
PM +c
2
2
MM
= c
2
1
P +c
2
2
M
A-2 Determinazione dello stimatore ad eetti ssi
Data lespressione dellinversa di una matrice partizionata (di veda la nota 3), il blocco di Sud-Est si ottiene
attraverso i seguenti passaggi
S
2
= [X

X X

(I
N

T
)
1
T
I
N
(I
N

T
)

X]
1
= {X

[I
NT

1
T
(I
N

T
)(I
N

T
)

]X}
1
= {X

[(I
N
I
T
)
1
T
(I
N

T

T
)]X}
1
= {X

[I
N
(I
T

1
T

T

T
)]X}
1
= {X

[I
N
(I
T

T
(

T
)
1

T
)]X}
1
= [X

(I
N
M

)X]
1
= (X

MX)
1
.
Una volta ottenuta questa quantit`a, lequazione dello stimatore diventa
_

_
=
_

_
S
1

1
T
(I
N

T
)

XS
2

1
T
S
2
X

(I
N

T
) S
2
_

_
_
_
(I
N

T
)

Y
X

Y
_
_
dove S
1
=
1
T
I
N
+
1
T
I
N
(I
N

T
)

XS
2
X

(I
N

T
)
1
T
I
N
. Svolgendo i prodotti
_

_
=
_

_
1
T
(I
N

T
)

Y +
1
T
(I
N

T
)

XS
2
X

(I
N

T
)
1
T
(I
N

T
)

Y
1
T
(I
N

T
)

XS
2
X

Y
S
2
X

Y
1
T
S
2
X

(I
N

T
)(I
N

T
)

Y
_

_
=
_

_
1
T
(I
N

T
)

_
I
NT
XS
2
X

_
I
NT

1
T
(I
N

T

T
)
__
Y
S
2
X

_
I
NT

1
T
(I
N

T

T
)
_
Y
_

_
Poiche
I
NT

1
T
(I
N

T

T
) = (I
N
I
T
) [I
N

T
(

T
)
1

T
]
= I
N
[I
T

T
(

T
)
1

T
]
= I
N
(I
T
P

)
= I
N
M

= M,
21
lo stimatore diventa quello di cui allequazione (15)
_

_
=
_
1
T
(I
N

T
)

{I
NT
XS
2
X

M} Y
S
2
X

MY
_
=
_
1
T
(I
N

T
)

[Y X(X

MX)
1
X

MY ]
(X

MX)
1
X

MY
_
=
_
1
T
(I
N

T
)

(Y X

)
(X

MX)
1
X

MY
_
.
A-3 Test BP
Considerando la regressione ausiliaria
2
= Z +, lindice di determinazione corrispondente `e
R
2
=

2

Z(Z

Z)
1
Z


2

2


2
.
Sostituendo
2
con (
2
/
0
1) in pratica si sottrae e successivamente si divide per la quantit`a costante
0
,
quindi lindice R
2
non cambia e si ha
R
2
=
(
2
/
0
1)

Z(Z

Z)
1
Z

(
2
/
0
1)
(
2
/
0
1)

(
2
/
0
1)
=
_

2

0

0
_

Z(Z

Z)
1
Z

_

2

0

0
_
_

2

0

0
_

_

2

0

0
_
.
Poiche N(0, ), sotto lipotesi nulla risulta /


0
N(0, I
n
) per il TCL di Lindeberg-Levy, quindi il
denominatore della statistica test converge al valore 2 una volta diviso per lampiezza campionaria n, infatti
1
n
_

2

0

0
_

_

2

0

0
_
=
1
n
(
2

0
)

(
2

0
)

2
0
=
1
n

2


2
n
2
0

2
0
=

2


2
n
_


n
_
2
1
Questa espressione si congura come il rapporto tra il momento 4

ed il quadrato della varianza di ; nel caso


di distribuzione normale del residuo tale rapporto converge al valore 3 quindi
1
n
_

2

0

0
_

_

2

0

0
_
p
3 1 = 2
Alla luce di questo risultato si ottiene
nR
2
=
1
2
0
2
(
2

0
)

Z(Z

Z)
1
Z

(
2

0
).
22