Sei sulla pagina 1di 7

Test diagnostici nel modello di regressione lineare

1-3 dicembre 2015


Il modello di regressione classico pu`
o essere scritto nel modo seguente:
yi = 0 + 1 x1i + 2 x2i + ... + k xki + ui

(1)

con ui a media zero e varianza costante u2 , i = 1, ..., n.


Ci sono tre casi principali in cui le ipotesi classiche del modello non sono soddisfatte:
(a) Break strutturali
(b) Forma funzionale non lineare rispetto a x
(c) Errori eteroschedastici o autocorrelati
In (a) e (b) lo stimatore OLS non risulta corretto, mentre nel caso (c) dobbiamo fare attenzione
per il calcolo degli standard error dei coefficienti e quindi i problemi sono relativi al processo di
inferenza (test t e F ).1

(a) Break strutturali


Nel caso di break strutturali, i coefficienti del modello risultano essere diversi in due (o pi`
u
sottocampioni). La differenza pu`
o essere legata al tempo o a particolari caratteristiche delle
osservazioni.
` importante verificare se ci sono dei break nei dati in esame: la presenza di break strutturali
E
non permette di trattare tutti i dati assieme in quanto le stime sul campione completo sarebbero
distorte.
Il test per la verifica di break strutturali `e chiamato test di Chow (1960).
In principio ci possono essere diversi sottoinsiemi rilevanti dei dati, e quindi diversi break
strutturali.
Consideriamo il caso pi`
u semplice con due gruppi A e B di numerosit`a nA e nB osservazioni,
dove n = nA + nB . Supponiamo che le osservazioni siano ordinate cosicche le prime nA osservazioni sono relative al gruppo A, mentre le osservazioni per i = nA + 1, ..., n appartengono al
gruppo B.
Potremmo scrivere due diverse regressioni:
Per il gruppo A (i = 1, ..., nA ):
yi = 0A + 1A x1i + 2A x2i + ... + kA xki + ui = xi A + ui

(2)

1 I materiali di questa nota sono tratti da Verbeek (2006), Econometria, ed. Zanichelli e da Greene (2011),
Econometric Analysis, ed. Pearson.

Per il gruppo B (i = nA + 1, ..., n, per un totale di nB osservazioni):


yi = 0B + 1B x1i + 2B x2i + ... + kB xki + ui = xi B + ui

(3)

Lipotesi nulla `e che i parametri del modello di regressione sono identici nei due sottoinsiemi
di dati:
H0 : A = B
dove in A raccogliamo tutti i k + 1 parametri per il gruppo A e in B tutti i k + 1 parametri
per il gruppo B. Se lipotesi nulla `e vera A = B = e il modello (1) `e valido per tutte le n
osservazioni.
Per calcolare il test di Chow:
Stimiamo la regressione di yi su xi (= x1i , ..., xki ) utilizzando tutte le n osservazioni e
calcoliamo la somma dei quadrati dei residui (RSS) questo `e il modello vincolato, valido
se lipotesi nulla `e verificata: indichiamo la somma dei quadrati dei residui di questo modello
come RSSV .
Calcoliamo la somma dei quadrati dei residui del modello non vincolato, RSSN V come la
somma dei quadrati dei residui delle due regressioni (2) e (3) sui due sottogruppi: RSSN V =
RSSA + RSSB .
Calcoliamo la statistica test:
F =

(RSSV RSSN V )/(k + 1)


RSSN V /(n 2(k + 1))

La statistica test `e distribuita come una Fk+1,n2(k+1) .


Un metodo equivalente per calcolare la statistica test utilizza leffetto interazione e prevede
la stima di un unico modello su tutte le n osservazioni. Definiamo la variabile dummy

0 se i A
Di =
1 se i B
e scriviamo il modello completo come:
yi = 0 + 1 x1i + ... + k xki + 0 Di + 1 x1i Di + ... + k xki Di + ui

(4)

Avremo dunque:
Se i A: yi =0 + 1 x1i + ... + k xki + ui
Se i B: yi =(0 + 0 ) + (1 + 1 )x1i + ... + (k + k )xki + ui
Siano = (0 , 1 , ..., k ) e = (0 , 1 , ..., k ), `e possibile mostrare che = A e = B A .
La somma dei quadrati dei residui del modello completo (4) `e quindi uguale alla somma dei
quadrati dei residui ottenuti dai due modelli separati, RSSN V .

(b) Forma funzionale


` possibile testare se la forma funzionale scelta per il modello di regressione `e corretta. Si pu`
E
o
utilizzare il test RESET (Regression Equation Specilfication Error Test) sviluppato da Ramsey
nel 1960.
Lipotesi nulla e lipotesi alternativa sottoposte a verifica sono rispettivamente:
H0
H1

:
:

E(yi |X) = 0 + 1 x1i + 2 x2i + ... + k xki


E(yi |X) 6= 0 + 1 x1i + 2 x2i + ... + k xki

Il test `e basato su una regressione ausiliaria (cio`e , una regressione senza significato economico,
usata solamente per condurre il test).
Per condurre il test:
Stimiamo i coefficienti del modello (1) utilizzando OLS e calcoliamo i valori predetti yi
Verifichiamo se funzioni non lineari di yi aiutano a spiegare yi includendo yi2 , yi3 , ... , yiq
come regressori addizionali nel modello (1):
yi = 0 + 1 x1i + 2 x2i + ... + k xki + 2 yi2 + ... + q yiq + ui

(5)

Spesso si considera q = 3 o q = 4.
Il test RESET `e ottenuto sottopondendo a verifica lipotesi nulla:
H0 : 2 = 3 = ... = q = 0
Per sottoporre a verifica H0 si pu`
o calcolare un test F per i q 1 vincoli appena citati,
oppure si pu`
o considerare il test costruito calcolando nR2 della regressione ausiliaria (5).
Questa statistica test `e asintoticamente distribuita come un 2q1 (chi-quadrato con q 1
gradi di libert`
a).
Il rifiuto dellipotesi nulla informa che la specificazione del modello (1) `e sbagliata. Tuttavia
non `e raro che il test RESET rifiuti la nulla a causa dellomissione di variabili dal modello
piuttosto che per forma funzionale errata. Spesso, lintroduzione di una nuova variabile pu`
o
catturare la non linearit`a indicata dal test.

(c) Eteroschedasticit`
a e autocorrelazione
La presenza di eteroschedasticit`
a o autocorrelazione pone seri problemi per il processo di inferenza
nelle analisi basate sul metodo dei minimi quadrati. In entrambi i casi, il coefficiente stimato con
il metodo dei minimi quadrati ordinari rimane corretto e consistente. Tuttavia, poich`e non sono
pi`
u soddisfatte le ipotesi del teorema di Gauss Markov, lo stimatore non `e efficiente. Inoltre,
sono necessarie formule specifiche per il calcolo degli standard error.
Per risolvere i problemi posti dalla presenza di eteroschedasticit`
a o autocorrelazione si possono
adottare due soluzioni:
Se la forma delleteroschedasticit`
a o dellautocorrelazione `e nota, si pu`
o applicare il metodo
dei minimi quadrati generalizzati, che risulta essere lo stimatore efficiente in questo contesto.2
2 Si

rimanda al libro di testo per la trattazione di questo metodo di stima.

I coefficienti possono essere stimati tramite il metodo dei minimi quadrati ordinari, utilizzando formule robuste per il calcolo degli standard error dei coefficienti stimati.3
Tratteremo dapprima il caso delleteroschedasticit`
a, presentando i test che possono essere utilizzati per individuare il problema. Passeremo quindi ad analizzare il problema dellautocorrelazione
degli errori, maggiormente rilevante in un contesto di serie storiche.

Eteroschedasticit`
a
Nelle applicazioni empiriche, `e utile sottoporre a test lipotesi di omoschedasticit`
a, in modo da
individuare il problema. I test che seguono possono essere utilizzare per sottoporre a test lipotesi
nulla di omoschedasticit`
a contro lalternativa che i residui siano eteroschedastici. In letteratura
sono stati proposti diversi tipi di test, che si distinguono in base alla specificazione dellipotesi
alternativa. Questi sono presentati in modo crescente per generalit`
a dellipotesi H1 (in termini
decrescenti per potenza del test).
In generale, i test per leteroschedasticit`
a si basano sulla strategia seguente: (i) stima OLS
di e conseguente calcolo dei residui di regressione u
i ;4 (ii) regressione ausiliaria con variabile
dipendente il quadrato di u
i . In tutti i casi
H0 : Var(ui |X) = 2

c.1) Test per luguaglianza di due varianze ignote


Il caso pi`
u semplice considera la situazione in cui la popolazione oggetto di studio pu`
o essere
divisa in due gruppi A e B caratterizzati da una diversa varianza dei termini di errore. Siano
2
2
A
e B
la Var(ui |X) rispettivamente per i A e i B. Lipotesi nulla pu`
o essere scritta come
2
2
A = B
. Indichiamo inoltre con nA (nB ) il numero di unit`a in A (B) presenti nel campione.
Un test per H0 pu`
o essere ottenuto considerando il fatto che (j = A, B)5
(nj k 1)

s2j
2nj k1
j2

Inoltre s2A e s2B sono indipendenti, per cui vale che


2
s2A /A
FnA k1,nB k1
2
2
sB /B
2
2
Se lipotesi nulla `e vero (A
= B
) vale dunque che:

s2A
FnA k1,nB k1
s2B
2
2
Nel caso di unipotesi alternativa bilaterale (H1 : A
6= B
), lipotesi nulla di omoschedasticit`
a
`e rifiutata se il rapporto delle due varianze stimate `e troppo piccolo o troppo grande; mentre nel
2
2
caso di unipotesi alternativa unilaterale (H1 : A
> B
), lipotesi nulla di omoschedasticit`
a `e
rifiutata se il rapporto delle due varianze stimate `e troppo grande.6
3 Nel caso di eteroschedasticit`
a, la formula robusta degli standard error `
e discussa sul libro di testo. Si rimanda
dunque al libro di testo per le formule: si analizzano qui i test che possono essere utilizzati per individuare la
presenza di eteroschedasticit`
a, che non sono invece trattati nel libro di testo.
4 Si ricorda che lo stimatore OLS di rimane corretto e consistente in presenza di eteroschedasticit`
a.
5 Tale propriet`
a`
e esatta se possiamo assumere una distribuzione normale dei termini di errore, altrimenti vale
in modo approssimato.
6 Se lipotesi alternativa `
2 > 2 , si pu`
e H 1 : B
o considerare la statistica test s2B /s2A , distribuita come una
A
FnB k1,nA k1 .

c.2) Test per leteroschedasticit`


a moltiplicativa
In questo caso si considera la seguente forma funzionale per modellare leteroschedasticit`
a:
H1 : Var(ui |X) = 2 exp(zi )
Lipotesi H0 di omoschedasticit`
a si riduce quindi a = 0 (contro lipotesi alternativa 6= 0).
Lipotesi pu`
o essere verificata con un test F per = 0 nella regressione ausiliaria
log u
2i = log 2 + zi + vi

c.3) Test di Breusch-Pagan


Il test di Breusch-Pagan considera una forma per leteroschedasticit`
a pi`
u generale rispetto al
test per leteroschedasticit`
a moltiplicativa visto in precedenza. In particolare sotto lipotesi
alternativa si considera:
H1 : Var(ui |X) = 2 h(zi )
con h tale che h(x) > 0 per ogni x e h(0) = 1.
Di nuovo si ha omoschedasticit`
a se = 0. Si considera la seguente regressione ausiliaria:
u
2i = 0 + zi + vi

(6)

e lipotesi nulla `e sottoposta a test considerando il numero di osservazioni moltiplicate per il


coefficiente di determinazione lineare R2 (nR2 ) della regressione ausiliaria in (6). La statistica
test cos` ottenuta ha una distribuzione asintotica 2J con J pari alla dimensione di .

c.4) Test di White


Questo test si caratterizza per la generalit`
a dellipotesi alternativa, specificata semplicemente
come:
H1 : Var(ui |X) = i2
Non pone quindi alcuna restrizione sulla forma funzionale che caratterizza leteroschedasticit`
a.
La statistica test `e calcolata come nR2 di una regressione ausiliaria in cui la variabile dipendente `e u
2i e i regressori includono una costante, tutte le xj (j = 1., ..., k) del modello originale
(1), tutti i quadrati e i prodotti incrociati. La statistica test `e asintoticamente distribuita come
un 2P con P pari al numero di variabili incluse nella regressione ausiliaria (esclusa la costante).7
Nel caso in cui il modello originale (1) includa molte variabili, si pu`
o utilizzare un metodo
approssimato per il calcolo del test, in cui la regressione ausiliaria `e ottenuta come la regressione

lineare di u
2 su una costante, yi e y2 (dove yi = x ).
i

Autocorrelazione
Il problema dellautocorrelazione `e tipico di dati osservati in serie storica.8 In questo contesto
spesso non pu`
o essere ritenuta valida lassunzione di dati i.i.d. e spesso si osservano variabili che
7 Bisogna fare attenzione al problema della multicollinearit`
a nella regressione ausiliaria. Ad esempio, se nel
modello originale (1) `
e inclusa una variabile dummy, la dummy e il suo quadrato non potranno essere contemporaneamente incluse nella regressione ausiliaria.
8 Pu`
o essere anche riscontrato in dati sezionali, quando si hanno fenomeni di clustering delle osservazioni.
Tuttavia in questa nota faremo maggiormente riferimento al caso di dati in serie storica.

presentano correlazione nel corso del tempo. Per evidenziare la differenza di contesto, indicizziamo con t le variabile, dove t = 1, ..., T (assume rilevanza lordinamento delle osservazioni).
Consideriamo il modello di regressione lineare con errori autocorrelati:9
yt = xt + ut

(7)

con
ut = ut1 + vt

(8)
v2

e incorrelato nel tempo


Si assume E(ut |xt ) = 0, vt distribuito a media zero, varianza costante
(E(vt vs ) = 0 per t 6= s). Si assume inoltre || < 1: questa assunzione `e necessaria affinche il
processo sia stazionario, ovvero a media, varianza e covarianza costanti nel corso del tempo.
` infine necessario fare ipotesi su u1 , che assumiamo avere la stessa distribuzione di ut per
E
t > 2.
Vediamo come `e costruita la matrice di varianza e covarianza degli errori. Calcoliamo dapprima la varianza:
V (ut ) = V (ut1 + vt ) = 2 V (ut1 ) + V (vt ) = 2 V (ut1 ) + v2
Indicando V (ut ) = V (ut1 ) = u2 (processo stazionario), possiamo scrivere u2 = 2 u2 + v2 , da
cui
v2
u2 =
1
Calcoliamo quindi le covarianze:
Cov(ut , ut1 ) = E(ut ut1 ) = E(ut1 + vt ut1 ) = u2 .
Cov(ut , ut2 ) = E(ut ut2 ) = E(ut1 + vt ut2 ) = E(ut1 ut2 ) = 2 u2 .
Pi`
u in generale: Cov(ut , uts ) = s u2 .
La matrice di varianza e covarianza in questo caso

2
2

V (u|X) = u
..
..
.
.
T 1

T 2

risulta essere piena:

2
. . . T 1

. . . T 2

1
. . . T 3

..
..
..
.
.
.
T 3

...
1

Quale trasformazione per il metodo dei minimi quadrati generalizzati?


Si noti che, data la forma della correlazione in (8), ut ut1 = vt soddisfa le ipotesi del
teorema di Gauss Markov. Il metodo dei minimi quadrati generalizzati utilizza quindi la seguente
trasformazione del modello (t = 2, ..., T ):
(yt yt1 )

(xt xt1 ) + (ut ut1 )

(xt xt1 ) + vt

In questo caso unosservazione viene persa, perch`e la trasformazione non pu`


o essere applicata
` possibile recuperare le informazioni relative alla prima osservazione
alla prima osservazione. E
9 Lautocorrelazione pu`
o assumere diverse forme: avremo quindi diverse forme per la matrice di varianza e
covarianza degli errori. Il modello autoregressivo in (8) `
e la specificazione pi`
u popolare.

notando che u1 `e incorrelato con v2 , ..., vt e ha varianza pari a u2 = v2 /(1 2 ). Per far s`
che il modello che include la prima osservazione presenti termini di errore omoschedastici e non
autocorrelati, si considera la seguente trasformazione:
p
p
p
1 2 y1 = 1 2 x1 + 1 2 u1
(9)
p
dove il termine di errore 1 2 u1 ha varianza v2 .
Naturalmente, il valore di `e ignoto e deve essere stimato. Una stima di pu`
o essere ottenuta
considerando la seguente regressione basata sui residui OLS:
u
t =
ut1 + et

(10)

Questo stimatore di `e consistente sotto condizioni molto generali. La stima OLS del modello
(10) pu`
o anche essere utilizzata per testare la presenza di autocorrelazione nel modello (7). La
statistica test da considerare `e (T 1) R2 , asintoticamente distribuita come un 21 con R2 il
coefficiente di determinazione della regressione in (10).
Come ottenere una matrice di varianza e covarianza robusta alla presenza di autocorrelazione per lo stimatore OLS?
In alternativa, lo stimatore OLS pu`
o essere utilizzato per ottenere una stima consistente del
parametro , utilizzando una formula robusta per il calcolo degli standard error. In generale la
varianza di pu`
o essere scritta come:

V (|X)
= (X X)

(X V (u|X)X) (X X)

Nel caso di autocorrelazione viene stimata, utilizzando i residui della regressione OLS u
t , tramite
la formula di Newey-West:
1
1

V (|X)
= (X X) T S (X X)
con
S=

T
H1
T
X
1X
1 X
xt xt u
2t +
wj
u
s u
sj (xs xsj + xsj xs )
T t=1
T j=1
s=j+1

dove wj = 1 j/H. Questa formula per il calcolo degli standard error `e nota come formula
robusta alla presenza di eteroschedasticit`
a e autocorrelazione.10

10 Si noti che ponendo w = 0 si ottiene la formula per il calcolo degli standard error robusta alla presenza di
j
eteroschedasticit`
a.