Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Gianni Amisano
Febbraio 1999
2
Premessa
Queste note, che costituiscono il materiale di riferimento per gli studenti del corso
di econometria attivato presso la Facoltà di Economia dell’Università di Brescia,
sono il risultato della composizione di diverse fonti di riferimento.
Un elenco (purtroppo non esaustivo) di tali fonti deve necessariamente comin-
ciare con l’ottimo testo di Maddala (Maddala, 1992: “Introductory Econometrics”)
che a tutt’oggi rappresenta uno dei migliori testi di econometria adatti per un pri-
mo corso. La trattazione di Maddala, carente sotto l’aspetto della rappresentazione
matriciale degli argomenti, è stato integrata facendo riferimento ad altre fonti. Ho
attinto largamente dallo splendido libro di W. Greene (“Econometric Analysis”, 3rd
edition, 1997), dove si trovano trattati ad un ottimo livello teorico una vastissima
gamma di tecniche econometriche. Le parti relative all’analisi delle serie stori-
che sono ispirate alla lettura del libro di J.D.Hamilton (“Time Series Analysis”,
Princeton University Press, 1994).
Queste note si articolano in diverse parti. La prima parte copre tutti gli argo-
menti fondamentali di un primo corso di econometria, mentre la seconda è una par-
te monografica che ricomprende alcuni argomenti particolari e più avanzati. Cia-
scun capitolo di queste note si chiude con un insieme di esercizi svolti che servono
ad aiutare gli studenti nella preparazione per l’esame. Un aspetto complementare
della preparazione all’esame è costituito dalla parallela attività di esercitazione che
sarà svolta in classe utilizzando i software applicativi Gauss e Microfit disponi-
bili presso il laboratorio informatico della Facoltà di Economia dell’Università di
Brescia.
Gli studenti sono caldamente invitati a contattarmi ogni volta che abbiano pro-
blemi di comprensione o di ogni altro tipo. Sono contattabile presso il Diparti-
mento di Scienze Economiche dell’Università di Brescia (via San Faustino 74B)
o tramite e-mail all’indirizzo amisano@eco.unibs.it. Tutto il materiale
distribuito agli studenti sarà depositato alla CLUB (corso Mameli) e disponibile
elettronicamente alla mia pagina web:
(http://www.eco.unibs.it/˜amisano/index.html)
Desidero ringraziare gli studenti del corso di econometria dell’anno accademi-
co 1997/8 e anticipatamente quelli del corrente anno accademico, che mi hanno
segnalato e sicuramente mi segnaleranno molti tra i refusi sicuramente presenti in
queste note.
3
4
Indice
2 Richiami matematici 13
2.1 Operatori sommatoria e produttoria . . . . . . . . . . . . . . . . . 13
2.2 Matrici e vettori . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Tipologia di matrici . . . . . . . . . . . . . . . . . . . . . 14
2.2.2 Operazioni matriciali . . . . . . . . . . . . . . . . . . . . 16
2.2.3 Vettori particolari . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4 Traccia di una matrice quadrata . . . . . . . . . . . . . . 19
2.2.5 Matrici partizionate . . . . . . . . . . . . . . . . . . . . . 19
2.2.6 Il determinante di una matrice quadrata . . . . . . . . . . 19
2.2.7 La matrice aggiunta . . . . . . . . . . . . . . . . . . . . . 20
2.2.8 La matrice inversa . . . . . . . . . . . . . . . . . . . . . 20
2.2.9 Alcune proprietà rilevanti . . . . . . . . . . . . . . . . . 21
2.2.10 Matrici idempotenti . . . . . . . . . . . . . . . . . . . . . 22
2.2.11 Spazio vettoriale . . . . . . . . . . . . . . . . . . . . . . 22
2.2.12 Base di uno spazio vettoriale . . . . . . . . . . . . . . . . 23
2.2.13 Sottospazio vettoriale . . . . . . . . . . . . . . . . . . . . 23
2.2.14 Rango di una matrice . . . . . . . . . . . . . . . . . . . . 24
2.2.15 Indipendenza lineare di vettori . . . . . . . . . . . . . . . 25
2.2.16 Autovalori e autovettori . . . . . . . . . . . . . . . . . . 25
2.2.17 Serie geometriche di matrici . . . . . . . . . . . . . . . . 27
2.2.18 Matrici definite, semidefinite positive e negative . . . . . . 27
2.2.19 Prodotto di Kronecker (prodotto tensore) . . . . . . . . . 29
2.2.20 L’operatore vec . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Funzioni in più variabili . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Derivate parziali prime e seconde . . . . . . . . . . . . . 31
2.3.2 Alcune semplici regole di derivazione per funzioni in più
variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5
6 INDICE
2.3.3 Ottimizzazione . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.4 Ottimizzazione vincolata . . . . . . . . . . . . . . . . . . 34
2.4 Esercizi su richiami di matematica . . . . . . . . . . . . . . . . . 36
2.5 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 37
9
10 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI
per il fenomeno che si intende studiare. In sintesi, per modello economico si inten-
de un insieme di assunzioni finalizzate alla descrizione di un particolare fenomeno
economico.
Negli ultimi decenni la teoria economica ha assunto aspetti di crescente forma-
lizzazione. Molto spesso i modelli economici prendono la forma di equazioni che
connettono misurazioni dei fenomeni che si intendono spiegare (ad esempio la di-
soccupazione, il consumo aggregato, i profitti di un settore industriale . . . ) ai valori
assunti da una serie di variabili che si intendono misurare le cause del fenomeno
oggetto di indagine. Quando il modello economico prende la forma di relazioni
matematiche, è possibile utilizzare i dati disponibili sul fenomeno studiato per ve-
rificare la rispondenza del modello stesso alla realtà osservata. La verifica empirica
(sulla base dei dati disponibili) della validità dei modelli economici costituisce uno
degli scopi fondamentali dell’analisi econometrica.
yt = f (xt ) + t , t = 1, 2, . . . , T,
dove yt è un vettore (n × 1) di variabili che il modello intende spiegare (variabili
endogene) che si riferiscono all’osservazione t-esima del campione in esame, f è
una funzione che fa dipendere yt da un vettore (k × 1) di variabili esogene xt
(variabili esplicative), e t rappresenta un vettore (n × 1) di termini di disturbo
casuali. La componente f (xt ) viene detta parte sistematica del modello, mentre la
componente t inviene indicata come parte stocastica (o casuale) del modello.
Il più semplice esempio di modello econometrico è il seguente, dove yt , xt e εt
sono tutte grandezze scalari:
yt = α + βxt + εt , t = 1, 2, . . . , T.
Tale modello viene detto modello di regressione lineare semplice: la variabile di-
pendente yt viene fatta dipendere in modo lineare da ulla grandezza esplicativa xt
ed è influenzata dalla variabile casuale εt .
La presenza della componente stocastica implica che il modello debba essere
trattato con tecniche inferenziali. L’aspetto fondamentale è quello della stima, cioè
dell’utilizzazione di un campione di dati osservabili sulle variabili yt e xt per de-
terminare quale sia la configurazione della parte sistematica del modello meglio in
grado di spiegare il comportamento campionario delle variabili endogene.
Accanto allo scopo di verifica empirica dei modelli economici, l’econometria si
rivolge tradizionalmente anche alla produzione di modelli previsivi utilizzati da di-
verse istituzioni. Gli intermediari finanziari, e più in generale ogni impresa produt-
tiva in grado di dedicare risorse alla programmazione delle proprie attività future
trova naturalmente utile disporre di scenari sul valore futuro delle variabili econo-
miche che influiscono sull’andamento dei costi e dei ricavi. Accanto alle istituzioni
1.3. MODELLI ECONOMETRICI 11
ci = α · yi∗ + εi
yi∗ = yi + ηi
p(εi ) ∼ N (0, σε2 )
p(ηi ) ∼ N (0, ση2 )
In questo esempio la spesa per consumo individuale dell’individuo i-esimo (ci ) vie-
ne ipotizzata proporzionale al reddito permanente di tale individuo (yi∗ ). Inoltre si
ipotizza che le decisioni di consumo individuali siano influenzata da un termine di
disturbo εi che rappresenta le caratteristiche individuali non esplicitamente misu-
rabili dell’individuo i-esimo. Il reddito permanente dell’individuo i-esimo yi∗ non è
osservabile e differisce dal suo livello di reddito corrente (yi ) per via di un termine
casuale ηi che costituisce necessariamente l’errore di misurazione quando si in-
tenda spiegare il comportamento di consumo sulla base del reddito osservabile.Si
ipotizza che i termini di disturbo i e gli errori di misurazione ηi siano variabili
casuali distribuite secondo una legge di distribuzione gaussiana (o Normale). Il
simbolo ∼ indica “si distribuisce come”.
Un altro esempio è dato dalla funzione di domanda di un determinato bene:
qtd = α + β · pt + ut
ut ∼ N (0, σu2 )
12 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI
In questo esempio, la quantità domandata del bene all’istante t-esimo (qtd ) viene
ipotizzata dipendere linearmente dal prezzo del bene allo stesso istante (pt ). Inoltre
si ipotizza che la domanda sia influenzata da un termine di disturbo ut distribuito
normalmente.
Nei modelli econometrici i termini di disturbo sono variabili inosservabili che
descrivono l’effetto sulla varibile dipendente di tutto quello che non può essere
ricompreso nella parte sistematica del modello.
2. Stima del modello. I dati disponibili vengono utilizzati per generare stime
del modello econometrico. Nella maggior parte dei casi, la stima si concreta
nell’ottenimento di valori per i parametri del modello.
3. Uso del modello: il modello viene utilizzato per verificare la validità di teorie
economiche, per produrre previsioni, per svolgere simulazioni di politica
economica, cioè per simulare gli effetti di manovre di politiche economiche
alternative.
Capitolo 2
Richiami matematici
13
14 CAPITOLO 2. RICHIAMI MATEMATICI
a11 a12 . . . a1n
a21 a22 . . . a2n
A = {aij } =
... ...
(m×n) ... ...
an1 an2 . . . ann
Si noti che gli elementi della matrice A sono caratterizzati da due indici, il
primo dei quali identifica la riga ed il secondo identifica la colonna di appartenza.
Ad esempio, l’elemento sulla quarta riga, sesta colonna è indicato con a46 . Una
matrice si dice di ordini m e n quando ha m righe e n colonne.
Per vettore si indica una matrice particolare caratterizzata dall’avere una sola
riga (vettore riga) o una sola colonna (vettore colonna ). Ad esempio:
1
2
a =
4 ,
(4×1)
7
b = 4 3 2 5 7
(1×5)
A = {aij } , aij = 0, ∀i 6= j.
Ad esempio, la matrice
2.2. MATRICI E VETTORI 15
2 0 0
A= 0
4 0
0 0 7
è chiaramente diagonale.
Una matrice quadrata A, di dimensione (n × n) si dice triangolare inferiore
quando:
A = {aij } ,
aij = 0, ∀i 6= j,
aii = 1, ∀i.
Ad esempio:
1 0 0 0
0 1 0 0
I4 =
0
.
0 1 0
0 0 0 1
Data una matrice A di dimensioni (n×m), la matrice B, di dimensione (m×n)
si dice trasposta di A, e si indica con il simbolo A0 ed è definita come:
16 CAPITOLO 2. RICHIAMI MATEMATICI
C = A + B = {cij } ,
cij = aij + bij , ∀i, j.
C = A − B = {cij } ,
cij = aij − bij , ∀i, j.
Prodotto
C = A · B = {cij } ,
n
X
cij = aik · bkj , i = 1, 2, . . . m, j = 1, 2, . . . , p.
k=1
In altri termini C è una matrice il cui elemento generico cij è dato dal prodotto
interno tra la i-esima riga di A e la j-esima colonna di B. Ad esempio:
2.2. MATRICI E VETTORI 17
1 0
1 3 6 4 21
· 1
1 =
.
2 3 4 5 15
0 3
Si noti che l’operazione di prodotto matriciale non è definita per qualsiasi cop-
pia di matrici A e B, ma tali matrici debbono verificare la condizione di confor-
mabilità per il prodotto: il numero di colonne del primo fattore A deve essere pari
al numero di righe del secondo fattore B.
Si noti che ovviamente, A · B in generale è diverso da B · A: in generale
quando il prodotto A · B è possibile non è neppure detto che B · A lo sia.
Il prodotto e la somma matriciale hanno le seguenti proprietà:
(A + B) + C = A + (B + C),
(A · B) ·C = A· (B · C)
Ad esempio:
1
1 2 1 4 1 8
·
= .
3 6 1 0 1 10
1
n
X
i0n 0
· A = c = {cj } , cj = aij , j = 1, 2, . . . , n.
i=1
Il vettore estrazione
n
X
tr(A) = aii .
i=1
n
X
|A| = (−1)i+j · aij · |Aij | , (2.1)
j=1
20 CAPITOLO 2. RICHIAMI MATEMATICI
In altri termini, per una matrice triangolare, il determinante è pari al prodotto degli
elementi diagonali.
Nel caso della matrice identità, è facile mostrare che il determinante è pari a 1:
|In | = 1, ∀n.
|A · B| = |A| · |B| .
A+ · A = A · A+ = |A| · In .
a+
ij = (−1)
i+j
· |Aji | .
A−1 = |A|−1 · A+ .
(la matrice inversa può essere calcolata a partire dalla matrice aggiunta dividendo
ciascun elemento della matrice aggiunta per il determinante di A ). Si noti che è
possibile calcolare la matrice inversa solo per matrici con determinante diverso da
zero. Tali matrici vengono per questo motivo dette invertibili. Ad esempio, data la
matrice:
1 3 5
A = 0 1 0 ,
2 1 0
si ha:
0 5 −5
A+ = 0 −10 0 ,
−2 5 1
|A| = −10,
0 − 21 1
2
A−1 = 0 1 0 .
1 1 1
5 − 2 − 10
(A · B)0 = B0 · A0
B = A · (A0 · A)−1 · A0 ,
(n×n)
C = In − A · (A0 · A)−1 · A0
(n×n)
b=2a
5
a
2
0 1 2 3 4 5 6 7 8 9
5
c
3 d a
2 b
−2 −1 0 1 2 3 4 5 6 7
di a1 , a2 , . . . , ak :
X
c= λi · ai , ∀c ∈ S(a1 , a2 , . . . , ak ).
Ad esempio, i vettori:
1 2
a = 2 ,b = 3 ,
0 0
ha dimensione pari a 1. Si noti infatti (figura 2.2.11) che sia la prima colonna che
la seconda della matrice A rappresentano punti che giacciono sulla retta passante
dall’origine di R2 e avente inclinazione +2. Qualunque combinazione lineare delle
colonne di A rappresenta punti su tale semiretta.
Si noti che per ogni matrice A (m × n) vale:
ha determinante pari a zero e i suoi vettori colonna (riga) non sono linearmente
indipendenti: ad esempio la seconda riga può essere ottenuta moltiplicando per 2
la prima.
A · x = λ · x ⇒ (A − λ · In ) · x = [0]
(n×n) (n×1) (1×1) (n×1) (n×1)
26 CAPITOLO 2. RICHIAMI MATEMATICI
|A − λ · In | = 0. (2.2)
A · xi = λi · xi , i = 1, 2, . . . , n.
A · X = X · Λ ,
(n×n) (n×n) (n×n) (n×n)
X = [x1 , x2 , . . . , xn ] ,
λ1 0 0 0
0 λ2 0 0
Λ=
0 0 ... 0
0 0 0 λn
A = X · Λ · X−1 .
T
X
ST = In + A + A2 + . . . AT = Ai .
i=0
T
X +1
2 T +1
A · ST = A + A + . . . A = Ai+1 .
i=0
T
X T
X +1
(In − A) · ST = Ai − Ai+1 = (In − AT +1 ).
i=0 i=0
e quindi:
x0 · A · x > 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
x0 · A · x ≥ 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
28 CAPITOLO 2. RICHIAMI MATEMATICI
x0 · A · x < 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
x0 · A · x ≤ 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
Gli autovalori di una matrice positiva sono tutti positivi, dato che:
A · xi = λi · xi ,
x0i · A · xi = λi · x0i · xi >0=⇒λi > 0, i = 1, 2, . . . , n.
Con ragionamenti simili si può mostrare che tutti gli autovalori di matrici se-
midefinite positive sono non-negativi, che tutti gli autovalori di matrici definite
negative sono negative e che tutti gli autovalori di matrici semidefinite negative
sono non positivi. Quindi un modo per verificare le proprietá di definitezza di una
matrice è quello di controllare il segno degli autovalori. Ciò non è molto agevole
per una matrice di dimensioni superiori a (2 × 2), dato che per trovare gli auto-
valori è necessario in tali casi risolvere equazioni di grado superiore al secondo
che non sempre sono risolubili senza l’ausilio di un computer. Per tale motivo è
possibile fare riferimento ad un criterio alternativo, basato sulla verifica del segno
dei minori principali. Per minore principale di ordine i (i = 1, 2, . . . , n) di una
matrice quadrata A (n × n) si intendono i determinanti della sottomatrice ottenuta
considerando solo le prime i righe e i-colonne di A. Una matrice è definita positiva
se tutti i suoi minori principali hanno segno positivo ed è definita negativa se i suoi
minori principali hanno segni alternati a partire da −.
Ω = (A · D1/2 ) · (A · D1/2 )0 = P · P0 ,
√
d11 √0 ... 0
0 d22 ... ...
P = A · D1/2 , D1/2 =
.
... ... . . . √. . .
0 ... ... dnn
√ √ (n × n)
Si noti che la matrice P, detta fattore di Choleski di Ω, ha dimensione √ed è
triangolare inferiore con elementi diagonali positivi e pari a d11 , d22 , . . . , dnn .
(A ⊗ B)0 = A0 ⊗ B0 .
2) Date le matrici A, di dimensione (m × n) ,B, di dimensione (p × q) e C,
di dimensione (r × s):
(A ⊗ B) ⊗ C = A ⊗ (B ⊗ C).
30 CAPITOLO 2. RICHIAMI MATEMATICI
(A + B) ⊗ C = A ⊗ C + B ⊗ C.
! !
A ⊗ B · C ⊗ D =(A · C) ⊗ (B · D) = E
(m×n) (p×q) (n×r) (q×s) (m×r) (p×s) (m·p×r·s)
A = [a1 , a2 , . . . , an ] ,
an
Ad esempio:
1 3 5
A = ,
2 4 6
1
2
3
vec(A) = .
4
5
6
che:
" #
vec A · B · C = d =
(m×n) (n×p) (p×q) (m·q×1)
" #
= Iq ⊗ (A · B) · vec (C)=
(m×p) (p·q×1)
= C0 ⊗ A · vec (B) ,
(q·m×p·n) (n·p×1)
y ∈ R1 ,
x1
x2
x ∈
...
,
xn
Y = f (K, L) = A · K α · L1−α ,
A > 0, 0 < α < 1.
∂f (x)
= fi (x) lim ∆−1 · [f (x1 , . . . , xi + ∆, ..xn ) − f (x1 , . . . , xi , ..xn )] .
∂xi ∆→0
∂f (K, L)
fK (K, L) = = α · A · K α−1 · L1−α .
∂K
32 CAPITOLO 2. RICHIAMI MATEMATICI
il gradiente è:
a1
a2
∇ = a .
. . . =(n×1)
(n×1)
an
Per la funzione di produzione Cobb-Douglas, il gradiente è invece:
" #
∂f (K,L)
α · A · K α−1 · L1−α
∂K
∇ = ∂f (K,L) = .
(2×1) (1 − α) · A · K α · L−α
∂L
∂f
= a .
∂x (n×1)
∂f
= a .
∂x (n×1)
!
∂f 0
= A + A · x
∂x (n×n) (n×n) (n×1)
∂f
= 2· A x
∂x (n×n)(n×1)
2.3.3 Ottimizzazione
Nel caso di una funzione scalare di uno scalare R1 → R1 , y = f (x), la condizione
del primo ordine per avere un massimo o un minimo è:
∂f
= 0,
∂x
mentre le condizioni del secondo ordine sono:
∂2f
> 0 per un min imo,
∂x2
∂2f
< 0 per un massimo.
∂x2
Nel caso di funzione scalare di un vettore Rn → R1 , y = f (x), le condizioni
del primo ordine per avere un massimo o un minimo sono date dal sistema di n
equazioni:
∂f
= ∇ = [0] ,
∂x (n×1)
34 CAPITOLO 2. RICHIAMI MATEMATICI
λk
Gli elementi del vettore (k × 1) λ sono detti moltiplicatori di Lagrange e con-
sentono di tenere in considerazione i vincoli che la soluzione del problema di ot-
timizzazione deve soddisfare. La costruzione della funzione lagrangiana consente
di impostare il problema di ottimizzazione vincolata come un problema di otti-
mizzazione libera, semplicemente specificando le condizioni del primo ordine in
relazione ad un vettore di variabili di scelta di dimensione superiore:
x
z = .
(n+k)×1 λ
Le condizioni del primo ordine sono:
∂L(x, λ) ∂f (x) ∂c(x)0
= [0] ⇒ + · λ = [0] ,
∂x (n×1) ∂x ∂x (k×1) (n×1)
(n×1) (n×k)
" #
∂L(x, λ)
= [0] ⇒ c(x) − d = [0] .
∂λ (k×1) (n×k) (k×1)
2.3. FUNZIONI IN PIÙ VARIABILI 35
Dalla risoluzione del sistema delle condizioni del primo ordine si ricava la
soluzione x∗ che ottimizza la funzione f (x) sotto i vincoli c(x) = d.
Le proprietà dell’ottimo vincolato sono le seguenti:
Infatti:
∂c0 (x)
∂f (x)
+ · λ = [0]
∂x x=x∗ ∂x x=x∗ (n×1)
h i
e quindi il gradiente valutato in corrispondenza di x = x∗ , ∂f∂x
(x)
, è
x=x∗
diverso da [0] .
(n×1)
M ax f (x) = a0 · x − x0 · A · x ,
x (1×3) (3×1) (3×1) (3×3) (3×1)
x1 − x2 + x3 = 0
con : ,
x1 + x2 + x3 = 0
( )
oppure : C · x = d
(2×3) (3×1) (2×1)
∂L(x, λ)
= [0] ⇒ (2.4)
∂x (3×1)
a −2· A · x + C0 · λ = [0] , (2.5)
(3×1) (3×3) (3×1) (3×2) (2×1) (3×1)
∂L(x, λ)
= [0] ⇒ (2.6)
∂λ (2×1)
C · x = [0] . (2.7)
(2×3) (3×1) (2×1)
36 CAPITOLO 2. RICHIAMI MATEMATICI
A · B,
A 0 · B0 ,
B·A
B0 · A
3. Data la matrice:
1 4 7
A= 3 2 5
5 8 8
a) y = x21 − 14 · x1 · x2 + 11 · x22
b) y = 5 · x21 + x22 + 7 · x23 + 4 · x1 · x2 + 6 · x1 · x3 + 8 · x2 · x3 ,
Si noti che:
0
B · A = A 0 · B0 ⇔ (B · A)0 = A0 · B0 .
38 CAPITOLO 2. RICHIAMI MATEMATICI
1 4 7
A= 3 2 5
5 8 8
2 5
−4· 3 5 +7· 3 2
|A| = 1 · = −24 + 4 + 98 = 78,
8 8 5 8 5 8
tr(A) = 1 + 2 + 8 = 11,
1 2 7
−24 24 6 78 39 78
+
A = 1 −27 16 , A−1 = |A|−1 · A+ = 26 1 1
39
5
78 =
5 4 4
14 12 −10 78 39 39
4 4 1
− 13 13 13
1 9 8
= 78 − 26 39
.
7 2 5
39 13 − 39
p211 = 25 ⇒ p11 = 5
7
p11 · p21 = 7 ⇒ p21 = ,
5
2√
r
49
p221 + p222 = 13 ⇒ p22 = 13 − = 69 .
25 5
Γ · A· = A∗∗ =
(m×n)
γ11 0 ... 0 a11 a12 . . . a1n
0 γ22 ... 0 · a21 a22 . . . a2n =
=
... ... ... ... ... ... ... ...
0 0 ... γmm am1 am2 . . . amn
a11 · γ11 a12 · γ11 . . . a1n · γ11
a21 · γ22 a22 · γ22 . . . a2n · γ22
=
... ... ... ...
am1 · γnn am2 · γnn ... amn · γnn
vale a dire si ricava una matrice A∗∗ (m × n) che risulta moltiplicando ogni
riga di A per il corrispondente elemento diagonale di Γ.
5 > 0,
5 2
= 5 − 4 > 0,
2 1
5 2 3
2 1 4 = −34 < 0.
3 4 7
*
√
0 +
15− 205
λ= √2 = 0.341
15+ 205
2 = 14.659
Si noti comunque che la seconda colonna di A è pari a due volte la prima
colonna. Questo implica che:
|A| = 0
e quindi, dato che il determinante di una matrice è dato dal prodotto dei suoi
autovalori è ovvio che almeno uno degli autovalori di A sia nullo.
L(q, λ) = u(q) + λ · p0 q − y ,
p1 q1
u(q) = q1α · q2β , p = ,q = .
p2 q2
∂L(q, λ) ∂u(q)
= [0] ⇒ +λ · p = [0] , (2.9)
∂q ∂q (2×1)
(2×1)
∂L(q, λ)
= 0 ⇒ p0 q = y. (2.10)
∂λ
In questo caso conviene scrivere la (2.9) come :
Si risolva la (2.11) a λ:
α · q1α−1 · q2β
λ=− ,
p1
Si noti che con la funzione di utilità specificata le domande q1∗ e q2∗ sono
funzioni lineari del reddito monetario y. Infine si noti che è possibile dare
interpretazione geometrica alle condizioni (2.9):
" ∂u(q)
# ∂u(q)
∂q1 = −λ · p1 ∂q1 p1
∂u(q) ⇒ ∂u(q)
= ,
∂q2 = −λ · p2 p2
∂q2
In genere si utilizza la notazione X (la lettera maiuscola) per indicare una variabile
casuale e la corrispondente lettera minuscola (x in questo caso) per indicare la
realizzazione di una variabile casuale in un determinato esperimento casuale.
A seconda dell’insieme dei valori che una variabile casuale può assumere (do-
minio o supporto di una variabile casuale) si è soliti distinguere le variabili ca-
suali in assolutamente continue e discrete. Una variabile casuale continua (VCC)
assume valori appartenenti all’insieme dei numeri reali (o a suoi sottoinsiemi):
X : x ∈ A, A ⊆ R
Le variabili casuali discrete (VCD) assumono valori discreti. Ad esempio la va-
riabile casuale numero di risultati ”testa” nel lancio ripetuto 10 volte di una moneta
assume valori discreti compresi tra 0 e 10.
43
44 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
diversamente trattata a seconda che si consideri una VCC o una VCD. Nel caso di
una VCD è possibile attribuire ad ogni possibile realizzazione della VC un deter-
minato valore che misura la probabilità del prodursi di quel determinato evento. In
tal caso si parla di probabilità associata al valore x, che indichiamo con f (x):
X
f (x) = pr(X = x), x ∈ A, f (xi ) = 1.
xi ∈A
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-3 -2 -1 0 1 2 3
46 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
per una VCC. L’operatore E(·) che definisce l’operatore atteso, dato che si riferi-
sce all’applicazione di un’operazione di sommatoria o di integrale è un operatore
lineare: data la VC x e le costanti a e b, si ha:
E (a + bx) = a + bE(x).
A seconda che la VC ammetta uno o più valori modali viene detta unimodale o
multimodale.
3.5. LA DISTRIBUZIONE NORMALE 47
Si noti che sia nel caso di una VCC che di una VCD la varianza può essere
alternativamente espressa come:
vale a dire come differenza tra il valore atteso del quadrato di X e valore atteso di
X al quadrato. Questa espressione può essere facilmente ottenuta sviluppando il
quadrato [X − E (X)]2 ed applicando il valore atteso a ciascun elemento.
Le proprietà della varianza possono essere facilmente sintetizzate: data la VC
X e le costanti a e b, dalla definizione di varianza di X è possibile ricavare facil-
mente:
v(a + bX) = b2 v(X).
Questo significa che aggiungere una costante ad una VC non ne modifica la va-
rianza e moltiplicare questa VC per una costante b comporta l’ottenimento di una
varianza che è pari a b2 volte quella della VC di partenza: la varianza è infatti un
operatore quadratico.
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3 -2 -1 0 1 2 3
L’inferenza può essere condotta con modalità differenti che si possono ricondurre
alle seguenti:
1. Stima puntuale
x1 , x2 , ..., xn ,
Si noti che gli stimatori sono VC in quanto valori sintetici ottenuti sulla base
dell’osservazione di un campione, e ciascuno degli elementi del campione è una
VC.
E [g(x1 , x2 , ...xn )] = θ
3.7.2 Efficienza
Il concetto di efficienza di uno stimatore, in relazione alla stima di un parametro
incognito θ della popolazione si riferisce alla precisione delle informazione relative
a θ che possono essere ottenute dallo stimatore utilizzato. La proprietà dell’effi-
cienza di uno stimatore è un concetto relativo e pertiene agli stimatori appartenenti
ad una determinata classe. Si considerino ad esempio gli stimatori non distorti.
Lo stimatore g(x1 , x2 , ...xn ) appartenente a tale classe che ha varianza minima
viene detto stimatore efficiente (stimatore MVUE: Minimum Variance Unbiased
Estimator: stimatore corretto a varianza minima).
50 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Nella classe degli stimatori lineari e corretti, lo stimatore più efficiente viene
detto BLUE ( Best Linear Unbiased Estimator, migliore stimatore lineare corretto).
Ad esempio, avendo a disposizione un campione di n = 10 elementi estratti
in modo identico ed indipendente da una popolazione distribuita normalmente con
momenti entrambi incogniti:
xi ∼ N (µ, σ 2 ), i = 1, 2, ..10,
xi k xj ∀i 6= j.
10 10
1 X 1 X
E [g10 (x1 , x2 , ...x10 )] = E (xi ) = µ = µ,
10 10
i=1 i=1
7
1X
E [g7 (x1 , x2 , ...x10 )] = µ = µ,
7
i=1
Il più efficiente tra questi due stimatori è quindi g10 (x1 , x2 , ...x10 ), dato che ha va-
rianza più bassa. Si noti che questo non è sorprendente dato che g10 (x1 , x2 , ...x10 )
utilizza tutte le informazioni provienienti dal campione mentre g7 (x1 , x2 , ...x10 )
non assegna alcun ruolo all’informazione proveniente dalle osservazioni x8 , x9 e
x10 .
3.7.3 Consistenza
La consistenza è una proprietà asintotica, vale a dire che riguarda il comportamento
degli stimatori per campioni di grande ampiezza (n → ∞).
3.7. PROPRIETÀ DEGLI STIMATORI 51
Uno stimatore g(·) viene detto consistente per il parametro incognito della
popolazione θ se per ogni coppia di valori > 0 e δ > 0, esiste un ampiezza
campionaria n0 tale per cui:
In altri termini:
lim pr [|gn − θ| < ε] = 1, ∀ε > 0
n→∞
Altre notazioni equivalenti per esprimere la consistenza sono:
p
gn → θ, plim(gn ) → θ
Uno stimatore distorto può essere consistente purchè sia asintoticamente non di-
storto:
lim E(gn ) = θ.
n→∞
x1 , x2 , ...xn ∼ i.i.d.(µ, σ 2 )
p lim (xn ) = µ
x1 , x2 , ...xn ∼ i.i.d.(µ, σ 2 )
dove φ(·) è la funzione di densità della VC normale standardizzata N (0, 1). Con
notazione del tutto equivalente si può affermare che:
d
zn → z ∼ N (0, 1).
d
La notazione → indica convergenza in distribuzione e si dice che zn converge in
distribuzione ad una VC normale standardizzata. Il TCL si può parimenti enun-
ciare nei termini della funzione di ripartizione: definendo F (zn ) la funzione di
ripartizione di zn , il TCL afferma che al crescere di n la funzione di ripartizione di
zn converge a quella dellaVC gaussiana standardizzata:
sappiamo che:
dove sia x1 che x2 sono due variabili casuali, per semplicità di esposizione conti-
nue. Il vettore x può essere quindi definito una variabile casuale bidimensionale.
Con riferimento ad x è possibile definire:
• La distribuzione congiunta di x1 e x2 :
f (X) = f (x1 , x2 )
• Le distribuzioni marginali di x1 e x2 :
Z +∞
f (x1 ) = f (x1 , x2 )dx2
−∞
Z+∞
f (x2 ) = f (x1 , x2 )dx1
−∞
Si noti che le due condizioni di cui sopra sono del tutto equivalenti, data la defi-
nizione di densità di probabilità condizionale, e da questo si evince la natura sim-
metrica del concetto di indipendenza statistica: dire che x1 è indipendente da x2
equivale ad affermare che x2 è indipendente da x1 :
f (x1 , x2 )
f (x1 |x2 ) = f (x1 ) ⇒ = f (x1 )
f (x2 )
⇒ f (x1 , x2 ) = f (x1 )f (x2 ),
f (x1 , x2 )
f (x2 |x1 ) = f (x2 ) ⇒ = f (x2 )
f (x1 )
⇒ f (x1 , x2 ) = f (x1 )f (x2 ).
3.8.1 La covarianza
La covarianza misura quanto due variabili casuali tendano ad essere legate tra loro
in modo lineare. La covarianza tra le variabili casuali x1 , x2 è definita come:
x1 !
x2
x = ∼N µ , Σ
(n×1) ... (n×1) (n×n)
xn
dove µ è un vettore (n × 1) i cui singoli elementi sono i valori attesi dei corri-
spondenti elementi di x e Σ è una matrice (n × n) simmetrica almeno semidefinita
positiva:
E(x1 ) µ1
E(x2 ) µ2
µ =
...
=
...
,
E(xn ) µn
Σ = E (X − µ) (X − µ)0 =
1
Nel caso di due variabili casuali distribuite normalmente, l’assenza di correlazione implica
l’indipendenza statistica. Vedi oltre.
56 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
h i
E (x1 − µ1 )2 ... E [(x1 − µ1 ) (xn − µn )]
E [(x2 − µ2 ) (x1 − µ1 )] ... E [(x2 − µ2 ) (xn − µn )]
=
...
=
... ... h i
E [(xn − µn ) (x1 − µ1 )] ... E (xn − µn )2
v(x1 ) ... cov(x1 , xn ) σ11 σ12 ... σ1n
cov(x2 , x1 ) ... cov(x2 , xn ) σ21 σ22 ... σ2n
=
...
= ,
... ... ... ... ... ...
cov(xn , x1 ) ... v(xn ) σn1 σn2 ... σnn
σji = σij ∀i, j.
x1 ∼ N (µ1 , Σ11 ),
x2 ∼ N (µ2 , Σ22 ),
Si noti che dal modo in cui ricaviamo la distribuzione χ2 è possibile dedurre che
a partire da due VC z1 e z2 indipendenti aventi entrambe distribuzione χ2 rispet-
tivamente con n1 e n2 gradi di libertà, la VC risultante dalla somma è anch’essa
distribuita come una χ2 con n = n1 + n2 gradi di libertà:
x ∼ N (0, 1)
58 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 2 4 6 8 10 12 14 16 18 20
si definisca la VC:
x
z=p
y/n
Z ∼ tn .
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3 -2 -1 0 1 2 3
la VC Z:
X1 /n1
Z= ∼ Fn1 ,n2
X2 /n2
si distribuisce come una F di Fisher con n1 gradi di libertà al numeratore e n2
gradi libertà al denominatore. Ovviamente il supporto di z è limitato a R1+ , dato
che si tratta del rapporto tra grandezze necessariamente positive. Le proprietà della
funzione di densità della distribuzione F sono rappresentate nella figura (3.6).
60 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Data l’ipotesi di indipendenza tra i diversi elementi del campione possiamo scrivere
la funzione di densità del campione come:
n
Y
f (x1 , x2 , ...xn , θ) = f (xi , θ)
i=1
Questa è la funzione di densità dell’n − pla campionaria sulla base dei parametri
della popolazione µ e σ. Questa funzione può essere vista sotto un diverso punto
3.11. LA FUNZIONE DI VEROSIMIGLIANZA 61
0.01
0.008
0.006
0.004
0.002
0
-3 -2 -1 0 1 2 3
di vista, cioè come una funzione del valore dei parametri stessi e quindi come
funzione di verosimiglianza:
n
( )
−n/2 −n 1 X 2
L(x1 , x2 , ...xn , θ) = (2π) σ exp − 2 (xi − µ) . (3.1)
2σ
i=1
assumendo per semplicità che σ sia noto e pari a 1, possiamo calcolare in relazione
a diversi valori di µ il valore di (3.1) (si veda la figura 3.7) ed effettivamente si
ha che la verosimiglianza calcolata in corrispondenza di µ = 0.5 è pari a 0.0027,
e calcolata in corrispondenza di µ = 3 è pari a (6.318) × 10−7 , indicando in
questo modo che il valore µ = 0.5 è molto più verosimile del valore µ = 3. In
altri termini, sulla base del campione analizzato, è molto più verosimile che i dati
osservati siano stati generati da una distribuzione normale con valore atteso pari a
0.5, che da una distribuzione normale con valore atteso pari a 3.
62 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
σ2
E(xn ) = µ, v(xn ) =
n
Abbiamo visto che è facile definire le proprietà della media campionaria e stabilire
che:
σ2
xn ∼ N µ,
n
e quindi è possibile standardizzare xn ottenendo:
√
n
(xn − µ) ∼ N (0, 1) .
σ
D’altro canto è possibile mostrare che S 2 si distribuisce indipendentemente da
xn e che:
S2
(n − 1) 2 ∼ χ2n−1
σ
64 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
con la proprietà:
0.06
0.05
0.04
0.03
0.02
0.01
0
0 5 10 15 20 25 30 35 40 45 50
se abbiamo:
n = 20, xn = 5, S 2 = 9
ricordando che:
S2
(n − 1) ∼ χ2n−1
σ2
e scegliendo ad esempio α=0.90 (90% ), si ha che:
S2
P r zn−1 (0.05) ≤ (n − 1) 2 ≤ zn−1 (0.95) = 0.90 ⇒
σ
2 S2
S 2
P r (n − 1) ≤ σ ≤ (n − 1) = 0.90 ⇒
zn−1 (0.95) zn−1 (0.95)
9 2 9
P r (19) ≤ σ ≤ (19) = 0.90 ⇒
30.144 10.117
2
P r 5.67 ≤ σ ≤ 16.90 = 0.90
dove zn−1 (0.05) = 10.117 e zn−1 (0.95) = 30.144 sono i quantili corrispondenti
rispettivamente a 0.05 e 0.95 di una variabile casuale χ219 che sono ricavabili dalla
consultazione delle tavole statistica della distribuzione χ2 . (si veda la Figura 3.8).
Dalla considerazione precedente si ricava che:
" #
S2 S 2
P r (n − 1) ≤ σ 2 ≤ (n − 1) =α
zn−1 1−α2 zn−1 1 − 1−α 2
H0 : µ = 0.6
H1 : µ = 0.7.
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−2 0 2 4 6
La figura sulla destra rappresenta la distribuzione sotto H0 mentre la figura sulla sinistra rappresen-
ta la distribuzione sotto H1 . La semiretta verticale corrisponde al valore critico utilizzato. Quindi
l’area alla destra di tale valore, sottesa alla distribuzione sotto H0 è pari ad α (errore di prima spe-
cie), mentre l’area alla sinistra di tale valore, sottesa alla distribuzione sotto H1 è pari ad β (errore
di seconda specie)
68 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Figura 3.10: Esempio sulla prova di ipotesi sul valore atteso: test a una coda
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−4 −3 −2 −1 0 1 2 3 4
√ xn − µ
n ∼ N (0, 1),
σ
S2 √ xn − µ
(n − 1) 2 ∼ χ2n−1 ⇒ τ = n ∼ tn−1
σ S
pr (τ ≤ a) = 0.95
√ xn − µ
n−1
⇒ pr n ≤ t0.05 H0 = 0.95
S
√ xn − µ0
n−1
⇒ pr n ≤ t0.05 = 0.95.
S
3.16. PROVA DELLE IPOTESI 69
Figura 3.11: Esempio sulla prova di ipotesi sul valore atteso: test a due code
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−4 −3 −2 −1 0 1 2 3 4
3.17 Esercizi
1. Data la seguente distribuzione normale bivariata:
x1 µ1 σ11 σ12
x= ∼ N [µ, Σ] , µ = ,=
x2 µ2 σ12 σ22
H0 : µ = 2,
H0 : µ = 0.7,
H0 : σ 2 = 0.5,
(per le ipotesi sul valore atteso si calcolino i test a una coda e quelli a
due code).
(c) Si trovino gli intervalli di confidenza al 95% per µ e σ 2 .
4. Dato il vettore (p × 1) x:
x ∼ N (µ, Ω)
(a) ottenere una trasformazione lineare di x che sia distribuita nel seguente
modo:
y ∼ N (0, Ip ).
Dato che: Z +∞
f (x1 ) = f (x1 , x2 )dx2 =
−∞
2 r
1 −1/2 ∆ 1 2
2
= √ |∆| 2π · exp − σ11 σ22 − σ12 y1 =
2π σ11 2∆σ11
1 1 2
√ exp − (x1 − µ1 ) ,
2πσ11 2σ11
y12
1 2 2
exp − y σ22 − 2σ12 y1 y2 + y2 σ11 +
2∆σ11 1 2σ11
1 2
−1/2
= √ σ11 σ22 − σ12 ×
2π
1 2 2 2 2 2
exp − y σ11 σ22 − 2σ11 σ12 y1 y2 + y2 σ11 − y1 (σ11 σ22 − σ12 ) =
2∆σ11 1
( )
2
1 2
−1/2 [y 2 − (σ 12 /σ )y
11 1 ]
= √ σ11 σ22 − σ12 exp − 2 /σ )
2π 2(σ22 − σ12 11
10
1 X
x10 = xi = 1.52,
10
i=1
10
1 X
S2 = (xi − x10 )2 = 0.9418,
9
i=1
√
S = S 2 = 0.97.
x −2 1.52 − 2
p10 =p == −1.5641
S 2 /10 0.9418/10
H0 : µ = 0.7controH1 : µ 6= 0.7,
si ottiene:
x10 − 0.7 1.52 − 0.7
p =p = 2.672.
2
S /9 0.9418/10
Dato che il valore critico per il test è ancora ±t90.025 = ±2.262,si rifiuta
H0 . A maggior ragione, se si considera l’ipotesi alternativa:
H1 : µ > 0.7,
si ricordi che :
S2
(n − 1) ∼ χ2n−1
σ2
Quindi se vale H0 si ha:
S2
z = (n − 1) ∼ χ2n−1 .
0.5
a = 2.70, b = 19.0.
3.18. SOLUZIONI AGLI ESERCIZI 75
Figura 3.12: Test a due code per la varianza; distribuzione di riferimento χ29 , α =
0.05
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
Figura 3.13: Test a una coda per la varianza; distribuzione di riferimento χ29 , α =
0.05
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
76 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
H1 : σ 2 > 0.5,
o, in termini equivalenti:
pr(2.70 ≤ z ≤ 19.0) =
8.476
pr 2.70 ≤ ≤ 19.0 =
σ2
σ2
1 1
pr ≤ ≤ =
19.0 8.476 2.70
8.476 2 8.476
pr ≤σ ≤ =
19.0 2.70
2
pr 0.44611 ≤ σ ≤ 3.1393 = 0.95
Ω = PP0
sappiamo che:
P−1 ΩP−10 = Ip .
Quindi si ha che:
z = P−1 (x − µ),
E(z) = P−1 [E(x) − µ] = [0] ,
E(zz0 ) = P−1 ΩP−10 = Ip .
z ∼N (0, Ip ).
78 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
qualunque sia la distribuzione della popolazione da cui sono estratti gli ele-
menti del campione. Quindi, dato che per una VC bernoulliana abbiamo:
E(x) = 0 · (1 − p) + 1 · p = p,
v(x) = E(x2 ) − (E(x))2 = p − p2 = p(1 − p),
7. Definendo:
0
z1 = a1 x ,
(3×1) (3×1)
1
a1 = 1
1
si ricava che:
Definendo:
0
z2 = a2 x ,
(3×1) (3×1)
1
a2 = −1
−1
si ricava che:
y ∼ N ( 0 , I3 )
(3×1)
z = P−1 (x − µ) ∼ N (0, I2 )
80 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
p−1
z1 11 (x1 − µ1 )
z= = p21 −1
z2 − p11 p22 (x1 − µ1 ) + p22 (x2 − µ2 )
Notate che:
x1 − µ1
z1 ∼ N (0, 1) ⇒ √ ∼ N (0, 1),
σ11
1 σ12
z2 ∼ N (0, 1) ⇒ (x2 − µ2 ) − (x1 − µ1 ) ∼ N (0, 1).
p22 σ11
√
Quindi σ11 z1 dà i termini di disturbo di una regressione di x1 su una co-
stante (con coefficiente pari a µ1 ) e tali termini di disturbo hanno varianza
pari a σ11 , mentre p22 z2 esprime i termini di disturbo di una relazione di
regressione lineare di (x2 − µ2 ) su (x1 − µ1 ) la cui varianza è pari a:
σ12
p222 = σ22 − .
σ11
Capitolo 4
81
82 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
9
(x23 = 3.2, y3 = 7.7)
8
3 ε4 = −2.1
0
0 1 2 3 4 5 6 7
yt = β1 + β2 x2t + εt, t = 1, . . . , T,
4.1. CONCETTI FONDAMENTALI 83
E(εt ) = 0, ∀t
E(εt εs ) = 0, ∀t 6= s (assenza di correlazione) (4.1)
E(ε2t ) = σ 2 , ∀t. (costanza della varianza o omoschedasticità
εt ∼ N (0, σ 2 ), t = 1, 2, . . . , T. (4.2)
k
X
E(yt |x1t, x2t, . . . , xkt ) = βi xit
i=1
Nella versione più semplice del MRL, le ipotesi avanzate sui regressori sono:
1) E(xit εs ) = 0, ∀i, t, s (esogenità stretta dei regressori)
cioè non si ha correlazione tra i regressori ed i termini di disturbo. Particolarmente
rilevante è l’ipotesi di assenza di simultaneità:
Si noti che l’inclusione di un termine d’intercetta nel modello (si prenda il caso
più semplice di un modello con soli due regressori, uno dei quali è il termine di
intercetta: x1t = 1, ∀t):
yt = β1 + β2 x2t + εt , t = 1, 2, . . . , T
y = X β + ε ,
(T ×1) (T ×2)(2×1) (T ×1)
1 x21
1 x22
X =
...
...
1 x2T
Ricapitolando, dato il MRL:
k
X
yt = βi xit + εt , t = 1, 2, . . . , T
i=1
4.1. CONCETTI FONDAMENTALI 85
4.1.4 Ricapitolando
Assunzioni del modello lineare di regressione classico:
a) linearità della relazione:
k
X
yt = βi xit + εt , t = 1, 2, . . . T.
i=1
y = Xβ + ε
86 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
E(εt ) = 0, ∀t,
E(ε2t ) = v(εt ) = σ 2 , ∀t,
E(εt εt−j ) = 0, ∀j 6= 0
cioè:
εt ∼ i.i.d(0, σ 2 ), ∀t.
Spesso si assume l’ipotesi di normalità dei termini di disturbo (che non è stretta-
mente necessaria per la stima puntuale dei parametri):
εt ∼ N (0, σ 2 ), ∀t.
ρ(X) = k
E(xit εt ) = 0, ∀i, t
yt = β1 + β2 x2t + εt
E(εt x1t ) = 0
E(εt x2t ) = 0
4.2. STIMA DEI PARAMETRI 87
− −
β̂1 = y −β2 x2 ,
− − −
0 =S(y, x2 ) − ( y −β2 x2 ) x2 −β2 S(x2 , x2 )
ĉ(y, x2 )
⇒ β̂2 = (4.8)
v̂(x2 )
E(xit εt ) = 0, i = 1, 2, . . . , k.
X0 (y − Xβ) = 0
X0 y − X0 Xβ = 0 (4.9)
88 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
E(xit ετ ), ∀i, t, τ.
E(εt ) = 0, ∀t,
E(ε2t ) = σ 2 , ∀t,
E(εt ετ ) = 0, ∀t 6= τ,
εt ∼ N (0, σ 2 ), ∀t.
T 1
log L = − log(2π) − T log σ − 2 (y − Xβ)0 (y − Xβ)
2 2σ
Per massimizzare la verosimiglianza possiamo ottenere le condizioni del primo
ordine rispetto a β e σ, i parametri del modello:
4.2. STIMA DEI PARAMETRI 89
∂ log L 1 ∂
(y − Xβ)0 (y − Xβ) = 0
= 0→−
∂β 2 ∂β
∂ log L T 1
= 0 → − + 3 (y − Xβ)0 (y − Xβ) = 0
∂σ σ σ
Utilizzando il primo blocco delle condizioni del primo ordine otteniamo:
∂(β 0 X0 Xβ) ∂ 0 0
− (β X y + y0 Xβ) = 0 ⇒
∂β ∂β
2(X0 X)β − 2(X0 y) = 0
Ricordando che ρ(X) = k e quindi che:
ρ(X0 X) = k ⇐⇒ X0 X 6= 0
− σ12 X0 X 2
(X0 Xβ − X0 y)
= σ3 =
2
σ3
(β 0 X0 X − y0 X) T
σ2
− 3 σ14 ε0 ε (βbM L ,b
σM2
L)
− σ12 X0 X 2
(X0 Xβ − X0 y)
= σ3 =
2
σ3
(β 0 X0 X − y0 X) T 2 1 0
σ4 (σ − 3 T ε ε) (βbM L ,b
σM2
L)
− σb21 X0 X 1 0
0 − σb2 X X 0
ML (k×1) = ML (k×1) (4.13)
−2T
00 σ
T
4 (−2b
σM2 )
L 00 σ 2
(1×k) bM L (1×k) bM L
90 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
4.5
4.4
4.3
4.2
4.1
3.9
3.8
3.7
1.4 1.6 1.8 2 2.2 2.4 2.6 2.8
Q = (y − Xβ)0 (y − Xβ) = y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ
∂Q
= [0] ⇒ −2X0 y + 2X0 Xβ = 0
∂β k×1
Da cui si ottiene facilmente:
h −1 i h −1 0 i
E(β̂) = E X0 X X0 y = E X0 X X (Xβ + ε) =
= β + (X0 X)−1 X0 E(ε) = β
92 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Nel caso in cui abbiamo regressori stocastici, per conservare la proprietà di non
distorsione di βb occorre ipotizzare:
E(X0 ε) = 0
E(εt ) = 0, ∀t,
E(εt ετ ) = 0, ∀t 6= τ,
E(ε2t ) = σ 2 , ∀t
E(ε) = 0,
E(εε0 ) = σ 2 IT
dove Q è una matrice di rango pieno che può essere interpretata come matrice di
varianza e covarianza dei regressori, otteniamo:
0 −1
2 XX Q−1
lim V (β̂) = lim σ T = lim σ 2 = [0]
T →∞ T →∞ T T →∞ T
che equivale a dire che lo stimatore di minimi quadrati è consistente.
(c) lo stimatore OLS è il più efficiente nella classe degli stimatori lineari non
distorti (teorema di Gauss-Markov), se valgono le ipotesi canoniche sui termini di
disturbo (E(ε) = 0 e E(εε0 ) = σ 2 I).
Infatti, si consideri un qualsiasi stimatore lineare non distorto
β̃ = C y ,
(k×T )(T ×1)
CX = Ik
4.2. STIMA DEI PARAMETRI 93
Si definisca ora:
D = C − (X0 X)−1 X0
in modo tale che la (4.15) può essere riscritta come:
h ih i0
2 0 −1 0 −1
V ar(β̃) =σ D + (X X) D + (X X)
Si ricordi che:
CX = Ik = DX + (X0 X)−1 X0 X = DX + Ik
che implica:
DX = 0
e quindi possiamo scrivere la (??) come:
oppure:
V ar(β̃) − V ar(β̂OLS ) = σ 2 DD0
Quindi la differenza tra le due matrici di varianza e covarianze è σ 2 DD0 e D0 D è
definita positiva:
x0 D0 Dx > 0,∀ x 6= [0]
(k×1)
Notate che:
X0 ε̂ = X0 y − (X0 X)(X0 X)−1 X0 y = 0 (4.19)
L’espressione appena riportata vale sempre. In termini geometrici descrive l’orto-
gonalità dei residui OLS rispetto allo spazio coperto dalle colonne di X.
94 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
0 XT
u1k X0 ε̂ =L0 ε̂ = ε̂t = 0 (4.20)
t=1
u10
k = 1 0 ... ... 0
(1×k)
Notate che la (4.20) implica che in questo caso, quando cioè la regressione include
un termine di intercetta, i residui hanno media campionaria pari a zero.
(2) Calcoliamo il valore atteso del vettore dei residui facendo riferimento alla
(4.18):
E(ε̂) = IT − X(X0 X)−1 X0 E(ε) = 0
e quindi concludiamo che il valore atteso dei residui è nullo. La matrice di varianze
e covarianze dei residui è:
V ar(ε̂) = E(ε̂ε̂0 ) =
= IT − X(X0 X)−1 X0 E(εε0 ) IT − X(X0 X)−1 X0 =
= σ 2 IT − X(X0 X)−1 X0 (4.21)
dato che E(εε0 ) = σ 2 IT ,e σ 2 IT − X(X0 X)−1 X0 è matrice idempotente.
(3) Riprendendo le equazioni normali dei minimi quadrati:
0
(X0 X)β̂ − X y = 0
0 0
1
u1k X0 Xβ̂ = uk X0 y
Se la prima colonna di X è una colonna di 1, si ha:
0 0
i Xβ̂ = i y, (4.22)
(1×T ) (1×T )
0
i = 1 1 ... 1
4.5
y A
valore di y
3.5
2.5 x2
2
0 0.5 1 1.5 2
valore di x2
dove:
T
T
P 1
x
1 t=1 2t
1 x2
x̄ = ( i0 X)0 =
= ,
T ...
T ...
PT xk
xkt
t=1
T
1 1 X
ȳ = ( i0 y) = yt .
T T
t=1
Si noti che x̄ è il vettore delle medie campionarie dei regressori e ȳ è la media cam-
pionaria della variabile dipendente. Quindi la relazione (4.23) indica che la retta di
regressione (iperpiano di regressione se k > 2) passa per il baricentro campionario,
cioè passa per il punto nello spazio k dimensionale con coordinate date dalle me-
die campionarie delle grandezze che appaiono nella relazione di regressione. Ciò
avviene solo se il MRL comprende un termine di intercetta.
Nel caso della regressione semplice:
yt = β1 + β2 x2t + εt , t = 1, 2 . . . , T
96 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
abbiamo:
ȳ = β̂1 + β̂2 x̄2
come evidenziato dal grafico 4.3.
y = IT − X(X0 X)−1 X0 y
εb = y−b
dà la distanza di y dalla proiezione sullo spazio coperto dalle colonne di X. Fa-
cendo un esempio per il quale sia possibile dare una semplice rappresentazione
grafica, ipotizziamo un MRL con un solo regressore:
yt = β1 x1t + εt , t = 1, ..T
3
y
b = β̂x =
3
−1
ε̂ = y − y
b=
1
5
y
4
^y
3
x
1
0 1 2 3 4 5 6 7 8 9
−1
^ε
−2
98 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
possiamo scrivere:
1 10 1 10 0
uk X0 X β̂ =
u Xy⇒
T T k
1 0 1 0
i Xβ̂ = iy⇒
T T
x 0 β̂ = ȳ,
(1×k)
x̄0 =
1 x̄2 . . . x̄k
Xk
ŷt − ȳ = β̂(xit − x̄i )
i=2
y∗ = X∗ β ∗ +ε∗ ,
y1 − y
y2 − y
y∗ = ...
,
yT − y
(x21 − x̄2 ) ... (xk1 − x̄k )
(x22 − x̄2 ) ... (xk2 − x̄k )
X∗
= =
[T ×(k−1)] ... ... (xk3 − x̄k )
(x2T − x̄2 ) ... (xk4 − x̄k )
= x∗2 ... x∗k
(T ×1) (T ×1)
4.2. STIMA DEI PARAMETRI 99
Si definisca allora:
yt
x2t
zt =
...
(k×1)
xkt
e si ipotizzi che tutte le variabili siano distribuite normalmente:
zt ∼ N (µ, Σ),
µ1 0
(1×1) σ11 σ21
(1×k)
µ = −− , Σ = ,
σ21 Σ22
µ2
(k×1) (k×k)
(k×1)
x2t
µ1 = E(yt ), µ2 = E . . . ,
xkt
0
σ11 = V ar(yt ), σ12 = Cov(yt [x2t . . . ..xkt ])
x2t
Σ22 = V ar . . .
xkt
T
1 X 1
µ̂1 = ȳ, σ̂11 = (yt − ȳ)2 = y∗0 y∗ ,
T T
t=1
T
0 1 X
σ
b12 = (yt − ȳ) (x2t − x̄2 ) . . . . . . (xkt − x̄k ) =
T
t=1
1 ∗0 ∗ 1
= y X , Σ22 = X∗0 X∗
T T
100 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
e quindi:
h i
ŷt − ȳ = [(x2t − x̄2 ) . . . (xkt − x̄k )] (X∗0 X∗ )−1 X∗0 y∗ ,
b ∗ = X∗ β̂
y
e quindi:
2 T −k 2
E(σ̂M L) = σ
T
4.4. ANALISI DELLA VARIANZA 101
T −k
Quindi questo stimatore è distorto ma consistente, dato che T tende a 1 al
crescere di T . Si noti che lo stimatore
1
2
σ̂OLS = ε̂0 ε̂
T −k
è chiaramente non distorto. Quindi:
2 1 0
σ̂M L = ε̂ ε̂ distorto ma consistente
T
1
2
σ̂OLS = ε̂0 ε̂ non distorto e consistente
T −k
2
Il denominatore di σ̂OLS , cioè la grandezza T −k, viene chiamata numero dei gradi
di libertà della regressione.
Ricordando che:
X0 ε̂ = 0
otteniamo:
0
y0 y = β̂ 0 X0 Xβ̂ + ε̂ ε̂ ⇒
T SS = ESS + RSS (4.26)
dove:
Quanto più alto è ESS rispetto a T SS, tanto migliore è la spiegazione della varia-
bilità di y fornita dalla regressione. Possiamo definire un indice basato sulla scom-
posizione (4.26). Questo indice, chiamato RU 2
C = indice di bontà di adattamento è
definito come:
2 ESS RSS
RU C = =1−
T SS T SS
102 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Questo indice viene definito “non centrato” (uncentered), dato che indica quanto
della variabilità complessiva di y, misurata come somma dei quadrati dei valori
di y, viene spiegata dalla relazione di regressione. Quando il MRL ha un termine
di intercetta (ad esempio x1t = 1, ∀t),una misura alternativa di adattamento si ha
scrivendo il MRL nei termini seguenti:
y∗ =. X∗ β∗ + u
(T ×1) (T ×(k−1))((k−1)×1) (T ×1)
2 ESS β̂ ∗0 X∗0 X∗ β̂ ∗
RC = =
T SS y∗0 y∗
In questo modo si ottiene un indice di bontà di adattamento, sempre compre-
so tra 0 e 1, che indica quanto della variabilità complessiva di y, misurata come
somma dei quadrati delle deviazioni dei valori di yt dalla media campionaria, vie-
ne spiegata dalla relazione di regressione in base alla variabilità campionaria dei
regressori diversi dal termine di intercetta.
y = X β + ε
(T ×1) (T ×k)(k×1) (T ×1)
X1 , X2 , β1 , β1 , k1 + k2 = k
(T ×k1 ) (T ×k2 ) (k1 ×1) (k1 ×1)
Ora, applichiamo la partizione appena descritta alle equazioni normali dei MQ:
X0 Xβ̂ = X0 y ⇒
X01 X1 X01 X2
0
β̂1 X1 y
= (4.27)
X02 X1 X02 X2 β̂2 X02 y
4.6. ANTICIPAZIONE SU TEST CONGIUNTI 103
Ora posso raccogliere tra loro i termini dove appare β̂2 e portare gli altri a sinistra,
ottenendo:
h i
X02 IT − X1 (X01 X1 )−1 X2 β̂2 = X02 y − X02 X1 (X01 X1 )−1 X01 y ⇒
h i h i
X02 IT − X1 (X01 X1 )−1 X2 β̂2 = X02 IT −X1 (X01 X1 )−1 X01 y (4.28)
La matrice:
IT −X1 (X01 X1 )−1 X01 = M1
è chiaramente simmetrica e idempotente. Per cui posso scrivere la (4.28) come:
Definendo:
β̂2 = (X∗0 ∗ −1 ∗0 ∗
2 X2 ) X2 y (4.29)
y∗ = X∗ β ∗ +u
ε ∼ N (0, σ 2 IT )
104 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
H0 : β2 = β3 = . . . = βk = 0
RSS ε0 ε
2
= (IT −X1 (X01 X1 )−1 X01 ) ∼ χ2T −1 (4.30)
σ σ σ
Nello stesso modo, quando è vera H0 abbiamo:
ESS 1
= 2 βb∗0 X∗0 X∗ βb ∼ χ2k−1 (4.31)
σ2 σ
con ESS
σ2
indipendente da RSS σ2
. Sulla base di tutto ciò possiamo definire una gran-
dezza costruita come rapporto tra (4.30) e (4.31), ognuna divisa per il proprio nu-
mero di gradi di libertà, ed in questo modo ottenere una grandezza distribuita come
una variabile casuale F di Fisher:
H0 : β2 = β3 = . . . = βk = 0 (4.33)
H1 : β2 6= β3 6= . . . 6= βk 6= 0
Notate che l’ipotesi (4.33) è l’ipotesi che la regressione non abbia alcun potere
esplicativo, ed è evidente che il test F utilizzato sia ovviamente una funzione cre-
scente dell’indice Rc2 : quando la regressione ha basso potere esplicativo (basso
Rc2 ), il test F calcolato sarà vicino a zero, mentre quando l’indice calcolato è vicino
a 1, allora il valore calcolato per il test F tende ad essere molto grande.
ε ∼ N (0, σ 2 IT )
β̂ ∼ N (β, σ 2 Q) (4.34)
0 −1
Q = (X X)
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 105
0.35
0.3
0.25
0.2
0.15
0.1
t(α/2)
0.05 −t(α/2)
0
−4 −3 −2 −1 0 1 2 3 4
σ̂ 2
∼ χ2T −k
(T − k)
σ2
Quindi posso costruire una variabile casuale distribuita come una t di Student con
T − k gradi di libertà
β̂i − βi
σ(q )1/2 β̂i − βi
s ii = ∼ tT −k (4.35)
2
(T − k) σ̂σ2 σ̂qii 1/2
T −k
106 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
H0 : βi = β0i
H1 : βi 6= β0i (4.37)
pr(rifiuto H0 | H0 vero) = α
possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che defi-
nisce la regione di accettazione e la regione di rifiuto di H0 (si veda la figura 4.6)
basato sulla probabilità dell’errore di prima specie scelto:
( )
β̂i − β0i
p −t(α/2) > > t(α/2 ) = α
σ̂qii 1/2
Come si evince dalla figura, il test da utilizzare è a due code e si sostanzia nel
seguente criterio decisionale: si calcoli:
β̂i − β0i
σ̂qii 1/2
Se tale valore è compreso tra −t(α/2) e t(α/2) , si accetta H0 , altrimenti si rifiuta
H0 . Notate che esiste una dualità interpretativa tra costruzione dell’intervallo di
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 107
0.35
0.3
0.25
0.2
0.15
0.1
probabilità pari a probabilità pari a
α /2 α /2
0.05
0
−4 −3 −2 −1 0 1 2 3 4
se il valore calcolato del test cade in questo
intervallo, accetto l’ipotesi nulla
H1 : βi > β0i .
pr(rifiuto H0 | H0 vero) = α
possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che defi-
nisce la regione di accettazione e la regione di rifiuto di H0 (si veda la figura 4.7)
basato sulla probabilità dell’errore di prima specie scelto:
( )
β̂i − β0i
p > t(α ) = α
σ̂qii 1/2
Come si evince dalla figura, il test da utilizzare è a una coda e si sostanzia nel
seguente criterio decisionale: si calcoli:
β̂i − β0i
σ̂qii 1/2
108 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
0.35
0.3
0.25
0.2
0.15
0.1
probabilità pari a
α
0.05
0
−4 −3 −2 −1 0 1 2 3 4
se il valore calcolato del test cade nell’intervallo
a sinistra del quantile, accetto l’ipotesi nulla
Un esempio
Supponiamo che in relazione ad un MRL stimato si abbia:
βbi = 0.05,
p
b2 · qii = 0.02,
σ
T = 66, k = 6
H0 : βi = 0 contro
H1 : βi 6= 0
β̂i 0.05
1/2
= = 2.5
σ̂qii 0.02
che confrontato con il valore critico tα/2 = 2.00 conduce a rifiutare H0 .Se avessi-
mo come ipotesi alternativa:
H1 : βi > 0
scegliendo come probabilità di errore di prima specie α = 0.05, il quantile rilevante
della distribuzione è:
tα = 1.671
Dato che il valore calcolato del test (2.5) è maggiore di tα anche il test ad una coda
comporta il rifiuto di H0 .
yt = β1 + β2 x2t + β2 x3t + εt , t = 1, 2, . . . , T
x1t = 1, ∀t.
y = X β +ε,
(T ×3)(3×1)
1 x21 x31 β1
X = ... ... . . . , β = β2
1 x2T x3T β3
XT
Q= (yt − β1 − β2 x2t − β3 x3t )2
t=1
110 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
dove:
T
1 X
ȳ = yt media campionaria di y
T
t=1
T
1 X
x̄2 = x2t media campionaria di x2
T
t=1
T
1 X
x̄3 = x3t media campionaria di x3
T
t=1
T T T T
∂Q X X X X
=0⇒ x2t yt = βb1 x2t + β̂2 x22t + β̂3 x2t x3t
∂β2
t=1 t=1 t=1 t=1
cioè:
S2y = β̂2 S22 + β̂3 S23 2a equazione dei M Q
dove:
T
X
S2y = x2t yt − T ȳx̄2 (T volte la covarianza campionaria tra y e x2 )
t=1
XT
S22 = x22t − T x̄22 (T volte la varianza campionaria di x2 )
t=1
T
X
S23 = x2t x3t − T x̄2 x̄3 (T volte la covarianza campionaria tra x2 e x3 )
t=1
con:
XT
S3y = x3t yt − T x̄3 ȳ
t=1
Le soluzioni cosı̀ ricavate per gli stimatori OLS di β1 , β2 , β3 sono del tutto equiva-
lenti a quelli ottenuti facendo riferimento alla usuale notazione matriciale:
β̂ = (X0 X)−1 X0 y
(3×1)
Si noti che:
XT
T SS = Syy = (yt − ȳ)2 = y∗0 y∗ ,
t=1
ESS = β̂2 S2y + β̂3 S3y = β̂ ∗0 X∗0 y∗ =
= β̂ ∗0 X∗0 X∗ β̂ ∗ ,
β1
β∗ =
β2
dato che:
∗
X∗0 y∗ = X∗0 (X∗ β̂ +ε̂),
X∗0 ε̂ = 0
A questo punto possiamo scrivere la somma dei quadrati dei residui della regres-
sione stimata come:
∗
RSS = Syy − β̂2 S2y − β̂3 S3y = y∗0 y∗ −β̂ X∗0 X∗ β̂ ∗ = ε̂0 ε̂
e l’indice R2 come:
oppure:
y∗ = X∗ β ∗ +u,
∗ β2
β =
β3
e quindi avremo:
β̂ ∗ ∼ N β ∗ , σ 2 (X∗0 X∗ )−1
−1
∗0 ∗ −1 S22 S23 1 S22 −S23
X X = = ,
2 −S23 S33
S22 S33 S23 S33 1 − r23
2
S23
2
r23 = (coefficiente di correlazione campionario tra x2 e x3 )
S22 S33
Quindi possiamo scrivere le varianze e covarianze dei singoli coefficienti stimati
come:
σ2
V ar(β̂2 ) = 2 ), (4.38)
S22 (1 − r23
σ2
V ar(β̂3 ) = 2 ), (4.39)
S33 (1 − r23
σ 2 r23
2
Cov(β̂2 , β̂3 ) = 2 ), (4.40)
S23 (1 − r23
σ2
V ar(βb1 ) = + x̄22 V ar(β̂2 ) + 2x̄2 x̄3 Cov(β̂2 , β̂3 ) +
T
+x̄23 V ar(β̂3 ) (4.41)
Le seguenti considerazioni sembrano degne di nota:
2 .
1. Si noti che le varianze di β̂2 e β̂3 crescono al crescere di r23
2. La variabile casuale:
RSS
∼ χ2(T −3)
σ2
può essere utilizzata per costruire intervalli di confidenza per σ 2 .
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 113
β3
stima puntuale di β3
intervallo fiduciario
per β2 e β3
stima puntuale di
β2
β2
alla Figura 4.8, possiamo definire un’ellisse, che corrisponde ad una curva
di livello delle funzioni di densità F2,(T −3) tale per cui i punti ricompresi
nell’ellisse definiscono un intervallo con massa di probabilità = 1 − α (ad
esempio = 0.95), cioè:
Z Z
f (β1 , β2 )dβ1 dβ2 = 0.95
β1 ,β2 ∈A
yt = β1 + β2 x2t + β3x3t + εt , t = 1, 2, . . . , T
dove:
y = log(prodotto)
x2 = log(lavoro)
x3 = log(k)
Abbiamo dati relativi a 23 imprese (T = 23) che possono essere riassunti come
segue:
x̄2 = 10 x̄3 = 5 ȳ = 12
S22 = 12 S23 = 8 S33 = 12
S2y = 10 S3y = 8 Syy = 10
H0 : β2 = 1, β3 = 0
Soluzioni:
1. equazioni normali:
β̂1 = ȳ − β̂2 x̄2 − β̂3 x̄3
S22 β̂2 + S23 β̂3 = S2y
S23 β̂2 + S33 β̂3 = S3y
β̂1 = 4
β̂2 = 0.7
β̂3 = 0.2
β̂i − βi
∼ t(T −k) , i = 1, 2, 3
SE(β̂i )
H0 : βi = 0
H1 : βi 6= 0, i = 2, 3 con α = 5%
β̂i − βi0
∼ t20 ,
SE(β̂i )
βi0 = 0, i = 2, 3
β̂2 − 0 0.7
= = 6.9 ⇒ Rifiuto H0
SE(β̂2 ) 1.02
β̂3 − 0 0.2
= = 1.9 ⇒ Accetto H0
SE(β̂3 ) 1.02
4.8. LA PREVISIONE 117
3. Costruisci:
cioe:
h i
S22 (β̂2 − β2 )2 + 2S23 (β̂2 − β2 )(β̂3 − β3 ) + S33 (β̂3 − β3 ) ≤ 3.49(2σ 2 ) ⇒
12(0.7 − β2 )2 + 16(0.7 − β2 )(0.2 − β3 ) + 12(0.2 − β3 )2 ≤ 3.49(2 · 0.07) ⇒
4
(β2 − 0.7)2 + (β2 − 0.7)(β3 − 0.2) + (β3 − 0.2)2 ≤ 0.041
3
che definisce la superficie delimitata da un’ellisse centrata sul punto:
∗ 0.7
β =
b
0.2
H0 : β2 = 1, β3 = 0 contro
H1 : β2 6= 1, e/o β3 6= 0
si costruisce il test F :
1 h 2 2
i
F = S 22 β̂2 + 2S 23 β̂2 β̂3 + S 33 β̂3 = 4.3
2σ 2
Consultando la tavola della distribuzione F2,20 si ottiene che il valore critico
al 5% è:
f (0.05) = 3.49
che confrontato con il valore calcolato del test (4.3) comporta il rifiuto di
H0 .
4.8 La previsione
Supponiamo di avere un MRL stimato del tipo
ŷ = Xβ̂
Ovviamente, per poter utilizzare il modello a fini estrapolativi, occorre poter for-
mulare un’ipotesi relativa al valore futuro dei regressori. Tale ipotesi si chiama
scenario della previsione:
yt = β1 + β2 x2t + εt , t = 1, 2, . . . T
Si noti che l’errore di previsione εbT +1|T = yT +1 −ŷT +1 = x0T +1 (β−β̂) è una com-
binazione lineare di variabili casuali normali (εT +1 , β − β̂) se i termini di disturbo
sono normali, per cui avrà una distribuzione normale e quindi posso scrivere:
yT +1 − ŷT +1
∼ tT −k ,
σ
bT +1|T
bT2 +1|T b2 1 + x0T +1 (X0 X)−1 xT +1
σ = σ (4.43)
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 119
Figura 4.9:
previsione puntuale e interv. fiduciario
previsione
7 puntuale
6 estremo fiduciario
superiore
5
4
media camp. estremo fiduciario
di x2 inferiore
3
2
0 1 2 3 4 5 6 7
valore dello scenario
[ŷT +1 ± t(α/2) · σ
bT +1|T ]
Quindi notiamo che, a parità di ogni altra circostanza, quanto più mi allontano
dalla media campionaria x2 , tanto più la previsione di yT +1 diventa incerta: è
accompagnata da un intervallo fiduciario la cui ampiezza cresce con il crescere di
x2T +1 da x2 . Si veda a questo proposito la Figura 4.9.
y = X β + ε = X1 β1 + X2 β2 + ε
(T ×k) (T ×k1 ) (T ×k2 )
per il quale supponiamo siano verificate le seguenti ipotesi sui termini di disturbo:
ε ∼ N (0, σ 2 IT )
β̂ = (X0 X)−1 X0 y,
1 0
b2 =
σ εb εb
T
In corrispondenza di tale valore, la funzione di verosimiglianza assume il valore:
T T
1 1 1 T
2
L(β̂, σ̂ ) = √ exp − 2 ε̂0 ε̂ = √ exp −
2πσ̂ 2σ̂ 2πσ̂ 2
La stima del modello vincolato è invece basata su di una formulazione del MRL
sulla quale sono stati imposti i vincoli che caratterizzano H0 :
y = X1 β1 +εR
2 1 0
σ
bR = εb εbR
T R
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 121
dato che:
1 0 U RSS
σ̂ 2 = εb εb =
T T
2 1 0 RRSS
σ̂R = εb εbR =
T R T
U RSS = somma dei quadrati dei residui
del modello U R (non vincolato,unrestricted)
RRSS = somma dei quadrati dei residui
del modello R(vincolato,restricted)
Il modo in cui è costruito il test implica che sia necessario stimare separatamente
il modello vincolato ed il modello non vincolato.
H0 : β2 = 0
H1 : β2 6= 0
P2 P02 = Q22
Ik2 = P−1 −10
2 Q22 P2
H0 : R β=d
(q×k)
ρ(R) = q
ricordando che:
β̂ ∼ N (β, σ 2 (X0 X)−1 )
possiamo ricavare la distribuzione sotto H0 della grandezza (Rβ̂ − d):
Prendiamo come esempio più semplice un MRL dove tutte le variabili appaiono
espresse in termini di deviazioni dalle rispettive medie campionarie:
y∗ = X∗ β ∗ +u
e supponiamo che l’ipotesi nulla sia quella che implica l’assenza assoluta di potere
esplicativo da parte della regressione:
H0 : β∗ = 0
R = Ik−1
d = [0]
(k−1)×1
ρ(R) = q
H0 : R β = d
basato sulla seguente domanda: il gradiente della funzione di logverosimiglian-
za, calcolato in corrispondenza di θbR è significativamente diverso da 0? Si può
dimostrare che, sotto H0 (e date le ipotesi consuete sul modello, compresa quel-
la di normalità dei termini di disturbo), possiamo descrivere la distribuzione del
gradiente:
∂ log L (θ)
γ(θ̂R ) = ∼ N 0 , I θ̂R
∂θ θ=θ̂R
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 125
dove " #
∂ 2 log (θ)
I θ̂R = −E
∂ θ ∂ θ0
θ̂R
H
φ ∼0 χ2q (4.49)
(a)
y = Xβ + ε = X1 β1 + X2 β2 + ε
ε ∼ N 0 , σ2I
H0 : β2 = 0
H1 : β2 6= 0
∂ log L 1 0 0
= − −2X y + 2X Xβ
∂β 2σ 2
2
∂ log L X0 X
= − 2
∂β ∂β 0 σ
con:
β̂1 R
β̂R =
0
XX0
I(θ̂R ) =
σ̂R2
∂ log L(σ̂R ) 1 0 0
= 2 X y − XX β̂R
∂ σ̂R σ̂R
È possibile mostrare (solo un con un po’ di algebra e buona volontà) che vale:
RSS − U RSS
test LM = φLM =
RSS/T
126 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
log L
S’
test LR
Test LM
test di Wald
S
β0 β non vinc. β
H0 : β = 0
H1 : β 6= 0
Ovviamente in questo semplice contesto (in cui c’è un solo parametro) il ”massi-
mo vincolato” della verosimiglianza coincide con la funzione di verosimiglianza
calcolata in corrispondenza di β = β0
Ricapitolando, quindi:
test LR = basato sulla distanza tra log L(β̂M L ) e log L(β0 )
test di Wald = basato sulla distanza tra β0 e β̂M L
test LM = basato sulla pendenza di log L in β0 (quindi dalla misura di quanto
il gradiente è diverso da zero in β0 ).
È possibile dimostrare che i tre test sono legati da una semplice relazione: per
qualsiasi ipotesi nulla ed in relazione a qualsiasi MRL, si ha:
φW ≥ φLR ≥ φLM
e quindi può succedere che un’ipotesi sia rifiutata da W e accettata da LR, LM,per
esempio
y = Xβ + ε
per il quale valgono tutte le ipotesi consuete su termini di disturbo e regressori. Im-
maginiamo che esistano ragioni per ritenere che valgano i seguenti vincoli lineari
sui parametri:
R β = d , (4.50)
(q×k)(k×1) (q×1)
ρ(R) = q
min ε0 ε
β
soggetta ai vincoli:Rβ = d
Per risolvere questo problema siamo attrezzati: costruiamo la funzione lagrangia-
na e ricaviamo le condizioni del primo ordine rispetto ai parametri del modello e
rispetto ai moltiplicatori di Lagrange
h −1 ih i
λ = R X0 X R0 RβbU R − d (4.55)
Notate che quando il vincolo è esattamente verificato dalla stima non vincolata,
dalla espressione per λ riportata qui sopra si evince che il vettore dei moltiplicatori
di Lagrange è nullo (i vincoli non sono stringenti: il punto di massimo vincolato
coincide con quello di massimo libero):
Rβ̂ U R − d = 0 ⇒ λ = 0
Ora risostituiamo la (4.55) nella (4.54):
i
−1 h −1 0 i−1 h
β̂R = X0 X X0 y − R0 R X0 X R · Rβ̂ U R − d (4.57)
La formula vista sopra fornisce un modo per ottenere la stima del MRL sotto i
vincoli che caratterizzano l’ipotesi nulla H0 . Per verificare:
H0 : Rβ = d
contro
H1 : Rβ 6= d
(RRSS − U RSS)
φW = T
∼ χ2q
test di Wald= U RSS
(RRSS − U RSS)/q
fW =
∼ Fq , T −k
U RSS/(T − k)
RRSS
test LR = φLR = T log ∼ χ2q
U RSS
(RRSS − U RSS)
test LM = φLM = T ∼ χ2q
RRSS
It = β1 + β2 Rt + β3 Πt + εt
It = domanda di investimento
Rt = tasso di interesse nominale
Πt =tasso di inflazione
ipotesi: β3 = −β2
130 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
H0 : β3 = −β2 ,
contro
H0 : β3 6= −β2
è possibile lavorare con uno qualsiasi dei test visti. Possiamo stimare il modello
non vincolato ottenendo U RSS. Per ricavare RSS in questo caso è facile: basta
stimare direttamente un modello che soddisfi implicitamente il vincolo imposto,
vale a dire:
It = β1 + β2 (Rt − Πt ) + εRt (4.58)
Nel modello precedente definiamo un nuovo regressore Rt − Πt , tasso di interesse
reale. In questo modo, la regressione stimata (4.58) ha una somma dei quadrati dei
residui che è esattamente RSS.
Come secondo esempio, si consideri la seguente funzione di produzione in
logaritmi:
yt = β1 + β2 lt + β3 kt + εt
Si supponga di voler provare l’ipotesi di rendimenti costanti di scala:
H0 : β2 + β3 = 1
contro
H1 : β2 + β3 6= 1
Si noti che, se sono valide tutte le ipotesi consuete su termini di disturbo e regresso-
ri allora sappiamo che la stima OLS non ristretta del modello si distribuisce come
una variabile casuale normale k-variata:
e quindi la variabile casuale β̂2 + β̂3 − 1 (somma di due variabili casuali normali-1)
sotto H0 si distribuisce nel modo seguente:
b2 = σ
ω b2 (q22 + 2q12 + q11 ) (controparte stimata di ω)
β̂2 + β̂3 − 1
τ = = ∼ tT −3 , (4.59)
ω H0
√
b
p
ω
b = b2 = σ
ω b (q22 + 2q12 + q11 ) = (4.60)
r
RSS p
= (q22 + 2q12 + q11 ) (4.61)
T −3
È quindi possibile ottenere il valore calcolato della statistica τ e confrontar-
lo con il valore critico della distribuzione t di Student, scegliendo la probabilità
dell’errore di prima specie.
In questo esempio (come nel precedente) è semplice fare prova delle ipotesi
perchè abbiamo una sola restrizione. È però anche possibile costruire il test Wald
nella sua forma F :
(RRSS − U RSS)/q
fW =
U RSS/(T − k)
Per ottenere la RRSS (dalla stima del modello vincolato) è possibile:
• applicare M Q vincolati
• trasformare la relazione di regressione ipotizzando che valga H0 :
yt = β1 + β2 lt + (1 − β2 )kt + εRt ⇒
yt − kt = β1 + β2 (lt − kt ) + εRt
Y L
Quindi ottengo un MRL in cui regredisco log K su log K e un termine di
intercetta. Utilizzo OLS e ottengo la RSS. Si noti che il test fW e il test τ descritto
nella (4.59) conducono a conclusioni equivalenti, dato che il valore di questi test
sono legati dalla seguente relazione:
fW = (τ )2
y = Xβ + ε = X1 β1 + X2 β2 + ε
(T ×k1 ) (T ×k2 )
y = X1 β1 + u (4.62)
β̂1 s = (X01 X1 )−1 X01 y (4.63)
132 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Il vettore dei parametri β1 è stimato sulla base del modello “scorretto”. Il valore
atteso di β̂1 s è quindi:
Si noti che il termine (X01 X1 )−1 X01 X2 dà la stima dei coefficienti della regressione
OLS di X2 su X1 . Si noti che:
• si ottiene una stima distorta (a meno che sia X01 X2 = 0, cioè che X01 e X2
siano ortogonali)
Ma cosa si può dire della stima della varianza di β̂1 s ? Per capire meglio si
consideri il caso in cui il MRL ”vero” abbia due variabili esogene oltre al termine
di intercetta:
yt = β1 + β2 x2 t + β3 x3 t + εt
yt = β1 + β2 x2 t + ut
σ2
V ar(β̂2 s ) = (varianza teorica),
S22
T
X
S22 = (x2 t − x̄2 )2
t=1
mentre la varianza teorica della stima di β2 sulla base del modello “vero” è:
4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI 133
σ2
V ar(β̂2 ) = 2 )S ,
(1 − r23 22
T
1 P
T (x2t − x2 )(x3t − x3 )
2 t=1 cov(x
c 2 , x3 )
r23 = T T =
1 v ar(x2 )d
v ar(x3 )
(x2t − x2 )2 T1 (x3t − x3 )2
P P d
T
t=1 t=1
Quanto detto vale per le varianze teoriche. Ora consideriamo le controparti stimate:
σ̂ 2
vd
ar(β̂2 ) = 2 )
S22 (1 − r23
σ̂s2
vd
ar(β̂2 s ) =
S22
Prendiamo il rapporto di tali varianze:
vd
ar(β̂2 ) σ̂s2 2
= 2
· 1 − r23
vd
ar(β̂2 s ) σ̂
yt = β1 + β2 x2 t + β3 x3t + εt , t = 1, . . . , T
dove:
y = quantità domandata
x2 = prezzo del bene
x3 = reddito
(dati riportati sul libro di Maddala)
Stimiamo un modello dove viene omesso il reddito e stimiamo il modello
”scorretto”:
Notate che β̂2 s ha il segno sbagliato (positivo); ricordiamo infatti che abbiamo
indicato l’entità della distorsione teorica come:
h i
∗ −1 ∗ 0 ∗
E(β̂2 s ) − β2 = (x∗0 x
2 2 ) x 2 3 β3 =
x (4.66)
cov(x
c 2 , x3 )
= β3 (4.67)
vd
ar(x2 )
Dall’esame della espressione precedente, possiamo concludere che, dato che β3 ,
coefficiente del reddito è ragionevolmente positivo, e dato che il termine (x∗0 ∗ −1 ∗0 ∗
2 x2 ) x2 x3
ha lo stesso segno della correlazione tra prezzi e reddito (x2 e x3 ), presumibilmente
positiva, la distorsione della stima di β2 è ragionevolmente positiva.
Tutte queste supposizioni sono confermate dall’esame del modello completo
stimato:
Notate che l’errore standard di β̂1 è diminuito: il contributo di x3t alla spiegazione
di yt è superiore all’entità della correlazione di x2t e x3t .
y = X1 β1 +ε
(T ×k1 )(k1 ×1)
y = X1 β1 + X2 β2 +u
(T ×k1 )(k1 ×1) (T ×k2 )(k2 ×1)
In altri termini, siamo in una situazione in cui il vettore di parametri veri è:
β1
β=
0
La stima del modello “scorretto” è:
β̂1 s
β̂s = = (X0 X)−1 X0 y
β̂2 s
che è non distorta. Questo significa che il valore atteso di β̂s è:
h i β̂1 s β1
E β̂s = E =β=
β̂2 s 0
4.12. EFFETTI DELL’INCLUSIONE DI VARIABILI IRRILEVANTI 135
e quindi:
V (β̂s ) = σ 2 Q11
mentre la matrice di varianze e covarianze di β̂1 (stima di β1 sulla base del modello
“vero”):
V (β̂1 ) = σ 2 (X01 X1 )−1
È possibile dimostrare che la matrice di varianze e covarianze di β̂1 s differisce da
quella di β̂1 per una matrice definita positiva. Quindi la stima del modello scorretto
è inefficiente.
Ad esempio, se il modello vero è:
yt = β1 + β2 x2t + εt
yt = β1 + β2 x2t + β3 x3t + ut
σ2
V ar(β̂2s ) = 2 )S
(1 − r23 22
σ 2
V ar(β̂2 ) =
S22
quindi:
2
V ar(β̂2s ) > V ar(β̂2 ) se r23 >0
Anche per le controparti stimate generalmente vale:
anche se è vero che σbs2 < σb2 (c’è una variabile esplicativa in più nel modello
scorretto) ma il contributo di x3t alla spiegazione di yt è ragionevolmente molto
basso.
Notate che:
E(b σs2 ) = σ 2
136 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
RSS T SS
σ̂ 2 = = (1 − R2 )
T −k T −k
T SS T SS
1 − R̄2 · = 1 − Rc2 · = σ̂ 2
T −1 T −k
T −k
(1 − Rc2 ) > ,⇒
T −1
k
Rc2 <
T −1
U RSS
σ̂U2 R = → stima varianza nel modello non ristretto
T −k
2 − (T − k)σ̂ 2
(RRSS − U RSS)/r (T − k + r) σ̂R U R /r
F = =
U RSS/(T − k) (T − k)σ̂U2 R /(T − k)
(RSSR − RSSU R )/r
Risolvi per F = :
RSSU R /(T − k)
2 − (T − k)σ̂ 2
(T − k + r) σ̂R U R /r
F = ,
σ̂U2 R
2
(T − k + r) σ̂R (T − k)
F = 2 −
r σ̂U R r
definisci
T −k
=a
r
quindi:
T −k T −k+r
+1= =a+1
r r
Sostituendo nell’espressione per F :
σ̂R2
F = (a + 1) −a
σ̂U2 R
e quindi:
2
σ̂R a+F
2 = ,
σ̂U R a+1
T −k
a =
r
quindi se F è maggiore di 1, escludendo x1 , . . . , xr si ottiene un aumento della
varianza stimata del modello ristretto, vale a dire una diminuzione di R̄2 , dato
che:
138 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
2 2 T SS
(relazione inversa tra σ̂ 2 eR̄2 )
σ̂ 1 − R̄ (4.68)
T −1
e viceversa se F < 1.
Sotto H0 tutti i parametri sono uguali per tutte le osservazioni periodo campionarie
(ampiezza campionaria completa è T1 + T2 )
Ora, stimiamo il MRL separatamente nei due sotto-campioni ottenendo:
Ricordiamo che:
RSS1 /σ 2 ∼ χ2T1 −k ,
RSS2 /σ 2 ∼ χ2T2 −k
yt = β1 x1t + · · · + βk xkt + εt , t = 1, 2, . . . , T1 , T1 + 1, . . . , T1 + T2
RRSS = ε̂0 ε̂
4.14. TEST DI STABILITÀ DEL MRL 139
da intendere come somma dei quadrati dei residui del modello vincolato (stiamo
stimando il MRL sotto i vincoli che caratterizzano H0 ). Ricordiamo anche che:
RRSS
∼ χ2T1 +T2 −k
σ2
La somma dei quadrati dei residui del modello non vincolato è
(RRSS − U RSS)/k
fW =
U RSS/(T1 + T2 − 2k)
dove:
k = numero vincoli imposti per ottenere il modello ristretto
T1 + T2 − 2k = T − 2k = gradi di libertà del modello U R
Questo test è basato sull’analisi della varianza ed è chiamato test di Chow del
primo tipo.
H0 : E(b
εT1 +1|T1 ) = E(b
εT1 +2|T1 ) = . . . = E(b
εT1 +T2 |T1 ) = 0,
contro
εT1 +1|T1 ) 6= 0, e/o E(b
H1 : E(b εT1 +2|T1 ) 6= 0, e/o E(b
εT1 +T2 |T1 ) 6= 0
E(ε2t ) = σ12 , t = 1, 2, . . . , T1 ,
E(ε2t ) = σ22 , t = T1 + 1, T1 + 2, . . . , T1 + T2
H0 : σ12 = σ22
H1 : σ12 6= σ22
Ricordando che:
posso costruire un test per verificare H0 basato sul rapporto delle due grandezze
sopra indicate:
(RSS1 /σ12 )
" (RSS1 ) #
f = T1 −k 2 = (RSS T1 −k
(RSS2 /σ2 ) 2)
T2 −k T2 −k
H0
2
σ̂1
= ∼ FT1 −k, T2 −k (4.70)
σ̂22 (H0 )
p {a ≤ F ≤ b} = 1 − α
scegliendo α = probabilità errore di prima specie. Quindi si calcola il test f defi-
nito dalla (4.70) e si verifica se cade all’interno o all’esterno dell’intervallo [a, b].
4.15. ESERCIZIARIO SULLA REGRESSIONE LINEARE 141
2) A proposito del test di Chow del secondo tipo, se i parametri sono costanti , il
valore atteso degli errori di previsione è zero; ma se i parametri non sono costanti,
potrebbe comunque darsi che gli errori di precisione abbiano valore atteso nullo
Quindi questo test è più che altro un test di non distorsione delle previsioni.
4.15.2 Esercizio 2
Sia data la seguente regressione stimata:
4.15.3 Esercizio 3
Siano dati due campioni con le seguenti informazioni:
Campione 1 Campione 2
Ti 20 25
xi2 20 23
yi 25 28 ,
i
S22 80 100
S2y 120 150
Syy 200 250
n.b. :
1 X
xi2 = x2t , i = 1, 2
Ti
campione i
1 X
yi = yt , i = 1, 2
Ti
campione i
X
i
S22 = (x2t − x2 )2 , i = 1, 2
campione i
X
i
S2y = (x2t − x2 )(yt − y), i = 1, 2
campione i
X
i
Syy = (yt − y)2 , i = 1, 2
campione i
4.15.4 Esercizio 4
Sia data la seguente regressione stimata:
β2 = β3
si è ottenuto:
4.16. SOLUZIONI AGLI ESERCIZI 143
R2 = 0.876
4.15.5 Esercizio 5
Per il MRL:
β1 + β2 = α,
β1 + β3 = −α
4.15.6 Esercizio 6
Ricavare la matrice di varianza e covarianza dello stimatore ottenuto utilizzando
minimi quadrati vincolati e confrontarla con quella della stima OLS non vincolata.
Come è possibile confrontarle? (NB: stiamo parlando di matrici teoriche!)
H0 : β2 + β3 = 1
contro
H1 : β2 + β3 6= 1
Ricordiamo che:
Intervallo
h congiunto: tutti i valori di β2 e β3 tali per cui: i
Skk (β2 − β̂2 )2 + 2Skl (β2 − β̂2 )(β3 − β̂3 ) + Sll (β3 − β̂3 )2 < f2, 37
f2, 37 = quartile al 95% della distribuzione F2, 37 ∼ = 3, 23 F (2, 40 )
e:
Skk = Tt=1 (kt − k̄)2 kt = log Kt
P
PT
Skl = t=1 (kt − k̄)(lt − ¯l) lt = log Lt
Sll = Tt=1 (lt − ¯l)2
P
4.16.2 Esercizio 2
a) sono quelli i cui test t sono maggiori del valore critico del test a 2 code:
H0 : βi
H1 : βi 6= 0
sulla base di una distribuzione t di Student con 76 gradi di libertà. Il valore critico
è approssimativamente 2,00 (vedi sulla tavola della t di Student il valore più vicino
è 60). Quindi:
βb1 2, 20
t β1 = = = 0, 647 → non significativo
se (β1 )
b 3, 4
β̂2 0, 104
t β2 = = = 20, 8 → significativo
se (β̂2 ) 0, 005
β̂3 3, 48
tβ3 = = = 1, 58 → non significativo
se (β̂3 ) 2, 2
β̂4 0, 34
t β4 = = = 2, 26 → significativo
se (β̂4 ) 0, 15
b)
ESS 112, 5
R2 = = = 0, 82
T SS 19, 5 + 112, 5
T −1 79
R̄2 = 1 − (1 − R2 ) = 1 − (0, 148) = 0, 846
T −k 76
4.16.3 Esercizio 3
Stima del modello nel primo sotto-periodo:
yt = β1 + β2 x2t + εt , t = 1, 2, . . . , 20
1
S2y 120
β̂21 = 1 = = 1, 5,
S22 80
βb11 = ȳ − β̂21 x12 = 25 − (1, 5)(20) = −5
1
2
S2y 150
βb22 = 2 = = 1.5
S22 100
βb12 = ȳ − β̂22 x22 = 28 − 23(1.5) = −6.5
2
2
20x̄1 + 25x̄2
= 21405 − 45 =
45
= 21405 − 21125 = 280
20
1 + T x̄1 ȳ 1 = 120 + 20 · 20 · 25 = 10120
P
x2t yt = S2y 1 2
t=1
45
2 + T x̄2 ȳ 2 = 150 + 25 · 23 · 28 = 16250
P
x2t yt = S2y 2 2
t=21
20 45 20x̄1 + 25x̄2 20ȳ 1 + 25ȳ 2
∗
P P
S2y = x2t yt + x2t yt − 45 =
t=1 t=21 45 45
= 26370 − 45 · [(21, 667) (26, 667)] = 369, 275
20
yt2 = Syy
1 + T (ȳ 1 )2 = 200 + 20(25)2 = 12700
P
1
t=1
45
yt2 = Sy2 + T1 (ȳ 2 )2 = 250 + 25(28)2 = 19850
P
t=21
2
20 45 T1 ȳ 1 + T2 ȳ 2
∗ 2 2
P P
Syy = yt + yt − 45 =
t=1 t=21 45
20 · 25 + 25 · 28 2
= 12700 + 19850 − 45 =
45
= 32550 − 32000 = 550
Quindi per tutto il campione ho:
T = 45
x∗2 = 21, 667
ȳ ∗ = 26, 667
S22∗ = 280
Syy∗ = 550
b)
Devono valere le seguenti ipotesi:
1 2
β1 = β1
β 1 = β22
22
σ1 = σ22
c) Si verificano queste ipotesi costruendo un test, ad esempio il test fW :
(RRSS − U RSS)/k
fW =
U RSS/(T − 2k)
dove:
RRSS = somma quadrati residui modello stimato con 45 osservazioni
∗ − β̂ ∗ S ∗ = 550 − 369, 275 · 1, 319 = 62, 926
=Syy 2y
T SS ESS
U RSS = RSS1 + RSS2 =
= Syy1 − β̂ 1 S 1 + S 2 − β̂ 2 S 2 =
1 2y yy 1 2y
= 200 − (1, 5)(120) + 250 − (1, 5)(150) = 45
(62, 926 − 45)/2 8, 963
fW = = = 8, 166
45/(45 − 4) 1, 097
Il valore critico della F2, 41 al 5% ∼ = 3, 23 (F2 40 è disponibile sulle tavole) →
rifiuto H0 !
L’altra ipotesi H0 : σ12 = σ22 si verifica costruendo il test in forma F :
σ̂12 RSS1 /(T1 − k)
2 = ∼ FT −k, T2 −k
σ̂2 RSS2 /(T2 − k) (H0 ) 1
σ̂12 20/18
= = 1, 022
σ̂22 25/23
Il valore critico è: F18, 23 ∼
= 2, 05 (disponibile per F20, 23 )
accetta H0 : σ1 = σ2 contro σ12 > σ22
2 2
Ma la prima ipotesi (β11 = β12 , β21 = β22 ) è stata rifiutata, per cui non è legittimo
combinare tutte le 45 osservazioni.
4.16.4 Esercizio 4
a) H0 : β2 = β3
H1 : β2 6= β3
Il test di Wald in forma F è:
(RSS − U RSS)/q
fW = =
U RSS/(T − k)
Ora, moltiplico numeratore e denominatore per T SS:
2 )−(1−R2 )
(1−RR
( RSS−U
T SS
RSS
)/q q
U
= U RSS
= 1−RU 2
T SS /(T − k)
T −k
148 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
dove:
RU 2 = R2 modello non ristretto
RR 2 = R2 modello ristretto
Quindi:
0, 106/1
fW = = 129, 555
0, 018/(26 − 4)
Il valore critico della distribuzione di riferimento è: F1, 22 = 4, 30 al 5%.
Quindi il test suggerisce il rifiuto di H0 .
Calcoliamo ora il test di Wald in forma χ2 :
T · [RRSS − U RSS]
φW = =
U RSS
2 2
T · 1 − RR − (1 − RU )
= 2) =
(1 − RU
0.106
= 26 · = 153. 111
0.018
Il valore critico della distribuzione χ21 = 3.84 al 5%. Quindi anche questo test
conduce al rifiuto di H0 .
Si noti che è possibile costruire anche il test t come:
β̂2 − β̂3
∼ t2 2
i 1 (H
0)
h
2
V (β̂2 ) + V (β̂3 ) − 2Cov(β̂2 β̂3 )
b b d
mentre il valore critico (χ21 ) è 3.84.Quindi anche questo test porta al rifiuto di H0 .
Ora calcoliamo il test LM
RSS − U RSS
φLM = T =
RSS
2 − R2 )
T · (RU R
= 2) =
(1 − RR
0.106
= 26 = 22.226
0.124
Quindi anche utilizzando questo test, si conclude che occorre rifiutare H0 (il valore
critico della distribuzione rilevante sotto H0 (χ21 ) è 3.84)
Si noti che in relazione alla prova delle ipotesi svolta in questo esercizio abbia-
mo riscontrato:
4.16. SOLUZIONI AGLI ESERCIZI 149
φW ≥ φLR ≥ φLM
(153.11 > 50.178 > 22.226)
come abbiamo visto nella parte teorica.
b) Se ometto x2t dalla regressione, dato che il test t di significatività di tale pa-
0.7
rametro è − = −2.201, che in valore assoluto è > 1, l’indice R̄2 è destinato
0.318
a scendere.
4.16.5 Esercizio 5
Basta esprimere il modello nei termini del parametro incognito α, sostituendo:
β2 = α − β1 ,
β3 = −α − β1
quindi sotto H0 :
yt = β1 x1t + (α − β1 )x2t + (−α − β1 )x3t + ut ⇒
yt = β1 (x1t − x2t − x3t ) + α(x2t − x3t ) + ut
Definiamo:
E(ut ) = 0, ∀t
E(ut uτ ) = 0, ∀t 6=τ
E(u2t ) = σ 2 , ∀t
ρ(Z) = 2
E( Z0 u) = 0
150 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
4.16.6 Esercizio 6
Calcoliamo la stima corrispondente all’applicazione dei MQ vincolati:
n −1 h io
β̂R = (X0 X)−1 X0 y − R0 R(X0 X)−1 R0
Rβ̂ U R − d =
−1 h i
= β̂U R − (X0 X)−1 R0 R(X0 X)−1 R0
Rβ̂ U R − d =
Per comodità chiamiamo:
−1
(X0 X)−1 R0 R(X0 X)−1 R0
= H
(k×q)
quindi:
h i
β̂R = β̂U R − H Rβ̂ U R − d
E(β̂R ) = β − H(Rβ − d)
quindi β̂R è non distorto solo quando vale H0 (quando R0 β = d). Ora calcoliamo
la distorsione di β̂R :
h i
β̂R − E(β̂R ) = β̂U R − H Rβ̂ U R − d − β − H(Rβ − d) =
= (β̂U R − β) − HR(β̂U R − β) =
= (Ik − HR)(β̂U R − β) =
(Ik − HR)(X0 X)−1 X0 ε
Usando questa espressione possiamo calcolare la matrice di varianze e covarianze
di β̂R :
V ar(β̂R ) = E[(β̂R − E(β̂R ))(β̂R − E(β̂R ))0 ] =
= E[(Ik − HR)(X0 X)−1 X0 εε0 X(X0 X)−1 (Ik − R0 H0 ) =
= σ 2 [(Ik − HR)(X0 X)−1 (Ik − R0 H0 )] =
= σ 2 [(X0 X)−1 − HR(X0 X)−1 − (X0 X)−1 R0 H0 +
+HR(X0 X)−1 R0 H0 ]
Ricordando la definizione di H :
H = (X0 X)−1 R0 [R(X0 X)−1 R0 ]−1
otteniamo:
V (β̂R ) = σ 2 {(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 +
+(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 ·
·R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 }
= σ 2 {(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 }
4.16. SOLUZIONI AGLI ESERCIZI 151
e quindi:
(1)
yt = β1 + β2 x2t + εt t = 1.....T1 (5.1)
(2)
yt = β1 + β2 x2t + εt t = T1 + 1........T1 + T2 (5.2)
In termini esattamente equivalenti possiamo indicare il modello di cui sopra come:
(1) (2) (1)
yt = β1 + (β1 − β1 )Dt + β2 x2t + εt , t = 1, 2, ..., T1 + T2 (5.3)
introducendo una variabile di comodo (o variabile dummy) che chiamiamo Dt :
Dt = 0 ∀t ∈ [1, T1 ]
Dt = 1 ∀t ∈ [T1 + 1, T1 + T2 ]
Se esistono tre diversi ”regimi” (vale a dire tre diversi sottocampioni in relazione a
ciascuno dei quali si immagina che il termine di intercetta possa essere diverso):
(1)
yt = β1 + β2 x2t + εt ,t = 1.....T1
(2)
= β1 + β2 x2t + εt , t = T1 + 1........T1 + T2
(3)
= β1 + β2 x2t + εt , t = T1 + T2 + 1........T1 + T2 + T3
è possibile dare rappresentazione equivalente a questo MRL definendo due distinte
variabili di comodo:
(1) (2) (1) (3) (1)
yt = β1 + (β1 − β1 )D1t + (β1 − β1 )D2t + εt
153
154 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
con
0 t ∈ [1, T1 ] o t ∈ [T1 + T2 + 1......T1 + T2 + T3 ]
D1t =
1 t ∈ [T1 + 1, T1 + T2 ]
0 t ∈ [1, T1 + T2 ]
D2t =
1 t ∈ [T1 + T2 + 1......T1 + T2 + T3 ]
Una variabile di comodo (che indichiamo con VDC) è quindi una particolare va-
riabile che assume valori pari a 0 o a 1.
Possiamo fare il seguente esempio: la Figura 5.1a riporta l’andamento di con-
sumo e reddito (in logaritmi) aggregati per l’Italia nel periodo 1920-1996. Si nota
che per gli anni relativi alla Seconda Guerra Mondiale (1940-45), la relazione che
lega le due variabili sembra modificata. Infatti, se esaminiamo la Figura 5.1b, che
riporta il diagramma a dispersione per tale coppia di variabili, notiamo un grup-
po di osservazioni che ”sembrano” essere disomogenee rispetto alle altre. Tali
osservazioni si riferiscono agli anni 1940-45.
[Figura 5.1a qui nel testo]
[Figura 5.1b qui nel testo]
Sulla base di queste considerazioni, stimiamo il MRL:
in cui yt è il logaritmo del consumo e x2t è il logaritmo del reddito. Per questo
modello, la matrice dei regressori è
1 0 x2,1920
1 0 x2,1921
1 0 x2,1922
... ... ...
X = 1 1 x2,1940
(T ×3)
... ... ...
1 1 x2,1945
... ... ...
1 0 x2,1996
dove gli anni dal 1940 al 1945 sono anni di guerra e la seconda colonna della ma-
trice X è una variabile dummy. Specificando un MRL come quello descritto dalla
(5.4), introducendo una VDC del tipo appena descritto, si opera una correzione sul
termine di intercetta, come la Figura 5.1c chiaramente illustra.
[Figura 5.1c qui nel testo]
5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 155
che NON ha rango pieno! Infatti la 1◦ colonna è la somma delle colonne 2,3,4 e 5.
Nel caso in cui si abbia un MRL che utilizzi dati mensili non destagionalizzati,
allora avremmo :
dove: Dit è una variabile dummy che è pari a 1 nel mese i-esimo (i = 1, ....., 12).
per t = T ∗
1
Dt =
0 t 6= T ∗
yt = β1 + β2 x2t + β3 Dt + εt (5.6)
che la stima del MRL risultante è esattamente equivalente a quella del MRL sen-
za introdurre tra i regressori la VDC e eliminando contestualmente dal campione
l’osservazione anomala:
yt = β1 + β2 x2t + εt , (5.7)
∗ ∗
t = 1, 2, ...T − 1, T + 1, ..., T
Per questo motivo, si può concludere che βb3 coincide con l’errore di previsione di
yT ∗ ottenuto utilizzando la stima del MRL (5.7) e la varianza di βb3 coincide con la
la varianza di tale errore di previsione. In termini un pò meno formali, l’uso della
VDC, che viene chiamata anche variabile di comodo ad impulso (è uguale a uno
in corrispondenza di una sola osservazione), in questo casoequivale a ”fare fuori”
l’outlier.
cioè se riteniamo che entrambi i coefficienti del primo ordine siano diversi nei due
sottocampioni, possiamo scrivere in termini esattamente equivalenti:
(1) (2) (1)
yt = β1 + (β1 − β1 )Dt + β2 x2t + (5.9)
(2) (1)
+(β2 − β2 )(Dt · x2t ) + εt ,
t = 1, 2, ...T1 , T1 + 1, ...T1 + T2
dove:
0 ∀t ∈ [1, T1 ]
Dt =
1 ∀t ∈ [T1 + 1, T1 + T2 ]
Quindi in questo MRL si operano congiuntamente una correzione di intercetta e
una correzione della pendenza. Notate che a questo fine è necessario definire una
nuova variabile esplicativa la cui singola osservazione t-esima è data dal prodotto
tra Dt e x2t . La matrice dei regressori del MRL diventa quindi:
1 0 x21 0
1 0 x22 0
... ... ... ...
1 0 x2T1 0
X =
(T ×4) 1 1 x2T1 +1 x2T1 +1
1 1 ... ...
... ... ... ...
1 1 x2T1 +T2 x2T1 +T2
158 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
cioè si hanno e tutti i parametri del primo ordine del modello hanno una configu-
razione diversa in relazione a due distinti sottocampioni. Alternativamente, posso
scrivere in modo compatto:
(1) (2) (1) (1) (2) (1)
yt = β1 + β1 − β1 Dt + β2 x2t + β2 − β2 (Dt · x2t ) +
(1) (2) (1)
+... + βk xkt + βk − βk (Dt · xkt ) + εt ,
t = 1, 2, ..., T1 + T2
con:
0 ∀t ∈ [1, T1 ]
Dt =
1 ∀t ∈ [T1 + 1, T1 + T2 ]
Quindi procedo alla stima del seguente MRL:
dove:
D(xj )t = Dt · xjt ,
j = 2, 3, ..., k,
t = 1, 2, ..., T
dove Dit è una dummy che assume valore unitario solo in corrispondenza di t =
i, (i = T1 + 1, ..., T1 + T2 ). Vengono quindi stimati T2 parametri aggiuntivi che
hanno l’effetto di eliminare le ultime T2 osservazioni (ricordatevi l’effetto che ha
l’inclusione di una VDC ad impulso: ε̂t = 0, t = T1 + 1, T1 + 2, ..., T1 + T2 )
La somma dei quadrati dei residui del modello (5.13) stimato è quindi:
TX
1 +T2 XT1
ε̂2t = ε̂2t (5.15)
t=1 t=1
e la stima del modello non vincolato equivale alla stima del modello:
Notate che, con l’inserimento delle VDC puntuali, dalla stima del modello (5.13)
è possibile ottenere direttamente gli errori di previsione e le stime delle varianze
160 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
H0 : γ1 = γ2 = ... = γT2 = 0
contro
H0 : γ1 6= 0 e/o γ2 6= 0 e/o ... 6= 0 e/o γT2 6= 0
Questo test, chiamato test di validità previsiva o test di Chow del secondo tipo,
può essere costruito confrontando RRSS e URSS, rispettivamente ottenuti come
somma dei quadrati dei residui del modello (5.16) stimato sulla base dell’intero
campione (t = 1, 2, ..., T1 + T2 ), e somma dei quadrati dei residui dello stesso
modello stimato con i dati relativi al sottocampione (t = 1, 2, ..., T1 ), che a sua
volta è equivalente alla somma dei quadrati dei residui del modello (5.13) stimato.
yt = 0,
oppure
yt = 1,
t = 1, 2, ..., T
k
X
yt = βi xit + εt = x0t β + εt , t = 1, 2, ..., T,
i=1
E(εt ) = 0, ∀t,
se yt∗ > 0
1
yt =
0 se yt∗ ≤ 0
Questo approccio è alla base dei modelli logit e probit. Ora vedremo questi due
approcci separatamente.
yt = x0t β + εt
(1×k)
con:
E(εt ) = 0, ∀t
−x0t β
(se yt = 0)
εt =
1 − x0t β (se yt = 1)
cioè il termine di disturbo è una variabile casuale discreta. Il MRL implica che:
e quindi:
2 2
−x0t β· 1 − x0t β + 1 − x0t β · x0t β =
V (εt ) =
= x0t β · 1 − x0t β = E(yt ) · [1 − E(yt )]
y = Xβ + ε,
E(ε) = [0] .
ω11 0 ... 0
0 ω22 ... ...
E(ε0 ε) = Ω =
,
... ... ... 0
0 ... 0 ωT T
V (εt ) = σt2 = ωtt , t = 1, 2, .., T
In questo caso il miglior stimatore è quello dei ”Minimi Quadrati Ponderati” (WLS=weighted
least squares), che si ottiene in questo modo: si definisce:
1/2
ω11 0 ... 0
1/2
0 ω22 ... ...
P=
... ... ... 0
1/2
0 ... 0 ωT T
tale che:
PP0 = P2 = Ω
IT = P−1 ΩP−1 =
= P−1 ΩP−10 ,
−1/2
ω11 0 ... 0
−1/2
0 ω22 ... ...
P−1 =
... ... ... 0
−1/2
0 ... 0 ωT T
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 163
Inoltre, si definiscono:
y∗ = P−1 y
X∗ = P−1 X
ε∗ = P−1 ε
y ∗ = X ∗ β + ε∗ ,
E(ε∗ ) = [0],
E(ε∗ ε∗0 ) = P−1 ΩP−10 = IT
β̂wls = (X∗0 X∗ )−1 X∗0 y∗ = (X0 P−1 P−10 X)−1 X0 P−1 P−10 y =
= (X0 Ω−1 X)−1 X0 Ω−1 y
e questo stimatore è non distorto ed è il più efficiente nella classe degli stimatori
lineari e non distorti (stimatore BLUE):
h i
E(β̂wls ) = E (X0 Ω−1 X)−1 X0 Ω−1 (Xβ + ε) = β (Non distorto)
h i
V (β̂wls ) = E (X0 Ω−1 X)−1 X0 εε0 X(X0 Ω−1 X)−1 =
= (X0 Ω−1 X)−1 X0 Ω−1 X(X0 Ω−1 X)−1 =
= (X0 Ω−1 X)−1
y = Xβ + ε
si ottiene:
β̂OLS = (X0 X)−1 X0 y
con le seguenti proprietà:
Quindi β̂OLS è meno efficiente di β̂GLS e che la stima OLS della varianza delle
stime è distorta e inconsistente. Quindi, se uso OLS in presenza di eteroscheda-
sticità le stime dei parametri in β sono non distorte ma inefficienti, e le stime degli
errori standard associati sono del tutto insoddisfacenti (distorte e inconsistenti). Si
veda il capitolo 6 per i dettagli.
che è ovviamente una stima consistente di P. Questa matrice stimata viene utiliz-
zata per ottenere lo stimatore WLS:
b −1 X)−1 X0 Ω
βbW LS = (X0 Ω b −1 y,
Ω
b =P b0
bP
pari a x2a o x2b sono associate ad una probabilità stimata rispettivamente negativa
e superiore ad uno.
[Figura 5.4 qui nel testo]
E’ chiaro che sarebbe molto meglio poter interpolare le osservazioni campio-
nari con una curva non lineare, come è ben evidenziato dalla figura 5.4, piuttosto
che con una retta.
yt∗ = x0t β + εt ,
t = 1, 2, ..., T
E(εt ) = 0, ∀t
E(ε2t ) = σ 2 = 1
Definiamo ora:
Zh
F (h) = f (εt )dεt
−∞
166 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
Se si ipotizza che la funzione di densità di εt sia simmetrica intorno a zero, [f (−h) = f (h)],
allora abbiamo:
F (−x0t β) = 1 − F (x0t β)
come si evince dalla Figura 5.5
[Figura 5.5 qui nel testo]
Quindi possiamo scrivere:
Pt = prob(yt = 1) = F (x0t β)
Si noti che, ovviamente, dato che F (·) è una funzione di ripartizione, Pt è vincolato
ad essere compreso tra 0 e 1 :
lim F (x0t β) = 0,
x0t β⇒−∞
lim F (x0t β) = 1
x0t β⇒+∞
ytR∗ = xR0
t β + εR
t
(1×k)
ytM ∗ = xM
t
0
γ + εM
t
(1×h)
∗
yM t
= salario atteso che t si attende di ricevere emigrando
che dipende dal vettore xM t (caratteristiche personali, cioè età, educazione, sesso
ecc e alcuni indicatori macro economici del paese di arrivo).
Il singolo individuo t-esimo compie la scelta di emigrare se:
e quindi:
yt = 1 se yt∗ > 0
A questo punto è possibile scrivere la funzione di verosimiglianza delle T
osservazioni su yt , t = 1...T :
Y Y
P (y1 , y2 , ..., yT |x1 , x2 , ..., xT ) = ( Pt ) (1− Pt ) (5.18)
yt =1 yt =0
Q
dove ( Pt ) indica la produttoria rispetto a tutti le osservazioni in corriispon-
yt =1
Q delle quali yt = 1 e
denza
(1− Pt ) indica la produttoria rispetto a tutti le osservazioni in corriispon-
yt =0
denza delle quali yt = 0.
Ipotizziamo che i termini di disturbo del modello abbiano distribuzione logisti-
ca:
exp(εt ) 1
F (εt ) = = (5.19)
1 + exp(εt ) 1 + exp(−εt )
otteniamo il cosiddetto modello logit
Una variabile casuale logistica ha le seguenti funzione di densità e di riparti-
zione:
ex
f (x) = x ∈ (−∞, +∞)
(1 + ex )2
ex 1 ∂F (x)
F (x) = x
= −x
nb : f (x) =
1+e 1+e ∂x
e le caratteristiche di tali funzioni sono rappresentate, a confronto con quelle di una
variabile casuale normale standardizzata nelle Figure 5.7a e 5.7b.
[Figure 5.7a e 5.7 b qui nel testo]
Notate che una variabile casuale logistica è caratterizzata da maggiore disper-
sione rispetto alla normale standardizzata. Infatti:
E(x) = 0
π2 ∼
V (x) = = 3.28 (> 1)
3
Il comportamento di una variabile casuale logistica è abbastanza simile a quello di
una N (0, 1) (tranne che nelle code).
168 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
exp(x0t β) 1
Pt = F (x0t β) = =
1 + exp(x0t β) 1 + exp(−x0t β)
Pt
1 + exp(−x0t β) Pt = 1 ⇒ exp(x0t β) =
⇒
1 − Pt
0 Pt prob(yt = 1)
xt β = ln( ) = ln
1 − Pt prob(yt = 0)
Quindi la grandezza x0t β dà il logaritmo del rapporto delle probabilità (”log-odds
ratio”). Si noti che per il modello logit, il log-odds ratio è funzione lineare delle
variabili esplicative xt (nel modello di probabilità lineare è Pt ad essere funzione
lineare delle variabili esplicative).
Si tratta di trovare una curva che interpoli la nuvola dei punti corrispondenti alle os-
servazioni campionarie, come già visto nella Figura 5.4. Con l’ipotesi che i termini
di disturbo siano distribuiti come una logistica, è possibile scrivere la funzione di
verosimiglianza per il campione:
Y Y
L = ( Pt ) (1 − Pt ) =
yt =1 yt =0
Y 1 Y 1
= 0
1− =
1 + exp(−xt β) 1 + exp(−x0t β)
yt =1 yt =0
Y 1 Y 1
= (5.20)
1 + exp(−x0t β) 1 + exp(x0t β)
yt =1 yt =0
esplicitare rispetto a β:
X X
L = ( ln Pt ) + ln(1 − Pt ) =
yt =1 yt =0
X X
= − ln[(1 + exp(−x0t β)]− ln[(1 + exp(x0t β)]
yt =1 yt =0
∂L X 1
= [0] ⇒ · xt + (5.21)
∂β 1 + exp(x0t β)
yt =1
X 1
− · xt = [0] (5.22)
1 + exp(−x0t β)
yt =0
Queste condizioni del primo ordine non possono essere esplicitare rispetto β e oc-
corre utilizzare un metodo di massimizzazione numerica. In ogni caso la funzione
di log verosimiglianza è concava ed ha un unico massimo, quindi non dà problemi
in questo senso. A questo proposito, è necessario partire da un valore iniziale per
la stima numerica, che chiamiamo β̂0 , che in genere è quello che si ricava dalla
stima del modello di probabilità lineare.
xZ0t β 2
1 x
Φ(x0t β) = √ exp − dx
2π 2
−∞
dove con Φ(·) indichiamo la funzione di ripartizione di una variabile casuale nor-
male standardizzata. La funzione di verosimiglianza per un modello probit è:
Y Y
Φ(x0t β) 1 − Φ(x0t β)
L =
yt =1 yt =0
X X
ln Φ(x0t β)+ ln 1 − Φ(x0t β)
ln L =
yt =1 yt =0
molto simili, a parte il comportamento delle code. Per questo motivo, l’assunzione
relativa alla distribuzione dei termini di disturbo è relativamente poco importante
e l’applicazione dei modelli logit e probit allo stesso insieme di dati conduce a
risultati simili, ma dato che nel modello logit si ha
π2
V (εt ) = E(ε2t ) =
3
2
occorre dividere i risultati della stima logit per π3 per poterle confrontare con quel-
le della stima probit (dove invece la varianza dei termini di disturbo è per ipotesi
unitaria.
Un problema ulteriore è che tipicamente la proporzione di osservazioni asso-
ciate a yt = 1 e di quelle associate a yt = 0 possono essere molto sbilanciate tra di
loro; quindi si usano tassi di campionamento diversi per riequilibrare il campione.
Per il modello logit questa procedura ha come unico effetto quello di indurre una
distorsione nel parametro di intercetta che deve essere corretta incrementandola di
log( PP01 ) (P1 è la proporzione delle osservazioni con yt = 1 ritenute e P0 è la pro-
porzione delle osservazioni con yt = 0 ritenute). Le stime degli altri parametri non
sono invece influenzate dalla diversità dei tassi di campionamento.
∂Pt
Quindi per il MPL, ∂x it
è costante, cioè non dipende da xt , mentre non è costante
per gli altri due modelli. Si noti che per il modello logit, dato che il log-odds ratio
è:
Pt
ln( ) = x0t β
1 − Pt
abbiamo che:
Pt
∂ ln( 1−P t
)
= βi
∂xit
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 171
RSS
R2 = 1 −
T SS
T
X
0 0
RSS = ε̂ ε̂ = (y − ŷ) (y − ŷ) = (yt − ŷt )2
t=1
T
X T
X
∗0 ∗
T SS = y y = (yt − ȳ) = yt2 − T ȳ 2 =
t=1 t=1
T1 T0
= T1 − T (T1 /T )2 =
T
dove T1 = numero di osservazioni con yt = 1, T0 = numero di osservazioni con
yt = 0 (T0 + T1 = T ). Quindi:
T
T X T 0
R2 = 1 − (yt − ŷt )2 = 1 − ε̂ ε̂
T1 T0 T1 T0
t=1
ŷt (1 − ŷt )
t=1
in modo tale che ciascun residuo viene ponderato per l’inverso della stima del
proprio errore standard (vale per il modello di probabilità lineare).
3) Misure basate sul rapporto delle verosimiglianze
Per il modello di regressione lineare con termini di disturbo gaussiani:
y = Xβ + ε (5.23)
2
E(ε) = [0] , ε ∼ N (0, σ IT )
2
2 RSS LR T
R =1− =1− (5.24)
T SS LU R
dove LR = massimo della verosimiglianza del modello vincolato ad avere tutti i
parametri di pendenza
uguali a 0, LU R = massimo della verosimiglianza del modello per il modello
non vincolato, dato che sappiamo che:
2 − T2 1 0
L = (2πσ ) exp − 2 ε ε
2σ
LR ≤ LU R ≤ 1
da cui:
1 1
≥ ≥1
LR LU R
LR
1≥ ≥ LR
LU R
2
LR T 2
1≥ ≥ LR T
LU R
2
LR T ≤ 1 − R2 ≤ 1
e quindi:
2
0 ≤ R2 ≤ 1 − LR T
A partire da questo tipo di considerazioni, Cragg e Uhler (1970) suggeriscono
di costruire uno ”pseudo R2 ”
2 2
LU R T − LR T
pseudo Rp2 = 2 2
(1 − LU R T )LU R T
5.3. IL MODELLO TOBIT 173
2 ln LU R
RM F =1−
ln LR
x0t β + εt
ore lavorate : Ht =
0
x0t β + εt
salario : Wt =
0
Per stimare questo modello NON è possibile usare lo stimatore OLS utilizzan-
do solo le osservazioni per le quali yt∗ > 0, dato che per utilizzare validamente
tale stimatore occorre che valga E(ε) = [0] e questa proprietà non è soddisfatta in
questo caso. Infatti, in questo modo si considerano solo quelle osservazioni per le
quali εt > −x0t β e quindi:
Z∞
E(εt ) = εt Φ(εt )dεt 6= 0
−x0t β
∗ 0
E(β̂OLS ) = β + (X∗ X∗ )X∗0 E(ε∗ )
(ricorda che E(εt ) 6= 0)
y ∗ = X∗ β + ε∗
(T1 ×1) (T1 ×k)
Y 0
1 1 0
Y xβ
L= √ 2
exp − 2 (yt − xt β) × Φ − t (5.26)
2πσ 2σ σ
{yt >0} {yt =0}
0
T1 1 X X xβ
ln L = − ln(2π)−T1 ln(σ)− 2 (yt −x0t β)2 + ln Φ − t
2 2σ σ
{yt >0} {yt =0}
5.3. IL MODELLO TOBIT 175
∂ ln L 1 X X 1
= [0] ⇒ 2 xt (yt − x0t β)− xt = [0]
x0 β
∂β σ
{yt >0} {yt =0} σΦ − t
σ
∂ ln L T1 1 X 1
=0⇒− + 2 =0
x0t β
∂σ σ σ
{yt =0} Φ −
σ
dove:
WM t = x0M t β + εM t = salario di mercato
WM t − WRt > 0
cioè quando:
0 M0
xM M R0 R M R R0
t β + εt − xt γ − εt > 0 ⇒ εt − εt > xt γ − xt β
M0
εM R R0
t − εt < xt γ − xt β
quindi:
T T
L − x0t β
T 2 1 X 0 2
X
ln L = − ln σ − 2 (yt − xt β) − ln Φ
2 2σ σ
t=1 t=1
5.4 Esercizi
1) Dato il seguente modello:
yt = 1 se yt∗ > 0
yt = 0 in caso contrario
L’unico regressore, Dt è una variabile dummy con valori nulli o unitari. Scrivete
la funzione di verosimiglianza per il modello sotto le ipotesi che:
a) εt ∼Logistica
b) εt ∼ normale standard
5.4. ESERCIZI 177
yt = β1 + βx2t + εt
0
dove yt = è una variabile dipendente dicotomica, e x2t è una variabile
1
esplicativa che varia nel continuo. L’ampiezza campionaria è pari a T. Come si
ottiene la stima OLS di questo modello nei termini della media e della varianza
di x2 ? Come possono essere interpretati i risultati? Scrivere la funzione di log-
verosimiglianza del modello di probabilità lineare in questo caso.
3) Le seguenti 20 osservazioni sono tratte da una distribuzione normale ”cen-
surata” (a valori negativi di y si sostituiscono valori nulli )
3.8396, 7.2040, 0, 0, 4.4132, 8.0230, 5.7971, 7.0828,
0, 0.80260, 13.0670, 4.3211, 0, 8.6801, 5.4571, 0, 8.1021,
0, 1.2526, 5.6016
Il modello applicabile è:
µ + εt se µ + εt > 0
yt∗ =
0 altrimenti
εt ∼ N (0, σ 2 )
E(ε) = [0]
E(εε0 ) = σ 2 IT
generare un errore di previsione per yT +1 (conoscendo xT +1 e yT +1 )
6) Dato il MRL:
yt = β1 + β2 pt + β3 zt + β4 rt + εt
dove:
yt = stock di moneta in termini reali
pt = indice dei prezzi
zt = reddito reale
rt = tasso di interesse nominale a breve
Questa equazione è stimata per la Germania dal 1970 al 1994 sulla base di dati
trimestrali.
a) Se si ritiene che l’unificazione (4o trimestre del 1990) abbia influito sul-
l’intercetta del modello, come potrebbe essere corretta la specificazione per tenere
presente questo fenomeno?
b) Se invece si ritiene che tale evento abbia influenzato anche la sensitività della
domanda di moneta rispetto a variazioni del tasso d’interesse, come si modifiche-
rebbe il modello?
c) Come è possibile verificare quest’ultima ipotesi?
d) Come andrebbe verificata invece l’ipotesi che tutti i parametri della relazione
sono stati modificati da quell’evento?
5.5 Soluzioni
1) a) Se εt ∼ VC logistica, allora:
eεt 1
F (εt ) = =
1 + eεt 1 + e−εt
eεt
f (εt ) =
(1 + eεt )2
quindi abbiamo:
Y
p(y1 · · · yT | D1 · · · DT , β1 , β2 ) = p(yt∗ > 0) ×
{yt =1}
Y
p(yt∗ ≤ 0)
{yt =0}
Y 1 Y 1
L=
1 + exp(−β1 − β2 Dt ) 1 + exp(β1 + β2 Dt )
{yt =1} {yt =0}
X X
ln L = − ln [1 + exp(−β1 − β2 Dt )] − ln[(1 + exp(+β1 + β2 Dt )]
yt =1 yt =0
X T
X
ln L = (β1 + β2 Dt ) − ln(1 + exp(β1 + β2 Dt ))
yt =1 t=1
∂ ln L
= 0 ⇒
∂β
T
X X exp(β1 + β2 Dt )
Dt − Dt = 0
1 + exp(β1 + β2 Dt )
yt =1 t=1
Y Y
L= Φ(β1 + β2 Dt ) [1 − Φ(β1 + β2 Dt )]
{yt =1} {yt =0}
180 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
X X
ln L = ln Φ(β1 + β2 Dt ) + ln[1 − Φ(β1 + β2 Dt )]
yt =1 yt =0
∂ ln L X φ(β1 + β2 Dt ) X φ(β1 + β2 Dt )
=0⇒ − =0
∂β1 Φ(β1 + β2 Dt ) 1 − Φ(β1 + β2 Dt )
yt =1 yt =0
∂ ln L X φ(β1 + β2 Dt ) X φ(β1 + β2 Dt )
=0⇒ Dt − Dt =0
∂β 1 − Φ(β1 + β2 Dt ) 1 − Φ(β1 + β2 Dt )
yt =1 yt =0
Notate che:
∂Φ(β1 + β2 Dt ) ∂Φ(β1 + β2 Dt ) ∂(β1 + β2 Dt )
= · = Φ(β1 + β2 Dt )
∂β1 ∂(β1 + β2 Dt ) ∂β1
T
1X
x̄2 = x2t
T
t=1
T
1X
ȳ = yt = p = percentuale di 1 nel campione
T
t=1
T
P 1 PT
(yt − ȳ)(x2t − x̄2 ) (yt − ȳ)(x2t − x̄2 )
t=1 T t=1
β̂2 = T
= T
=
P 2
1 P 2
(yt − ȳ) (yt − ȳ)
t=1 T t=1
1 PT 1 P T
yt x2t − x̄2 ȳ − x̄2 ȳ + x̄2 ȳ yt x2t − x̄2 ȳ
T t=1 T t=1
= = ,
Vb (x2 ) Vb (x2 )
Vb (x2 ) = varianza campionaria di x2
5.5. SOLUZIONI 181
T1 1 P T
yt x2t − x̄2 p
T T1 t=1
β̂2 = =
Vb (x2 )
= px̄12 − p px̄02 + (1 − p)x̄02 =
dove x̄12 è la media delle osservazioni di x2t in relazione alle quali yt = 1, e x̄02 è la
media delle osservazioni su x2t associate a yt = 0. Quindi β̂2 ha il numeratore che
dipende da quanto la media di x2 è diversa tra le osservazioni con yt = 1 e yt = 0:
se x̄12 = x̄02 allora β̂2 = 0. In questo caso allora il modello non spiegherebbe y
sulla base di x2 .
3)In relazione al nostro modello tobit, abbiamo:
yt = 0, εt ∈ (−∞, µ)
εt ∼ N (0, σ 2 )
T
1 X Y µ
− 21
L = (2πσ 2 ) exp − 2 (yt − µ)2 · Φ(− ) =
2σ σ
yt =1 yt =0
T1
1 X h µ iT0
= (2πσ 2 )− 2 exp − 2 (yt − µ)2 · Φ(− )
2σ σ
yt =1
T1 1 X µ
ln L = − ln(2πσ 2 ) − 2 (yt − µ)2 − T0 ln Φ(− )
2 2σ σ
yt =1
µ
∂ ln L T1 1 X φ(− ) µ
=0⇒− 2 + 4 (yt − µ)2 − T0 σ − =0
∂σ 2 2σ 2σ µ 2σ 3
yt =1 Φ(− )
σ
182 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
yt∗ = Wt − WR
Y Y
L = p(yt = 1) p(yt = 0) =
{yt =1} {yt =0}
Y Y
= Φ(zt ) [1 − Φ(zt )] =
{yt =1} {yt =0}
0
zt = xt β
∂ ln L X φ(zt ) X φ(zt )
=0 ⇒ + =0
∂β1 Φ(zt ) 1 − Φ(zt )
yt =1 yt =0
Si noti che:
∂Φ(zt ) ∂Φ(zt ) ∂zt
= · = Φ(zt )
∂β1 ∂zt ∂β1
∂ ln L X φ(zt ) X φ(zt )
=0 ⇒ xit + xit = 0, i = 2, 3, 4
∂βi Φ(zt ) 1 − Φ(zt )
yt =1 yt =0
5.5. SOLUZIONI 183
∂ ln L X φ(zt ) X φ(zt )
=0 ⇒ xt + xt = 0
∂β Φ(zt ) (4×1) 1 − Φ(zt ) (4×1)
yt =1 yt =0
(4×1)
dove:
P
significa sommatoria rispetto a tutte le osservazioni con yt = 1
yP
t =1
significa sommatoria rispetto a tutte le osservazioni con yt = 0
yt =0
Se εt ∼ logistica, abbiamo:
eεt
F (εt ) =
1 + eεt
eεt
f (εt ) =
(1 + eεt )2
1
1 − F (εt ) =
1 + eεt
La funzione di verosimiglianza è:
Y Y
L= F (zt ) [1 − F (zt )]
yt =1 yt =0
X X
ln L = [zt − ln(1 + ezt )] − ln(1 + ezt ) =
yt =1 yt =0
X T
X
= zt − ln(1 + ezt )
yt =1 t=1
T
∂ ln L X X ezt
=0 ⇒ xt − ln · xt = [0]
∂β 1 + ezt
yt =1 t=1
5) Si scrive
y1
..
∗
y =
.
(T +1)×1 yT
yT +1
e si aggiunge un regressore dt =0 ∀t ∈ [1, T ] e = 1 per t = T + 1 e si aggiunge
l’osservazione T + 1 sulle x.
y∗ = X∗ β∗ +ε∗
(T +1)×(k+1)(k+1)×1
∗ β
β =
γ
β = vettore k × 1 parametri modello di partenza
γ = parametro sulla variabile dummy puntuale.
Si stima allora β ∗ con OLS:
∗ 0 0
β̂OLS = (X∗ X∗ )−1 X∗ y∗
0 0
ottenendo una stima che coincide con β̂OLS = (X X)−1 X y per i primi k elementi
di β, mentre γ̂ è:
γ̂ = yT +1 − ŷT +1
dove:
ŷT +1 = x0T +1 β̂OLS
∗
Vb (γ̂) = σ̂ 2 qk+1,k+1 ,
qk+1,k+1 = elemento sulla riga k+1, colonna k+1 di Q
0
Q = (X∗ X∗ )−1
yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + εt
dove:
0 fino al 3o trimestre 1990
Dt =
1 oltre
Si stima il MRL con OLS e si verifica la significatività del coefficiente β5 utilizzando
il test t:
βb5
t β5 = q ∼ t95
H0
Vb (βb5 )
5.5. SOLUZIONI 185
yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + β6 (Dt rt ) + εt
con OLS (la variabile Dt è definita come al punto (a))
c) Si verifica l’ipotesi congiunta:
β5 = 0
H0 :
β6 = 0
contro
β5 6= 0
H1 :
e/o β6 6= 0
con un test LM, di W ald o LR, che hanno una distribuzione sotto H0 χ22 o F2,95 .
d) Si specifica il seguente MRL:
yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt +
+β6 (Dt pt ) + β7 (Dt zt ) + β8 (Dt rt ) + εt
H0 : β5 = β6 = β7 = β8 = 0
contro
H1 : β5 6= 0 e/o β6 6= 0 e/o β7 6= 0 e/o β8 6= 0
con test LM, di W ald o LR. La distribuzione di riferimento è χ24 per i test in
forma χ2 e F4,92 per il test di W ald in forma F .