Modello Di Regressione Lineare Multipla (Modalità Compatibilità)

MODELLO DI REGRESSIONE LINEARE
MULTIPLA
E’ la generalizzazione del modello di

regressione lineare semplice: per
spiegare il fenomeno d’interesse Y
vengono introdotte k, con k > 1,
variabili esplicative.
Tale generalizzazione diventa molto
più semplice utilizzando l’algebra
delle matrici. Il modello di regressione
multipla genera però nuovi problemi:
1 scelta delle variabili,
2 multicollinearità,
3 test multipli.
1
1. IL PROBLEMA
• Ricerca di un modello matematico in grado di

esprimere la relazione esistente tra una variabile
di risposta y (quantitativa) e ( ad esempio) k
variabili esplicative
• Si tratta di una relazione asimmetrica del tipo
y = f ( x1... xk )
Nel caso del modello di regr.lineare multipla
f ( x1...xk ) = β0 + β1x1 + β2 x2...βk xk
abbiamo che:
che geometricamente corrisponde ad un iperpiano a

k dimensioni
• Perché si studia tale modello
i) facilità con cui può essere interpretato un
iperpiano a k dimensioni
ii) Facilità di stima dei parametri incogniti βj
( j = 1…k)
Anche in tal caso nella realtà studiamo un modello del
tipo
y = f (x1...xk )+ ε
Componente componente
sistematica casuale 2
2. IL MODELLO
yi = β0 + β1 xi1 + β2 xi 2 + β3 xi 3 + ...βk xik + ε i
In forma matriciale
y = X β +ε
dove
y : vettore (n x 1) di osservazioni sulla
variabile dipendente
X : matrice (n x (k+1)) di osservazioni su

k regressori
β: vettore ((k+1) x 1) di parametri incogniti

ε : vettore (n x 1) di disturbi stocastici
3
Le matrici e i vettori sono così definiti
 y1  1 x11 x12 . . . x1k 

   
 y2  1 x21 x22 . . . x2 k 
 .   . . . . . . 
y =  X = 
( n×1)  .  ( n×( k +1) ) . . . . . . 

 .   . . . . . . 
   
 yn  1 xn1 xn 2 . . . xnk 
 β0 
   ε1 
 β1   
 β2  ε2 
   . 
β = .  ε = 
( ( k +1)×1) ( ×1)
 . 
n
 . 
   . 
 .   
β  εn 
 k
OSSERVAZIONE
La matrice X ha la prima colonna unitaria: per
il caso in cui si consideri un modello con
intercetta β0 si introduce una variabile di
4
comodo X0 =1 per ogni i=1,2,…n.
3. LE ASSUNZIONI DEL MODELLO
1) Esiste legame lineare tra variabile
dipendente e regressori
2) Le variabili sono tutte osservabili
3) I coefficienti βi non sono v.c.
4) I regressori X sono non stocastici
5) Il termine ε non è osservabile
6) E (ε i ) = 0
 0 per i ≠ j
( )
7) Cov ε i , ε j =  2
σ per i = j
⇒ le εi sono omoschedastiche ed incorrelate
σ 2 0 0 . . 0 
 
0 σ 2
0 . . 0 
E [εε ′] = 
 . . . . . . 
 
2
 0 0 . . . σ 
8) X ha rango pieno rank (X) = k

condizione necessaria n ≥ k + 1
9) ε ≈ N (0, σ 2 I ) : ipotesi aggiuntiva da
utilizzare nell’analisi inferenziale 5
OSSERVAZIONE
Anche nel caso multiplo essendo le Yi
funzioni lineari delle v.c. εi anch’esse sono
variabili casuali e :
E (Yi | X 1 = xi1 , X 2 = xi 2 ,K, X k = xik ) =
= β 0 + β1 xi1 + β 2 xi 2 + β3 xi 3 + ...β k xik
Che rappresenta l’equazione di un iperpiano

in uno spazio a k+1 dimensioni (superficie
di regressione). Per le assunzioni fatte sul
disturbo discende che:
E(Yi ) = β0 + β1xi1 + β2 xi 2 + β3 xi3 + ...βk xik

e
V (Yi ) = V (εi ) = σ 2
6
4. STIMATORE MINIMI QUADRATI (OLS)
y = Xβ +ε
Si cercherà quel vettore β̂ che minimizza
gli scarti al quadrato:
n 2
min ∑ ( yi − X iβ )
i:1
dove Xi è la riga i-esima di X

In forma matriciale
ε =(y− Xβ)
′
min ε ′ε o min ( y − X β ) ( y− X β )
′
G ( β ) = ε ′ε = ( y − X β ) ( y − X β )
= ( y′ − β ′ X ′ )( y − X β )
= y′y − β ′ X ′y − y′X β + β ′ X ′ X β
=
perché scalare
∂G
= −2 X ′y + 2 X ′X β = 0 (1)
∂β 7
perché ( k +1×n ) ( n×1)
 1 1 1 . 1   y1 
  
(1×k +1)
x x
 21 22 . . x2 n   y2 
β ′ X ′y = ( β 0 , β1 ... β k )  x31 x32 . . x3n   . 

  
 . . . . .  . 
x  
 k1 . . . xkn   yn 
è uno scalare
(β′X ′y ) = (β′X ′y )′ = ( y′Xβ )
dalla (1) si ottiene

2 X ′X β = 2 X ′y
( X ′X ) β = X ′y
pre-moltiplicando ambo i membri
( X ′X ) ( X ′X ) β = ( X ′X ) X ′y
−1 −1
perché rank (X’X) = rank (X) = k

X’X è a rango pieno ovvero invertibile
βˆ = ( X ′X ) X ′y stimatore OLS di β
−1
8
CARATTERISTICHE STIMATORE OLS
Teorema di Gauss-Markov
β̂ è uno stimatore di tipo BLUE
Best Linear Unbiased Estimator
ovvero ha varianza minima nella classe degli
stimatori Lineari e Corretti
βˆ = ( X ′X ) X ′y
−1
1.
La matrice ( X ′X ) X ′ è formata da elementi
−1
costanti per cui β̂ è una trasformazione lineare

di y .
2. βˆ = ( X ′X ) X ′y = ( X ′X ) X ′ ( X β + ε )
−1 −1
= ( X ′X ) X ′X β + ( X ′X )
−1 −1
X′ ε
( X ′X )
−1
= β + X′ ε
E(β ) = β + ( X X ) X ′ E(ε ) = β
−1
ˆ ′
È uno stimatore corretto
Inoltre: ( )
βˆ − β = ( X ′X ) X ′ε
−1
9
′
( )
 ˆ
(
3. Var β = E  β − β β − β 
ˆ

ˆ

)( )
= E (X X ) X ε ε X (X X ) 
−1 −1
 ′ ′ ′ ′
 
= ( X ′X ) X ′ E [ε ε ′] X ( X ′X )
−1 −1
= ( X ′X ) X ′ σ 2 I X ( X ′X )
−1 −1
( X ′X ) X ′X ( X ′X ) = σ ( X ′X )
−1 −1 −1
= σ 2 2
Si consideri più in dettaglio ˆ

( ′
E β − β β −β  :
ˆ )( )
 
 (
 E βˆ −β 2
1 1 ) E β1 1 2 ( 2 )(
ˆ −β βˆ −β . . E βˆ −β βˆ −β 
1 1 k ) k  ( )( )
 ˆ
( )(
 E β1 −β1 β2 −β2
ˆ )
E β2 −β2
ˆ 2
(
. . ) .


 
 . . . . . 
 ˆ
E( β −
 k k 1 1β )(
βˆ −β ) . . . E β
ˆ
k − βk
2 
 ( )
2
(
Pertanto la varianza E β j − β j di ogni parametro
ˆ )
β̂ j si desume prendendo il corrispondente valore
sulla diagonale principale della ( X ′X )−1
, moltiplicato
per σ :
2
( ) [
Var βˆ j = ( X ′X ) jj σ2
−1
10 ]
Definiamo uno stimatore alternativo lineare e
corretto
β ∗ = βˆ + C′ y
dove C è una matrice (n x k)
β = ( X ′X ) X ′ y +C ′ y
∗ −1
= ( X ′X ) X ′ ( X β +ε ) + C ′X β +C ′ ε
−1
( )
E β ∗ = β +C ′X β ⇒ C ′X = 0
 ∗ ′
∗

(
V  β  = E  β − β β − β  = )(
∗
)

′

{ } {
= E  ( X ′X ) X ′ + C ′ εε ′ ( X ′X ) X ′ + C ′

−1 −1
} 

( X ′X )−1 X ′X ( X ′X )−1 + C ′X ( X ′X )−1 
=σ2  
+ ( X ′X ) X ′C + C ′C 
−1

ma C ′X = 0 = X ′C
= σ2 ( X ′X ) + σ2 (C ′C )
−1
()
= Var βˆ + σ2 (C ′C ) ≥ Var βˆ ()
()
Pertanto la Var β̂ è la minima nella classe degli
stimatori lineari e corretti, e risulta provato il 11
teorema di Gauss-Markov
.
Geometricamente l’equazione (stimata
con gli OLS)
yî = βˆ0 +βˆ1xi1 +βˆ2xi2 +βˆ3xi3 +...βˆk xik , i =1,2,Kn
definisce l’iperpiano nello spazio a

k + 1 dimensioni, che tra gli infiniti
piani, rende minima la somma dei
quadrati delle lunghezze dei segmenti
congiungenti i punti osservati al piano
stesso (v. figura).
12
13
Stima del parametro σ2
Consideriamo innanzitutto l’identità
n n n
∑ i
( y
i=1
− y )2
=∑ i i ∑ i
( y
i=1
− ˆ
y )2
+ ( ˆ
y
i=1
− y )2
che rappresenta la scomposizione della

devianza totale in devianza residua e
devianza spiegata (o della regressione),
ovvero
SQT = SQE + SQR.
La stima della varianza delle v.c. errori è data

da
n
eˆ′eˆ ∑( yi − yi )
ˆ 2
s =
2
= i=1
n − p −1 n − p −1
Che è uno stimatore corretto
14
ESEMPIO
Gi = β0 + β1Pgi + β2 yi + β3Pqi + εi
i : 1960 … 1986 , n = 27
Gi = consumo di benzina in $
Pgi = indice dei prezzi benzina
Yi = reddito pro-capite in $
Pqi = indice dei prezzi auto nuove
15
Vettore y x0 x2 x3 x4
121.01034 1 0.9250000 6036.0000 1.0450000
130.20306 1 0.9140000 6113.0000 1.0450000
136.62968 1 0.9190000 6271.0000 1.0410000
134.39852 1 0.9180000 6378.0000 1.0350000
150.34150 1 0.9140000 6727.0000 1.0320000
171.88391 1 0.9490000 7027.0000 1.0090000
175.44395 1 0.9700000 7280.0000 0.9910000
172.03874 1 1.0000000 7513.0000 1.0000000
198.65222 1 1.0470000 7891.0000 1.0440000
208.37573 1 1.0560000 8134.0000 1.0760000
214.38531 1 1.0630000 8322.0000 1.1200000
228.52113 1 1.0760000 8562.0000 1.1100000
237.37202 1 1.1810000 9042.0000 1.1110000
234.34193 1 1.5990000 8867.0000 1.1750000
222.32567 1 1.7080000 8944.0000 1.2760000
228.16247 1 1.7790000 9175.0000 1.3570000
242.33362 1 1.8820000 9381.0000 1.4290000
248.32557 1 1.9630000 9735.0000 1.5380000
240.93266 1 2.6560000 9829.0000 1.6600000
229.58893 1 3.6910000 9722.0000 1.7930000
227.13648 1 4.1090000 9769.0000 1.9020000
210.44373 1 3.8940000 9725.0000 1.9760000
236.85998 1 3.7640000 9930.0000 2.0260000
255.36365 1 3.7070000 10421.000 2.0850000
243.75057 1 3.7380000 10563.000 2.1520000
277.31965 1 2.9210000 10780.000 2.2400000
Matrice X’X;
27.000000 51.357000 229865.00 37.296000
51.357000 133.15081 473127.10 83.319118
229865.00 473127.10 2.0120502e+09 331319.22
37.296000 83.319118 331319.22 56.280428
Matrice inv (X’X);
2.6605735 0.51586178 -0.00029970528 -0.76246362
0.51586178 0.30384762 -6.4047001e-07 -0.78790617
-0.00029970528 -6.4047001e-07 6.6199636e-08 -0.00019015563
-0.76246362 -0.78790617 -0.00019015563 2.8089108
Stime β=inv(X’X) * X’y;
-89.761482
-12.588147 16
0.039938109
-14.443884
RICAPITOLANDO
βˆ = ( X ′X ) X ′ y
−1
E  βˆ  = β
′

(
V  βˆ  = E  βˆ − β

)( ˆ )
β − β  = ( X ′X ) σ 2

−1
s 2 = σˆ 2 =
∑ ei
2
n − k −1
E σˆ 2  = σ 2
Fino ad ora nessuna ipotesi è stata posta per la

distribuzione degli errori nel problema della stima.
Aggiungiamo :
εi ≈ N (0 , σ 2
)
ε ≈ N (0 , σ 2 I )
17
TEST PER LA VERIFICA DI IPOTESI SU
SINGOLI PARAMETRI
Dal teorema di GAUSS-MARKOV :
βˆ (
≈ N β ,σ (X′X ) 2 −1
)
Vogliamo
. testare
H 0 : β i = 0, H1 : β i ≠ 0
Ovvero vogliamo verificare se il regressore
Xi è effettivamente sulla variabile dipendente
Y.
Nel caso (improbabile) che sia nota σ2 la
statistica test è:
βˆ i − β i
σ 2
[(X ′X ) ]
−1
ii
Sotto H 0 : βi = 0 si distribuisce come

una normale standardizzata
18
Se il valore cade all’esterno dell’intervallo di
confidenza, per esempio al 95%, della N(0,1)
rifiutiamo H0 ed il parametro βi sarà
“significativamente” diverso da zero;
altrimenti non rifiutiamo H0 e concludiamo che
il parametro βi non sarà “significativo”
In generale per un sistema di ipotesi H0 : βi =c

contro H0 : βi ≠c rifiuto, al livello 100 α % di
significatività, quando
βî −c
>zε 2
2
[
σ (X′X) ]
−1
ii 19
QUANDO σ2 NON E’ NOTA
• Utilizziamo la sua stima σˆ 2 = s 2
[
aii = ( X ′X )
−1
] σˆ =
2 e′e
ii
( n − k − 1)
• In questo caso la statistica test è
βî − βi
≈ tn−k −1
σˆ aii
dove [
aii = ( X ′X )
−1
]
ii
è l’elemento generico di posto ii nella diagonale

della (X’X)
Le ipotesi su βi possono essere verificate

sostituendo i valori nella statistica test e
controllando poi che la statistica superi o meno i
valori della regione critica della distribuzione tn-k-1 .
20
Quindi per verificare la significatività di βi
procederò nel seguente modo:
H0 : βi =0 contro H1 : βi ≠0
Statistica test:
βˆ i − β i βˆ i − β i
=
σˆ a ii s .e .( βˆ i )
Che sotto H0 si distribuisce come una t(n-k).

Pertanto fissato α se il valore della statistica
test cade all’esterno dell’intervallo di
confidenza
βˆ i − t α s .e .(βˆ i ), βˆ i + t α s .e .(βˆ i )
2 2
Rifiuto H0 di non significatività del parametro,

altrimenti non rifiuto H0 e concludo che il
parametro non è significativo.
21
5. ADATTAMENTO DEL MODELLO
Come nel caso del modello di regressione

semplice, il coefficiente di determinazione
rappresenta la proporzione di variabilità totale
spiegata dal modello, ovvero una misura
dell’adattabilità del modello ai dati osservati.
La formula per esprimere il coefficiente è analoga
a quella dell regressione semplice, solo che in
questo caso per variabilità spiegata dal modello si
intende la variabilità spiegata dall’insieme dei
regressori
SQR SQT −SQE SQE
R=
2
= =1−
SQT SQT SQT
Alternativamente si può scrivere:
∑ (Ŷ )
2
− Y
R 2
= i
∑ (Y − Y )
2
i
22
0 ≤ R2 ≤ 1
Il coefficiente di determinazione è un
indicatore del legame lineare tra Y e i
regressori.
• Ha però un difetto:
può aumentare anche se viene aggiunto un
regressore anche se non “spiega” y.
R2 = 1 −
SQE
= 1−
∑i e 2
SQT ∑ i
(Y − Y ) 2
• Se dividiamo le devianze per i gradi di libertà

andiamo a pesare il contributo a R2 di ogni
regressore
∑i
e 2
( n − k − 1)
Rˆ 2 = 1 −
∑ (Y i − Y ) 2 ( n − 1)
SQE
( n − 1) ( n − k − 1)
Rˆ 2 = 1 −
( n − k − 1)
(1− R ) 2
= 1−
SQT
( n − 1) 23
Possiamo anche nel caso multiplo costruire la
TABELLA ANOVA
Fonte di Medie dei Quadrati

Devianza g.d.l
variazione (Stime var.)
SQR
Regressione k SQR ( k )
SQE ( n − k − 1)
Residuo SQE n-k-1
SQT ( n − 1)
Totale SQT n-1
Nota: direttamente dalla tabella ANOVA si può

costruire il coefficiente di determinazione.
Inoltre la tavola ANOVA ed il Test F consentono
di condurre test globale su tutti i parametri del
modello ma anche per verificare ipotesi
riguardanti insiemi di più coefficienti,
permettendo cosi di selezionare il modello di
regressione.
24
Per valutare la significatività del modello si ricorre al test F:
tramite la ANOVA per un modello di regressione lineare
multipla, consiste in un test globale su tutti i parametri del
modello (eccetto β0) e in particolare nel confronto tra la
devianza del modello saturo (o non vincolato) Y = Xβ+ε e
quella del modello vincolato (o ridotto) Y = β01n +ε . Le
ipotesi saranno
H0 : β1 = β2 = ... = βk = 0
H1 : almeno uno dei βi ≠0
Si costruisce la statistica test F
SQR (k )
F=
SQE ( n − k − 1)
Che sotto l’ipotesi nulla ha distribuzione F(k,,n-k-1)
Fissato il livello di significatività α si individua il
valore critico della distribuzione
• Se F > F(α ;k ,n−k −1) si rifiuta H0

ovvero si accetta la significatività congiunta di
tutte le variabili esplicative.
25
Esempio
Y = Xβ + u
 β1 
n = 12  
β =  β2 
k= 2 β 
 3
yi = β1 + β 2 x2i + β3 x3i + ε i
Facendo riferimento ai valori
Y =9 X2 = 2 X3 = 1
∑ 2 = 10
x 2
∑ 3 = 15
x 2
∑ = 200
y 2
∑ x y = 12 ∑ x y = 9 ∑ x x
2 3 2 3 = −11
26
Determinare il vettore di stime OLS
Se consideriamo il modello in forma di scarti
dalle medie
 βˆ 2 
  = ( X ′X )−1 X ′ y
 βˆ 
 3
Dove  x21 x31 
x x2 i = X 2 i − X 2
x32 
 22  x3i = X 3i − X 3
X = . . 
 
 . . 
 x2 n x3n 
βˆ 1 = Y − βˆ 2 X 2 − βˆ 3 X 3
 ∑ X 22i ∑X X 
( X ′X ) =  2i 3i

∑ X 2i X 3i ∑X 2
3i 
 (− 1)2 ∑ X 32i (− 1)3 ∑ X 2i X 3i 
(X X ) =
′ −1 1 
 (− 1)3 ∑ X X
X ′X  2 i 3i (− 1)4 ∑ X 22i 
1  ∑ X 32i − ∑ X 2i X 3i 
=  
∑ X 2i ∑ X 3i − (∑ X 2i X 3i )  − ∑ X 2i X 3i
2 
2 2
∑ X 2i 
2
27
 ∑ X 2iYi 
X ′ y =  

 ∑ X 3iYi 
da cui
 βˆ 2  1
 = ×
 βˆ 
∑ X ∑ X − (∑ X X )
2 2 2
 3 2 3 2 3
∑ X ∑ X Y − ∑ X
2
X 3 ∑ X 3Y 
×  3 2 2


∑ X ∑ X Y − ∑ X 2 X 3 ∑ X 2Y 
2
2 3
15 × 12 − (− 11) × 9 180 + 99
βˆ 2 = = ≅ 9.62
10 × 15 − 121 29
10 × 9 − (− 11) × 12 90 + 132
βˆ 3 = = ≅ 7.65
10 × 15 − 121 29
βˆ 1 = Y − βˆ 2 X 2 − βˆ 3 X 3 = 9 − 2 × 9.62 − 7.65 = −17.89
 βˆ 1   − 17.89 
 
ˆβ =  βˆ  =  9.62 
2  
 ˆ   
β
 3  7 .65 
28
Continua ESERCIZIO
H 0 : β 2 = β3 = 0 ( F0.01 , 2 , 9 = 8.02)
R2 ( k) SQR ( k)
Ricordiamo:
è anche F = =
( )
1− R2 ( n−k −1) SQE ( n−k −1) n = 12
k = 2 con
βˆ ′ X ′ y intercetta ⇒
inoltre poichè risulta R =
2
2 var. esplicative
′ yy
in forma di scarti  y1 
 
( 2 3 x)
ˆβ βˆ ×  x21 . . x2 n   . 
. . x3n 
 ×   =
.
 31  
 yn 
ˆβ βˆ ×  ∑ X 2 y  = βˆ
( )
2 3 ∑ X y 2 ∑ X 2 y + β
ˆ
3∑ X3 y
 3 
9.62 × 12 + 7.65 × 9 184.29

R =
2
= ≅ 0.92
200 200
0.92 2 9
F= = 11.5 × ≅ 51.75 valore
(1 − 0.92) 9 2 empirico di F
Si rifiuta H0 : F empirico = 51.75 >F0.01,2,9 = 8.02
29
Se avessimo voluto testare
H 0 : β2 = 0
Ovvero la significatività di X2
βˆ 2 − β2
t= tn − k (o F (1, n − k ))
σˆ a22
2
(t99.9 = 2.82)
a22 =
∑X 2
3
=
15
=
15
≅ 0.51
∑ 2 ∑ 3 − (∑ X 2 X 3 ) 150 − 121 29
2 2 2
X X
e′ e TSS − ESS 200 − 184.29
σˆ =
2
= = ≅ 1.74
n−k 9 9
βˆ 2 9.62 9.62
t= = = ≅ 6.4
σˆ a22
2
1.74 × 0.51 1.50 valore
empirico
di t
Anche adesso rifiutiamo H0 ⇒ il regressore X2
è significativo
30
Il test F per selezionare il modello di
regressione: Confronto tra modelli annidati
Il test F viene anche impiegato per verificare
l’ipotesi che due o più parametri siano
congiuntamente pari a zero.
In particolare si utilizza un test di tipo ANOVA
per confrontare un modello vincolato (ridotto) ed
annidato con in modello non vincolato (saturo):
Si supponga in generale di voler verificare
l’ipotesi:
H0 : βh+1 = βh+2 = ... = βk = 0
per qualche h ≤ k contro l'alternativa
H1 : almeno una eguaglianza in H0 non è vera.
L’ip. nulla afferma che almeno k-h variabili non

sono utili a spiegare la relazione lineare con la
variabile dipendente, ossia sotto l’ipotesi nulla
vale il modello ridotto (ed annidato):
Yi = β0 + β1xi1 + β2 xi 2 +...βh xih + εi
in contrapposizione al modello completo (saturo)
con tutte le variabili esplicative:
Yi = β0 + β1xi1 + β2 xi 2 +K+ βh xih + βh+1xih+1...βk xik 31
+ εi
L’adattamento ai dati osservati del modello
completo è comunque migliore del modello
ridotto.
Considerando l’ANOVA ed indicando con SQE
la somma dei quadrati degli errori del modello
completo e con SQE0 la somma dei quadrati degli
errori del modello ridotto si ha che: SQE≤ SQE0
Se la differenza SQE0 – SQE è grande H0

dovrebbe essere rifiutata poiché le ultime k-h
variabili aumentano considerevolmente
l’adattamento del modello;
Se la differenza SQE0 – SQE è piccola H0 non
dovrebbe essere rifiutata poiché le ultime k-h
variabili non aumentano considerevolmente
l’adattamento del modello
Per stabilire se tale differenza è significativamente

grande o piccola si utilizza il seguente test F
32
SQE0 − SQE (k − h)
F= ≈ F(k −h,n−k −1) sotto H0
SQE ( n − k −1)
Al denominatore troviamo la stima di σ2

ottenuta dal modello completo: quanto più il
valore di F è grande tanto più H0 sarà rifiutata
a favore della ipotesi alternativa.
Stabilito α la regione di rifiuto è data da:

R.C. : F≥Fα
Quando F<Fα l’ipotesi nulla non può essere

rifiutata e quindi le k-h variabili esplicative
possono essere escluse dal modello.
33
PROBLEMI DI PREVISIONE
Si vuole prevedere il valore di Yn+1 per un
insieme di valori X non osservati come:
C = {1 X 2,n +1 X 3,n +1 ... X k ,n +1}
E’ possibile fare una previsione puntuale o stimare

un intervallo di previsioni.
Yn +1 = β1 + β 2 X 2,n +1 + ... + β k X k ,n +1 + ε n +1
= C ′ β + ε n +1
1×k k ×1 1×1
E [Yn +1 ] = C ′β
Utilizzando le proprietà BLUE di β̂ avremo il

PREVISORE PUNTUALE
Yˆn +1 = C ′βˆ sarà BLUFF
Best Linear Unbiased Forecasting Function

34
Per ottenere un intervallo di previsione
è necessario individuare la distribuzione di
[ ]
E C ′βˆ = C ′β
Var [C ′β] = E (C ′β − C ′β )(C ′β − C ′β ) 

ˆ  ˆ ˆ ′
 
 ˆ
( )(′ 
)
= E C ′ β − β β − β C  = C ′( X ′X ) σ2C
ˆ −1
 
(
C ′βˆ ≈ N C ′β , σ 2 C ′(X ′X ) C
−1
)
C ′βˆ − C ′β
C ′(X ′X ) C
−1
σ
≈ t n−k
e′ e
(n − k )
σ 2
Quindi una stima intervallare con un livello

fiduciario del 100(1-α)% :
C ′βˆ ± tα 2σ C ′ ( X ′X ) C
−1
C ′βˆ − tα 2σ < C β < C ′βˆ + tα 2σ 35

APPLICAZIONE
Y = β1 + β 2 X + ε
Voglio prevedere Y dato X= X0. Per calcolare

l’intervallo devo determinare
 n
( X ′X ) =  ∑ X 
∑ X ∑ X 
2
C = {1 X 0}
∑ 0∑
2
X − 2 X X + u X 2
C ′( X ′X ) C =
−1 0
u ∑ X − (∑ X )
2 2
Infatti .
 ∑ X 2 − ∑ X  1 
{1 X 0} 1
2    =
n∑ X − (∑ X ) − ∑ X
2 n  X 0 
=
1
[ ]
1
∑ X − X 0 ∑ X , X 0n − ∑ X  X  =
2
n∑ X − (∑ X )
2 2
 0
=
(∑ X 2
− X 0 ∑ X ) + (X 02n − X 0 ∑ X )
=
n∑ X − (∑ X )
2 2 36
∑ − 0∑ + 1 (X 0 − X )
2 2 2
X 2 X X nX
= 0
= +
n ∑ X − (∑ X ) ∑
2 2 2
n X
L’intervallo fiduciario sarà
C ′β ± tε 2σ2 C ′( X ′X ) C ⇒
−1
1 (X 0 − X )
( )
2
⇒ βˆ 1 − βˆ 2 X 0 ± tε 2σ2 +
n ∑X2
A parità di dati osservati l’intervallo sarà tanto

più largo quanto più X0 è distante dalla media di
X
37
CENNI SULLE VARIABILI DUMMY
(Variabili di comodo)
Fino ad ora abbiamo assunto che nella equazione
generale Y = Xβ + ε le variabili X siano variabili
quantitative. E’ possibile introdurre variabili
cosiddette “di comodo” che riescano a rappresentare
diversi fattori :
– EFFETTI TEMPORALI
– EFFETTI SPAZIALI
– VARIABILI QUALITATIVE
E’ il caso in cui un modello economico possa subire
mutamenti strutturali .
ESEMPIO
FUNZIONE DI CONSUMO
C = α1 + β Y + ε Tempo di guerra
C = α2 + βY + ε Tempo di pace
∂C
Ipotizzando che la propensione marginale al consumo =β
∂Y
rimanga invariata in entrambi i periodi
38
invece di considerare i due modelli separatamente
(stime meno precise) questi possono essere uniti in
una sola relazione
C = α1 X 1 + α 2 X 2 + β Y + ε
Dove X1 e X2 sono variabili dummy :
 1 anni di guerra
X1 = 
 0 anni di pace
 0 anni di guerra
X2 = 
1 anni di pace
 α1 
β = α 
La matrice β dei coefficienti sarà  2
 β
e la matrice dei dati
0 1 Y1 
0 1 Y2 
. . Y 
 3

 0 1 . 
1 0 .
X = ( X 1 X 2 Y ) = 1 0 . 
 
 . . . 
1 0 . 
0 1 . 
. . .  39
0 1 Yn 
ATTENZIONE
Quando si utilizzano le variabili dummy è
necessario fare attenzione a come viene costruito
il modello, per non rendere la matrice (X’X)
singolare .
Infatti se nel modello precedente lasciavamo una
intercetta : C = α + α X + α X + β Y + ε
0 1 1 2 2
1 0 1 Y1 
1 0 1 Y 
 2 
. . . . 
 
 1 0 1 . 
1 1 0 . 
 
X = 1 1 0 . 
. . . . 
 
1 1 0 . 
1 0 1 . 
 
. . . . 
 
1 0 1 Y n 
1× X 0 − 1× X 1 − 1× X 2 + 0×Y = 0
Abbiamo che le 4 colonne di X sono linearmente
dipendenti rank ( X ) = rank ( X ′X ) = 3 ≠ k
40
(X’X) non è invertibile
Volendo utilizzare una regressione con intercetta si
utilizzerà così solo una dummy :
C = γ1 + γ 2 X 2 + βY + ε
0 anni di guerra
X2 = 
1 anni di pace
β = PMC in entrambi i periodi

α1 = γ1 = intercetta anni di guerra
α2 = γ1 + γ2 = intercetta anni di pace
α1 – α2 = γ2 = differenza tra l’intercetta del
periodo guerra e pace
• Cambiamento di coefficiente angolare
C = α + β1Y + ( β 2 − β1 ) X 2Y + ε
0 anni di guerra C = α + β1Y + ε
X2 = 
1 anni di pace C = α + β 2Y + ε
β2 – β1 = differenza propensione marginale41al

consumo nei due periodi
ASPETTI CONNESSI ALLA
SPECIFICAZIONE DEL MODELLO
In ogni studio econometrico, la scelta del
modello è la prima fase del lavoro. Gli aspetti
fondamentali sono:
a)La scelta della forma funzionale
b)La scelta dei regressori
c)La verifica sulle assunzioni del modello.
42
a. La scelta della forma funzionale
Abbiamo parlato di modelli di regressione

lineari, intendendo lineari nei parametri,
ovvero anche di quei modelli che possono
essere resi lineari tramite una opportuna
trasformazione delle variabili. Ad esempio si
consideri la funzione di produzione Cobb-
Douglas (Y produzione, L lavoro, K capitale:
Y=αL^βK^γ
Potrebbe sembrare non lineare, tuttavia dopo
aver applicato la trasformazione logaritmica
otteniamo:
Ln(Y)=ln(α)+ βln(L)+ γln(K)
Il modello così trasformato è lineare nei

parametri e può essere facilmente trattato ed
interpretato.
43
Esistono forme di modelli che risultano
lineari nei parametri, ma sui quali fare
attenzione soprattutto in fase di
interpretazione.
Modelli polinomiali: consideriamo un
esempio. In microeconomia si studiano
funzioni di produzione, se consideriamo la
relazione tra prodotto medio ottenuto da
aziende produttrici di materiale elettrico
(AP: average product) e l’input (I) necessario
alla produzione
AP
44
È evidente che la relazione non è costante e
quindi non può essere rappresentata da un
modello “lineare nelle variabili”. La
relazione può essere espressa da un
polinomio:
AP = α + β I + γ I + ε
2
Questa forma funzionale ha una forma non

lineare ma risulta ancora un modello di
regressione lineare essendo lineare nei
parametri. Tali parametri si stimano con OLS
e gli stimatori hanno tutte le “buone”
proprietà; ma attenzione all’interpreatazione!
I parametri che si stimano non sono di per

se’ le pendenze, le quali invece sono date da
dE ( AP )
= β + 2γI
dI
E pertanto cambia per ogni valori di I con i
parametri β e γ.
45
Modelli con interazioni: quando in un modello si
inserisce il prodotto tra due variabili esplicative
(interazione) l’effetto che si ottiene è quello di
alterare la relazione di ognuna di esse con la
variabile dipendente del modello. Per capire
l’effetto consideriamo un esempio: studiamo
l’effetto di reddito (Y) ed età (ETA’) sul
consumo di pizza C, supponiamo di avere i dati
su un campione di individui con età superiore a
18 anni. Il modello senza interazione:
C=α+ βETA’+ γY+ε
dE(C)/dETA’= β per qualsiasi livello di reddito

la spesa attesa per pizza varia di β (solitamente
β<0) per un incremento di un anno di età.
dE(C)/dY= γ per qualsiasi età la spesa attesa per

pizza varia di γ per un incremento di un euro di
reddito (γ>0).
46
In realtà sembrerebbe più ragionevole pensare
che da una certa età in poi, con il crescere
dell’età, la propensione marginale a spendere in
pizza diminuisca. Siamo cioè nel caso in cui
l’effetto di una variabile è modificato da
un’altra. Per tenere conto di ciò il modello che
dobbiamo specificare è il seguente:
C=α+ βETA+ γY+λ(ETA*Y)+ε
Gli effetti di Y e ETA’ sono:

dE(C)/dETA= β + λY al crescere dell’età ci si
aspetta che la spesa per pizza si riduca, inoltre
siccome presumibilmente λ<0, maggiore è il
reddito, maggiore è la riduzione della spesa per
pizza.
dE(C)/dY= γ + λETA la propensione marginale
a spendere in pizza dipende da ETA’, quindi la
propensione diminuisce sempre più al crescere
dell’età.
47
b. La scelta dei regressori
Nella scelta delle variabili esplicative di un

modello di regressione, si cerca di seguire la teoria
relativa al fenomento trattato, la logica e
l’esperienza. Tuttavia può accadere che nella scelta
si siano omesse importanti variabili o inserite
variabili irrilevanti, vediamo quali problemi si
incontrano in questi casi.
Variabili rilevanti omesse: è come introdurre

restrizioni (parametro=0) non vere sul modello. La
stima OLS dei restanti parametri del modello
risulta generalmente distorta, inoltre gli standard
error di tali parametri sono sottostimati. Il caso in
cui gli stimatori OLS non sono distorti si ha
quando le variabili omesse sono incorrelate con le
variabili inserite.
48
Per realizzare che alcune variabili rilevanti
del modello sono state omesse si deve
proprio fare attenzione a segni o valori dei
coefficienti inaspettati. Si potrebbe pensare
che per ovviare a questo problema il
ricercatore dovrebbe inserire nel modello
tutte le variabili che ha a disposizione; in
questo modo tuttavia si potrebbe complicare
il modello eccessivamente ed inoltre
introdurre variabili irrilevanti.
Variabili irrilevanti inserite: gli stimatori
OLS che si ottengono sono corretti, tuttavia
la varianza degli stimatori dei parametri
relativi alle variabili “buone” risulta
maggiore di quella che avremmo ottenuto
specificando il modello correttamente. Il
motivo di questa sovrastima è legato al fatto
che il Teorema di Gauss Markov dice che lo
stimatore b.l.u.e. è lo stimatore OLS relativo
ad un modello correttamente specificato.
49
LE VIOLAZIONI DELLE IPOTESI
DEL MODELLO
a) Multicollinearità
b) Etroschedasticità
c) Autocorrelazione dei residui
50
a. MULTICOLLINEARITA’
Quando due o più variabili esplicative di un

modello di regressione lineare si muovono
sistematicamente “insieme” esiste un problema
di multicollinearità. Le conseguenze di una tale
situazione in un modello di tipo econometrico
possono essere riassunte così:
•Se esiste una relazione lineare esatta tra le
variabili esplicative (due o più) si parla di esatta
multicollinearitànon si possono determinare le
stime OLS dei parametri.
•Se la dipendenza lineare tra le variabili è quasi
perfetta, ma non perfetta (coefficiente di
correlazione prossimo a 1),siamo nel caso di
quasi multicollinearità le stime OLS si
determinano ma sono molto instabili a causa
degli elevati standard error, si determinano
intervalli di confidenza molto larghi.
51
Cosa fare?
Nel caso di esatta multicollinearità si può fare una
sostituzione di variabile.
Esempio:
Y = α + β1 X1 + β2 X 2 + ε
X 2 = γ X1 + θ
Y = α + β1 X1 + β2θ + β2γ X1 + ε
= λ1 + λ2 X1 + ε
λ1 = α + β2θ
λ2 = β1 + γ β2
52
Nel caso in cui due o più regressori siano quasi-
collineari, si incontrano i problemi maggiori:
Varianze campionarie molto alte
Covarianze sovrastimate
Forte instabilità dei coefficienti stimati per piccole
variazioni dei dati.
Per comprendere il perché di questi effetti si
consideri il modello di regressione a tre variabili:
Y = β1 X 1 + β 2 X 2 + ε
 βˆ1 
β =   = (X X ) X′ y
−1
ˆ ′
 βˆ 
 2
( )
V βˆ = σ 2 ( X ′X )
−1
σ2  ∑ X 22 −∑ X 1 X 2 
= 2  
 −∑ X X
∑ 1 ∑ 2 (∑ 1 2 )  ∑ X1 
2
X 2
X 2
− X X 1 2
53
σ 2 ∑ X 22
( )
V βˆ1 = =
∑ 1 ∑ 2 − ( ∑ X1 X 2 )
2 2 2
X X
σ 2 ∑ X 22
=
∑X ∑X 2 2
(∑ X ∑ X 1
2 2
2 − ( ∑ X1 X 2 )
2
)
1 2
∑ 1∑ 2
X 2
X 2
σ2
=
∑ 1 12
X 2
1 − r (
2
)
σ2
( )
V βˆ2 =
( )
∑ 2 12
X 2
1 − r 2
Si vede che valori molto alti di r122 rendono le

stime OLS molto imprecise.
Inoltre, nell’esempio che segue vediamo che
piccole variazioni nella matrice dei dati possono
provocare grandi variazioni nella stima dei
54
parametri.
ESEMPIO:
instabilità delle stime
Y = β1 X 1 + β 2 X 2 + ε
Dati : ∑ 1i = 200 ∑X X 2i = 150

2
X 1i
∑ 2i = 113
X 2
∑X 1i i Y = 350
∑X 2i i Y = 263
βˆ1 = ∑ 2 ∑ X1Y − ∑ X 1 X 2 ∑ X 2Y
X 2
=
∑ X ∑ X − (∑ X X )
2 2 2
1 2 1 2
113 × 350 − 150 × 263 39550 − 39450 100

= = = 1
200 × 113 − 150 2
22600 − 22500 100
52600 − 52500 100
βˆ2 = = = 1
22600 − 22500 100
r2
=
(∑ X X ) 2 3
2
=
1502
= 0.995
∑X ∑X 200 × 113
X2X3 2 2
2 3
55
Se togliamo solo una osservazione cosicchè:
∑ 1 = 199
X 2
∑ X X = 149
2 1
∑ 2 = 112
X 2
∑ X Y = 327.5
1
∑ X Y = 261.5
2
112 × 347.5 − 149 × 261.5 −43.5 1

βˆ1 = = = −
199 × 112 − 149 2
87 2
199 × 261.5 − 149 × 347.5 261
β2 =
ˆ = = 3
199 ×112 − 149 2
87
Le stime si modificano di molto
56
Come identificare un problema di
multicollinearità?
La via più intuitiva è quella di osservare la

matrice di correlazione delle variabili, se
identifichiamo coefficienti di correlazione
prossimi a 0.9 (in valore assoluto) abbiamo
ragione di credere che il problema della quasi
multicollinearità sia presente.
Tuttavia con il suddetto metodo si identificano
problemi per coppie di variabili, resta il dubbio
su cosa fare se sono più di due le variabili a
creare multicollinearità. Una strategia è quella
di fare “regressioni ausiliarie” tra una variabile
“sospetta” e le altre esplicative; se il
coefficiente di determinazione che si ottiene è
prossimo a 1 sicuramente il coefficiente di
regressione della variabile sospetta –nella
regressione originale- risente del problema
della multicollinearità.
57
LA MULTICOLLINEARITA’
58
ETEROSCHEDASTICITA’
Avevamo ipotizzato che:
E [ε ′ε ] = σ 2 I
tale assunzione è in molte situazioni non valida.
In effetti, se noi consideriamo come variabile
dipendente di un modello la spesa per alimenti Y e
come variabile indipendente il reddito X, è poco
plausibile assumere omoschedasticità perché al
crescere del reddito ci sono molti più fattori di
soggettività nella scelta degli alimenti e quindi nella
relativa spesa. Il modo più semplice per valutare la
validità dell’ipotesi di omoschedasticità è
considerare i residui OLS del modello stimato e
tracciare un diagramma cartesiano in cui in
corrispondenza di ogni valore di X si riporta il
corrispondente residuo stimato. Se i residui risultano
casualmente dispersi attorno allo zero, si può
supporre che l’ipotesi di omoschedasticità sia
plausibile, se essi hanno un andamento sistematico a
ventaglio o quadratico o sinusoidale la nostra ipotesi
risulta presumibilmente non vera. Nell’esempio i
residui saranno disposti a ventaglio, dato che al
crescere del reddito essi cresceranno.
59
Ma quali sono le conseguenze
dell’eteroschedasticità negli stimatori OLS dei
parametri?
Innanzi tutto è opportuno comprende quale
diventa la nuova formulazione dell’ipotesi sul
termine stocastico:
E [ε ] = 0
E [ε ′ε ] = σ 2Ω, con E εi2  = σ i 2
Le stime OLS dei parametri sono:
β = ( XX
′ ) X′ y
−1
ˆ
y = X β +ε
E β  = β + ( XX
′ ) X′ E(ε ) = β
−1
 ˆ 
60
Quindi STIMATORI OLS ancora lineri e corretti,
tuttavia si perde l’efficienza, infatti
( )
V βˆ = ( X ′X ) X ′ E ( ε ′ε ) X ( X ′X )
−1 −1
= ( X ′X ) X ′ Ω ( X ′X ) σ 2
−1 −1
Ne consegue che gli intervalli di

confidenza e i risultati della verifica di
ipotesi possono essere fuorvianti.
Per individuare la presenza di

eteroschedasticità la via più intuitiva è
quella di fare un’analisi dei residui, tuttavia
essa può essere complessa se le variabili
esplicative sono molte.
Ci sono tuttavia alcuni test che si basano in
generale sempre sui residui.
61
Esempio: GOLDFELD – QUANDT TEST
- Si ordinano le osservazioni secondo la

variabile Xj che si ipotizza sia la causa
dell’eteroschedasticità
- Si divide il campione in tre parti di
numerosità n1 n2 n3 .
- Dopo la stima OLS nei tre sottocampioni si
calcola
e1′ e1 e3′ e3
e1′ e1
F= ≈ Fn1 − k , n2 − k
e3′ e3
Sotto H0 : omoschedasticità : (il valore di F è

piccolo)
Fempirico > Fteorico ⇒ Rifiuto H 0
62
I RIMEDI
1. σi i=1,…,n siano valori noti.
si applicano i MINIMI QUADRATI PESATI (WLS)
ovvero si applica OLS al modello trasformato
yi xij εi
y =*
; x =
*
; ε =
*
σi σi σi
i ij i
Ovvero yi* = β1 xi*1 + β2 xi*2 + ... + βk xik* + ε*i
 εi  1 σi2
Dove Var (ε ) = Var   = 2 Var (εi ) = 2 = 1
*
 σi  σ i σi
i
Nella pratica σi non sono noti quindi il metodo

non è applicabile in pratica
63
2. In caso di relazione tra la componente stocastica
e uno dei regressori, ad esempio
yi = β1 + β 2 xi 2 + ... + βk xik + εi
Var εi = C xi22
Trasformiamo il modello
yi xij εi
yi =
*
; xij =
*
; ε =
*
i
xi 2 xi 2 xi 2
yi 1 xik εi
⇒ = β1 + β2 + ... + βk +
xi 2 xi 2 xi 2 xi 2
ε  1
Var (ε*i ) = Var  i  = 2 Var (εi ) = C
 xi 2  xi 2
applico OLS e ottengo stimatori B.L.U.E. per i
parametri di interesse.
3. Si stima il modello originale ottenendo stimatori
lineari e corretti, per il calcolo degli s.e. dei
parametri si ricorre allo stimatore di White che
tutti i software prevedono. 64
ESERCIZIO
La stima di un modello lineare sulla base dei
valori del Reddito e del Consumo di 30 famiglie
americane fornisce i seguenti valori :
Cˆ = 1480 + 0.788 y R 2 = 0.97
(3.29 ) (29.37 )
La stima dello stesso modello sulle prime 12 e
sulle ultime 12 osservazioni fornisce i seguenti
valori:
Cˆ = 846.7 + 0.837 y R 2 = 0.91
(0.74 ) (9.91)
SEQ = 1069000
Cˆ = 2306.7 + 0.747 y R 2 = 0.71

(0.79 ) (5.00 )
SEQ = 3344000
Verificare l’ipotesi H0 di omoschedasticità
3344000
F= = 3.12 F10 ,10 = 1.83
1069000
Rifiuto H0: c’è eteroschedasticità
65
c. AUTOCORRELAZIONE DEI RESIDUI
Nelle analisi di dati cross-sectional le osservazioni

sono generalmente individui o famiglie o aziende
che costituiscono un campione casuale di una
popolazione. Il fatto che il campione sia casuale,
generalmente implica l’incorrelazione dei termini
casuali.
E [ε ′ε ] = σ 2 I
Quando si hanno invece serie storiche o comunque

osservazioni che seguono un ordine temporale tale
ipotesi si altera ed i termini di errore risultano
generalmente tra loro correlati.
Per illustrare il problema consideriamo una semplice

relazione a due variabili
yt = α + β X t + ε t
ε t = ρ ε t −1 + ut
66
Le ipotesi aggiuntive su tale modello,
detto modello autoregressivo del primo
ordine AR(1) sono:
ρ <1
E [ut ] = 0
σ u2 s=0
E [ut ut − s ] = 
0 s≠0
Quindi:
ε t = ρ ε t −1 + ut
= ρ ( ρ ε t − 2 + ut −1 ) + ut
= ut + ρ ut −1 + ρ 2ut − 2 + ... =
∞
= ∑ ρ r ut − r
r :0
67
∞
E ( ε t ) = ∑ ρ E ( ut − r ) = 0
r
r :0
( ) ( ) ( ) ( )
E εt2 = E ut2 + ρ2E ut2−1 + ρ4E ut2−2 + ...
+2ρ E[utut −1 ] + 2ρ2 E[utut −2 ] + ...
+2ρ E[ut −1ut −2 ] + ...
2
u (
= σ 1+ ρ + ρ + ...
2 4
)
σ 2
= u
= σu2
1− ρ 2
68
( )
E[εt εt−1] = E  ut + ρ ut −1 + ρ2 ut−2 + ... ×( ut−1 + ρ ut−2 + ...)  =
= ρ σu2 + ρ3 σu2 + ρ5 σu2 + ... =
(
= ρ σu2 1+ ρ 2 +ρ4 + ... = )
σu2
=ρ = ρ σε
2
1− ρ2
( )
 ut + ρ ut −1 + ρ 2ut − 2 + ρ 3ut −3 × 
E [ε t ε t −2 ] = E   =
(
× ut − 2 + ρ ut −3 + ρ 2ut − 4 + ... 
 )

= ρ 2σ u2 + ρ 4σ u2 + ρ 6σ u2 + ... =
σ u2
=ρ 2
= ρ 2σ ε2
1− ρ 2
E [ε t ε t − s ] = ρ sσ ε2
 1 ρ ρ2 . ρ n −1 
 n−2 
 ρ 1 ρ . ρ 
E [ε ε ′] = V = σ u2  ρ 2 ρ . . . 
 
 . . . . ρ 69
 ρ n −1 ρ n−2 ρ 1 
 .
CONSEGUENZE per OLS
1. Stime OLS di β lineari e corrette
2. Varianze di β̂ molto grandi stimatori
inefficienti
3. Sottostima delle varianze dell’errore
4. Conseguente non validità dei test t ed F
Infatti si può dimostrare che

2  1+ ρ 2 
E ( e′ e ) ≅ σ ε ε − 2 
 1 − ρ 
Solo se ρ2 = 0
 e′ e 
E  = E σˆ
 
2
 = σ 2
ε
 n −1 
Con N=20 ; ρ = 0.5 :

 e′ e  18.3 2
E  = σε sottostima 4%
 n − 1  19
Con N=20 ; ρ = 0.8
 e′ e  15.4 2 70
E  = σε sottostima 19%
 n − 1  19
E’ MOLTO USATO IL TEST DI DURBIN -
WATSON
n
(
∑ t t −1
e − e )2
d= t =2
n
eˆ = y − Xβˆ
∑e 2
t
residui nella
t =1
stima OLS
n 2 n 2  n
∑ et + ∑ et −1  − 2∑ et et −1
d =  t =2 t =2
n
 t =2
per n grande
∑ et2
t =1
d ≅ 2−2 ∑ ee t t −1
 ∑ et et −1 
= 2 1 − = 2(1 − r )
2 
∑e 2
t  ∑ et 
0≤d ≤4
0 dL dH 2 4-dH 4-dL 4
autocorr.(+) ? No autocorr. ? Autocorr.(-)
Il limite tra la zona di accettazione e quella di

rifiuto è funzione della matrice X .
71
• Il valore della statistica di Durbin-Watson è
sempre compreso tra 0 e 4.
• Un valore di 2 indica che non appare presente

alcuna autocorrelazione. Valori piccoli di d
indicano che i residui successivi sono, in
media, vicini in valore l'uno all'altro, o correlati
positivamente. Valori grandi di d indicano che i
residui successivi sono, in media, molto
differenti in valore l'uno dall'altro, o correlati
negativamente.
• La distribuzione teorica della statistica di

Durbin-Watson non è nota; tuttavia gli stessi
Durbin e Watson hanno tabulato, con un
esercizio di simulazione condotto col metodo
Montecarlo, i valori critici della statistica.
72
Per verificare la presenza di autocorrelazione
positiva al livello di significatività α, la statistica test d
viene confrontata con dei valori critici inferiori e
superiori (dL,α and dU,α):
•Se d < dL,α si ha una prova statistica di
autocorrelazione positiva degli errori.
•Se d > dU,α, si ha una prova statistica di non
autocorrelazione positiva degli errori.
•Se dL,α < d < dU,α il test non è conclusivo.
Per verificare la presenza di autocorrelazione

negativa al livello di significatività α, la statistica test
d viene confrontata con dei valori critici inferiori e
superiori (dL,α and dU,α):
•Se (4 − d) < dL,α si ha una prova statistica di
autocorrelazione negativa degli errori.
•Se (4 - d) > dU,α, si ha una prova statistica di non
autocorrelazione negativa degli errori.
•Se dL,α < (4 − d) < dU,α il test non è conclusivo.
I valori critici dL,α e dU,α variano secondo il livello di

significatività (α), secondo il numero di osservazioni e
il numero di parametri di regressione e vengono
73
generalmente ottenuti da apposite tavole.
METODI RISOLUTIVI
GLS – Generalized Least Squares
Se ho una stima di ρ
1 ρˆ . ρˆ n −1 
ρˆ =
∑ ee
t t −1
ρˆ
⇒Ω=
1 . . 
∑e 2
t . . . . 
. . . 1 
Riesco a trovare la matrice T : T ′ T = Ω −1
e trasformo il modello in Ty = TXβ + Tu

Var (Tu ) = σ2 I ⇒
stima OLS
74

Modello Di Regressione Lineare Multipla (Modalità Compatibilità)

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Modello Di Regressione Lineare Multipla (Modalità Compatibilità)

Caricato da

Copyright:

Formati disponibili

MODELLO DI REGRESSIONE LINEARE

E’ la generalizzazione del modello di

• Ricerca di un modello matematico in grado di

che geometricamente corrisponde ad un iperpiano a

yi = β0 + β1 xi1 + β2 xi 2 + β3 xi 3 + ...βk xik + ε i

X : matrice (n x (k+1)) di osservazioni su

β: vettore ((k+1) x 1) di parametri incogniti

 y1  1 x11 x12 . . . x1k 

8) X ha rango pieno rank (X) = k

Che rappresenta l’equazione di un iperpiano

E(Yi ) = β0 + β1xi1 + β2 xi 2 + β3 xi3 + ...βk xik

dove Xi è la riga i-esima di X

β ′ X ′y = ( β 0 , β1 ... β k )  x31 x32 . . x3n   . 

dalla (1) si ottiene

perché rank (X’X) = rank (X) = k

costanti per cui β̂ è una trasformazione lineare

Si consideri più in dettaglio ˆ

yˆi = βˆ0 +βˆ1xi1 +βˆ2xi2 +βˆ3xi3 +...βˆk xik , i =1,2,Kn

definisce l’iperpiano nello spazio a

che rappresenta la scomposizione della

La stima della varianza delle v.c. errori è data

Fino ad ora nessuna ipotesi è stata posta per la

Dal teorema di GAUSS-MARKOV :

Sotto H 0 : βi = 0 si distribuisce come

In generale per un sistema di ipotesi H0 : βi =c

è l’elemento generico di posto ii nella diagonale

Le ipotesi su βi possono essere verificate

Che sotto H0 si distribuisce come una t(n-k).

Rifiuto H0 di non significatività del parametro,

Come nel caso del modello di regressione

Alternativamente si può scrivere:

• Se dividiamo le devianze per i gradi di libertà

Fonte di Medie dei Quadrati

Nota: direttamente dalla tabella ANOVA si può

• Se F > F(α ;k ,n−k −1) si rifiuta H0

Facendo riferimento ai valori

9.62 × 12 + 7.65 × 9 184.29

L’ip. nulla afferma che almeno k-h variabili non

Se la differenza SQE0 – SQE è grande H0

Per stabilire se tale differenza è significativamente

Al denominatore troviamo la stima di σ2

Stabilito α la regione di rifiuto è data da:

Quando F<Fα l’ipotesi nulla non può essere

E’ possibile fare una previsione puntuale o stimare

Utilizzando le proprietà BLUE di β̂ avremo il

Yˆn +1 = C ′βˆ sarà BLUFF

Best Linear Unbiased Forecasting Function

Var [C ′β] = E (C ′β − C ′β )(C ′β − C ′β ) 

Quindi una stima intervallare con un livello

C ′βˆ − tα 2σ < C β < C ′βˆ + tα 2σ 35

Voglio prevedere Y dato X= X0. Per calcolare

L’intervallo fiduciario sarà

A parità di dati osservati l’intervallo sarà tanto

β = PMC in entrambi i periodi

β2 – β1 = differenza propensione marginale41al

Abbiamo parlato di modelli di regressione

Ln(Y)=ln(α)+ βln(L)+ γln(K)

Il modello così trasformato è lineare nei

Questa forma funzionale ha una forma non

I parametri che si stimano non sono di per

dE(C)/dETA’= β per qualsiasi livello di reddito

dE(C)/dY= γ per qualsiasi età la spesa attesa per

C=α+ βETA+ γY+λ(ETA*Y)+ε

Ovvero yi* = β1 xi1 + β2 xi2 + ... + βk xik* + ε*i