Cap 06 5ed

Regressione lineare
con
regressori multipli
Capitolo 6
Introduzione all’econometria
J.H. Stock, M.W. Watson
Distorsione da variabile omessa
• Consideriamo il modello causale:
Δ𝑌
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 con 𝛽1 = Δ𝑋𝑖 𝑐. 𝑝.
𝑖
• Si può dimostrare che se non vale la prima assunzione, cioè: 𝐸 𝑢𝑖 𝑋𝑖 ≠ 0

෢1 è distorta, cioè: 𝐸 𝛽
la stima OLS 𝛽 ෢1 ≠ 𝛽1
• Ricordiamo che: 𝐶𝑜𝑟𝑟 𝑢𝑖 , 𝑋𝑖 ≠ 0 ⇒ 𝐸 𝑢𝑖 𝑋𝑖 ≠ 0

• Quindi ogni variabile omessa che:
a) incide su 𝑌𝑖 (il suo effetto è incluso in 𝑢𝑖 )
b) ed è correlata con 𝑋𝑖
෢1
comporta una distorsione nella stima 𝛽
2
4 casi per riflettere
1. Percentuale di studenti non madrelingua inglese
– Soddisfa i requisiti a) e b) ⇒ distorsione
2. Ora del test
– Soddisfa a) ma non b) ⇒ non distorsione
3. Rapporto area di parcheggio auto degli insegnanti/studente
– Soddisfa b) ma non a) ⇒ non distorsione
4. ‘‘Effetto Mozart’’(Nature 1993)
3
Il modello di regressione multipla con due regressori
Assumiamo che:
• esista una sola variabile 𝑋2 , correlata con 𝑋1 , avente effetto su 𝑌
• sia vera la relazione: E 𝑌𝑖 |𝑋1𝑖 , 𝑋2𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖
Il modello di regressione diventa ora:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖 + 𝑢𝑖 𝑐𝑜𝑛 𝐸 𝑢𝑖 |𝑋1𝑖 , 𝑋2𝑖 = 0
N.B. Il modello sopra è quello classico senza assunzione diretta su 𝜷𝟏
4
Che significato attribuire a 𝜷𝟏 ?
Abbiamo assunto: E 𝑌𝑖 |𝑋1𝑖 , 𝑋2𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖
Qunidi: E 𝑌𝑖 |𝑋1𝑖 + 1, 𝑋2𝑖 − E 𝑌𝑖 |𝑋1𝑖 , 𝑋2𝑖 =

= 𝛽0 + 𝛽1 𝑋1𝑖 + 1 + 𝛽2𝑖 𝑋2𝑖 − 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖 =
= 𝛽1
• 𝛽1 è la variazione attesa di 𝑌 quando 𝑋1 aumenta di 1 e si tiene costante
(si controlla) 𝑋2 ma si lascia libero tutto il resto.
• Se 𝑋2 è la sola variabile correlata con 𝑋1 , avente effetto su 𝑌, allora 𝛽1 è
l’effetto causale di 𝑋1 su 𝑌
• 𝛽0 è il valore atteso di 𝑌 quando 𝑋1 e 𝑋2 sono pari a 0!
5
Il modello di regressione multipla con k regressori
• 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + ⋯ + 𝛽𝑘𝑖 𝑋𝑘𝑖 + 𝑢𝑖 𝑐𝑜𝑛 𝐸 𝑢𝑖 |𝑋1𝑖 , … , 𝑋𝑘𝑖 = 0
• 𝛽𝑗 misura la variazione attesa di 𝑌 in seguito ad una variazione unitaria di

𝑋𝑗 fermo restando solo gli altri regressori
• Se l’effetto delle variabili omesse non dipende in media dai regressori,

ogni coefficiente 𝛽𝑗 rappresenta l’effetto causale di 𝑋𝑗 su 𝑌
• 𝛽0 indica il valore atteso di 𝑌 quando tutti i regressori valgono zero
6
Il metodo OLS nella regressione multipla
• Gli stimatori OLS 𝛽መ0 , 𝛽መ1 , … , 𝛽መ𝑘 forniscono i valori di 𝑏0 , 𝑏1 , … , 𝑏𝑘 che rendono
2
minima la somma degli scarti al quadrato 𝑌𝑖 − 𝑌෡𝑖 :
෍ 𝑌𝑖 − 𝑏0 − 𝑏1 𝑋1𝑖 − ⋯ − 𝑏𝑘 𝑋𝑘𝑖 2
𝑖=1
• Esistono formule per calcolare 𝛽መ0 , 𝛽መ1 , … , 𝛽መ𝑘 , che però non riportiamo perché sono
complesse (per lo più riportate come calcolo matriciale)
• A noi interessa il criterio, il calcolo lo fa il software!!!
7
Esempio sul caso allo studio
OLS_2: OLS, usando le osservazioni 1-420

Variabile dipendente: testscr
Errori standard robusti rispetto all'eteroschedasticità, variante HC1
Coefficiente Errore Std. rapporto t p-value

const 686,032 8,72822 78,60 <0,0001 ***
str −1,10130 0,432847 −2,544 0,0113 **
el_pct −0,649777 0,0310318 −20,94 <0,0001 ***
Media var. dipendente 654,1565 SQM var. dipendente 19,05335

Somma quadr. residui 87245,29 E.S. della regressione 14,46448
R-quadro 0,426431 R-quadro corretto 0,423680
F(2, 417) 223,8229 P-value(F) 9,28e-67
Log-verosimiglianza −1716,561 Criterio di Akaike 3439,123
Criterio di Schwarz 3451,243 Hannan-Quinn 3443,913
N.B. Nella regressione semplice avevamo osservato 𝛽መ1 =-2,28
8
Misure di adattamento della regressione multipla
1) L’errore standard della regressione: 𝑆𝐸𝑅 = 𝑠𝑢2
2
σ𝑛𝑖=1 𝑢ො 𝑖2 σ𝑛𝑖=1 𝑌𝑖 − 𝑌෠𝑖 𝑆𝑆𝑅
dove: 𝑠𝑢2 = = =
𝑛−𝑘−1 𝑛−𝑘−1 𝑛−𝑘−1
• Si divide per 𝑛 − 𝑘 − 1 per avere una stima corretta: 𝐸(𝑠𝑢2 ) = 𝜎𝑢2

• SER indica l’ampiezza media degli errori u, quindi la rilevanza dei regressori omessi
• Al crescere dei regressori 𝑆𝑆𝑅 diminuisce, ma non è detto che 𝑆𝐸𝑅 diminuisca
• Più piccolo è 𝑆𝐸𝑅, più accurato è il modello
9
R2 ed R2 corretto
2) L’𝑹𝟐 = 1 − 𝑆𝑆𝑅Τ𝑇𝑆𝑆
– R2 cresce sempre al crescere dei regressori perché SSR decresce
(anche se il regressore aggiunto non porta informazione utile per Y)
𝟐 𝑆𝑆𝑅/(𝑛−𝑘−1) 𝑠2
3) L’𝑹 corretto = 1 − 𝑇𝑆𝑆/(𝑛−1) =1− 𝑢
𝑠2
𝑌
– 𝑅ത 2 cresce solo se l’aggiunta del regressore diminuisce 𝑠𝑢2

– quindi 𝑅ത 2 cresce se il regressore porta informazione utile per Y
(prima contenuta in u)
10
Ulteriori criteri di valutazione
• Il software Gretel riporta per ogni modello stimato anche la log-

verosimiglianza e 3 criteri:
1) Criterio di Akaike (AIC)
2) Il Criterio bayesiano di Schwarz (SBC)
3) Il Criterio di Hannan-Quinn (HQC)
• Qui non andiamo a vedere come sono calcolati!
• L’aggiunta di un regressore è consigliata se il criterio scelto diminuisce.
11
Model 1: OLS, using observations 1-420
Dependent variable: testscr
Heteroskedasticity-robust standard errors, variant HC1
Coefficient Std. Error t-ratio p-value

const 698.933 10.3644 67.44 <0.0001 ***
str - 2.27981 0.519489 - 4.389 <0.0001 ***
Mean dependent var 654.1565 S.D. dependent var 19.05335

Sum squared resid 144315.5 S.E. of regression 18.58097
R-squared 0.051240 Adjusted R-squared 0.048970
F(1, 418) 19.25943 P-value(F) 0.000014
Log-likelihood - 1822.250 Akaike criterion 3648.499
Schwarz criterion 3656.580 Hannan-Quinn 3651.693


const 686,032 8,72822 78,60 <0,0001 ***
str −1,10130 0,432847 −2,544 0,0113 **
el_pct −0,649777 0,0310318 −20,94 <0,0001 ***

F(2, 417) 223,8229 P-value(F) 9,28e-67
12
Assunzioni per OLS nella regressione multipla
1. 𝐸 𝑢𝑖 |𝑋1𝑖 , … , 𝑋𝑘𝑖 = 0
2. (𝑋1𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖 ) sono i.i.d.
3. Outliers sono improbabili
4. Assenza di collinearità perfetta: nessun regressore è funzione lineare di

altri regressori; es. 𝑋2𝑖 = 𝛼0 + 𝛼1 𝑋1𝑖
13
Collinearità: collinearità perfetta
• Si osserva quando un regressore è funzione lineare di altri.
Esempio:
– 𝑋2 = 𝑃𝑐𝑡𝐸𝐿 = "% studenti non madrelingua inglese"
– 𝑋3 = 𝑃𝑐𝑡𝐸𝑆 = "% studenti madrelingua inglese" ⇒ 𝑋3 = 100 − 𝑋2
• 𝑋3 non serve a nulla perché non fornisce alcun contributo originale:

dato 𝑋2 si sa già quanto vale 𝑋3
• Rende impossibile trovare un’unica stima OLS, perché ci sono infinite
equazioni equivalenti.
• Rende impossibile il ceteris paribus
• La collinearità imperfetta viene in genere segnalata dal software: ad es. Gretl
esclude automaticamente la variabile
14
Collinearità: quasi collinearità
a) Se c’è collinearità perfetta tra 𝑋2 𝑒 𝑋3 allora 𝐶𝑜𝑟𝑟 𝑋2 , 𝑋3 = ±1
b) C’è quasi collinearità quando due o più regressori sono molto correlati:
𝐶𝑜𝑟𝑟 𝑋2 , 𝑋3 ⇒ 0.8
• Nel caso b) il metodo OLS può essere applicato, ma le stime di almeno uno dei
regressori «quasi collineari» risulta imprecisa
• Questo perché gli stimatori sono molto variabili, come dimostato da SE
elevati!
• In pratica per ogni regressore «quasi collineare» c’è poca informazione
specifica (spiegabile unicamente da quel regressore): è come se i dati utili non
fossero n , ma molti di meno!!!
15

const 686,032 8,72822 78,60 <0,0001 ***
str −1,10130 0,432847 −2,544 0,0113 **
el_pct −0,649777 0,0310318 −20,94 <0,0001 ***

F(2, 417) 223,8229 P-value(F) 9,28e-67
REG_coll_qp:OLS, usando le osservazioni 1-420

• 𝑅 2 è aumentato (di poco) Coefficiente Errore Std. rapporto t p-value

• 𝑅ത 2 non è però aumentato const 707,371 74,6238 9,479 <0,0001 ***
X1=str −1,11083 0,432994 −2,565 0,0107 **
• SER non è diminuito X2=el_pct −0,860737 0,736264 −1,169 0,2430
• I criteri non sono diminuiti X3*** −0,211711 0,734904 −0,2881 0,7734
• Gli SE di X2 e X3 sono elevati Media var. dipendente 654,1565 SQM var. dipendente 19,05335
F(3, 416) 150,2107 P-value(F) 5,93e-66
16
*** Corr(X2, X3) = -0,9985
Distribuzione degli stimatori OLS nella regressione multipla
• Se valgono le 4 assunzioni precedenti, gli stimatori OLS dei coefficienti

della regressione multipla sono:
– Non distorti: 𝐸 𝛽መℎ = 𝛽ℎ
– Consistenti 𝛽መℎ → 𝛽ℎ
• Inoltre se il campione è sufficientemente grande, gli stimatori 𝛽ℎ sono

anche distribuiti normalmente
17

Cap 06 5ed

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Cap 06 5ed

Caricato da

Copyright:

Formati disponibili

Regressione lineare

• Si può dimostrare che se non vale la prima assunzione, cioè: 𝐸 𝑢𝑖 𝑋𝑖 ≠ 0

• Ricordiamo che: 𝐶𝑜𝑟𝑟 𝑢𝑖 , 𝑋𝑖 ≠ 0 ⇒ 𝐸 𝑢𝑖 𝑋𝑖 ≠ 0

– Soddisfa i requisiti a) e b) ⇒ distorsione

2. Ora del test

– Soddisfa a) ma non b) ⇒ non distorsione

3. Rapporto area di parcheggio auto degli insegnanti/studente

– Soddisfa b) ma non a) ⇒ non distorsione

4. ‘‘Effetto Mozart’’(Nature 1993)

Il modello di regressione diventa ora:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖 + 𝑢𝑖 𝑐𝑜𝑛 𝐸 𝑢𝑖 |𝑋1𝑖 , 𝑋2𝑖 = 0

N.B. Il modello sopra è quello classico senza assunzione diretta su 𝜷𝟏

Qunidi: E 𝑌𝑖 |𝑋1𝑖 + 1, 𝑋2𝑖 − E 𝑌𝑖 |𝑋1𝑖 , 𝑋2𝑖 =

• 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + ⋯ + 𝛽𝑘𝑖 𝑋𝑘𝑖 + 𝑢𝑖 𝑐𝑜𝑛 𝐸 𝑢𝑖 |𝑋1𝑖 , … , 𝑋𝑘𝑖 = 0

• 𝛽𝑗 misura la variazione attesa di 𝑌 in seguito ad una variazione unitaria di

• Se l’effetto delle variabili omesse non dipende in media dai regressori,

• 𝛽0 indica il valore atteso di 𝑌 quando tutti i regressori valgono zero

• A noi interessa il criterio, il calcolo lo fa il software!!!

OLS_2: OLS, usando le osservazioni 1-420

Coefficiente Errore Std. rapporto t p-value

Media var. dipendente 654,1565 SQM var. dipendente 19,05335

N.B. Nella regressione semplice avevamo osservato 𝛽መ1 =-2,28

1) L’errore standard della regressione: 𝑆𝐸𝑅 = 𝑠𝑢2

• Si divide per 𝑛 − 𝑘 − 1 per avere una stima corretta: 𝐸(𝑠𝑢2 ) = 𝜎𝑢2

– 𝑅ത 2 cresce solo se l’aggiunta del regressore diminuisce 𝑠𝑢2

• Il software Gretel riporta per ogni modello stimato anche la log-

• Qui non andiamo a vedere come sono calcolati!

• L’aggiunta di un regressore è consigliata se il criterio scelto diminuisce.

Coefficient Std. Error t-ratio p-value

Mean dependent var 654.1565 S.D. dependent var 19.05335

OLS_2: OLS, usando le osservazioni 1-420

Coefficiente Errore Std. rapporto t p-value

Media var. dipendente 654,1565 SQM var. dipendente 19,05335

2. (𝑋1𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖 ) sono i.i.d.

3. Outliers sono improbabili

4. Assenza di collinearità perfetta: nessun regressore è funzione lineare di

• 𝑋3 non serve a nulla perché non fornisce alcun contributo originale:

Coefficiente Errore Std. rapporto t p-value

Media var. dipendente 654,1565 SQM var. dipendente 19,05335

REG_coll_qp:OLS, usando le osservazioni 1-420

• 𝑅 2 è aumentato (di poco) Coefficiente Errore Std. rapporto t p-value

• Se valgono le 4 assunzioni precedenti, gli stimatori OLS dei coefficienti

• Inoltre se il campione è sufficientemente grande, gli stimatori 𝛽ℎ sono

Potrebbero piacerti anche