Sei sulla pagina 1di 17

Regressione lineare

con
regressori multipli
Capitolo 6
Introduzione all’econometria
J.H. Stock, M.W. Watson
Distorsione da variabile omessa
• Consideriamo il modello causale:
Δ𝑌
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 con 𝛽1 = Δ𝑋𝑖 𝑐. 𝑝.
𝑖

• Si può dimostrare che se non vale la prima assunzione, cioè: 𝐸 𝑢𝑖 𝑋𝑖 ≠ 0


෢1 è distorta, cioè: 𝐸 𝛽
la stima OLS 𝛽 ෢1 ≠ 𝛽1

• Ricordiamo che: 𝐶𝑜𝑟𝑟 𝑢𝑖 , 𝑋𝑖 ≠ 0 ⇒ 𝐸 𝑢𝑖 𝑋𝑖 ≠ 0


• Quindi ogni variabile omessa che:
a) incide su 𝑌𝑖 (il suo effetto è incluso in 𝑢𝑖 )
b) ed è correlata con 𝑋𝑖
෢1
comporta una distorsione nella stima 𝛽

2
4 casi per riflettere
1. Percentuale di studenti non madrelingua inglese

– Soddisfa i requisiti a) e b) ⇒ distorsione

2. Ora del test

– Soddisfa a) ma non b) ⇒ non distorsione

3. Rapporto area di parcheggio auto degli insegnanti/studente

– Soddisfa b) ma non a) ⇒ non distorsione

4. ‘‘Effetto Mozart’’(Nature 1993)

3
Il modello di regressione multipla con due regressori
Assumiamo che:
• esista una sola variabile 𝑋2 , correlata con 𝑋1 , avente effetto su 𝑌
• sia vera la relazione: E 𝑌𝑖 |𝑋1𝑖 , 𝑋2𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖

Il modello di regressione diventa ora:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖 + 𝑢𝑖 𝑐𝑜𝑛 𝐸 𝑢𝑖 |𝑋1𝑖 , 𝑋2𝑖 = 0

N.B. Il modello sopra è quello classico senza assunzione diretta su 𝜷𝟏

4
Che significato attribuire a 𝜷𝟏 ?
Abbiamo assunto: E 𝑌𝑖 |𝑋1𝑖 , 𝑋2𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖

Qunidi: E 𝑌𝑖 |𝑋1𝑖 + 1, 𝑋2𝑖 − E 𝑌𝑖 |𝑋1𝑖 , 𝑋2𝑖 =


= 𝛽0 + 𝛽1 𝑋1𝑖 + 1 + 𝛽2𝑖 𝑋2𝑖 − 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2𝑖 𝑋2𝑖 =
= 𝛽1
• 𝛽1 è la variazione attesa di 𝑌 quando 𝑋1 aumenta di 1 e si tiene costante
(si controlla) 𝑋2 ma si lascia libero tutto il resto.
• Se 𝑋2 è la sola variabile correlata con 𝑋1 , avente effetto su 𝑌, allora 𝛽1 è
l’effetto causale di 𝑋1 su 𝑌
• 𝛽0 è il valore atteso di 𝑌 quando 𝑋1 e 𝑋2 sono pari a 0!

5
Il modello di regressione multipla con k regressori

• 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + ⋯ + 𝛽𝑘𝑖 𝑋𝑘𝑖 + 𝑢𝑖 𝑐𝑜𝑛 𝐸 𝑢𝑖 |𝑋1𝑖 , … , 𝑋𝑘𝑖 = 0

• 𝛽𝑗 misura la variazione attesa di 𝑌 in seguito ad una variazione unitaria di


𝑋𝑗 fermo restando solo gli altri regressori

• Se l’effetto delle variabili omesse non dipende in media dai regressori,


ogni coefficiente 𝛽𝑗 rappresenta l’effetto causale di 𝑋𝑗 su 𝑌

• 𝛽0 indica il valore atteso di 𝑌 quando tutti i regressori valgono zero

6
Il metodo OLS nella regressione multipla
• Gli stimatori OLS 𝛽መ0 , 𝛽መ1 , … , 𝛽መ𝑘 forniscono i valori di 𝑏0 , 𝑏1 , … , 𝑏𝑘 che rendono
2
minima la somma degli scarti al quadrato 𝑌𝑖 − 𝑌෡𝑖 :

෍ 𝑌𝑖 − 𝑏0 − 𝑏1 𝑋1𝑖 − ⋯ − 𝑏𝑘 𝑋𝑘𝑖 2

𝑖=1

• Esistono formule per calcolare 𝛽መ0 , 𝛽መ1 , … , 𝛽መ𝑘 , che però non riportiamo perché sono
complesse (per lo più riportate come calcolo matriciale)

• A noi interessa il criterio, il calcolo lo fa il software!!!

7
Esempio sul caso allo studio

OLS_2: OLS, usando le osservazioni 1-420


Variabile dipendente: testscr
Errori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-value


const 686,032 8,72822 78,60 <0,0001 ***
str −1,10130 0,432847 −2,544 0,0113 **
el_pct −0,649777 0,0310318 −20,94 <0,0001 ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335


Somma quadr. residui 87245,29 E.S. della regressione 14,46448
R-quadro 0,426431 R-quadro corretto 0,423680
F(2, 417) 223,8229 P-value(F) 9,28e-67
Log-verosimiglianza −1716,561 Criterio di Akaike 3439,123
Criterio di Schwarz 3451,243 Hannan-Quinn 3443,913

N.B. Nella regressione semplice avevamo osservato 𝛽መ1 =-2,28

8
Misure di adattamento della regressione multipla

1) L’errore standard della regressione: 𝑆𝐸𝑅 = 𝑠𝑢2

2
σ𝑛𝑖=1 𝑢ො 𝑖2 σ𝑛𝑖=1 𝑌𝑖 − 𝑌෠𝑖 𝑆𝑆𝑅
dove: 𝑠𝑢2 = = =
𝑛−𝑘−1 𝑛−𝑘−1 𝑛−𝑘−1

• Si divide per 𝑛 − 𝑘 − 1 per avere una stima corretta: 𝐸(𝑠𝑢2 ) = 𝜎𝑢2


• SER indica l’ampiezza media degli errori u, quindi la rilevanza dei regressori omessi
• Al crescere dei regressori 𝑆𝑆𝑅 diminuisce, ma non è detto che 𝑆𝐸𝑅 diminuisca
• Più piccolo è 𝑆𝐸𝑅, più accurato è il modello

9
R2 ed R2 corretto

2) L’𝑹𝟐 = 1 − 𝑆𝑆𝑅Τ𝑇𝑆𝑆
– R2 cresce sempre al crescere dei regressori perché SSR decresce
(anche se il regressore aggiunto non porta informazione utile per Y)

𝟐 𝑆𝑆𝑅/(𝑛−𝑘−1) 𝑠2
3) L’𝑹 corretto = 1 − 𝑇𝑆𝑆/(𝑛−1) =1− 𝑢
𝑠2
𝑌

– 𝑅ത 2 cresce solo se l’aggiunta del regressore diminuisce 𝑠𝑢2


– quindi 𝑅ത 2 cresce se il regressore porta informazione utile per Y
(prima contenuta in u)

10
Ulteriori criteri di valutazione

• Il software Gretel riporta per ogni modello stimato anche la log-


verosimiglianza e 3 criteri:
1) Criterio di Akaike (AIC)
2) Il Criterio bayesiano di Schwarz (SBC)
3) Il Criterio di Hannan-Quinn (HQC)

• Qui non andiamo a vedere come sono calcolati!

• L’aggiunta di un regressore è consigliata se il criterio scelto diminuisce.

11
Model 1: OLS, using observations 1-420
Dependent variable: testscr
Heteroskedasticity-robust standard errors, variant HC1

Coefficient Std. Error t-ratio p-value


const 698.933 10.3644 67.44 <0.0001 ***
str - 2.27981 0.519489 - 4.389 <0.0001 ***

Mean dependent var 654.1565 S.D. dependent var 19.05335


Sum squared resid 144315.5 S.E. of regression 18.58097
R-squared 0.051240 Adjusted R-squared 0.048970
F(1, 418) 19.25943 P-value(F) 0.000014
Log-likelihood - 1822.250 Akaike criterion 3648.499
Schwarz criterion 3656.580 Hannan-Quinn 3651.693

OLS_2: OLS, usando le osservazioni 1-420


Variabile dipendente: testscr
Errori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-value


const 686,032 8,72822 78,60 <0,0001 ***
str −1,10130 0,432847 −2,544 0,0113 **
el_pct −0,649777 0,0310318 −20,94 <0,0001 ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335


Somma quadr. residui 87245,29 E.S. della regressione 14,46448
R-quadro 0,426431 R-quadro corretto 0,423680
F(2, 417) 223,8229 P-value(F) 9,28e-67
Log-verosimiglianza −1716,561 Criterio di Akaike 3439,123
Criterio di Schwarz 3451,243 Hannan-Quinn 3443,913
12
Assunzioni per OLS nella regressione multipla

1. 𝐸 𝑢𝑖 |𝑋1𝑖 , … , 𝑋𝑘𝑖 = 0

2. (𝑋1𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖 ) sono i.i.d.

3. Outliers sono improbabili

4. Assenza di collinearità perfetta: nessun regressore è funzione lineare di


altri regressori; es. 𝑋2𝑖 = 𝛼0 + 𝛼1 𝑋1𝑖

13
Collinearità: collinearità perfetta
• Si osserva quando un regressore è funzione lineare di altri.
Esempio:
– 𝑋2 = 𝑃𝑐𝑡𝐸𝐿 = "% studenti non madrelingua inglese"
– 𝑋3 = 𝑃𝑐𝑡𝐸𝑆 = "% studenti madrelingua inglese" ⇒ 𝑋3 = 100 − 𝑋2

• 𝑋3 non serve a nulla perché non fornisce alcun contributo originale:


dato 𝑋2 si sa già quanto vale 𝑋3
• Rende impossibile trovare un’unica stima OLS, perché ci sono infinite
equazioni equivalenti.
• Rende impossibile il ceteris paribus
• La collinearità imperfetta viene in genere segnalata dal software: ad es. Gretl
esclude automaticamente la variabile

14
Collinearità: quasi collinearità
a) Se c’è collinearità perfetta tra 𝑋2 𝑒 𝑋3 allora 𝐶𝑜𝑟𝑟 𝑋2 , 𝑋3 = ±1

b) C’è quasi collinearità quando due o più regressori sono molto correlati:
𝐶𝑜𝑟𝑟 𝑋2 , 𝑋3 ⇒ 0.8

• Nel caso b) il metodo OLS può essere applicato, ma le stime di almeno uno dei
regressori «quasi collineari» risulta imprecisa
• Questo perché gli stimatori sono molto variabili, come dimostato da SE
elevati!
• In pratica per ogni regressore «quasi collineare» c’è poca informazione
specifica (spiegabile unicamente da quel regressore): è come se i dati utili non
fossero n , ma molti di meno!!!

15
OLS_2: OLS, usando le osservazioni 1-420
Variabile dipendente: testscr
Errori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-value


const 686,032 8,72822 78,60 <0,0001 ***
str −1,10130 0,432847 −2,544 0,0113 **
el_pct −0,649777 0,0310318 −20,94 <0,0001 ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335


Somma quadr. residui 87245,29 E.S. della regressione 14,46448
R-quadro 0,426431 R-quadro corretto 0,423680
F(2, 417) 223,8229 P-value(F) 9,28e-67
Log-verosimiglianza −1716,561 Criterio di Akaike 3439,123
Criterio di Schwarz 3451,243 Hannan-Quinn 3443,913

REG_coll_qp:OLS, usando le osservazioni 1-420


Variabile dipendente: testscr
Errori standard robusti rispetto all'eteroschedasticità, variante HC1

• 𝑅 2 è aumentato (di poco) Coefficiente Errore Std. rapporto t p-value


• 𝑅ത 2 non è però aumentato const 707,371 74,6238 9,479 <0,0001 ***
X1=str −1,11083 0,432994 −2,565 0,0107 **
• SER non è diminuito X2=el_pct −0,860737 0,736264 −1,169 0,2430
• I criteri non sono diminuiti X3*** −0,211711 0,734904 −0,2881 0,7734
• Gli SE di X2 e X3 sono elevati Media var. dipendente 654,1565 SQM var. dipendente 19,05335
Somma quadr. residui 87226,99 E.S. della regressione 14,48034
R-quadro 0,426552 R-quadro corretto 0,422416
F(3, 416) 150,2107 P-value(F) 5,93e-66
Log-verosimiglianza −1716,517 Criterio di Akaike 3441,034
Criterio di Schwarz 3457,195 Hannan-Quinn 3447,422
16
*** Corr(X2, X3) = -0,9985
Distribuzione degli stimatori OLS nella regressione multipla

• Se valgono le 4 assunzioni precedenti, gli stimatori OLS dei coefficienti


della regressione multipla sono:
– Non distorti: 𝐸 𝛽መℎ = 𝛽ℎ
– Consistenti 𝛽መℎ → 𝛽ℎ

• Inoltre se il campione è sufficientemente grande, gli stimatori 𝛽ℎ sono


anche distribuiti normalmente

17

Potrebbero piacerti anche