Sei sulla pagina 1di 25

Il modello di regressione lineare

con un singolo regressore


Capitolo 4
Introduzione all’econometria
J.H. Stock, M.W. Watson
Caso Studio: i distretti scolastici della California

• 420 distretti scolastici di scuola primaria.


• Due obiettivi:

1. Prevedere quale sarà il punteggio medio ai test di fine


ciclo in una scuola dove si è noto il rapporto
studenti/insegnanti (ad es. 26)
2. Stimare l’effetto sui punteggi di fine ciclo di una
diminuzione di 2 unità del rapporto studenti/insegnanti

2
Definiamo un modello previsionale
Un modello è una rappresentazione formalizzata e semplificata della realtà
basata su assunzioni!

• 𝑌 = 𝑇𝑒𝑠𝑡𝑆𝑐𝑜𝑟𝑒
• 𝑋 = 𝐶𝑙𝑎𝑠𝑠𝑆𝑖𝑧𝑒 = 𝑆𝑇𝑅 𝑠𝑡𝑢𝑑𝑒𝑛𝑡/𝑡𝑒𝑎𝑐ℎ𝑒𝑟 𝑟𝑎𝑡𝑖𝑜

• Assumiamo che nella popolazione di tutti i possibili esiti osservabili valga la


relazione:
𝐸(𝑌𝑖 |𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖 ∀ 𝑑𝑖𝑠𝑡𝑟𝑒𝑡𝑡𝑜 𝑖

• Se, ad esempio 𝛽0 = 690 e 𝛽1 = −2, allora avremo la previsione:


𝑌෠𝑖 = 𝐸(𝑌𝑖 𝑋𝑖 = 26 = 690 − 2 ∙ 26 = 638

3
Modello di regressione classico
𝐸(𝑌𝑖 |𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖

1. 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖
2. 𝐸 𝑢𝑖 |𝑋𝑖 = 0
𝛽0 + 𝛽1 𝑋

N.B. Supponiamo che i punti sopra siano una buona rappresentazione della popolazione

• 𝛽0 + 𝛽1 𝑋 è la retta di regressione (in senso classico) tra Y e X nella


popolazione
• Tale retta descrive come varia la media 𝐸(𝑌𝑖 |𝑋𝑖 ) al variare di 𝑋𝑖 nella
popolazione
• 𝑢𝑖 è lo scarto dovuto all’effetto su 𝑌𝑖 di tutti gli altri fattori influenti, omessi dal
modello, e non spiegabili linearmente tramite 𝑋𝑖 (effetto residuo)
4
Stima dei cofficienti della retta di regressione:
il metodo OLS (minimi quadrati ordinari)
• I coefficienti 𝛽0 e 𝛽1 non sono generalmente noti
• Quindi 𝛽0 e 𝛽1 vanno stimati utilizzando un campione di dati (ad es.
i dati dell’ultimo anno scolastico nei 420 distretti)
• Ma ci vuole anche un criterio!
• Il criterio è che la retta stimata: 𝑌෠ = 𝛽መ0 + 𝛽መ1 𝑋
fornisca previsioni più vicine possibili alle osservazioni!

2
Quindi: (𝛽መ0 , 𝛽መ1 ) ⇒ min σ𝑛𝑖=1 𝑌𝑖 − 𝑌෠𝑖

5
Formule degli stimatori OLS

6
Esempio numerico con tre osservazioni
ഥ ) (𝒀 − 𝒀
ഥ) ഥ 𝟐 ഥ )(𝒀 − 𝒀
ഥ) ෡
obs. 𝑿 𝒀 (𝑿 − 𝑿 𝑿−𝑿 (𝑿 − 𝑿 𝒀 ෝ
𝒖 ത 𝑖 − 𝑌)
σ𝑖(𝑋𝑖 − 𝑋)(𝑌 ത
1 22 643 -4 5 16 -20 646 -3 𝛽መ1 =
2 26 644 0 6 0 0 638 6
σ𝑖 𝑋𝑖 − 𝑋ത 2
64
3 30 627 4 -11 16 -44 630 -3 = − 32 = −2
somma 78 1914 32 -64 1914 0
media 26 638 638 0

Y
650

𝛽መ0 = 𝑌ത − 𝛽መ1 𝑋ത
645
= 638 − −2 26
= 690 640

635

630

625
18 20 22 24 26 28 30 32

7
Applicazione al Caso Studio

• Pendenza stimata: 𝛽መ1 = −2,28


• Intercetta stimata: 𝛽መ0 = 698,9
• Retta di regressione stimata: 𝑌෠𝑖 = 698,9 − 2,28𝑋𝑖
8
Esempio: Il beta di un titolo

La teoria del Capital Assets Pricing Model (CAPM) sostiene che in un mercato
efficiente:

𝑅 − 𝑅𝑓 = 𝛽 𝑅𝑚 − 𝑅𝑓

• 𝑅= Rendimento atteso di un titolo azionario


• 𝑅𝑓 = Rendimento di un titolo privo di rischio, ad es. BOT a 1 anno
• 𝑅𝑚 = Rendimento atteso del mercato azionario

• 𝛽 indica quanto il titolo è più rischioso 𝛽 > 1 o meno rischioso (𝛽 < 1) rispetto
al mercato.

N.B. Quindi I titoli che rendono di più (meno) della media del mercato, sono
inevitabilmente più (meno) rischiosi!!

9
Il metodo OLS per stimare il beta di un titolo

La relazione:
𝑅 − 𝑅𝑓 = 𝛽 𝑅𝑚 − 𝑅𝑓

è una relazione media in un periodo, ma ogni giorno 𝑡 si osservano scostamenti, per


cui:

𝑅𝑡 = 𝛽0 + 𝛽𝑅𝑚,𝑡 + 𝑢𝑖

dove 𝛽0 = 1 − 𝛽 𝑅𝑓

Il coefficiente 𝛽 può quindi essere stimato con il metodo OLS utilizzando i rendimenti,
𝑅𝑡 e 𝑅𝑚,𝑡 di un periodo

10
Esempio (un po’ datato!)
ALERTS COEFFICIENTI
Rilevazione al
Rilevazione al 12.3.1999
17.3.1999
TITOLI Beta_0 BETA VOLATILITA'
ALITALIA 0,04 0,86 13,54
ALLEANZA -0,11 1,17 9,06
B.CA DI ROMA -0,30 1,33 15,51
B.CA
-0,03 1,35 15,18
FIDEURAM
B.CA INTESA -0,04 1,13 12,04
BENETTON -0,05 0,96 7,51
COMIT -0,06 1,25 11,18
COMPART -0,17 1,17 13,72
EDISON 0,05 0,85 13,11
ENI 0,01 0,77 4,65
FIAT -0,18 1,20 12,52
FINMECCANIC
0,09 1,03 16,62
A

11
Misure di bontà di adattamento: l’indice 𝑹𝟐

La seguente uguaglianza è valida per ogni regressione stimata con il metodo OLS:
𝑛 𝑛 𝑛
2 2
෍ 𝑌𝑖 − 𝑌ത 2
= ෍ 𝑌෠𝑖 − 𝑌ത + ෍ 𝑌𝑖 − 𝑌෠𝑖
𝑖=1 𝑖=1 𝑖=1

𝑻𝑺𝑺 = 𝑬𝑺𝑺 + 𝑺𝑺𝑹

𝑬𝑺𝑺 𝑺𝑺𝑹
Definiamo l’indice: 𝑹𝟐 = =𝟏−
𝑻𝑺𝑺 𝑻𝑺𝑺

0 ≤ 𝑅2 ≤ 1

𝐸𝑆𝑆 = 0 ⇔ 𝑌෠𝑖 = 𝑌ത ∀ 𝑖 𝑆𝑆𝑅 = 0 ⇔ 𝑌෠𝑖 = 𝑌𝑖 ∀ 𝑖


adattamento nullo adattamento perfetto

12
L’errore standard della regressione, SER
Stima l’ampiezza media degli errori 𝑢𝑖 :
𝑆𝐸𝑅 = 𝑠𝑢ෝ2
dove:
𝑛
1 𝑆𝑆𝑅
𝑠𝑢ෝ2 = ෍ 𝑢ො 𝑖2 =
𝑛−2 𝑛−2
𝑖=1

Nota 𝑆𝐸𝑅 ≥ 0;
𝑆𝐸𝑅 = 0 ⇔ adattamento perfetto
1
𝑠𝑌2 = ෍ 𝑌𝑖 − 𝑌ത 2
𝑆𝐸𝑅 ≈ 𝑠𝑌2 ⇔ adattamento nullo 𝑛−1

13
Modello classico e Modello causale

Il modello regressivo classico:


𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊 + 𝒖𝒊
𝑬 𝒖𝒊 |𝑿𝒊 = 𝟎
• Se è vero, fornisce previsioni ottimali (errori di ampiezza media più piccola)
• Tuttavia 𝛽1 ≠ 𝚫𝒀𝒊 Τ𝚫𝑿𝒊 𝒄. 𝒑. (c.p. = ceteris paribus = a parità di tutto il resto), ovvero
l’effetto causale di 𝑋 su 𝑌
• Per stimare opportunamente tale effetto causale occorre definire un modello simile con
opportune assunzioni (modello causale)

14
Modello causale
Definiamo il modello regressivo causale:
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊 + 𝒖𝒊
𝜷𝟏 = 𝚫𝒀𝒊 Τ𝚫𝑿𝒊 𝒄. 𝒑.

• In questo modello 𝑢𝑖 è l’errore dovuto all’effetto pieno di tutti gli altri fattori influenti su 𝑌

• Le stime OLS di 𝛽෠0 e 𝛽෠1 per essere accettabili richiedono opportune assunzioni

15
Assunzioni del metodo OLS

ASSUNZIONE 1 (A1): 𝐸 𝑢𝑖 𝑋𝑖 = 0
Significato: L’effetto 𝑢𝑖 dei fattori omessi deve essere mediamente nullo
ad ogni livello di 𝑋𝑖

N.B. Con tale assunzione il modello causale e classico coincidono!

16
Assunzioni del metodo OLS
A1: 𝐶𝑜𝑚𝑒 𝑐𝑎𝑝𝑖𝑟𝑒 𝑠𝑒 è 𝑠𝑜𝑑𝑑𝑖𝑠𝑓𝑎𝑡𝑡𝑎?

a. Se non abbiamo il controllo dei dati (dati osservazionali non sperimentali)


ragioniamo su possibili correlazioni tra fattori omessi e 𝑋 (slide successive)

b. Se possiamo controllare i dati (esperimento) facciamo un Esperimento


Controllato Casualizzato (ECC) in modo che i fattori omessi abbiano
sempre effetto medio nullo!

17
Correlazione e indipendenza in media

𝐸 𝑢𝑖 𝑋𝑖 = 0 ⇒ 𝐶𝑜𝑟𝑟 𝑢𝑖 , 𝑋𝑖 = 0

𝐶𝑜𝑟𝑟 𝑢𝑖 , 𝑋𝑖 ≠ 0 ⇒ 𝐸 𝑢𝑖 𝑋𝑖 ≠ 0

• Correlazione vuol dire che al crescere di 𝑋𝑖 , 𝑢𝑖 tendenzialmente cresce o decresce

• Se l’assunzione A1 non è soddisfatta, allora tra i fattori omessi, espressi da 𝑢𝑖 , c’è ne


qualcuno che è correlato con 𝑋𝑖

• Nell’esempio dei distretti, i distretti con classi più grandi potrebbero avere più alunni di
famiglia straniera (alunni che hanno difficoltà con la lingua inglese!)

18
Esperimento Controllato Casualizzato
Esempio: Si vuole capire di quanto si riducono i giorni di guarigione, Y, se si utilizza
una nuova terapia, codificata con X=1 (terapia tradizionale X=0)
Nell ECC le unità di osservazione (pazienti) vengono assegnate casualmente al
gruppo di trattamento (X=1) o al gruppo di controllo (X=0).
Giorni di guarigione con ECC
14

12
y = -3x + 10
10
• 𝐸 𝑢𝑖 𝑋𝑖 = 0 = 0
8

6 • 𝐸 𝑢𝑖 𝑋𝑖 = 1 = 0
4

2
Retta di regressione nella popolazione
0
-0.5 0 0.5 1 1.5

19
Esperimento sbagliato
Esempio: Stesso esempio di prima, ma adesso il gruppo di trattamento (X=1) sono
pazienti anziani e quello di controllo sono giovani (X=0)

Giorni di guarigione
14

12
y = -3x + 10
10

8 • 𝐸 𝑢𝑖 𝑋𝑖 = 0 < 0
y=x+8
6 • 𝐸 𝑢𝑖 𝑋𝑖 = 1 > 0
4

0
-0.5 0 0.5 1 1.5

• La linea rossa indica la retta di regressione causale


• La linea azzurra indica la retta di regressione stimata (OLS) in questo esperimento

20
Assunzioni del metodo OLS

ASSUNZIONE 2 (A2): 𝑋𝑖 , 𝑌𝑖 𝑖 = 1, … , 𝑛 sono i.i.d. (𝑖𝑛𝑑𝑖𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑖 𝑒


𝑖𝑑𝑒𝑛𝑡𝑖𝑐𝑎𝑚𝑒𝑛𝑡𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖𝑡𝑒)

• L’A2 è soddisfatta quando le n osservazioni 𝑋𝑖 , 𝑌𝑖 sono un: campione casuale


semplice;

• L’A2 non è soddisfatta quando:


a) si fissano a priori i valori delle 𝑋𝑖 (𝑋𝑖 non casuali, esperimenti non ECC)
b) le osservazioni 𝑋𝑖 , 𝑌𝑖 sono in sequenza storica

Nei casi a) e b) il metodo OLS può funzionare ancora, ma bisogna stare molto attenti
che l’A1 sia soddisfatta.

21
Assunzioni del metodo OLS

ASSUNZIONE 3 (A3): gli outliers (dati che si discostano molto dalla media)
sono improbabili

SI’
L’A3 è sempre soddisfatta quando:
𝑌𝑖 |𝑋𝑖 ~𝑁 ⟹

NO
⟸ Se l’A3 non è vera, allora gli outliers si
ripetono non di rado nei grandi campioni
creando problemi vari

Ad es. non vale l’approssimazione normale


degli stimatori nei grandi campioni

22
Ricapitoliamo per non fare confusione

La retta calcolata con il metodo OLS su un campione casuale (A2):


𝑌෠𝑖 = 𝛽መ0 + 𝛽መ1 𝑋𝑖
• è sempre una stima corretta del modello classico (modello predittivo)
• è anche una stima corretta del modello causale se gli altri fattori influenti, esclusi
dal modello, hanno effetto nullo nelle osservazioni osservate (A1)
• L’assenza di outliers (A3) è una condizione necessaria affinché le stime abbiano
distribuzione normale in grandi campioni.

23
Distribuzione campionaria degli stimatori OLS

• Non dimentichiamo mai che uno stimatore è una v.c., ovvero fornisce stime
che variano al variare del campione!!!
• Gli stimatori 𝛽መ0 e 𝛽መ1 sono v.c. e quindi hanno una loro distribuzione;
• Se valgono le assunzioni fatte, le distribuzioni degli stimatori 𝛽መ0 e 𝛽መ1 sono
Normali, anche se Y e X non lo sono, purché il campione sia abbastanza
grande;

Inoltre, se valgono le tre assunzioni precedenti:


• Gli stimatori OLS sono corretti: 𝐸 𝛽መ1 = 𝛽1 𝐸 𝛽መ0 = 𝛽0
• Gli stimatori sono OLS consistenti: 𝛽መ1 → 𝛽1 𝛽መ0 → 𝛽0

24
Esempio di output di stima OLS con Gretl

Model 1: OLS, using observations 1-420


Dependent variable: testscr
Heteroskedasticity-robust standard errors, variant HC1

Coefficient Std. Error t-ratio p-value


const 698.933 10.3644 67.44 <0.0001 ***
str - 2.27981 0.519489 - 4.389 <0.0001 ***

Mean dependent var 654.1565 S.D. dependent var 19.05335


Sum squared resid 144315.5 S.E. of regression 18.58097
R-squared 0.051240 Adjusted R-squared 0.048970
F(1, 418) 19.25943 P-value(F) 0.000014
Log-likelihood - 1822.250 Akaike criterion 3648.499
Schwarz criterion 3656.580 Hannan-Quinn 3651.693

25

Potrebbero piacerti anche