Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Per questo compito useremo funzioni che analizzano una variabile in funzione di altre
Esempio: Q d = f (P, P s, P c, R E DD) per studiare la quantità domandata in funzione del prezzo del bene, prezzo dei
beni sostituti, prezzo dei beni complementari e reddito
Essendo il fine del modello econometrico spiegare la realtà, bisogna considerare sia le
componenti sistematiche che quelle stocastiche:
• Componente sistematica: derivata dalla teoria economica, è rappresentata dai coefficienti
β1, β2, β3 . . . che rappresentano la relazione tra le variabili della funzione ➝ forma funzionale
I coefficienti vengono chiamati parametri
Per la correttezza dell’analisi è necessario che la forma funzionale sia coerente con la teoria
economica e compatibile con le osservazioni empiriche
• Componente causale: componente di disturbo che complica la comprensione della relazione tra
le variabili, è rappresentata da +e al termine della forma funzionale
L’errore incorpora molti fattori che hanno effetto ma che sono stati omessi dal modello per
semplificazione
L’econometria, lavorando su campioni e non sulla popolazioni, è solo capace di stimare i
parametri, e lo scarto derivante dalla stima campionaria è incorporato nell’errore e
Processo di ricerca:
1. Individuazione della 2. Creazione del modello 5. Verifica della vanità delle
teoria economica, econometrico ipotesi
elencando i quesiti e 3. Raccolta di dati 6. Analisi e valutazione delle
scegliendo il modello campionari implicazioni economiche
economico 4. Stima dei parametri legate al modello
Modello di regressione lineare SEMPLICE ➝ strumento utile in tutte le situazioni in cui è chiesto
a quanto ammonterà l'effetto su una variabile di una variazione in un'altra variabile
Utilizzare l’esempio composto dalle variabili spesa alimentare (y) e reddito (x), i cui dati utilizzabili
su STATA sono raccolti in food.dta ➝ Food_exp e Income saranno le nostre variabili
Chiameremo varianza condizionale di y la misura della dispersione della spesa attorno alla
media μy|x ➝ è dato da Var (y | x = 1000) = σ 2
STATA:
Bisogna utilizzare il comando reg+[variabile y]+[variabile x]
Il risultato del comando è una tabella, concentriamoci
sulla seconda riga prima colonna
.005
.004
.003
.003
Density
Density
.002
.002
.001
.001
0
100 200 300 400 500 600 100 200 300 400 500 600
household food expenditure per week household food expenditure per week
Per avere un grafico di dispersione invece bisogna passare dal menu-graphics-twoway graph-
create-basic plots-scatter
Per avere una retta di regressione sopra al grafico di dispersione bisogna tornare su menu-
graphics-twoway graph-create-fit plots-linear prediction
600
500
400
300
200
100
0 10 20 30 40
weekly household income
Per alcuni modelli economici sarà necessario calcolare la regressione senza valore b1, in quanto
non ha valore la stima che interseca l’asse (a x = 0 ) ➝ in queste occasioni la regressione va
stimata con il comando reg+[variabile y]+[variabile x]+, noconstant
Il risultato sarà una nuova tabella, con stime differenti dalla precedente, che calcola solo b2
Modello Log Log: log (y) = β1 + β2log(x) + e ➝ consideriamo questo modello poiché,
essendo logaritmico e non lineare, ha elasticità costante
➝ il modello rimane lineare nei parametri β1, β2, mentre non è lineare nelle variabili y, x
dy x
ϵ= = β2 ➝ ϵ ̂ = b2
dx y
La particolarità del modello è che la stima dell’elasticità coincide con la stima di b2, e questa è
facilmente stimabile attraverso il modello di regressione lineare
Δy y ex p(β1 + β2logx)
Per l’effetto marginale nel modello log-log ricaviamo = β2 = β2
Δx x x
Modelli Econometrici Pagina 6 di 52
STATA:
Si utilizza il comando gen+[nome variabile]+=+[relazione] per creare le
nuove variabili logaritmiche ➝ come relazione utilizziamo log+( [nome
variabile] ) per creare il logaritmo di y e x ➝ attraverso il comando reg+
[variabile y]+[variabile x] stimo i parametri della regressione b1, b2
∑
Giungiamo attraverso passaggi aritmetici alla forma b2 = β2 + wi ei ➝ e è l’errore casuale del
modello regressione
Definiamo uno stimatore corretto se il valore atteso equivale al vero valore del parametro stimato
➝ E(b2 ) = β2 ➝ nella pratica questa proprietà è dimostrabile con i campioni ripetuti
➝ presi numerosi campioni della popolazione aventi la stessa numerosità, la media aritmetica
delle stime di β2 attraverso lo stimatore b2 è il valore corretto del parametro β2
Per giungere a questo risultato è fondamentale l’ipotesi secondo la quale il valore atteso del
=0
∑
termine di errore è nullo E(e) = 0 ➝ E(b2) = β2 + wi E(e) = β2
➝ il teorema è valido per gli stimatori dei minimi quadrati, non le stime calcolate a partire da un
campione
se(b1) = ̂ )
Var(b se(b2) = ̂ )
Var(b
1 2
STATA:
Attraverso il comando reg+[variabile y]+[variabile x] ritorniamo sulla tabella delle stime generata
Nella tabella dei dati della regressione lineare viene riportata lo standard error degli stimatori, la
stima di σ 2 e la stima di σ
Questi valori vengono identificati anche dai comandi lincom e nlcom ➝ questi comandi si usano
rispettivamente per calcolare espressioni di stime lineari e non lineare (al pari del comando dis )
Modello Quadratico: y = α1 + α2 x 2 + e
È definito quadratico quando la variabile esplicativa è al quadrato
Il modello ha sia pendenza che elasticità che variano in tutti i punti della funzione
d(y)
➝ Pendenza: va calcolata la derivata rispetto ad x della y = 2α2 x
d(x)
x 2α2 x 2
➝ Elasticità: equivale al prodotto tra pendenza e rapporto tra le variabili ϵ = 2α2 x * =
y y
Il modello ha sia pendenza che elasticità che variano in tutti i punti della funzione
dlog(y)
➝ Pendenza: va calcolata la derivata rispetto ad x della y = γ2 y = γ2 * e γ1+γ2 x
d(x)
x
➝ Elasticità: equivale al prodotto tra pendenza e rapporto tra le variabili ϵ = γ2 y * = γ2 x ➝
y
viene chiamata semielasticità
STATA:
Per stimare il modello quadratico ŷ = α1 + α2 x 2 dobbiamo
innanzitutto creare la variabile quadratica con il comando gen+
[nome variabile]=[relazione] e all’interno della relazione bisogna
inserire il quadrato della variabile esplicativa x
➝ per la scelta del modello economico (lineare o meno) non c’è una regola, bisogna analizzare
ogni modello economico e ricavarne una teoria economica che ci aiuti a scegliere il modello
adatto. Ci possiamo aiutare confrontando la somma dei quadrati degli errori, oppure la varianza
σ 2 o la deviazione standard σ di questi ➝ ma il confronto è valido solo per modelli aventi la
medesima y (non si può confrontare la stima in un modello lineare con la stima in un modello
logaritmico)
̂ , β sup
Stima intervallare: coppia di numeri ( β inf ̂ ) tale che la probabilità che il vero valore di β sia
k k k
compreso tra i valori inferiore e superiore dell’intervallo sia uguale a P scelto da me
̂ ≤ β ≤ β sup
Prob{β inf ̂ }=P
k k k
Il significato di ciò è che, su campioni ripetuti, il 90 % /95 % degli intervalli calcolati contiene il
vero valore di bk
̂ , β sup
I valor di β inf ̂ dipendono dallo stimatore e dallo standard error dello stimatore
k k
STATA:
Riprendiamo il comando reg+[variabile y]+[variabile x] ritorniamo sulla tabella delle stime generata
Una stima intervallare ampia (a causa di un elevato standard error) segnala che il campione non
contiene molta informazione su β2
Al contrario una stima intervallare stretta segnala che abbiamo un'idea abbastanza precisa su
dove si trovi β2
Verifica di ipotesi ➝ verifichiamo che una congettura che ricaviamo è compatibile con il
campione
rifiuto e concludiamo se rifiutare o meno l’ipotesi nulla H0 ➝ se non viene rifiutata l’ipotesi nulla,
allora la congettura è compatibile con il cambio (non significa che sia necessariamente vera)
H1 : βk ≠ c Doppia coda
Essendo b1, b2 variabili casuali, y0̂ è una variabile casuale che chiamiamo predittore puntuale
Contemporaneamente
y0̂ Stima della y media
b1 + b2 x0
E( y0̂ ) Previsione y
Così come abbiamo studiato lo stimatore intervallare per la stima puntuale, definiamo il predittore
intervallare
Stima intervallare Predittore intervallare
costante variabile casuale
pr ob{ ̂
β inf ≤ β ≤ ̂
β sup } pr ob{ ŷinf
0
≤ y0 ≤ ŷ sup
0
}
variabile casuale variabile casuale variabile casuale variabile casuale
1 (x0 − x̄)2
Concentriamoci sulla varianza dell’errore di previsione Var ( f ) = σ 2[1 + + ]
N ∑ (xi − x̄)2
Notiamo similitudini con la varianza degli stimatori b1, b2 già analizzati
la varianza dell’errore di previsione diminuisce quando:
• Diminuisce la varianza degli errori σ 2
• Aumenta la numerosità campionaria N
2
• Aumenta la variabilità della variabile esplicativa ∑ (xi − x̄)
Notiamo però un nuovo elemento che influenza la
varianza, (x0 − x̄)2, il quale valore aumenta
allontanandosi dalla media e agisce direttamente
sulla varianza (aumenta la varianza all’aumentare
del valore)
• Aprire l’editor dei dati e aggiungere, infondo, l’osservazione x0 per cui vogliamo calcolare
la previsione intervallare
• Eseguire il comando predict [nome variabile] in [numero osservazione aggiuntiva] per calcolare la
previsione y0̂
• Eseguire il comando predict [nome variabile] in [numero osservazione aggiuntiva] , stdf per
calcolare lo standard error di previsione
• Calcolare l’intervallo di previsione con il comando gen+[nome variabile]+=+[relazione] inserendo
nella relazione [variabile y0̂ ]-1.96*[standard error di previsione] per il limite inferiore e [variabile
y0̂ ]+1.96*[standard error di previsione] per il limite superiore ➝ è possibile anche procedere con
il comando dis per calcolare direttamente i valori
Un intervallo largo ci dice che la previsione puntuale non è molto precisa ➝ nel nostro caso
perché il reddito, pur essendo un indicatore importante per la spesa delle famiglie, non è
sufficiente per predirne il comportamento
Per cui :
1 N 1 N 1 N 1 N =0 =0
N∑ N∑ N∑ N∑
eî = (yi − yî ) = (yi − b1 − b2 xi ) = ( yi − ȳ − b2(xi − x̄) = 0
i=1 i=1 i=1 i=1
Correlazione e R 2
La correlazione è un indice che misura il tipo di dipendenza fra due variabili
Cov(x, y) ̂
cov(x, y)
In formule è Cor r (x, y) = utilizzando le stime campionarie
var (x) var (y) ̂
se(x) ̂
* se(y)
Esiste una relazione lineare negativa tra x, y ed Esiste una relazione lineare positiva tra x, y ed
Per cor r (x, y) = 0 non c’è alcuna relazione sull’andamento di x, y ➝ i punti sono casuali
STATA:
Si utilizza il comando corr+[variabile x] [variabile y]
Riportare i risultati
• Assegnare nomi significativi alle variabili y, x e riportare le stime dei parametri
• Si può utilizzare un sistema ad asterischi * per riportare il livello di significatività accettato
• Riportare lo standard error
• Riportare l’R 2
Modelli Econometrici Pagina 18 di 52
Scala dei dati ➝ il modello è invariabile rispetto alla scala
➝ questo ci permette di scegliere la scala dei dati in relazione alle nostre necessità esplicative
Nell’esempio della spesa alimentare, riportare i dati del reddito in centinaia di dollari rispetto a
dollari rendeva la lettura del risultato più comprensibile e significativa, pur non modificando la
relazione del modello
N 2 (K − 3)2
JB = [S + ] ➝ da cui si calcola il pvalue e lo si confronta con i livelli di significatività
6 4
α = {0.01, 0.05, 0.10}
Modelli Econometrici Pagina 19 di 52
STATA:
Per prima cosa calcoliamo i residui con
il comando predict[nome variabile]+, res
Nel nostro esempio volevamo verificare H0 : e ∼ N(0,σ 2 ) ➝ il pvalue è notevolmente più grande
di tutti i livelli di significatività α = {0.01, 0.05, 0.10} ➝ per cui non si rifiuta l’ipotesi nulla
STATA:
Si procede in 4 step:
1. Con il comando predict[variabile y] si genera la previsione di
log(y)
2. Con il comando gen+[nome variabile]=[relazione] , dove la
relazione è il predittore naturale (oppure corretto, in questo caso
è indifferente perché il correlatore è identico in caso di
moltiplicazione per costanti)
3. Con il comando corr+[variabile y][variabile y]̂ per calcolare la
correlazione tra la variabile e la previsione della variabile
logaritmica
4. Con il comando dis+[relazione] , dove la relazione è il quadrato
del correlatore calcolato nel punto precedente, per calcolare R 2
STATA:
Calcoliamo la stima della regressione attraverso il solito comando reg+[variabile y]+[variabile x 2]+
[variabile x3]
Tutti i valori calcolati precedentemente per la regressione lineare hanno il medesimo significato
applicati alla regressione multipla ➝ bisogna fare attenzione ai gradi di libertà ➝ non è più N − 2
ma N − k perché abbiamo più di due parametri da sottrarre ➝ nel nostro esempio N − 3 = 72
Allo stesso tutti i comandi analizzati inizialmente per la regressione semplice rimangono invariati
Condizione di ottimabilità
Nell’esempio abbiamo considerato il fatturato in funzione di prezzo e costo di pubblicità ➝ se
consideriamo ora il modello economico Sales = β1 + β2 Pr ice + β3 Ad ver t + β4 Ad ver t 2 + e
Per l’impresa la pubblicità rappresenta un costo, dunque è profittevoli solo se inferiore al ricavo
marginale
d E(Sales)
Il ricavo marginale è ➝ |Price costante = β3 + 2β4 Ad ver t 2
d(Ad ver t)
Il costo marginale è → = 1
1 − β3
β3 + 2β4 Ad ver t 2 = 1 → Ad ver t =
2β4
Variabili di interazione nel modello lineare
➝ si utilizzano all’interno del modello lineare quando vogliamo rendere l’effetto marginale di una
variabile in funzione dell’altra ➝ rendo non costante l’effetto marginale
Per fare ciò bisogna aggiungere al modello una variabile che sia prodotto delle due variabili
Sales = β1 + β2 Pr ice + β3 Ad ver t + β4(Pr ice * Ad ver t) + e
Nel modello precedente abbiamo visto un’altra variabile di interazione che agisce sull’effetto
marginale ➝ Ad ver t 2 = Ad ver t * Ad ver t è un caso particolare
STATA:
Con il comando gen+[nome variabile]=[variabile_1]*[variabile_2], calcoliamo la stima della
regressione attraverso il solito comando reg
Per calcolare l’effetto marginale procediamo con il comando lincom+[relazione] inserendo
come relazione la derivata condizionata del modello
Un valore elevato di R 2 segnala l’esistenza di una relazione stretta fra i valori osservati di yi e
quelli previsti dal modello yî ➝ il modello si adatta bene ai dati
Un valore basso di R 2 segnala l’inesistenza di una associazione stretta fra yi e i valori previsti yî , e
il modello
non si adatta bene ai dati
➝ se per la teoria economica il modello non deve avere un valore β1 non ha senso indicare l'R 2
nei risultati
Il test F prende in analisi due modelli, e ne confronta la somma dei quadrati degli errori
Data una ipotesi nulla H0 : β2 = 0,β3 = 0,β4 = 0 si definisce
• Modello non vincolato: nel quale i vincoli imposti dalla congettura non sono applicati
y = β1 + β2 x2 + β3 x3 + β4 x4 + β45x5 + e
• Modello vincolato: nel quale i vincoli imposti dalla congettura sono applicati
y = β1 + β2 x2 + e ➝ è derivato dal modello non vincolato imponendo la congettura
Sappiamo per costruzione che un modello non vincolato, per cui con più variabili esplicative, si
adatta sempre meglio ai dati
➝ ricordiamo lo stimatore dei minimi quadrati, cioè la funzione che minimizza SQ R
N
(yi − β1 − β2 − β3 − β4 . . . )2 ➝ per cui un modello vincolato con un numero di
∑
SQ R =
i=1
parametri inferiori per forza un SQ R maggiore rispetto allo stesso modello non vincolato
La logica dietro al test F è guidata dal nominatore ➝ sapendo che un modello vincolato ha una
SQ R più grande, se la differenza è molto piccola allora l’aggiunta dei vincoli crea un modello
che si adatta ai dati quasi come quello vincolato. Viceversa se la differenza è molto grande,
allora l’aggiunta dei vincoli crea un modello che si adatta ai dati peggio rispetto a quello vincolato
Come vediamo graficamente, la ragione di rifiuto è solo a destra ➝ per cui se utilizziamo il pvalue
dobbiamo considerare la coda a destra. Questo significa che:
• Per un pvalue < α rifiutiamo l’ipotesi nulla e accettiamo quella alternativa
• Per un pvalue > α non rifiutiamo l’ipotesi nulla
STATA:
Con il comando test è possibile applicare il test F. La
sintassi generale prevede di inserire ogni vincolo tra
parentesi e separare ogni parentesi con uno spazio
test (vincolo_1) (vincolo_2)
Però quando i vincoli solo semplici (βk = 0) si può
utilizzare la sintassi semplificata inserendo solo i nomi
delle variabili di sul quale parametro vogliamo testare
un vincolo
test [variabile_1] [variabile_2]
Ovviamente con le due sintassi si giunge al medesimo
risultato
H0 : tutti i parametri βk escluso β1 sono simultaneamente nulli ➝ questo significa che nessuna
delle variabili esplicative influenza y e quindi il modello ha poca o nessuna utilità
Modelli Econometrici Pagina 24 di 52
H1 : almeno un parametro non è nullo e di conseguenza una o più variabili esplicative ha effetto
su y
Il test F può essere utilizzato anche per verificare una sola congettura ➝ caso particolare
➝ vale solo per congetture “diverso da” ➝ due code
Relazione tra statistica t & F
2
Vi è una relazione esatta tra il valore del test t e il valore del test F : t(N−K ) = F(1,N−K ) e tra il
valore critico di questi due test: tc2 = Fc per cui il pvalue dei due test coincide
Questo lo si può dedurre anche dalla relazione con il test t ➝ l’elevare al quadrato il valore fa
perdere l’informazione sul segno, che è fondamentale per i test a coda destra/sinistra
Elemento fondamentale perché il test F sia esatto è che gli errori abbiano distribuzione normale,
oppure approssimato per campioni con numerosità elevata
Test F generale
Si può verificare qualsiasi congettura con l’unico limite che sia H0 che H1 non devono essere
“maggiore” o “minore” di e che il vincolo sia lineare
1 − β3
Consideriamo il vincolo di ottimibilità della spesa pubblicitaria Ad ver t* =
2β4
Per verificare l’ipotesi che Ad ver t* = 1.9 si può procedere per due vie:
Modelli Econometrici Pagina 25 di 52
• Utilizzando un test t ed il relativo pvalue ➝ su stata si utilizza il comando nlcom per calcolare i
valori relativi al vincolo non lineare
1 − β3
Ad ver t* = 1.9 → Ad ver t* − 1.9 = 0 → − 1.9 = 0
2β4
• Utilizzando un test F ed il relativo pvalue ➝ bisogna rendere il vincolo lineare
Per rendere lineare un vincolo non lineare compatibile con il test F si può utilizzare il minimo
comune denominatore
1 − β3 1 − β3 − (1.9)2β4
Ad ver t* − 1.9 = 0 → − 1.9 = 0 → =0
2β4 2β4
Analizziamo ora quali sono i valori del denominatore 2β4 che rendono l’equazione = 0
➝ l’unico valore sarebbe β4 = ∞ , ma come sappiamo non è un valore realistico per un
parametro nel modello ➝ possiamo eliminare il denominatore
1 − β3 − (1.9)2β4
Il vincolo diventa: = 0 → 1 − β3 − (1.9)2β4 = 0
2β4
Ora possiamo inserirlo in un test F
STATA:
➝ consiglio del prof: per un singolo vincoli non lineari utilizzare strumenti (test t) che funzionano
al meglio con essi
In questo caso dobbiamo per forza utilizzare il test F perché le due congetture vanno verificate
contemporaneamente
È però anche possibile incorporare direttamente nel modello l’informazione non campionaria,
rendendo questa partecipe della regressione
STATA:
Per inserire un’informazione non campionaria all’interno della regressione si utilizza prima il
comando cons + [numero da 1 a 99] + [vincolo] per specificare il vincolo da assegnare al modello
(cioè l’informazione non campionaria). Nel nostro caso sarà β2 + β3 + β4 + β5 = 0.
Una volta specificati tutti i vincoli, si utilizza il comando cnsreg + [modello] + , cons( [numero
assegnato al vincolo] ) per eseguire la regressione integrando l’informazione non campionaria
Proprietà:
• E(b* k
) ≠ βk ➝ in generale lo stimatore
non è corretto, a meno che il vincolo sia
valido, per cui conviene sempre fare una
verifica di ipotesi prima di imporlo
• Tuttavia Var (b* k
) < Var (bk ) ➝ la varianza diminuisce per cui la precisione aumenta, anche
se il vincolo non è valido ➝ questo perché aumentano le fonti d’informazione sulla popolazione
(bisogna stimare meno parametri)
• Un vincolo non campionario può essere utile solo se valido
Il teorema di Gauss-Markov rimane valido, in quanto esso enuncia che lo stimatore dei minimi
quadrati è il più preciso tra quelli corretto, è la correttezza dello stimatore dei minimi quadrati
vincolato non è garantita
Variabili omesse: accade per svariati motivi, in primis la complessità della natura che ci circonda.
Ci sono inevitabilmente caratteristiche della realtà che non siamo capaci di riportare sotto forma
di dati misurabili
Matematica si dimostra che differenza tra la media dello stimatore e il parametro della
Cov(x̂ 2, x3)
popolazione è E(b* ) − β2 = β3
2 ̂ 2)
Var (x
Osserviamo che b* è corretto solo se Cov(x̂ 2, x3) = 0 ➝ omettere variabili
k
non è un problema solo se le variabili non sono tra di loro correlate (accade
raramente in ambito economico)
Vediamo che i parametri X5 e X6 sono irrilevanti per il modello ( pvalue>α ) e gli standard error
10/5/1
(se) sono aumentanti per HEDU e WEDU
Strumenti per la specificazione del modello
1. Scegliere variabili e forma funzionale coerenti con conoscenze economiche
2. Stime col segno sbagliato o della dimensione sbagliata possono essere sintomi di errata
specificazione
3. Fare test di significatività ➝ test t a due code o test F , servono però osservazioni per il
parametro che pensiamo sia omesso o superfluo
4. Controllare i criteri di selezione del modello ➝ confrontare modelli fra di loro nested (per cui
che uno è riconducibile all’altro attraverso imposizione di vincoli M1 ∈ M2) ➝ è importante
controllare che la variabile dipendente sia comune fra i modelli confrontati
SQ R
➝ non si utilizza R 2 =1− perché fortemente influenzato dal numero di variabili
SQT
esplicative ➝ aumenta sempre all’aumentare di variabili esplicative
➝ è utile solo nel confronto tra modelli nested con lo stesso numero di variabili k
SQ R /(N − K )
4.a. R̄2 corretto : R̄2 = 1 −
SQT /(N − 1)
dividendo numeratore e denominatore per
il loro grado di libertà ➝ questo valore non
è più la percentuale di varianza spiegata
nel modello, è un indicatore differente che
serve per la selezione del modello
R̄2 ≤ R 2
in particolare al crescere di k ⟺ R̄2
può sia diminuire che crescere
4.b. Criteri di informazione : anche questi strumenti misurano l’adattamento ai dati tenendo
conto dell’aumento di variabili k
SQ R 2K
noi ne analizziamo due Akaike (A IC ) = log + e Schwarz Bayesiano
N N
SQ R KlogN
SC(BIC ) = = log +
N N
5. Usare il test di specificazione R ESET ➝ si utilizza nel caso ci sembri manchino variabili
esplicative, ma senza avere osservazioni per esse e quindi senza poter fare i passaggi
precedenti
Ne costruiamo due:
1. Aggiunge al modello il quadrato dei valori previsti y = β1 + β2 x 2 + β3 x3 + γ1ŷ2 + e
2. Aggiunge al modello il quadrato ed il cubo dei valori previsti
y = β1 + β2 x2 + β3 x3 + γ1ŷ2 + γ2 ŷ3 + e
Questo test ci permette di individuare la mancanza di una variabile nel modello senza avere
osservazioni di essa ➝ la variabile deve essere però un polinomio di secondo/terzo grado del
modello originale
STATA:
Con il comando estat ovtest
viene eseguito il reset test
l’ultimo modello di regressione
calcolato
Collinearità
È la situazione in cui all’interno del modello ci sono variabili esplicative linearmente dipendenti
Preso un modello yi = β1 + β2 x2i + β3 x3i + β4 x4i + ei per i ∈ N si definiscono (1,x2i, x3i, x4i )
collineari se esistono αk per cui vale α11 + α2 x 2i + α3 x3i + α4 x4i = 0 per ∀i
Per cui ogni variabile è definibile come funzione lineare delle altre
1
x2i = − (α1 + α3 x3i + α4 x4i ) il che significa che la variabile è inutile ➝ perché l’informazione
α2
aggiuntiva è già presente nel modello ➝ non sarà possibile distinguere l’effetto della singola
variabile
Questo effetto fa si che non sia possibile stimare attraverso lo stimatore dei minimi quadrati
STATA:
Su stata quando viene
rilevata una collinearità, una
variabile viene
automaticamente eliminata
dal programma, senza
nessun criterio specifico e
per cui in maniera arbitraria
{β1 + β3 uom o
β1 + β2 donn a
parità di tutto il resto ➝ E(Wage) = per cui basterebbe una verifica di
{β1
β1 + β2 d on n a
➝ eliminando U il modello diventa Wage = β1 + β2 D + e per cui E(Wage) =
u om o
per cui si verifica l’ipotesi H0 : βD = 0; H1 : βD < 0
È la medesima cosa che fa STATA in automatico, ma così abbiamo controllo su quale variabile
viene eliminata ➝ equivale ad imporre una informazione non campionaria nel modello
Collinearità approssimata
Per cui α11 + α2 x 2i + α3 x3i + α4 x4i ≈ 0 ➝ per qualche osservazione è poco sopra a 0 e per
altre è poco sotto 0
Un modo per individuare la collinearità è stimare la regressione ausiliare
1
x2i = − (α1 + α3 x3i + α4 x4i ) e osservare l’R 2 ➝ per valori vicini ad 1 c’è collinearità
α2
approssimata, mentre per valori lontani da 1 non c’è collinearità
➝ conseguenze della collinearità: rende meno preciso il processo di stima dei parametri ➝ agisce
σ2
sulla Var dello stimatore Var (bk ) = 2
dove r23 = Cor r (x̂ 2, x3) ➝ per cui
(1 − r23) ∑ (x2i − x̄2)
2 2
per correlazione ~ 1, la varianza aumenta fino a raggiungere un valore infinito
Anche in questo caso la soluzione del modello è eliminare una variabile che crea collinearità
{0 caratteristica assente
1 caratteristica presente
Variabili indicatrici ~ variabili dummy D =
È una variabile artificiale che indica la presenza di una caratteristica qualitativa (uomo - donna)
misurata con un indicatore binario ➝ 0 e 1 non sono da considera come numeri, ma etichette
(vero o falso)
{0 caratteristica presente
1 caratteristica assente
LD = = 1 − D posso decidere di invertire il valore della dummy
{0 cat t iva
1 buon a
indicatrice Posit ion = → è qualitativa e binaria
La variabile indicatrice entrare nel modello in due forme principalmente: con effetto sull’intercetta
o con effetto sulla pendenza
Effetto sull’intercetta
Analizziamo quindi il modello completo Pr ice
= β1 + β2 SQFT + δPosit ion + e
{β1+β2 SQFT
(β1 + δ )+β2 SQFT Posit ion = 1
Per cui E(Pr ice) =
Posit ion = 0
Graficamente osserviamo che l’effetto della
variabile indicatrice è traslare in alto la retta di
regressione di una misura pari a δ
{β1+β2 SQFT
(β1 + δ )+(β2 + γ)SQFT Posit ion = 1
Per cui E(Pr ice) =
Posit ion = 0
Osservando un esempio empirico
PR ICE = β1 + δ1U TOW N + β2 SQFT + γ (SQFT * U TOW N ) + β3 AGE + δ2 POOL + δ3FPL ACE + e
Dove U TOW N, POOL, FPL ACE sono variabili dummy
Come vediamo l’effetto della variabile dummy U TOW N è vincolato all’intercetta e all’effetto
marginale di SQFT ➝ gli altri parametri non sentono dell’effetto di questa variabile indicatrice
Ciò che dobbiamo fare per inserire queste caratteristiche nel modello è creare una dummy
N norheast
S south
binaria per ogni categoria ➝ ➝ questo creerebbe collinearità perfetta, per cui
M midwest
W west
N norheast
S south
bisogna renderne una il caso base, eliminandola ➝
M midwest
W west
Il modello diventa per cui W = β1 + β2 ED + δ1S + δ2 M + δ3W + e ➝ il caso base è verificato
quando S =M=W=0
Ancora una volta l’effetto delle dummy è sull’intercetta, analizziamola:
β1 + β2 ED Northeast
(β1 + δ1) + β2 ED South
E(W ) =
(β1 + δ2) + β2 ED Midwest
(β1 + δ3) + β2 ED West
Test di Chow ~ test F di equivalenza di due regressioni
Serve per verificare che due campioni condividano la stessa funzione di regressione (lo stesso
modello)
{N − N1 gruppo 2
N1 gruppo 1
Distinguiamo due campioni:
Dire che il modello è il medesimo per i due campioni equivale a dire che i parametri βk sono
uguali nei due modelli
➝ primo modo: stimare separatamente il modello nei due campioni e verificare l’ipotesi nulla
βk1 = βk2 ⟺ H0 : β11 = β12, β21 = β22, . . . , βk1 = βk2
Problema: per costruzione non è possibile eseguire il test F, in quanto non è possibile creare la
COV di due variabili tra di loro non collegati
➝ secondo modo (corretto): utilizzare variabili indicatrici per dividere un campione in due gruppi,
stimare poi la regressione per il modello con il campione integrale e integrando la variabile dummy
{0 gruppo 1
1 gruppo 2
Definiamo D = ⟺ y = β1 + β2 x 2 + . . . + βk xk + δ1D + δ2(Dx 2 ) + . . . + δk (Dxk ) + e
STATA:
➝ Primo modo:
Con il comando sum + [variabile] + , d posso
individuare la mediana (percentile 50) ed
utilizzarla come carattere discriminatorio per i
due gruppi nel campione. Con il comando reg
calcolo separatamente le regressioni,
imponendo il vincolo con if [carattere
qualitativo]. Attraverso la tabella di regressione
posso osservare alcune informazioni importanti,
ad esempio controllare che la varianza degli
errori σ nelle due regressioni ➝ nel nostro
esempio c’è una grande differenza fra σ 1 ≠ σ 2
➝ secondo metodo:
Con il comando gen+
[nome]=[relazione] creo la variabile
indicatrice, inserendo come relazione
0. Con il comando replace+[nome
variabile]=[relazione]+if [carattere
qualitativo] modifico la variabile
indicatrice, inserendo come relazione 1
Nel nostro esempio il risultato del test è non rifiuto H0 per cui i due gruppi hanno modello
equivalente ➝ tuttavia sono consapevole che questo risultato non è affidabile in quanto il test
impone (per costruzione) equivalenza della varianza degli errori σ , cosa che so non essere valida
(vedi regressioni separate al “primo modo”)
Se p è la probabilità che venga scelta la prima alternativa, allora P(y = 1) = p; la probabilità che
venga scelta la seconda alternativa è P(y = 0) = 1 − p
La funzione di probabilità per la variabile indicatrice binaria y è: f (y) = p y(1 − p)1−y, y = 0,1
E(y) = p = β1 + β2 x2 + . . . + βk xk + e
La comodità di questo modello è che noi lo utilizziamo, consapevoli che sia errato, perché è in
grado di fornire in maniera semplice buone stime degli effetti marginali sulla probabilità di scelta p
di variazione nelle variabili esplicative xk a condizione che p non sia troppo vicino a 0 e 1
STATA:
➝ tutto ciò che abbiamo studiato sui modelli lineari fino ad ora vale uguale sul modello di
probabilità lineare, l’unica differenza è che y è in termini di probabilità
➝ in particolare gli effetti marginali posso scriverli anche in percentuale, perché probabilità.
Questo non va confuso con la semielasticità
L’R 2 continua ad essere un indicatore dell’adattamento ai dati, esistono però modi più precisi e
semplici: tasso di successo
Sappiamo che il modello calcola una variabile continua, mentre la variabile dummy è binaria per
{0 se la probabilità <0.5
1 se la probabilità >0.5
costruzione. Utilizziamo una variabile dammi che rispetti il vincolo =
STATA:
Con il comando predict + [nome variabile] calcolo le
previsioni di y.̂ Ora genero una nuova variabile con
gen+ [nome variabile] + [relazione] per associare 0
quando ŷ < 0.5 e 1 quando ŷ ≥ 0.5 ➝ come
relazione iniziale metterò 0, con il comando repliche
+ [nome variabile] [sostituzione] + if [relazione]
sostituisco 1 dove la probabilità è ≥ 0.5
STATA:
Sappiamo che il limite inferiore coincide con il valore per un
modello senza variabili esplicative, costruiamolo
Omoschedasticità e Eteroschedasticità
Un modello è chiamato omoschedastico se la varianza dei
residui (e di conseguenza degli errori) è costante σ 2➝ in
caso contrario è chiamato eteroschedastico σ 2
Come individuare?
Un modo semplice per individuare l’andamento della
varianza degli errori è utilizzare un grafico scatter, ponendo
sull’asse verticale i residui e su quello orizzontale la
variabile esplicativa ➝ funziona una x alla volta
➝ nel nostro esempio pvalue = 0.0067 < ∀α ➝ rifiuto l’ipotesi nulla di omoschedasticità ➝ il
modello è eteroschedastico
Problema: la specificazione delle variabili z da utilizzare è il vincolo più grande di questo test ➝ al
cambiare delle variabili il test cambia risultato, e un’errata specificazione delle variabili z porta ad
un’errata interpretazione del risultato
STATA:
WHITE: Dopo aver stimato il modello econometrico, apro il menu statistics e clicco sulla penultima
voce postestimation
KOENKER: Dopo aver stimato il modello econometrico, apro il menu statistics e clicco sulla
penultima voce postestimation ➝ si apre una finestra, clicco su specification, diagnostic, and
goodness-of-fit analysis ➝ seleziono tests for heteroskedasticity e clicco su launch
➝ anziché specificare le
variabili x seleziono utilizza valori previsti
Clicco su utilizza le seguenti variabili e inserisco la variabile dummy bianaria che separa il
campione in due gruppi, invio il test cliccando su ok
Test di Goldfeld-Quandt
Approccio simile al test di Chow, ma utilizzando la varianza ➝ il confronto avviene sempre con
una regressione ausiliaria
A differenza del test di Breusch-Pagan, questo test indivia un risultato esatto e non asintotico per
campioni molto grandi
Il test stima separatamente due regressioni (una per gruppo di campione), viene stimata la
varianza separatamente nelle due regressioni e applico un test F per verificare la congettura che
σ12 = σ22 → cioè σ 2 costante
σ12
Il valore della statistica F = ➝ il risultato è indipendentemente da quale gruppo metto al
σ22
dominatore e quale al denominatore ➝ la particolarità di questo test F è
che ha due regioni di rifiuto, una per lato ➝ questo fa si che sia
indifferente quale gruppo è messo al denominatore e quale al
numeratore, H0 verrà rifiutato per tutti i valori di pvalue lontani da 1
In alternativa si può utilizzare il valore σ ̂ 2i (le stime degli errori), per cui lo stimatore efficiente
diventa lo stimatore dei minimi quadrati generalizzati calcolabile: efficiente per N →∞
➝ nel pratico non viene quasi mai utilizzato perché necessita di calcolare ogni σ ̂ 2i singolarmente e
se si vuole uno stimatore efficiente (di conseguenza un campione grande) è molto laborioso e
poco preciso
Modelli Econometrici Pagina 43 di 52
Soluzione ➝ Standard Error Robusti (HC)
Valgono anche se gli errori sono eteroschedastici ➝ valgono sempre
Sono elementi asintotici, per cui valgono per campioni molto grandi N →∞
STATA:
Con il comando reg+[variabili di regressione] ,
robust
Notiamo che manca la tabella di studio delle
varianza, perché questa riporta un unico
valore di varianza (omeschedasticità )
Per cui per campioni che presentano errori eteroschedastici basterà utilizzare gli standard error
robusti, integrandoli in tutto ciò che abbiamo studiato fino ad ora (verifica di ipotesi), in STATA
basterà completare il comando con robust
Per prima affrontiamo l’ipotesi per cui le X del modello non sono stocastiche, ovvero che
cambiano in campioni ripetuti
➝ per lo studio del modello di regressione questa ipotesi non ha alcun effetto, cioè tutto rimane
uguale sia che le x siano costanti che variabili
Ancora una volta l’ipotesi cruciale è la terza: il valore atteso del termine di errore condizionato al
valore di x è nullo ➝ è necessari condizionare in quanto la x non è più costante
Implica che:
- Non sono state omesse variabili (correlate con quelle incluse)
- La forma funzionale del modello è corretta
- Il termine di errore e non è correlato con x
Senza queste ipotesi lo stimatore non è corretto, tanto meno efficiente
Sotto queste ipotesi vale tutto ciò che abbiamo studiato fino ad ora (verifiche d’ipotesi)
Modelli Econometrici Pagina 44 di 52
Proprietà per campioni finiti N < ∞ sono basate su ipotesi più resistenti rispetto alle proprietà
asintotiche N → ∞
Per costruzione la x è endogena ed è correlata con il termine di errore e (data dalla quota β2u )
➝ questo porta lo stimatore dei minimi quadrati a non essere ne consistente ne corretto
Le l’errore di misura fosse sulla variabile dipendente y non ci sarebbe nessun problema di
specificazione
1
Per cui →P= (γ1 − β1 + u s − u d )
β1 − γ1
La conseguenza di questa relazione è che le quantità e i prezzi osservati sono determinati
simultaneamente dalla funzione di equilibrio ➝ la variabile x è endogena per costruzione ed è
correlato al termine di errore e
➝ questo porta lo stimatore dei minimi quadrati a non essere ne consistente ne corretto
Variabili omesse: nel caso in cui la variabile omessa è correlata con un’esplicativa inclusa nel
modello, l’errore di regressione sarà correlato con la variabile esplicativa rendendola endogena
Per cui se analizziamo un modello di reddito, dipendente da variabili come il sesso, l’educazione e
la residenza, possiamo dire per certo che esistono variabili omesse che identificano altri elementi
che hanno effetto sul reddito ➝ abilità (es nel lavoro e nello studio), questa caratteristica oltre ad
avere effetto sul salario avrà effetto anche sull’educazione (più anni di studio) e per cui sarà
correlata con il termine di errore del modello
Per cui nell’esempio la variabile dell’istruzione è endogeno e per cui l’effetto è sovrastimato
➝ questo porta lo stimatore dei minimi quadrati a non essere ne consistente ne corretto
Il kesimo momento di una variabile casuale X è il valore atteso (media) della variabile casuale
elevata alla kesima potenza → E(X k ) = μk = kesimo momento di X ➝ questa è la relazione che
vale sulla popolazione (infinito)
Caratteristiche:
• Sempre consistente (non sempre corretto) ➝ stima asintotica
• Non sempre il migliore o il più preciso (efficienza)
È possibile dimostrare attraverso dei calcoli che il metodo dei momenti per Cov(x, e) = 0 è un
caso particolare dello stimatore dei minimi quadrati ➝ variabili esogene
Per variabili endogene: Cov(x, e) ≠ 0 si utilizza lo stimatore In str um ental Var ia ble
Va quindi considerata un’altra variabile z tale che:
1. z non ha effetto diretto su y ➝ non è una variabile esplicativa di y
2. Cov(z, e) = 0 ➝ z è esogena
3. z è molto correlata con xendogena
➝ z è chiamata variabile strumentale o strumento ➝ serve per raggiungere il nostro obbiettivo,
ovvero avere stime consistenti per un modello con variabili x endogene
Proprietà:
1. Se z è esogena, lo stimatore strumentale è consistente, ma non è necessariamente corretto
ne efficiente
2. Gli stimatori delle variabili strumentali hanno distribuzione asintotica normale N
σ2
nel modello di regressione semplice β2̂ ∼ N [β2, ]
rz2x ∑ (xi − x̄)2
3. La varianza dell’errore può essere approssimata usando lo stimatore
∑ (yi − β1̂ − β2̂ xi )2
σ ̂ 2VS =
N−2
1 σ2 Var (b2)
Sapendo che la varianza dello stimatore è Var ( β2̂ ) = =
rz2x ∑ (xi − x̄)2 rz2x
Dato che rz2x < 1, possiamo dare per certo che lo stimatore strumentale è sempre meno preciso
dello stimatore dei minimi quadrati, ma è anche l’unico valido per variabili endogene quindi va
utilizzato comunque ➝ in particolare però rimane valido il teorema di Gauss-Markov dello
stimatore BLUE
➝ per cui, quando non necessario, lo stimatore strumentale non va utilizzato, perché produce
stime con intervallo di confidenza molto ampio rispetto a ciò che si ottiene con lo stimatore dei
minimi quadrati (anche in grandi campioni)
STATA:
Si parte da un modello, dove si ipotizza la presenza di variabili endogene attraverso considerazioni
teoriche oppure evidenze empiriche. Nell’esempio del salario, sappiamo che sono state omesse
variabili che potrebbero avere correlazione con variabili presenti nel modello, inoltre il coefficiente
per l’educazione ha un valore troppo elevato
A questo punto la parte più difficile è individuare strumenti (variabili esogene) che rispettino i tre
punti fondamentali:
1. z non ha effetto diretto su y ➝ non è una variabile esplicativa di y
2. Cov(z, e) = 0 ➝ z è esogena
3. z è molto correlata con x
Proseguendo evidenziamo che tutti i coefficienti sono cambiati, oltre ovviamente a quello della
variabile endogena ➝ questo ci dice che, se una variabile è endogena, lo stimatore dei minimi
quadrati non è consistente per nessun parametro
Proseguendo con l’analisi, notiamo che lo standard error per i coefficienti (sopratutto da notare la
variabile endogena) cambia, nel caso particolare è aumentato a tal punto da non rendere più
significativo il parametro ➝ ricordiamo che il metodo è consistente, ma non è efficiente (varianza
bassa). A confermare ciò anche l’R 2 è cambiato, diminuendo.
Ricordiamo però che le stime sono consistenti solo se gli strumenti sono validi
➝ il primo test è verificare la correlazione tra gli strumenti e la variabile endogena: strumenti forti o
deboli?
Si analizzano i risultati della regressione di primo grado (quella che scinde la parte esogena da
quella endogena nella variabile endogena)
xk = γ1 + γ2 x2 + . . . + γk−1 + θ1z1 + . . . + θl zl + vk
Si verifica allora:
H0 : Cov(xk , zl ) = 0 ⟺ H0 : θ1 = 0,...,θl = 0 ➝ gli strumenti non sono correlati con xendogena
H1 : Cov(xk , zl ) ≠ 0
Perché gli strumenti siano utili, l’ipotesi nulla va rifiutata
Per eseguire questo test ci basterà un test F che abbia come regressione ausiliaria quella di
primo grado e come ipotesi nulla la significatività degli strumenti
Modelli Econometrici Pagina 49 di 52
STATA:
Si parte utilizzando il comando reg per
stimare la regressione ausiliaria di primo
grado (utilizzo il comando if perché il mio
campione ha valori di wage nulli) .
Utilizzo ora un test F per verificare
congiuntamente che i coefficienti degli
strumenti siano uguali a zero, attraverso il
comando test + [variabili strumentali] . Il
risultato del test lo confronto con il livello
di significatività α(10,5,1) prescelto.
In particolare, uno strumento è detto forte se la statistica test F > 10 , questo valore è frutto di
studi empirici e quindi non è dimostrabile
Se lo strumento non è ABBASTANZA forte il risultato non è buono e potrebbe essere peggio dello
stimare con i minimi quadrati
STATA:
Un ulteriore metodo per eseguire il test di
significatività degli strumenti è:
1. Utilizzare la procedura di stima a due stati
vista in precedenza
2. Utilizzare il comando estat firststage
Il modello è:
- Sotto-identificato: se il numero di strumenti è inferiore al numero di variabili endogene
in questo caso lo stimatore non è utilizzabile, non esiste ➝ questo per via della formula alla
base del calcolo dei momenti ➝ stata segnala autonomamente il problema se il numero di
strumenti è inferiore al numero di endogene
- Esattamente identificato: se il numero di strumenti è uguale al numero di variabili endogene
- Sovra-identificato: se il numero di strumenti è superiore al numero di variabili endogene
y = γ1 + γ2 xeso1 + γ3 xeso2 + γ4 xendo1 + γ5 xendo2 + e ➝ 2 endogene, almeno 2 strumenti
1. Regressione di primo stadio: si stima una regressione ausiliare per ogni variabile endogena,
per ognuna la variabile dipendente è la variabile endogena, mentre le variabili esplicative sono
le variabili esogene e gli strumenti
xendo1 = γ1 + γ2 xeso1 + γ3 xeso2 + θ1z1 + θ2 z2 + v
xendo2 = γ1 + γ2 xeso1 + γ3 xeso2 + θ1z1 + θ2 z2 + v
̂
A partire da queste si calcolano i valori previsti xendo1 ̂
e xendo2 ➝ saranno una variabili
Modelli Econometrici Pagina 50 di 52
esogene, combinazione lineare di tutte le variabili esogene e degli strumenti a disposizione
̂
y = γ1 + γ2 xeso1 + γ3 xeso2 + γ4 xendo1 ̂
+ γ5 xendo2 +e
STATA:
Si utilizza il medesimo metodo visto per
modelli aventi una sola variabile endogena
➝ per cui con il test F non mi accorgo se tutti gli strumenti sono validi o se è valido solo uno di essi
e gli altri sono incorrelati
Inoltre nella stima strumentale l’indice R 2 non indica più la percentuale di variabilità spiegata.
La presenza di variabili endogene nel modello crea effetti di retroazione che portano l’R 2 ad avere
anche valori negativi e cessa il legame dell’indice con la variabilità di y spiegata
Per H0 non è vera, b non è consistente mentre β ̂ è consistenti ➝ in grandi campioni, la loro
differenza non converge a zero ➝ b − β ̂ = c ≠ 0 ➝ in questo caso va utilizzato lo stimatore
strumentale perché è consistente
Esistono più versioni di questo test, la più facile è composta da due passaggi:
1. Stimare il modello ausiliario di primo grado con il minimi quadrati, calcolare i residui
2. Aggiungere i residui alla regressione originaria e applicare i minimi quadrati
3. Utilizzare un test F congiunto per la verifica di ipotesi
Il problema di questo test è che funziona solo gli strumenti adottati sono effettivamente esogeni,
altrimenti il risultato può essere falsato come in questo caso
Si verifica l’ipotesi
H0 : Cov(z, e) = 0
H1 : Cov(z, e) ≠ 0
1. Stima strumentale usando x esogene e z
2. Calcolare e ̂
3. Stimare con i minimi quadrati la regressione ausiliaria di e ̂ su tutte le z
e ̂ = δ1 + δ2 z1 + . . . + δl zl + v
4. Statistica test: NR 2. Se H0 è vera, NR 2 ∼ χ(L−B)
2
se N è elevato
5. Si rifiuta per valori elevati (e ̂ è correlato con le z) ➝ gli strumenti sono buoni se non si rifiuta H0
STATA:
Una volta stimata la regressione con il comando apposito, si utilizza il comando estat overid per
eseguire il test di validità degli strumenti
Anche questo test si basa sull’ipotesi che gli strumenti siano validi
I test di specificazione degli strumenti sono da utilizzare solo a supporto di valide ipotesi
economiche ed evidenze teoriche per gli strumenti