Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Statistica m2
Statistica m2
19/04
Confronto tra medie di popolazioni diverse
Ripassino
Ho un generico campione y1, y2, …, yn è determinazione causale da una popolazione con distribuzione normale con valore
atteso E[y] = µ e varianza Var[y]= 2
La media campionaria ha distribuzione normale con valore atteso µ e varianza 2 / n.
Perché? Per le proprietà di valore atteso e varianza per cui:
E[a + by] = a + bE[y] = a + bµ
Var[a + by] = a + b2 Var[y] = b22 --> la varianza è invariante per traslazione.
con a e b due generiche costanti. Se invece sostituisco a con una generica variabile causale b:
E[x + by] = E[x] + bE[y] = E[x] + bµ
Var[x + by] = Var[x] + b2 Var[y] = Var[x] + b22
Dunque applicando tali proprietà alla media campionaria (in questo caso n è una costante):
1
Cosa cambia: utilizziamo uno stimatore della varianza/standard error che è una variabile casuale (invece se nota/o = costante),
questo modifica la statistica test utilizzata e conseguentemente la sua distribuzione di probabilità.
Quando lo standard error è noto lo scriviamo SE, quando è stimato . Lo stesso ragionamento si applicherà su qualsiasi altra
quantità.
Come lo stimiamo:
Si può dimostrare che sotto l’ipotesi nulla H0 la statistica test ha distribuzione t di Student con nf + nm − 2 gradi di libertà.
La distribuzione t di Student è una Normale che è molto più variabile, in quanto è più schiacciata, più ampie. È più probabile che i
valori estremi sulle code si possano verificare. I gradi di libertà determinano quanto è distante la distribuzione dalla normale.
Maggiori sono i gradi di libertà, più si avvicina a una normale.
Funziona come un generico test d’ipotesi. Come già precisato, su grandi campioni o per meglio
dire per alti gradi di libertà (degrees of freedom, df) cioè nf + nm - 2, la distribuzione t di
Student si approssima ad una Normale Standard.
Per campioni sotto i 100, 80 o 50 ci possono essere delle differenze.
Attenzione: i comandi di stata utilizzano la distribuzione t di Student!
2
Commento output
Il campione è compost da 274 maschi e 252 femmine, ossia 526 osservazioni. La media campionaria dei maschi è 7,09 e delle
femmine 4,58.
o Lo standard deviation è il quadrato della varianza della popolazione
o Lo standard error è invece il quadrato della varianza della media campionaria, che è sigma quadro su n
Quando si parla di stimatore si parla di errore, quando invece di parla di standard deviation è solo una misura della variabilità del
fenomeno, ma non determina una valutazione nel merito.
L’intervallo di confidenza è uno stima intervallare, che mi dice che il valore vero per i maschi è incluso tra 6,60 e 7,59 nel 95% dei
casi.
La differenza tra le media è 2,51, 0,30 è lo standard error della differenza.
La statistica test e è 8,278, ossia 2,51/0,30
Nell’output abbiamo anche i gradi di libertà, che sono 524.
Nella parte finale abbiamo tre Ha (H1) diverse.
o Test una coda: Ha in mezzo
o Test a due code: Ha a destra e a sinistra
1) Come prendere una decisione nel caso di H1: µm - µf ≠ 0? Come al solito ci sono due strade:
- Confronto tobs con i valori critici : se |tobs| > |tcrit| --> rifiuto H0
- Confronto P-value: P(t < -|tobs|) + P(t > |tobs| con a:
o se p-value < a --> rifiuto H0
o se p-value > a --> accetto H0
In questo caso rifiuto H0: µm - µf = o e concludo che il salario orario medio nelle due popolazioni è significativamente diverso (o -
in altre parole - la differenza nel salario medio nelle due popolazioni da cui i campioni sono estratti è significativamente diversa da
zero).
2) Come prendere una decisione nel caso di H1: µm - µf > 0? Come al solito ci sono due strade:
- Confronto tobs con i valori critici : se tobs > tcrit --> rifiuto H0
- Confronto P-value: P(t>tobs) con a : se p-value < a --> rifiuto H0
3
In questo caso rifiuto H0: µm - µf = 0 e concludo che il salario orario medio della popolazione maschile è significativamente
maggiore.
3) Come prendere una decisione nel caso di H1: µm - µf < 0? Come al solito ci sono due strade:
- Confronto tobs con i valori critici : se tobs < tcrit --> rifiuto H0
- Confronto P-value: P(t < tobs) con a: se p-value < a --> rifiuto H0
In questo caso accetto H0: µm - µf = 0 e concludo che il salario orario medio della popolazione maschile non è
significativamente minore di quello femminile.
Deja-vu: C’è una connessione tra questo test ed un test di significatività su coefficienti di regressione?
Sì. Riprendiamo in mano un modello di regressione lineare semplice di questo tipo:
Dove:
• y è la variabile dipendente (retribuzione oraria dei neolaureati)
• x è la variabile ausiliaria (in questo caso il genere dei neolaureati, 1=female ed 0=male)
• var. delle 2 popolazioni uguali come assunto all’inizio.
Questo implica che:
4
Questo lo notiamo anche quando usiamo il comando sum di stata, vediamo che la deviazione standard è 2 per le femmine e 4
per i maschi. Quindi assumere che la varianza sia uguale non ha senso
Test t a 2 campioni con varianze diverse tra le due popolazioni (test di Welch)
Dove:
Qual è la differenza? Sotto l’ipotesi di varianza uguale, lo standard error è di fatto lo standard error del campione aggregato, fatta
salva la correzione campionaria.
In questo caso, lo standard error è calcolato come somma degli standard error di due variabili distinte.
I gradi di libertà sono una complessa funzione delle var campionarie .
Comando di Stata sotto ipotesi di eteroschedasticità: ttest wage, by (female) unequal
Nonostante gli s.e. campionari molto diversi, rilassando tale assunzione i risultati non mostrano grosse differenze e così l’esito
del test.
5
Assignment 1
Vogliamo capire che cosa suggeriscono questi dati per quanto riguarda le differenze salariali nell’impresa: se forniscono evidenza
di una differenza statisticamente significativa tra i salari medi di uomini e donne oppure no.
a) Si formulino le ipotesi nulla ed alternativa appropriate;
H0: salario medio uomini - salario medio donne = 0
H1: salario medio uomini - salario medio donne ≠ 0
H0: µ1 − µ2 = 0
H1: µ1 − µ2≠ 0
b) In secondo luogo, si calcoli la statistica t corrispondente, con l’assunzione che le 2 popolazioni abbiano diversa varianza.
T stat =
c) Si calcoli il p-value associato alla statistica t (approssimando la distribuzione di quest’ultima sotto l’ipotesi nulla a quella di
una normale standard).
P-value = (1 - 1) * 2 = 0,000
d) Sulla base del p-value ottenuto, si risponda alla domanda: c’è evidenza nei dati di una differenza statisticamente significativa
tra i salari medi di uomini e donne?
Essendo il p-value < qualsiasi a, il coefficiente è significativo. Perciò rifiutiamo l’ipotesi nulla, di conseguenza vi è una
differenza statisticamente significativa tra i salari medi di uomini e donne
6
e) Questi dati suggeriscono che l’impresa è colpevole di discriminazione di genere nelle sue politiche salariali? Si spieghi.
Il test fornisce una incontrovertibile prova statistica del fatto che i guadagni medi degli uomini differiscono da quelli delle
donne. Tuttavia, di per sé ciò non implica che l’impresa sia colpevole di discriminazione di genere, in quanto i dati campionari
sono incompleti. Per meglio dire, la discriminazione di genere significa che due lavoratori, identici in tutto tranne che per il
genere, percepiscono salari differenti. La descrizione dei dati, tuttavia, non riporta accuratamente se l’osservazione avviene
tra lavoratori con incarichi ed inquadramento
professionale simile. Inoltre, non sono presenti altre variabili di controllo come istruzione, anni di esperienza, etc. che
potrebbero avere un effetto sulla produttività. Se tali caratteristiche fossero sistematicamente differenti tra i campioni di
uomini e donne, ciò potrebbe essere all’origine della differenza salariale. Dato che tali caratteristiche non vengono controllate
nell’indagine statistica, è prematuro giungere ad una conclusione sulla
discriminazione di genere.
f) Si calcoli ora la statistica t ed il relativo p-value sotto l’assunzione che le 2 popolazioni abbiano stessa varianza
(approssimando la distribuzione della statistica t sotto l’ipotesi nulla a quella di una normale standard). L’esito del test cambia
utilizzando tale assunzione maggiormente restrittiva?
T stat =
P-value = 0,000
Esiste evidenza statistica che i distretti con classi più piccole abbiano risultati medi più alti nei test?
a) Si formulino le ipotesi nulla ed alternativa appropriate;
H0: µ1 − µ2 = 0
H1: µ1 − µ2 > 0
b) In secondo luogo, si calcoli la statistica t corrispondente. Adottare il test con l’assunzione che le 2 popolazioni abbiano
stessa varianza e spiegare perché tali ipotesi sembra ragionevole.
T stat =
Tale assunzione è ragionevole in quanto non sembrano esserci valori particolarmente diversi delle varianze
campionarie tali da ipotizzare eteroschedasticità.
d) Sulla base del p-value ottenuto, si risponda alla domanda: c’è evidenza nei dati di una differenza statisticamente significativa
tra i risultati medi delle classi piccole e grandi?
Essendo il p-value < qualsiasi a, il coefficiente è significativo. Perciò rifiuto l’ipotesi nulla, di conseguenza vi è una differenza
statisticamente significativa tra i risultati delle classi piccole e quelli delle classi grandi. Esiste una prova statisticamente
significativa del fatto che i distretti con classi più piccole hanno punteggi medi maggiori nei test.
26/04
Regressione con variabile dipendente binaria
7
• variabile dipendente: mutuo concesso / negato
• possibili fattori determinanti (variabili esplicative): reddito, ricchezza, stato occupazionale, altro prestito, caratteristiche della
proprietà, caratteristiche socio-demografiche
Boxplot
Sembra esserci una relazione positiva tra y ed x.
Possiamo vedere che le distribuzioni campionarie delle due popolazioni sono
diverse: nel caso in cui la variabile y è 0 x è molto più basso (rende più facile
pagare la rata ed essere solvibile), quando invece il mutuo è rifiutato la variabile x
è più alta.
Se fosse il contrario si parlerebbe di relazione negativa
Altro modo per verificare (in)dipendenza tra y ed x → test della differenza tra
medie
Se io vedo distribuzioni molto diverse tra variabili posso valutare che ci sia
dipendenza tra le variabili. Se invece le distribuzioni sono molto simile la
componente mutuo accettato/mutuo rifiutato non indicherebbe differenze nelle due
distribuzioni
Modellare la probabilità
Relazione positiva tra y e x: maggiore è il rapporto rata/reddito, maggiore sarà la proporzione di rifiuti. Cosa significa?
• Per comprendere i modelli di regressione con variabile dipendente binaria occorre pensare all’effetto della variabile
esplicativa sulla variabile dipendente come effetto sulla probabilità che la variabile dipendente sia uguale a 1 --> proporzione
di rifiuti in popolazione = probabilità di osservare quel dato evento come 1
• Questo perché solitamente un modello di regressione modella E(Y|X) e, dato che y è una variabile binaria,
E (Y|X) = P(Y = 1|X).
• Il modello quindi descrive l’effetto che la variabile x ha NON direttamente su y, ma sulla probabilità che y sia uguale a 1: P (Y
= 1|X); dove P (Y = 0|X) = 1 – P(Y = 1|X)
Importante! Y ≠ P(Y)
corrisponde a:
- ipotizzando una relazione lineare tra tale probabilità ed il regressore
- il punto è che questa relazione non sembra lineare
Sull’asse delle y abbiamo la dummy che assume valori 0 e 1, mentre
sull’asse delle x abbiamo pi_rate. Lo scatterplot permette di capire che
stiamo modellando una probabilità che sta all’interno dell’intervallo 0-1,
attraverso un modello che assume completa linearità tra le due. Assume
che ci siano dei rendimenti completamente costanti all’interno della retta,
anche se nella realtà la probabilità di scegliere una cosa rispetto ad
un’altra può essere influenzata da altri fattori
8
sarà diverso se mi trovo vicino allo 0,5, se mi trovo vicino allo 0 e vicino all’1. Questi tre comportamenti diversi portano a tre
pendenze diverse e quindi a una forma ad S della curva.
Dunque:
Per alcune la varianza rischia di essere negativa (cosa impossibile in quanto la varianza è sempre maggiore di 0 essendo la
media degli scarti quadratici).
La funzione di ripartizione
Data una v.c. continua Y, la funzione di ripartizione è quella funzione che per ciascun valore yc restituisce la corrispondente
probabilità cumulata [P(Y ≤ yc)] , tipicamente si indica con Φ (Y)
nel caso della normale.
Nel grafico a sinistra abbiamo la funzione di probabilità cumulata, a
destra invece la funzione di densità di probabilità
Nel caso della funzione di densità di probabilità, la probabilità di
osservare un dato valore è l’integrale della retta compreso tra
meno infinito e il dato valore.
L’aria sottesa quindi varia a seconda della y stessa.
A sinistra abbiamo sull’asse delle x la variabile casuale e sull’asse
delle y la probabilità cumulata (un valore compreso tra 0 e 1) che
mi dice in corrispondenza di ogni valore della y la probabilità di
osservare un valore uguale o minore del valore stesso.
9
• e è una costante matematica (numero di Eulero) il cui valore approssimato è 2.7182
• π: è una costante matematica (pi greco) il cui valore approssimato è 3.14
• z è il valore generico assunto dalla v.c. Z
La funzione di ripartizione di una v.c. normale standard
La funzione di ripartizione (CDF) della variabile normale Standard
(Z) è descritta dall’equazione
Il modello probit
Il modello probit è basato sulla funzione di ripartizione della normale standard ed esprime la probabilità che Y
assuma valore 1 come:
Φ è la funzione di ripartizione (CDF) normale standard e B0 + B1X è il valore "z“ (o z-score).
Se B0 = −2 e B1 = 3, qual è la probabilità di rifiuto quando il rapporto rata/reddito è 0.4?
P(Y= 1) = Φ (−2 + 3 ∗ 0.4) = Φ (−0.8) = P(Z < −0.8) = 1 − 0.7881 = 0.2119
La probabilità prevista dal modello probit che il mutuo venga rifiutato quando il rapporto rata/reddito è 0.4 è pari al
21.19%
Il modello probit
Nel modello probit la relazione fra x e P(Y = 1) è non lineare e descritta da una curva a forma di
S con le seguenti caratteristiche:
- i valori di P(Y = 1), sull’asse verticale, sono sempre compresi tra 0 e 1
- la pendenza della curva descrive la variazione della probabilità che Y = 1 a fronte di un
incremento unitario di x: l’effetto marginale della x sulla P(Y = 1) non è costante
- per valori bassi del predittore lineare (z-score) la curva cresce a un tasso elevato (un
aumento unitario di x provoca bassi incrementi di P(Y = 1) ma sempre maggiori al crescere
di x)
- in corrispondenza di B0 + B1x = 0 la pendenza della funzione probit è massima ed è pari a
0.5
- all’aumentare della x la velocità con cui cresce la probabilità P(Y = 1) diminuisce
progressivamente
Dove L(B0, B1) indica la funz.ne di verosimiglianza che dipende dai parametri ignoti B0, B1. Si tratta di una funzione che mi da la
probabilità di osservare congiuntamente i tre eventi insieme, è una funzione di probabilità congiunta che è funzione dei parametri
stessi.
10
Interpretazione del coefficiente di regressione nel modello probit
P(Y = 1) = Φ(B0 + B1x)
B1: non è l’effetto marginale di x su P(Y=1).
Esso è la variazione del valore z (predittore lineare) associata ad un incremento unitario
di x.
• Se B1 > 0, allora un aumento di x fa aumentare il valore di z e quindi la probabilità che Y
sia = 1
Nell’esempio dei mutui: all’aumentare del rapporto rata/reddito dovrebbe essere più
probabile il rifiuto del mutuo stesso (in quando B1 > 0)
• Se B1 < 0, allora un aumento di x fa diminuire il valore di z e quindi la probabilità che Y
sia = 1
Il segno del coefficiente B1 ci dice se un aumento di x fa aumentare o diminuire la probabilità
che Y=1
Entrambi i coefficienti sono significativamente diversi da zero --> p-value < qualsiasi a
I coefficienti non sono interpretabili direttamente. È però possibile affermare:
o che il rapporto rata/reddito è positivamente legato alla probabilità di rifiuto ( è positivo)
o che la relazione tra probabilità di rifiuto e rapporto rata/reddito è statisticamente significativa (zobs = 2.968/0.465 = 6.38) -->
c’è una connessione tra le due variabili; il rapporto rata/reddito è un fattore determinante per il rifiuto.
Viene adottato un test che utilizza una statistica che si distribuisce come una normale standard, quindi si utilizza z
Qual è la variazione nella probabilità prevista di rifiuto quando il rapporto rata/reddito passa da 0.3 a 0.4?
Calcolo le probabilità previste nei due casi:
La probabilità prevista di rifiuto passa da 0.097 a 0.159, aumenta di 0.062, cioè 6.2 punti percentuali.
Interpretazione: la differenza di probabilità è di 0,062, oppure di 6,2%. Non è corretto dire che la probabilità aumenta di 6,2%
Il modello probit con regressori multipli, esempio sui dati HMDA
P(deny = 1) = Φ(B0 + B1pi_rat + B2black)
Black = 1 se il residente è di colore e 0 se il residente è bianco
: è positivo --> un richiedente afroamericano ha una probabilità di rifiuto più alta rispetto a un richiedente bianco, a parità di
rapporto rata/reddito. Il coefficiente è statisticamente significativo all’1% (z_obs = 8.51)
Qual è l’effetto stimato dell’etnia per un rapporto rata/reddito = 0.3?
In corrispondenza di specifici valori di x1 e delle altre covariate (o valutando la variazione di probabilità stimata in presenza di due
specifici valori di una covariata, a parità delle altre), ad es.:
11
In corrispondenza dei valori medi di x1 e delle altre covariate:
02/05
Interpretazione dell’effetto marginale nel modello probit
A quanto ammonta l’effetto marginale (EM) di una variazione unitaria di x sulla probabilità?
L’effetto marginale di x sulla probabilità che Y = 1 è dato dalla derivata prima della probabilità rispetto a x ovvero:
L’EM è il prodotto di due cose: coefficiente di regressione con riferimento alla covariata di interesse e peso che viene dato
all’effetto marginale B1. Il peso prende il valore della funzione di densità di una variabile normale standard
Secondo la regola di derivazione di una funzione composta:
• Il risultato di questa derivata è ancora funzione di x (cioè l’effetto marginale varia al variare di x).
• Dove è la funzione di densità della normale standard valutata in (B0 + B1x) che fa da «peso» a B1 con cui è
moltiplicata, modificandone l’intensità. Ha la solita forma a campana di una normale standard. All’avvicinarsi del predittore a
valori vicino a 0 il predittore (B0 + B1x) sarà molto alto
• Dato che è una funzione di densità, il suo valore è sempre positivo → l’effetto marginale ha lo stesso segno di B1
• A tal proposito è massima in corrispondenza di 0, in questo caso la probabilità è Φ(0)=0.5, la scelta è dunque in bilico: è
ragionevole pensare che l’effetto di una variazione di x sia massimo sulla probabilità di scelta
E’ possibile calcolare l’effetto marginale di una variazione unitaria di un dato regressore x1 sulla probabilità stimata a parità degli
altri regressori*:
1) in corrispondenza di specifici valori di x1 e delle altre covariate (EM tout court).
Utilizziamo valori arbitrali delle coviariate, quindi non abbiamo una visione d’insieme di quel che succede. Ci dà una misura
di sintesi.
2) in corrispondenza delle medie campionarie di x1 e delle altre covariate, in questo caso si parla di effetto marginale «at
means»
3) come media degli effetti marginali calcolati in corrispondenza di ciascuna osservazione del campione. In questo caso si parla
di effetto marginale «medio», riassume la risposta degli individui che compongono il campione a una variazione del valore di
una variabile esplicativa.
*Gli effetti marginali sono a volte noti come effetti parziali («partial effects»)
Riassume la risposta degli individui che compongono il campione a una variazione del valore di una variabile esplicativa (xi).
Dato che la stima di un effetto marginale varia da un individuo all’altro, potremmo essere interessati non solo alla sua media ma
anche alla sua variabilità nel campione:
Il modello logit
Il modello logit è molto simile al modello probit
Nel modello logit la funzione di ripartizione normale standard Φ è rimpiazzata dalla funzione di ripartizione logistica standard,
indicata con Λ :
• modello probit: P (Y = 1) = Φ (B0 + B1X)
• modello logit: P (Y = 1)= Λ (B0 + B1X)
L’equazione della funzione di ripartizione logistica standard ha forma chiusa ed è
Ciò significa che non si ricorre alle tavole per calcolarla, ma basta usare la funzione
La curva corrispondente è molto simile a quella della funzione di ripartizione normale standard, del modello probit:
12
Le differenze in termini di forma sono minime
Il modello logit
Come per il modello probit, i coefficienti del modello logit si interpretano meglio calcolando le probabilità predette e le differenze
nelle probabilità predette.
La predizione avviene nello stesso modo, sostituendo Φ(⋅) con Λ (⋅) .
Il modello logit può essere esteso a situazioni in cui la scelta avviene tra due alternative.
Come nel probit, i coefficienti logit possono essere stimati con il metodo della massima verosimiglianza, che si definisce nello
stesso modo sostituendo Φ(⋅) con Λ (⋅) .
Infine l’effetto marginale è definito come:
: è positivo --> un richiedente afroamericano ha una probabilità di rifiuto più alta rispetto a un richiedente bianco, a parità di
rapporto rata/reddito. Il coefficiente è statisticamente significativo all’1% (z_obs = 8.71)
Qual è l’effetto stimato dell’etnia per un rapporto rata/reddito = 0.3?
La differenza nelle probabilità di rifiuto è 0.148 (14.8 punti percentuali, rispetto ai 15.8 previsti dal modello probit)
Le regressioni probit e logit producono frequentemente risultati simili in termini di probabilità predette, ma è possibile che le stime
dei parametri di regressione siano diverse!
13
• La frazione correttamente predetta: è la frazione delle n osservazioni del campione per le quali la variabile Y è correttamente
predetta dal modello. La regola per determinare se Y è correttamente predetta per una data osservazione i è la seguente:
o Se Yi = 1 e = 1) > oppure se Yi = 0 e = 1) < , allora Yi è predetta correttamente
o Altrimenti Yi non è predetta correttamente
Dove è un valore soglia che deve essere determinato attraverso specifici criteri.
Riepilogo
La probabilità non è lineare:
Nel modello probit:
Nel modello probit la funzione che lega P(Y=1) a x è la funzione Φ(⋅), funzione di ripartizione della normale standard.
Nel modello logit:
Nel modello logit la funzione che lega P (Y = 1|X) a x è la funzione Λ(⋅), funzione di ripartizione della logistica standard.
cd /* your directory */
use hmda_sw.dta, clear
*Preparazione variabili
*Creo una variabile binaria =1 se s7=3 e=0 se s7!=3
table s7
gen deny = (s7==3)
table deny
sum deny
Oppure:
gen deny=.
replace deny=1 if s7==3
replace deny=0 if s7!=3
gen pi_rate = s46/100
table s13
gen black = (s13==3)
Oppure
gen black=.
replace black=1 if s13==3
replace black=0 if s13!=3
label variable deny "Binaria =1 se mutuo rifiutato, =0 in tutti gli altri casi"
label variable pi_rate "Rapporto rata/reddito"
label variable black "Binaria =1 se richiedente di colore; =0 se non di colore"
*----------------------------------------------------------
* Il modello probit con un solo regressore
*----------------------------------------------------------
* Stimo un modello Probit
probit deny pi_rate, r
* Genero le probabilità previste dal modello
cap drop pr_probit --> serve per eliminare una variabile
predict pr_probit, pr --> assegno al nome pr_probit i valori del modello probit appena stimato. Predict serve per generare la
variabile e associare i valori stimati. Per tale motivo bisogna prima stimare il modello
label variable pr_probit "Prob stimate dal Modello Probit"
sum pr_probit
graph hbox pr_probit --> bloxplot
*Calcolo la "Frazione correttamente predetta" cioè la frazione di osservazioni per cui il modello prevede correttamente la
probabilità di rifiuto del mutuo
*Assumiamo come epsilon=0.50
cap drop yhat_probit --> cancello qualsiasi tipo di variabile con quel nome
gen yhat_probit=0
replace yhat_probit=1 if pr_probit>=0.5
tab deny yhat_probit, cell --> tramite cell vediamo non solo le frequenze, ma anche le percentuali che vengono messe ad ogni
elemento della tabella
14
*----------------------------------------------------------
* Calcolo delle probabilità stimate per diversi valori di x
*----------------------------------------------------------
*Calcolo la probabilità di rifiuto stimata quando pi_rat=0.3
scalar z1 = _b[_cons]+_b[pi_rat]*0.3
di z1
di normprob(z1) --> normprob(z1) restituisce la probabilità cumulata della v.c. normale Standard in corrispondenza del valore z1;
il comando normal(z1) ha la stessa funzione
*----------------------------------------------------------------
* Calcolo degli effetti marginali stimati per diversi valori di x
*-----------------------------------------------------------------
*Il comando margins va usato immediatamente dopo aver stimato il modello
*----------------------------------------------------------
* Modello probit con piu regressori
*----------------------------------------------------------
probit deny pi_rat black, r
*---------------------------------------------------------------------------------------------------------------------------------
* Calcolo delle probabiilta stimate in corrispondenza di specifici valori delle x
*---------------------------------------------------------------------------------------------------------------------------------
* Calcolo la probabilità stimata di non accedere al mutuo per un individuo di colore con un rapporto rata/reddito pari a 0.2?
scalar z3=_b[_cons]+_b[pi_rate]*0.2+_b[black]*1
di normprob(z3)
*--------------------------------------------------------------------------------------------------------------------------------------------------------------------
* Calcolo degli effetti marginali (o partial effects) stimati in corrispondenza di specifici valori delle x
*--------------------------------------------------------------------------------------------------------------------------------------------------------------------
* Calcolo gli effetti marginali di pirate e black per un individuo di colore con un rapporto rata/reddito pari a 0.2
Attenzione! stimo nuovamente il modello probit e indico il regressore binario con i.black
probit deny pi_rat i.black, r --> mettere i. davanti perché in questo modo riconosce che è una binaria
margins, dydx(_all) at(pi_rate=0.2 black=1)
*-----------------------------------------------------------------------------------------------------------------------------------------------
* Calcolo degli effetti marginali (o partial effects) stimati at means - regressore binario
*------------------------------------------------------------------------------------------------------------------------------------------------
*---- Procedura manuale ---
probit deny pi_rat black, r
scalar p_neri=normprob(_b[_cons]+_b[pi_rate]*0.3308136+_b[black]*1)
di p_neri --> Calcolo la probabilità di rifiuto quando pi_rate è uguale alla media e black è uguale a 1
scalar p_bianchi=normprob(_b[_cons]+_b[pi_rate]*0.3308136+_b[black]*0)
di p_bianchi --> Calcolo la probabilità di rifiuto quando pi_rate è uguale alla media e black è uguale a 0
scalar ME_black=p_neri-p_bianchi
di ME_black --> L'effetto marginale di black è la differenza nelle due probabilità stimate
15
*Attenzione! stimo nuovamente il modello probit e indico il regressore binario con i.black
probit deny pi_rat i.black, r
*calcolo l'effetto marginale di black in corrispondenza delle medie
margins, dydx(_all) atmeans
*-------------------------------------------------------------------------------
* Calcolo degli effetti marginali medi
*-------------------------------------------------------------------------------
* ---- Utilizzo di margins ----
probit deny pi_rate i.black, r
margins, dydx(_all)
* 1) Caricare i dati hmda_sw.dta che si trovano su Virtuale, in corrispondenza dalla lezione 2 del Modulo 2
cd "C:\Users\alice\OneDrive\Desktop\SA"
use "hmda_sw2.dta", replace
* 2) Generare una nuova variabile binaria deny che assuma valore 1 quando la variabile categoriale s7 ha valore 3 e 0 altrimenti
(tale modalità infatti indica l'eventualità di rifiuto del mutuo)
gen deny=.
replace deny=1 if s7==3
replace deny=0 if s7!=3
* 3) Utilizzare la variabile s46 del dataset che riporta il rapporto rate/mutuo in percentuale così com'è (SENZA dividerla per 100),
rinominarla come perc_rate
gen perc_rate=s46
* 4) Generare la variabile white, ovvero una variabile binaria che assume valori 1 se s13 è uguale a 5 (white race) e 0 altrimenti
(black race)
gen white=.
replace white=1 if s13==5
replace white=0 if s13!=5
* 5) Associare dalle etichette "label" a ciascuna delle tre variabili ricavate sopra che rendano chiaro il loro significato
label variable deny "deny=1 rifiuto mutuo, deny=0 accetto mutuo"
label variable perc_rate "rapporto rate/mutuo in percentuale"
label variable white "white=1 per rispondente bianco, white=0 per rispondente di colore"
* 6) Lanciare un test per la differenza tra medie per la variabile perc_rate per le popolazione di individui con mutui rifiutati
(deny==1) e non rifiutati (deny==0); sia con un test omoschedastico che eteroschedastico, c'è differenza tra i due? quale è
preferibile? commentare i risultati in termini di dipendenza tra le due variabili.
ttest perc_rate, by (deny)
ttest perc_rate, by (deny) unequal
* Commento: entrambi i modelli portano al rifiuto dell'ipotesi nulla, in quanto i p-value sono uguali e pari a 0 (p-value < qualsiasi
alfa). Le standard deviation delle due popolazioni sono molto diverse (per la popolazione di mutui accettati è vicino a 8, per mutui
rifiutati vicino a 22), quindi quello eteroschedastico è preferibile che ipotizza che le due varianze siano diverse tra loro. Vi sono
delle differenze nel t osservato; nel modello omoschedastico è pari a -9,9 mentre nel modello eteroschedastico è pari a -5,1
* 7) Stimare il modello logit con variabile dipendente deny e var indipendente perc_rate, i coefficienti sono tutti significativi?
logit deny perc_rate, r
* Commento: entrambi i coefficienti sono significativi (p-value < qualsiasi alfa). Nel caso del rapporto rata/reddito il coefficiente è
positivo
* 8) Generare le probabilità previste dal modello logit, plottarle con boxplot e commentarle brevemente
cap drop pr_logit
predict pr_logit, pr
label variable pr_logit "Prob stimate dal Modello logit"
sum pr_logit
graph hbox pr_logit
16
* Commento: la media delle probabilità previste dal modello logit è pari a 0,12. La maggio parte delle osservazioni è compresa tra
0 e 0,20 circa. Abbiamo la presenza di pochi valori anomali che variano da 0,20 a 1, con alcuni di essi vicini ad 1 (quindi hanno
una probabilità altissima di rifiuto del mutuo)
* 10) Generare le probabilità previste dal modello probit e compararle con quelle previste dal modello logit, sono analoghe?
cap drop pr_probit
predict pr_probit, pr
label variable pr_probit "Prob stimate dal Modello probit"
sum pr_probit
graph hbox pr_probit
* Commento: la media delle probabiliktà previste dal modello probit è sempre pari a 0,12. Come nel modello logit, la maggior
parte delle osservazioni si trovano tra 0 e poco più di 0,2. Abbiamo la presenza di pochi valori anomali, con alcuni di essi vicino a
1. Possiamo dire che le probabilità previste dai due modelli sono analoghe
* 11) Calcolare la funzione correntemente predetta nei due modelli e compararli assumendo come epsilon = 0.50, è questa una
indicazione della bontà del modello?
cap drop yhat_logit
gen yhat_logit=0
replace yhat_logit=1 if pr_logit>=0.5
tab deny yhat_logit, cell
sum pr_logit if yhat_logit==0 & deny==1
sum pr_logit if yhat_logit==1 & deny==0
cap drop yhat_probit
gen yhat_probit=0
replace yhat_probit=1 if pr_probit>=0.5
tab deny yhat_probit, cell
* Controllo le probabilità delle presunte osservazioni non correttamente predette: se esse sono vicino allo 0.50, non possono
considerarsi non correttamente predette poiché l'osservazione di 0 o di 1 è equiprobabile. Se le loro probabilità sono invece
vicino a 0 od a 1, allora possono considerarsi non correttamente predette.
sum pr_probit if yhat_probit==0 & deny==1
sum pr_probit if yhat_probit==1 & deny==0
* Commento: la frazione di osservazioni per cui il modello prevede correttamente la probabilità di rifiuto del mutuo è pari a 2100
nel modello logit, ossia circa il 90%. Nel modello probit tale frazione è pari a 2099, sempre circa il 90%. Mentre il restante 11% è
in maniera presunta non correttamente predetta.
* Altro modo per poter vedere le differenze. Dallo scatterplot possiamo vedere che i punti sono quasi sulla retta
scatter pr_logit pr_probit || /*
*/ line pr_logit pr_logit, sort
* In questo modo aggiungiamo una retta allo scatterplot. Possiamo vedere che gli outlier hanno delle proabilità più alte nel caso
del modello logit, mentre più basse nel caso del modello probit. Le altre osservazioni sono identiche
* 14) Calcolare effetto marginale at means ed effetto marginale medio tramite la funzione margins e compararli; in seconda
battuta, calcolare l'effetto marginale medio manualmente e valutarne la variabilità sapendo che la funzione logisticden() fornisce
la densità di probabilità della distribuzione logistica
17
logit deny perc_rate, r
margins, dydx(_all) atmeans
margins, dydx(_all)
* Commento: l'effetto marginale at means è pari a 0,0058 (un individuo con rapporto rata/reddito di 33,08 avrà lo 0,58%
probabiità di vedere il proprio mutuo rifiutato), mentre l'effetto marginale medio è pari a 0,0059. La differenza è di 5,9 punti
percentuali.
cap drop em
gen em=_b[perc_rate]*logisticden(_b[_cons]+_b[perc_rate]*perc_rate)
sum em
graph hbox em
* Commento: guardando il bloxplot vediamo che la variazione dell'effetto marginale è molto elevata tra individuo a individuo
* 15) Stimare modello logit multiplo: utilizzare come regressori sia perc_rate che white
logit deny perc_rate white, r
* 16) Tentare di calcolare l'effetto marginale at means di white con funzioni manuali sapendo che la funzione
logistic(x)=1/(1+exp(-x))
logit deny perc_rate white, r
*calcolo la media campionaria di perc_rate, per il calcolo at means
sum perc_rate
scalar p_neri=logistic(_b[_cons]+_b[perc_rate]*33.08136+_b[white]*1)
di p_neri
scalar p_bianchi=logistic(_b[_cons]+_b[perc_rate]*33.08136+_b[white]*0)
di p_bianchi
scalar ME_white=p_neri-p_bianchi
di ME_white
* Commento: il passaggio da richiedente bianco a nero porta a una diminuzione dell'effetto marginale di 0,16
* 17) Comparare il modello logit multiplo col modello logit con un solo regressore in termini di pseudo-R^2, quale dei due è
preferibile?
logit deny perc_rate, r
logit deny perc_rate white, r
* Commento: il modello multiplo presenta uno Pseudo R2 di 0,0876 mentre quello con un solo regressore di 0,0482. Possiamo
concludere che preferiamo quello multiplo, in quanto presenta una misura di bontà dell'adattamento ai dati maggiore, ha un
maggiore potere informativo
Assignment 2
Esercizio 1
Abbiamo a disposizione un dataset aventi 212 osservazioni che si riferiscono a specifiche aree delle Snowy Mountains in New
South Wales (Australia) ed indicano la distribuzione di una specie di rane. Le variabili sono:
• presabs: variabile dummy che indica presenza (1) o assenza (0) di rane nell’area;
• distance: distanza in metri dalla più vicina popolazione pre-esistente;
• noofpools: numero di potenziali bacini nidificanti;
• meanmin: media delle temperature minime primaverili
In base alle stime riportate sopra si risponda brevemente alle seguenti domande:
a) Si commenti l’effetto della temperatura minima media osservata sulla probabilità di osservare rane nell’area.
In base all’output disponibile si può affermare che la temperatura minima media dell’area ha un effetto positivo sulla
probabilità di osservare rane nell’area (l’aumentare della temperatura ne aumenta la probabilità di osservazione), a parità
delle altre variabili, con effetto statisticamente significativo al 1%.
18
b) Qual è la probabilità di osservare la presenza di rane in un’area con distanza 1000 mt da una popolazione pre-esistente, con
temperatura minima media di 4 gradi e 20 potenziali bacini nidificanti?
c) Qual è la probabilità di osservare la presenza di rane in un’area con distanza 150 mt da una popolazione pre-esistente, con
temperatura minima media di 5 gradi e 25 potenziali bacini nidificanti?
d) Si indichi se, ed in caso quali, coefficienti di regressione non sono significativamente diversi da zero ad un livello di
significatività del 10%.
Tutti i coefficienti sono significativi ad un livello del 10%
e) Si calcoli l’effetto marginale stimato al variare della distanza da 100 a 200 mt, sulla probabilità di osservare rane in un’area
con temperatura minima media di 3 gradi e 20 potenziali bacini nidificanti.
L’effetto marginale è 0,4364-0,42465 = 0,01175, l’aumento della distanza da popolazioni pre-esistenti di un centinaio di metri
abbassa la probabilità di osservare rane nell’area di 1,17 punti percentuali
Esercizio 2
Il dataset a disposizione ha 845 osservazioni che indicano:
• vote: variabile dummy che indica il voto elettorale nelle elezioni US del 200 per bush (1) o meno (0);
• female: il sesso del votante, se donna (1) o uomo (0);
• black: se il votante è di colore (1) o meno (0).
19
a) Indicare quale tipo di regressione è stata stimata attraverso i comandi di Stata in input.
È stato stimato un modello logit con variabile dipendente vote e variabili esplicative female e black
b) Indicare quali variabili, secondo il modello, hanno un impatto significativamente diverso da zero sulla variabile risposta e
quali non lo hanno.
La variabile female non ha impatto significativamente diverso da zero, secondo il modello, dal momento che il coefficiente di
regressione associato ha un p-value del 0.483, ben più alto di qualsiasi livello di significatività normalmente utilizzato (1%,
5%, 10%). Al contrario la variabile black ha un impatto significativamente diverso da zero, avendo il coefficiente di
regressione associato un p-value=0.
c) Si commenti l’effetto delle variabili il cui impatto è significativamente diverso da zero sulla probabilità di votare Bush.
La variabile black è negativa, per cui i votanti di colore hanno una probabilità minore di votare bush rispetto ai rispondenti
bianchi, a parità del sesso
d) Qual è la probabilità di votare Bush per la popolazione di donne di colore secondo il modello?
e) Si calcoli l’effetto marginale stimato dei votanti di colore, sulla probabilità di votare Bush nel caso di votanti di sesso
maschile.
L’effetto marginale è 0,31 – 0,62 = -0,31, l’essere di colore abbassa la probabilità di votare bush di 31 punti percentuali,
condizionatamente alla appartenenza al sesso maschile
20
Esercizio 3
Si consideri il dataset “incomedata.csv” contenente 1000 osservazioni relative a 1000 individui da cui sono
osservate le seguenti variabili di riferimento:
• income: normalized income owned by the observed person.
• gen: gender: 1=male, 2=female.
• educ: dummy variable indicating whether the person has a primary education level (0) or a secondary or post-secondary
education (1).
• labor: dummy variable indicating whether the person is employed (1) or unemployed/inactive (0).
a) Si carichi il dataset in stata usando il comando import delimited incomedata.csv, clear
b) Si trasformi gen in una variabile dummy per indicare il genere dove male=0, female=1; si crei una variabile binaria poor
partendo da income, considerando 5000 come soglia di povertà e dunque associando il valore poor=1 a coloro con un
reddito inferiore alla soglia e poor=0 altrimenti.
e) Si stimi un modello Probit in cui la variabile poor è funzione del genere, del livello di educazione e della condizione
occupazionale, si commentino le stime dei coefficienti.
Tutti i coefficienti tranne il genere sono significativi all’1%
Il coefficiente educ è negativo, perciò coloro che hanno un livello di istruzione superiore del primo livello hanno in media una
probabilità minore di essere poveri rispetto a coloro che hanno un livello di istruzione pari al primo livello, a parità delle altre
condizioni
Il coefficiente condizione occupazionale è negativo, perciò coloro che hanno un impiego hanno in media una probabilità
maggiore di essere poveri rispetto a coloro che sono disoccupati, rispetto alle altre condizioni
f) Si calcoli la probabilità prevista di essere in una condizione di povertà per una donna inoccupata/inattiva con livello di
educazione primaria senza l’utilizzo di Stata.
g) Qual è l’effetto marginale stimato della condizione di inoccupata o inattiva (unemployed/inactive) per una donna che ha un
livello di secondary/post-secondary education? Si risponda senza l’uso di Stata.
L’effetto marginale stimato della condizione di inoccupato o inattiva (unemployed/inactive) per una donna che ha un livello di
secondary/post-secondary education è del 0.1018, ovvero la condizione di inoccupazione/inattività nel caso di donne con
tale livello di educazione, aumenta di 10.2 punti percentuali la probabilità di essere in uno stato di povertà.
h) Si calcoli la stima degli effetti marginali medi delle 3 variabili ausiliarie tramite il comando di stata e si indichi se e quali sono
significativi.
L’effetto marginale medio della variabile gen non è significativo (p-value=60%).
L’effetto marginale medio della variabile educ è significativo all’1%, l’osservazione di un individuo con un livello di istruzione
superiore al primo livello determina una diminuzione di 5,9 punti percentuali nella probabilità di essere in stato di povertà.
Infine, l’effetto marginale della variabile labor è significativa all’1%, l’osservazione di un individuo con un lavoro determina in
media una diminuzione di 6,6 punti percentuali nella probabilità di essere in stato di povertà
09/05
Distorsione da variabili omesse, collinearità e trappola delle dummy
21
Ora ci riferiamo a quest’ultimo punto. In particolare ci confronteremo con le diverse problematiche e conseguenze che riguardano
le scelta sbagliata sull’inclusione di un insieme di regressori:
• Distorsione da variabile omessa;
• Inclusione di variabili irrilevanti;
• Collinearità (inclusione di variabili rilevanti ma che veicolano la stessa informazione);
• Trappola delle dummy.
Stimo un modello in cui il reddito famigliare è funzione del livello di istruzione del marito e della moglie:
Cosa succede se ometto il livello di istruzione della moglie (regressore rilevante per la variabile dipendente e correlato al
regressore incluso nel modello, il livello di istruzione del marito)?
Il valore dell’intercetta è molto diverso, nel caso del modello ridotto l’intercetta è significativamente diversa da zero.
A destra abbiamo un modello completo in cui la variabilità spiegata dal modello è spiegata da due regressori, in più c’è una parte
non spiegata inclusa nel termine di errore.
Più è alta la variabilità spiegata dal modello, più R2 sarà vicino a 1.
Omettendo un regressore significativo, quella parte di variabilità non è più spiegabile dal modello, ma è spiegabile tramite una
intercetta che è uguale per tutti, ossia la media dei B3*WEDU. Gli scostamenti dall’intercetta dettati dalla variabile omessa tra gli
individui fanno parte della variabile non spiegata dal modello che viene incorporata nell’errore. Questo avviene sempre.
Quello che non avviene sempre è che B2 e a2 siano così diversi
: un anno in più di istruzione del marito fa crescere il livello di reddito familiare di 5155 $/anno omettere WEDU porta a
sovrastimare di circa 2000$ l’effetto di un anno in più di istruzione del marito.
Un cambiamento rilevante nella stima di un coefficiente è conseguenza tipica dell’omissione di una variabile esplicativa rilevante!
L’omissione di variabili rilevanti infatti produce stime distorte dei coefficienti (a2 e B2)
22
• La media della distribuzione campionaria dipotrebbe non essere uguale all’effetto vero di HEDU su FAMINC
• Dunque la stima ( ottenuta con il metodo OLS è distorta ed, in questo caso, porta alla sistematica sovrastima dell’effetto.
o Se la variabile B3 non è significativamente diversa da zero la distorsione non c’è (abbiamo fatto bene ad ometterla)
o Se la covarianza tra i due regressori è nulla, la distorsione è nulla
La distorsione non è calcolabile se non abbiamo la variabile rilevante.
Se è possibile ipotizzare:
• Il segno di (cioè come la variabile omessa WEDU incide su FAMINC)
• Il segno della covarianza tra variabile omessa e variabile inclusa (cioè la direzione della relazione fra le due variabili)
Si può dedurre se la distorsione provocherà una sovrastima o una sottostima di
Immaginiamo di non disporre del livello di istruzione della moglie (quindi di non poter stimare la regressione a destra) e di voler
capire che conseguenza abbia l’omissione di tale regressore.
È verosimile che:
• il livello di istruzione della moglie abbia un effetto positivo sul reddito famigliare nel modello completo avrebbe segno
positivo
• il livello di istruzione della moglie è positivamente correlato con il livello di istruzione del marito (la covarianza tra variabile
omessa e variabile inclusa è probabilmente positiva)
La distorsione dunque ha segno positivo e l’omissione di WEDU provocherà una sovrastima di
(Siccome disponiamo in effetti di quella variabile, possiamo verificare gli effetti dell’omissione confrontando i due modelli)
Cosa accade se viene omessa una variabile rilevante per la variabile dipendente ma non correlata con un regressore incluso?
23
o 0,20 – 0,80 --> dipendenza lineare non fortissima (condividono qualcosa dell’informazione che hanno)
• condividono un pezzo di informazione ma apportano a due tipi di informazioni diverse. Il livello di correlazione ci porta a
pensare che condividono qualcosa dell’informazione ma spiegano la y in maniera diversa
• Se viene omessa, la «parte non spiegata» non ricade interamente nel termine di errore, come solito qualora non fossero
correlate
• Questo perché il modello legge l’informazione di «specchiata» in e la associa erroneamente ad , il cui coeff. di regressione
è dunque distorto.
Quindi se x2 viene omessa, il modello legge l’informazione che x1 veicola su y ma leggerà anche una parte di informazione
di x2 associandola erroneamente ad x1, dando un valore del coefficiente di regressione distorta e quindi fuorviante (perché
legge in x1 una parte di informazione che non è associata direttamente a quella variabile)
24
È un problema di flussi informativi
La collinearità
Caso che parte da un problema simile della distorsione della
variabile omessa, ma porta a differenze marcate nel problema e
nella soluzione
Ci sono sempre tre attori: variabile dipendente e due regressori
Entrambi i regressori sono correlati, ma la differenza è che la
correlazione è molto forte (vicina a 1 o -1), quindi una è una
combinazione lineare dell’altra.
• condividono la stessa informazione utile a predire
• inserendole entrambe le variabili come regressori, il modello
legge 2 volte la stessa informazione e non è in grado di
associarla ai regressori perché non è distinguibile.
Porta a stime non coerenti.
NUM.VOUCHER e ADVERT presenteranno una relazione sistematicamente positiva potrebbero essere collineari
• La spesa pubblicitaria certamente aumenterà le vendite
• Tuttavia sarà difficile scorporare gli effetti separati sui ricavi dei due tipi di spesa, proprio a causa della loro osservazione
come fenomeni sempre congiunti e dunque estremamente correlati.
25
Collinearità esatta --> esiste esatta/perfetta correlazione quando il coefficiente di correlazione = tra le variabili esplicative: lo
stimatore OLS non è definito. La regressione non si può stimare (è violata l’ipotesi degli OLS secondo cui le variabili
esplicative non sono funzioni lineari delle altre).
Collinearità non esatta --> c’è una correlazione tra le esplicative elevata che tende ad ma : le stime OLS avranno grandi s.e.
(stime poco precise, quindi test t diversi e coefficienti che potrebbero non essere significativamente diversi da 0). Nessuna
ipotesi è violata in questo caso
Collinearità perfetta
Vogliamo stimare l’effetto della zona di ubicazione sul prezzo medio delle abitazioni. Disponiamo di un campione di case
(dataset: Pregio.dta) di cui conosciamo:
- Prezzo (PRICE)
- Superficie dell’abitazione (Ampiezza)
- Ubicazione dell’abitazione in quartiere pregiato (PREGIO=1 sì, =0 no)
Il fatto che l’abitazione sia in un quartiere di pregio, mi aumenta il valore della casa di 46.000 dollari circa.
Lo stimatore OLS non è definito a causa di perfetta collinearità. Stata deve omettere uno dei regressori oggetto di perfetta
collinearità per poter stimare il modello.
e sono perfettamente collineari: esiste una relazione lineare esatta tra essi -->
La varianza dello stimatore dei minimi quadrati di in caso di collinearità è definita come:
Con r23 che definisce il coefficiente di correlazione tra e che assume valore tra –1 e +1
Possibile domanda esame: dato il coefficiente di correlazione, la variabilità dell’errore e la devianza di x2, si calcoli la varianza
dello stimatore indotta da un fenomeno di collinearità
• Nel caso di collinearità perfetta , (1 – r23) sarebbe zero quindi la varianza sarebbe infinita.
• Allo stesso modo se fosse costante (assume valori uguali alla sua media) più , in questo caso sarebbe collineare con il
termine costante.
Se si include un regressore che è costante, significa che non ha variabilità, non è rilevante in termini di potere informativo e
diventa collineare con l’intercetta.
In entrambi i casi lo stimatore OLS non è definito.
• Nel caso di collinearità non perfetta ma ne è molto vicino, la diventa elevata, rendendo le stime poco precise (coefficienti
poco significativi, alta instabilità all’aggiunta/esclusione di poche osservazioni (se tolgo un osservazione le stime saranno
completamente diverse), stime poco coerenti che dipendono troppo da quello che osserviamo, dal numero di osservazione,
dalla presenza di outliers).
26
Se la collinearità è perfetta, Stata ci dà errore
Se invece non è perfetta:
1) Calcolare la correlazione tra coppie di variabili esplicative (comando: cor variabili di cui si vuole stimare la correlazione
(sempre coppie di variabili)), se alte (>= ) probabilmente le due variabili veicolano la stessa informazione. Dunque se ne
esclude una senza perdita di informazione.
2) Se invece la collinearità non fosse relegata a un problema tra due variabili, ma fosse legato a più variabili, bisogna stimare le
«regressioni ausiliarie».
Ossia occorre stimare un modello di regressione che incorpora tutte le altre variabili esplicative osservate nel modello.
Ovvero regressioni tra variabili esplicative, ad es.:
Un elevato in questo modello artificiale che denotiamo con (il pedice denota il regressore a cui si fa riferimento) se
superiore a 0.80 segnala la presenza di collinearità tra quel regressore e le altre, in quanto R2 è una misura della bontà di
adattamento al modello.
Un indice molto usato in questo caso è infatti il Variance Inflation Factor (VIF) di :
Il VIF è il reciproco dell’R2. Quando il VIF è molto alto (maggiore di 5), significa alta collinearità.
Qualora osservassimo quindi un VIF=5 per il regressore 2, bisogna togliere il regressore 2. Se per gli altri regressori VIF<5
manteniamo gli altri regressori.
Quest’ultimo metodo permette di considerare non solo coppie di variabili.
Regressori categorici
La trappola delle dummy è una conseguenza diretta della collinearità
Vogliamo stimare un’equazione del salario che spieghi la retribuzione degli individui in funzione di alcune caratteristiche del
lavoratore, per es. livello di istruzione e regione di residenza.
Dataset: Wage.dta
Variabili:
• wage: salario orario in $
• educ: livello di istruzione in anni
• area: area di residenza, =1 north, =2 east, =3 south, =4 west (variabile binaria categorica che assume valori associati a
diverse categorie)
Se stimiamo un modello del tipo:
Vediamo che i due regressori non sono in grado di spiegare gran che della variazione dei salari orari
Le variabili sono tutte significative al 5%, solo educ è significativa anche all’1%
Quindi possiamo commentare l’output del modello, in quanto le variabili sono significative
Un anno di istruzione aggiuntivo determina un aumento del salario orario di 2 dollari
Problema: Come possiamo interpretiamo il coefficiente della variabile ? Che cos’è un incremento unitario dell’area di residenza?
Non si può commentare perché la variabile area è stata inclusa nel modello in maniera erronea.
L’abbiamo inserita come un valore ordinale, anche se non lo era. Il modello non è in grado di capire che quella variabile è
categoriale e non ordinale. Non si può verificare un incremento unitario dell’area di residenza.
27
- Ricordarsi di includere tutte le variabili binarie tranne una che costituirà la baseline da cui interpretare i risultati. La baseline
la possiamo scegliere noi, dipendentemente da cosa ci interessa verificare
Il fenomeno per cui l’inclusione di tutte le variabili binarie (categoriche) determina perfetta collinearità è noto come trappola delle
dummy.
Il modello è significativo per quando riguarda tutti i coefficienti, con un R2 = 0,20 (quindi le variabili incluse non sono sufficienti a
spiegare gran parte della varianza del fenomeno).
Tutte le variabili sono significative al 10%, west non è significativa al 5%.
Il livello educativo ha un coefficienti che non è tanto diverso da quello stimato prima.
La variabile binaria non inclusa diventa la categoria di riferimento per il commento delle variabili binarie incluse (north):
- south: in media gli individui che vivono al sud hanno un salario orario inferiore di 0,95$ rispetto agli individui che vivono al
nord
- east: in media gli individui che vivono nelle regioni orientali hanno un salario orario inferiore di 1,5$ rispetto agli individui che
vivono al nord
- west: in media gli individui che vivono nelle regioni occidentali hanno un salario orario superiore di 0,8$ rispetto agli individui
che vivono al nord
Riassumendo
• L’inclusione di variabili irrilevanti non conviene in quanto complica inutilmente il modello e diminuisce la precisione delle
stime su molti dei coefficienti (non solo quelli che riguardano le variabili irrilevanti)
• L’omissione di variabili rilevanti e correlate (< corr > ) con altri regressori può portare ad una distorsione delle stime e quindi
sulle interpretabilità del modello e delle relazioni causali che vogliamo stimare. Quando abbiamo valori strani e segni strani
dei coefficienti dobbiamo capire se stiamo considerando i principali fattori determinati per misurare il fenomeno.
• L’inclusione di variabili eccessivamente correlate (corr >= ) con altri regressori può portare a collinearità ed a stime poco
precise.
Cosa viola cosa:
28
L’omissione di variabili rilevanti viola l’ipotesi OLS che . L’errore deve avere valore atteso nullo e deve essere indipendente
da x, quindi l’omissione della variabile rilevante fa si che la variabilità della variabile omessa va nel termine di errore. Questo
implica che il termine di errore diventi correlato con le altre ausiliare, questo viola le ipotesi OLS e fa si che le stime siano
distorte.
La collinearità esatta o perfetta viola l’ipotesi OLS per cui le variabili esplicative non possono essere funzione lineare di altre
variabili esplicative.
La collinearità inesatta non viola ipotesi OLS, così come l’inclusione di variabili irrilevanti.
Esempio domanda esame: la collinearità imperfetta viola un’ipotesi OLS? Se si, quale?
Non viola nessuna ipotesi
12/05
Endogeneità e regressione con variabili strumentali
Nel contesto di un modello di regressione lineare, la distorsione da variabile omessa (variabile che ha un effetto su ed è correlata
con il regressore incluso ) è dovuta al venir meno di una delle assunzioni dei minimi quadrati:
--> la media condizionata dell’errore al regressore è uguale a 0.
: rappresenta tutti gli altri fattori oltre a che contribuiscono a determinare
Con questa formula si dicono contemporaneamente due cose: E (e) = 0 e Cov (ei, xi) = 0
Se uno di questi altri fattori (inclusi in ) è correlato con , allora anche l’errore risulta correlato con e la media di condizionata a
non sarà più nulla:
Perché?
Perché
Con =0, e potenzialemente dunque
Errori di misura
Se una variabile esplicativa è misurata con errore, essa potrebbe essere correlata con il termine di errore. In questo caso, si dice
che l’errore di misura di x introduce endogeneità.
Esempi:
- Se i dati sono raccolti attraverso un’indagine campionaria, un intervistato potrebbe dare la risposta sbagliata.
- Se i dati sono ottenuti da fonti amministrative, potrebbero esserci errori di inserimento.
Per capirlo intuitivamente, supponiamo una regressione con un singolo regressore (ad es. il reddito effettivo) che sia
imprecisamente misurato da (stima del reddito data dall’intervistato). Visto che osserviamo , la regressione sarà:
30
La variabile esplicativapotrebbe essere vista come formata da due parti:
• una componente esogena (che incorpora l’informazione della variabile ed è determinata al di fuori del modello)
• una componente endogena, il suo errore di misura, correlata con e dunque problematica.
Causalità simultanea
La causalità simultanea riguarda il rapporto che c’è tra regressore e variabile dipendente
Finora abbiamo ipotizzato che la causalità andasse dal regressore alla variabile dipendente (X causa Y).
Può accadere però che la causalità in effetti vada in entrambe le direzioni: X causa Y ma
anche Y causa X (causalità simultanea).
La causalità simultanea comporta una correlazione tra il regressore e l’errore e quindi endogenità (la
regressione OLS cattura entrambi gli effetti rendendo lo stimatore distorto e inconsistente).
Esempio: si vuole stimare l’effetto del reddito sullo stato di salute degli individui tramite:
Causalità simultanea: un reddito più alto può consentire cure più efficaci, alimentazione migliore, comportamenti più salutari e
quindi livelli di salute più alti, tuttavia una salute compromessa può ridurre la capacità di lavorare di un individuo e quindi incidere
sul suo reddito.
• Supponiamo ci siano dei fattori non osservati che determinano delle variazioni nello stato di salute di un individuo.
• Tali variazioni di salute implicano l’impossibilità di percepire una parte del reddito (a causa della causalità simultanea)
Siamo quindi davanti ad un problema di variabili omesse: i fattori non osservati sono correlati sia a che a
Anche in questo caso, la variabile esplicativa potrebbe essere vista come composta da due parti:
1) una componente esogena (dovuta all’informazione «esterna» al modello e quindi incorrelata con ), ossia la parte di x che
non è causata da y
2) una componente endogena che deriva da e dunque correlata con e problematica.
Il modello soffre di endogeneità, lo stimatore OLS è distorto e inconsistente.
31
Ma se io osservassi solo i punti caratterizzati da una curva di domanda (D1) costante, che implicano dunque un nuovo punto di
equilibrio dato da cambiamenti nella curva di offerta (qui O1 e O2):
Secondo stadio: facciamo una seconda stima OLS utilizzando i valori predetti di x1
Data questa scomposizione, la parte esogena è stimata dal OLS nel primo stadio da
Su tale stima, si considera la regressione del secondo stadio, così specificata:
32
- variabile dipendente: (la variabile dipendente del modello di partenza)
- variabili esplicative: al posto della variabile endogena , i valori previsti al primo stadio
ottenuto con TSLQ è una stimatore consistente di . Quindi non abbiamo più uno stimatore inconsistente, ma per grandi campioni
il valore atteso dello stimatore che utilizziamo è centrato sul vero valore del parametro che vogliamo stimare.
Lo stimatore TSLS
Abbiamo detto che con TSLQ è uno stimatore consistente di
Quando vi è una sola ed un solo strumento tale stimatore ha una formulazione molto semplice:
Dove denota la covarianza campionaria di Z e Y e di Z e X. Si tratta dello stimatore della covarianza. La direzione e magnitudine
del rapporto sono dunque facilmente intuibili.
Quando lo strumento determina il regressore endogeno con la stessa direzione del rapporto che può avere lo strumento con la
variabile dipendente, allora lo stimatore avrà segno positivo. Quando invece i due rapporti hanno direzione opposta, il segno dello
strumento è negativo.
Essendo la covarianza campionaria uno stimatore consistente della covarianza in popolazione (converge al vero valore della
covarianza stessa), la proprietà si applica al suo rapporto, dunque:
È a sua volta consistente ed è normale in grandi campioni.
…
Al secondo stadio, verranno inclusi tutti i regressori esogeni ed i valori predetti al primo stadio (, …) per i regressori oggetto di
studio: *
Implementazione in Stata
La procedura a due stadi risolve il problema di endogenità di
Stata ha un comando (ivreg) che consente di stimare un modello con il metodo delle variabili a due stadi molto rapidamente,
senza dover specificare i due stadi.
Le due strade (i due stadi stimati autonomamente e per esteso con reg e i due stadi stimati da Stata con un unico comando ivreg)
producono:
- stime dei coefficienti identiche
33
- stime degli st.error diverse: gli st.error ottenuti con la stima per esteso dei due stadi non sono aggiustati propriamente (la
significatività dei coefficienti dunque non è attendibile). Al contrario, il comando ivreg produce stime corrette degli st.error.
Al primo stadio lanciamo una regressione ausiliaria in cui le variabili indipendenti sono gli strumenti. Il primo stadio permette di
scomporre xk nelle due parti: parte esogena (yo + y1z) e parte endogena (v).
Al primo stadio quindi otteniamo i valori predetti della variabile, l’unico obiettivo del primo stadio è predittivo, ossia predire la parte
esogena di xk nella maniera più accurata possibile.
N.B. il numero di strumenti deve essere sempre uguale o maggiore del numero di var. endogene (se è pari si dice che gli
strumenti sono esattamente identificati, se maggiore sono sovraidentificati)
34
Estensione al modello di
regressione multiplo con 1
regressore endogeno , 1
strumento
cd /* YOUR DIRECTORY */
use Edu_inc.dta, clear
describe --> dati su reddito familiare della famiglia, livello educativo del marito e della moglie, numero di bambini con meno di 6
anni (k16) più alcune variabili irrilevanti
* ---------------------------------------------------
* ------ omissione di una var. rilevante
* ---------------------------------------------------
* modello con variabile omessa confrontato con modello con variabile inclusa
reg faminc he --> modello con test F positivo, R2 piuttosto basso. Un anno in più di istruzione del marito faceva si che la famiglia
avesse un reddito maggiore di 5155 dollari all’anno
reg faminc he we --> aggiungendo il reddito della moglie le stime cambiavano. Abbiamo aggiunto una variabile significativa,
questo lo vediamo dal fatto che tale variabile è significativa, il modello acquista potere informativo (R2 aumenta); le stime dei
coefficienti cambiano di 2000 dollari. Questo è dovuto alla distorsione da variabile omessa
Il modello acquista potere informativo e non ha più un coefficiente distorto
* calcolo la correlazione tra i due regressori: ha valore 0.60 approx, piuttosto elevata
35
cor he we --> ci permette di stimare il coefficiente di correlazione che va da -1 a +1. Valori sulla diagonale sono la correlazione su
se stesso (non da guardare), mentre sotto la diagonale abbiamo la correlazione a coppie (da giardare)
Persone che hanno un livello di istruzione elevato, sono portate ad avere un partner con livelli di istruzione elevati
* cioè conferma la grande discrepanza tra stime del coeff. di regressione di he nei due casi
* -------------------------------------------------------
* ------ inserimento di variabili irrilevanti
* -------------------------------------------------------
* ---------------------------------
* ------ collinearità esatta
* ---------------------------------
Prediamo il prezzo delle case rispetto alla metratura dell’appartamento e alla posizione dell’appartamento
reg prezzo PREGIO ampiezza
reg prezzo ampiezza PREGIO NPREGIO --> introduco un problema di collinearità perché NPREGIO = 1 - PREGIO
Calcoliamo la correlazione
cor PREGIO NPREGIO --> correlazione pari a -1. L'una è perfetta combinazione lineare dell'altra: lo stimatore OLS non è definito
* ---------------------------------------
* ------ trappola delle dummy
* ---------------------------------------
Modello con area variabile categoriale (fattore), ma inserita come variabile numerica: le stime dei coefficienti non hanno
significato
reg wage educ area --> inserire una variabile categoriale come una variabile numerica porta a una stima del coefficiente non
interpretabile.
* implementazione automatica delle variabili dummy tramite il comando .i con scelta della modalità baseline (area=2)
reg wage educ ib2.area --> in questo modo scegliamo noi la baseline (2=south), compariamo tutti i risultati in funzione di sud.
* ------------------------------------
* ------ collinearità inesatta
* ------------------------------------
* vogliamo stimare wage attraverso un modello con alto potere predittivo, che incorpora la maggiore informazione possibile data
la grande quantità di variabili presenti nel dataset
* studio il coeffic
cor wage-asian --> stimiamo la matrice di correlazione con più variabili (wage-asian significa stimare la correlazione di tutte le
variabile da wage a asian)
36
* Make correlation table
* The half option just shows the lower triangle and puts variable names on the axis.
* The flag1 and howflag1 options tell corrtable to plot positive correlations (r(rho) > 0 & r(rho) < 0.80)
* as light blue (blue*.1)
* The flag2 and howflag2 options tell corrtable to plot STRONG positive correlations (r(rho) >= 0.80)
* as dark blue (blue*.8)
* and flag3 and flag4 similarly tell it to plot negative correlations as pink.
* Dobbiamo rimuovere educ, una variabile tra exper ed age ed una tra insurance e private per collinearità inesatta. Ma quale
variabile di quelle in coppia scegliere di escludere?
cor wage exper age insurance private --> misuro la correlazione tra wage e altre variabili che vogli escludere. Escluderò quelle
meno correlate con wage
Scegliamo di mantenere nel modello la var della coppia maggiormente correlate con wage-asian, dunque escludiamo educ,
exper ed insurance.
* Cambio la forma funzionale poiché ha senso immaginare un effetto marginale non costante tra le variabili
reg log_wage fulltime-female private-metro i.area asian black
L'R2 infatti aumenta leggermente
37
vif --> ha valori sempre molto vicini a 1, quindi non abbiamo problemi di collinearità inesatta residua.
Abbiamo un modello definitivo: ora è possibile procedere con l'interpretazione dei risultati e delle stime
LAB M2.3
cd "..."
use y2010, clear
describe
gen gdp_t=gdp/1000 --> generato una nuova variabile per dividere la variabile per 1000 e aumentare l’interpretabilità delle stime.
* Vogliamo modellare una 'health outcome' come il YPLL su 34 stati americani in funzione di suoi possibili determinanti.
Years of potential life lost (YPLL) or potential years of life lost (PYLL), is an estimate of the average years a person would have
lived if they had not died prematurely.It is, therefore, a measure of premature mortality.
/*Estimate the premature mortality without considering the endogeneity problem:*/
reg lpyll alcohol gdp_t hexp_pub --> la mortalità prematura è funzione del consumo di alcool, pil pro capite e il tasso di spesa
pubblica per il sistema sanitario.
Tutte le variabili sono significative, tuttavia c'è un grosso problema di endogeneità:
• Una spesa pubblica più elevata può sicuramente determinare un sistema sanitario più efficiente nella prevenzione/cura delle
principali causa di morte prematura (x causa y).
• Tuttavia tale spesa può essere conseguenza di politiche specifiche che aumentano la spesa sanitaria negli stati con mortalità
maggiore, per contrastare tale fenomeno (y causa x).
C'è causalità simultanea, dunque endogeneità!
* Dobbiamo trovare una variabile strumentale che ci porti a stimare la parte informativa (esogena) di tale variabile endogena,
ovvero la parte della spesa che spiega l'efficienza del sistema sanitario.
Strumenti rilevanti possono essere:
1. Il tasso di anzianità: denota spesso un sistema sanitario più efficiente.
2. Il tasso di fertilità: spesso tassi di fertilità più elevati indicano una spesa per la sanità più elevata.
Entrambe soddisfano le condizioni di:
1. rilevanza: sono entrambe correlate a hexp_pub
2. esogeneità
1 var endogena, 2 strumenti: siamo in un contesto di sovraidentificazione.
*First stage equation: il regressore endogeno è funzione di tutti gli altri regressori esogeni e degli strumenti (fertility e total health
expenditure)
Procedura manuale
reg hexp_pub fertility elderly alcohol gdp_t --> variabile dipendente è la spesa pubblica, includo i due strumenti e gli altri due
regressori esogeni
Vediamo che il test F è significativo (indica la significatività congiunta di tutti gli strumenti del modello) e il tasso di variabilità
spiegata è pari al 62%.
*Second stage equation: la variabile dipendente (lpyll) + funzione dei regressori esogeni e dei fitted values della variabile
endogena
reg lpyll alcohol gdp_t f_hexp_pub --> lancio un modello log lineare, dove il logaritmo degli anni di vita persi è funzione del
consumo di alcool, pil pro capite e i valori predetti del regressore spesa pubblica (parte esogena della spesa pubblica che spiega
l’efficienza del sistema sanitario)
Vediamo che il modello di regressione ha un tasso di variabilità spiegato del 53% e test F significativo.
Ci sono delle stime dei coefficienti sensate: alcool incide positivamente sul tasso di mortalità prematura (se il consumo di alcool
aumenta di 1 litro, il tasso di mortalità prematura aumenta del 4,7%). L’aumento di 1000 dollari nel reddito provoca una
diminuzione del 0,7% nella mortalità prematura. Un aumento di 1 milione della spesa pubblica destinata alla sanità provoca una
diminuzione della mortalità prematura del 10,9%
Procedura automatica
38
ivreg lpyll alcohol gdp_t (hexp_pub= fertility elderly) --> ivreg variabile dipendente, regressori esogeni e regressore endogeno
(includerlo nelle parentesi e metterlo a sinistra dell’uguale, a destra dell’uguale invece gli strumenti)
nel caso di due regressori endogeni e due strumenti: ivreg y1 x1 (y2 y3 = z1 z2)
Assignment 3
Esercizio 6.9
(Y1 , X1 , X2) soddisfano le assunzione del concetto chiave 6.4. Si è interessati a B1, l’effetto causale di X1 su Y. Si supponga
che X1 e X2 siano incorrelate. Si stimi B1 effettuando una regressione di Y su X1 (cosicché X2 non sia inclusa nella regressione).
Questo stimatore soffre di distorsione da variabili omesse? Si argomenti la risposta
No, in quanto X1 e X2 non sono correlate tra di loro. Perciò l’informazione che X2 vuole veicolare a Y non viene specchiata in X1
(rendendo B1 distorto), ma ricade interamente sul termine di errore.
Esercizio 6.12
Un distretto scolastico conduce un esperimento per stimare l’effetto della dimensione delle classi sul punteggio ottenuto nei test
dalle classi seconde. Il distretto assegna il 50% degli studenti proveniente dalle classi prime a classi seconde piccole (18 studenti
per classe) e il 50% a classi di dimensione normale (21 studenti per classe). Gli studenti che entrano per la prima volta nel
distretto sono trattati diversamente: il 20% è assegnato casualmente a classi piccole e l’80% a classi di dimensione normale. Al
termine del secondo anno di scuola, ogni studenti viene sottoposto a un test standardizzato. Sia Yi il punteggio ottenuto nel test
dallo studente i.esimo, Xi una variabile binaria che vale 1 se lo studente è assegnato alla classe piccola, e Wi una variabile
binaria che vale 1 se lo studente è iscritto al distretto per la prima volta. Sia B1 l’effetto causale sul punteggio nei test della
riduzione della dimensione di una classe da normale a piccola.
a) Si consideri la regressione Y = B0 + B1Xi + ui. Si ritiene che E(ui | Xi) = 0? Lo stimatore OLS di B1 è non distorto e
consistente? Si argomenti la risposta
Lo stimatore OLS di B1 è distorto e inconsistente in quanto Xi e Wi sono correlata tra loro e Wi contribuisce a spiegare la
variabile dipendente Y, infatti il fatto che lo studente sia iscritto al distretto per la prima volta influisce sulla composizione delle
classi (20% a classi piccole e 80% a classi normali). Se gli studenti di nuova iscrizione ottengono performance
sistematicamente diverse nei test standardizzati rispetto a quelli provenienti dalle classi prime, questo diviene parte termine
di errore u.
b) Si consideri la regressione Y = B0 + B1Xi + B2Wi + ui. Si ritiene che E(ui | Xi, Wi) dipenda da Xi? Lo stimatore OLS di B2 è
non distorto e consistente? Si argomenti la risposta.
E(ui | Xi, Wi) non dipende da Xi in quanto il trattamento (assegnazione a classi piccole) è stato assegnato casualmente
condizionatamente allo stato di iscrizione (proveniente da classe prima o nuovo iscritto).
Lo stimatore OLS di B2 è non distorto e consistente.
c) Si ritiene che E(ui | Xi, Wi) dipenda da Wi? Lo stimatore OLS di B2 fornirà una stima consistente dell’effetto causale del
trasferimento in una nuova scuola (cioè dell’essere uno studente nuovo iscritto)? Si argomenti la risposta
Poiché W non è stato assegnato casualmente E(ui | Xi, Wi) potrebbe dipendere da Wi, quindi B2 potrebbe essere uno
stimatore distorto e inconsistente dell’effetto causale del trasferimento in una nuova scuola
Esercizio 6.1
39
Usando il dataset Birthweight_Smoking:
a) Si effettui una regressione di Birtweight su Smoker. Qual è l’effetto stimato del fumo sul peso alla nascita?
Il coefficiente smoker è significativo all’1%. Il fatto che la madre fumasse durante la gravidanza riduce il peso alla nascita del
bambino di 253 grammi
c) Un modo alternativo per il controllo delle visite mediche prenatali è quello di usare le variabili binarie da Tripre0 e Tripre3. Si
effettui la regressione di Birthweight su Smoker, Alcohol, Tripre0, Tripre2 e Tripre3.
o Perché Tripre1 è esclusa dalla regressione? Che cosa accadrebbe se invece la si includesse?
Si tratta di una variabile categorica con 4 modalità, bisogna obbligatoriamente escludere una delle modalità che
rappresenterà la baseline. Se la includessimo nel modello avremmo collinearità perfetta, in quanto una è la
combinazione lineare delle altre.
o Il coefficiente stimato su Tripre0 è grande e negativo. Che cosa misura tale coefficiente? Si fornisce un’interpretazione
del suo valore
Tale coefficiente è significativo e pari a -697.9687. In media il peso alla nascite dei bambini, le cui madri non hanno fatto
nessuna visita prenatale è inferiore di 698 grammi rispetto al peso alla nascita dei bambini le cui madri hanno fatto la
prima visita prenatale nel primo trimestre
o Si interpreti il valore dei coefficienti stimati su Tripre2 e Tripre3
Il coefficiente Tripre2 è significativo all’1%: in media il peso alla nascite dei bambini, le cui madri hanno fatto la prima
visita prenatale nel secondo trimestre è inferiore di 100 grammi rispetto al peso alla nascita dei bambini le cui madri
hanno fatto la prima visita prenatale nel primo trimestre
Il coefficiente Tripre3 è significativo al 5%: in media il peso alla nascite dei bambini, le cui madri hanno fatto la prima
visita prenatale nel terzo trimestre è inferiore di 136 grammi rispetto al peso alla nascita dei bambini le cui madri hanno
fatto la prima visita prenatale nel primo trimestre
o La regressione del punto (c) spiega una quota più ampia della varianza nel peso alla nascita rispetto alla regressione del
punto (b)?
No, in quanto l’R2 corretto della regressione stimata al punto (b) è pari al 71,9%, mentre l’R2 corretto della regressione
spiegata nel punto (c) è pari al 44,9%
23/05
Esercitazione 2: distorsione da variabile omessa, collinearità e trappola delle dummy (SA8)
* 1) caricare il dataset beer.dta, identificare le variabili incluse e visualizzare le loro etichette per comprendere il loro significato
cd "C:\Users\alice\OneDrive\Desktop\SA"
use "beer.dta", clear
describe
40
* 2) stimare tramite un modello log-log, dunque previa opportuna trasformazione delle variabili stesse, la quantità di birra
consumata in funzione del suo prezzo, del prezzo delle altre bevande alcoliche (liquor), del prezzo di altri beni e servizi e del
reddito
gen lq=ln(q)
gen lpb=ln(pb)
gen lpl=ln(pl)
gen lpr=ln(pr)
gen li=ln(i)
reg lq lpb lpl lpr li
* Log-log: un aumento dell'1% della variabile x determina una variazione del B % della variabile.
* L'aumento dell'1% del prezzo della birra determina una diminuzione del 1,02% del prezzo della birra
* 3) (osservare le stime dei coefficienti di regressione, sono sensate? ci sono alcuni segni sospetti relativamente alle stime dei
coefficienti?) n.b. all'esame non ci sarà una domanda di questo tipo: è utile in fase di esercitazione per stimolare il confronto
* Commento: ci aspettiamo una relazione negativa tra quantità di birra consumata e prezzo della birra, quindi il coefficiente lpb è
sensato. Il coefficiente prezzo delle altre bevande alcoliche non è sensato, in quanto all'aumentare del prezzo delle altre bevande
alcoliche la quantità consumata di birra dovrebbe aumentare non diminuire (effetto sostituzione).
* 4) ci potrebbe essere collinearità tra le variabili? se sì, perchè? stimare la matrice di correlazione tra tutte le variabili
considerate, plottare una correlation table e commentarla
cor lq-li
* Commento: la prima colonna rappresenta la correlazione a coppie che la variabile dipendente ha con i regressori. Ha con tutte
una correlazione negativa e alta.
* Spostandoci sulle altre colonne vediamo la correlazione a coppie con tutti i regressori; possiamo vedere che c'è un grande
problema di collinearità potenziale. Si tratta di collinearità imperfetta, in quanto la correlazione è vicina a 1 ma non uguale a 1
corrtable lq-li, half flag1(r(rho) > 0 & r(rho) < 0.80) howflag1(plotregion(color(blue * 0.1))) flag2(r(rho) >= 0.80)
howflag2(plotregion(color(blue * 0.8))) flag3(r(rho) < 0 & r(rho)> -0.80) howflag3(plotregion(color(pink*0.1))) flag4(r(rho) <= -0.80)
howflag4(plotregion(color(pink*0.8)))
* Abbiamo individuato 6 correlazioni molto alte (>=0,80):
* lq e lpq: correlazione negativa pari a -0,83
* lpb e lpl: correlazione molto forte positiva pari a 0,96
* lpl e lpr: correlazione molto forte positiva pari a 0,80
* lpq lpl lpr con li: correlazione molto forte positiva
* 5) se sì, come si può definire questo tipo di collinearità? viola alcune ipotesi OLS? cosa implica in termini pratici?
* Si tratta di una collinearità inesatta che non viola nessuna ipotesi OLS, ma la conseguenza è che ci sono stime imprecise, in
quanto gli s.e. saranno elevati. Implica quindi un aumento della variabilità degli stimatori, gli standard error sono inflated da
questa collinearità.
* 6) tale collinearità riguarda solo coppie di variabili oppure anche gruppi di variabili maggiori di 2? stimare tutte le regressioni
ausiliarie per valutarlo e commentarle una per una
* Le regressioni ausiliarie sono regressioni in cui la variabile dipendente è uno dei regressori e le altre variabili dipendenti sono gli
altri regressori. Regrediamo solo i regressori uno a uno in funzione degli altri, escludiamo la variabile lq.
reg lpb lpl lpr li
* R^2 = 0,95 molto alto. La variabile li è significativa all'1%, la variabile lpr non è significativa e la variabile lpl al 5%. L'intercetta è
significativa all'1%. Due regressori su tre contribuiscono a spiegare il logaritmo del prezzo della birra. Quindi la collinearità non
riguarda coppie di variabili, ma un gruppo di tre variabili.
reg lpl lpb lpr li
* R^2 = 0,95 molto alto. Lpl è spiegato al 95% dagli altri regressori. Anche qui due regressori sono statisticamente significativi: li e
lpb. C'è ancora una relazione tra un gruppo di tre variabili.
reg lpr lpb lpl li
* R^2 = 0,69 abbastanza alto, ma più basso degli altri. Solo li è significativo al 10%. In questo caso, il regressore lpr non è tanto
speigato dagli altri regressori, è spiegato solo da li. Quindi le aree con un livello più elevato di reddito pro capite, ha anche prezzi
più alti.
reg li lpb lpl lpr
* R^2 = 0,96 molto alto. Le variabili significative sono tutte e tre. Quindi li è il primo regressore da togliere in quanto ci sono delle
relazioni positive fortissime, ma anche lpb e lpl hanno una relazione molto forte. Ci sono tre regressori su quattro che hanno una
variabilità spiegata molto alta, solo lpr non ha una variabilità spiegata così alta. La regressione più preoccupante è li che è
spiegato da tutti i tre regressori.
41
* 8) stimare tramite un modello log-log la quantità di birra consumata in funzione del suo prezzo e del prezzo di altri beni, c'è un
problema di collinearità? calcolare nuovamente il vif in questo caso
reg lq lpb lpr
vif
* Tutte le variabili sono significative all'1%. Il coefficiente lpr è molto diverso, prima era negativo, ora è positivo
* In questo caso non si ha più un problema di collinearità, in quanto il vif è minore di 5 per entrambe le variabili. è stato risolto il
problema di collinearità inesatta
* 9) commentare le stime e la var. spiegata dal modello. Considerare pbr come una variabile utile a controllare l'inflazione e
dunque il livello dei prezzi in generale.
* Entrambi i coefficienti sono significativi all'1%. All'aumentare di 1% nel prezzo della birra, il consumo di birra diminuisce di
0,73% (siamo in un caso di anelasticità, in quanto la quantità di birra diminuisce meno dell'aumento del prezzo della stessa).
Mentre all'aumentare di 1% nel prezzo di altri beni e servizi, il consumo di birra aumenta di 0,26% (coefficiente utile per
controllare l'inflazione). La variabilità spiegata dal modello è pari a 79%.
* 10) stimare tramite un modello log-log la quantità di birra consumata in funzione solamente del suo prezzo e confrontarlo con il
modello al punto 9). ci sono differenze nella stime dell'elasticità della domanda? a quale problematica potrebbero essere dovute?
reg lq lpb
* In questo modello il coefficiente è sempre significativo, tuttavia all'aumentare di 1% nel prezzo di birra, il consumo di birra
diminuisce di 0,50%. Anche lo standard error è diminuito (0,063 rispetto a 0,084). La differenza può essere dovuta al fatto che,
togliendo lpr, il modello non considera la variazione degli altri prezzi. Quindi l'elasticità stimato nel punto 10 non è corretta, il
coefficiente di regressione è in questo caso distorto; si tratta di una distorsione da variabile omessa. Se calcolassimo infatti la
regressione tra lpb e lpr avremo 0,77, in questo caso il coefficiente di correlazione è rilevante ma inferiore a 0,80. Quindi si ha il
problema di distorsione da variabile omessa.
* 1) caricare i dati ed identificare i nomi della variabili ed il loro significato tramite la documentazione in allegato all'esercizio.
cd "C:\Users\alice\OneDrive\Desktop\SA"
use "Movies.dta", clear
describe
* 2) si esegua una regressione che modella il numero di rapine in logaritmo, dunque trasformando opportunamente la variabile, in
funzione del numero di spettatori di film fortemente violenti (in milioni), numero di spettatori di film mediamente violenti (in milioni)
ed il numero di spettatori di film non violenti (in milioni) ed infine includendo come regressori anche le variabili indicatrici relativi
all'anno ed al mese di riferimento, per quest'ultime è sufficiente inserire il comando "year1-month12" nella lista dei regressori.
gen lassaults=ln(assaults)
reg lassaults attend_v attend_m attend_n year1-month12
* 3) Gli effetti stimati sono statisticamente significativi? Perchè le variabili year1 e month7 sono omesse da stata?
* Il coefficiente attend_v è significativo al 10%, attend_m all'1% e attend_n non è significativo. La vairabilità spiegata è pari a 0,99
* Year1 e month7 sono esclusi a causa della collinearità perfetta, c'è quindi un problema di trappola delle dummy. Rappresentano
la baseline su cui interpretare i risultati
* 4) abbiamo ragione di pensare che il modello appena stimato sia affetto da endogeneità a causa della variabile omessa sulle
condizioni meteo:
* il meteo può infatti essere contemporaneamente connesso al numero di rapine effettuate quel weekend ed al numero di
persone che si recano al cinema: tutti i regressori sono coinvolti.
* Per risolvere tale problema si esegua la stessa regressione al punto 2) ma con variabili strumentali, adottare come strumenti le
variabili pr_attend_v, pr_attend_m, pr_attend_n.
ivreg lassaults year1-month12 (attend_v attend_m attend_n=pr_attend_v pr_attend_m pr_attend_n)
* Quindi le variabili dentro la parentesi a sinistra dell'uguale sono le variabili endogene, quelle a destra sono gli strumenti. I
coefficienti sono diversi da quelli visti prima e anche la loro significatività.
* 5) I regressori sono sovraidentificati? Spiegare inoltre perchè non è possibile usare come strumenti solamente le variabili
pr_attend_v e pr_attend_m.
* I regressori sono perfettamente identificati in quanto il numero di regressori endogeni è pari al numero di variabili strumentali.
Se usassimo sono due strumenti, i regressori endogeni sarebbero sotto identificati. Non è possibile stimare la regressione
* 6) ci sono differenze nella stime rispetto al modello stimato al punto 2)? a cosa potrebbero essere imputabili tali differenze?
* Ci sono differenze sia nella stima dei coefficienti che negli standard error. Le differenze sono imputabili al fatto che il modello al
punto (2) era affetto da endogeneità a causa della trappola delle dummy. Determina una violazione delle ipotesi OLS che
determina una distorsione dei coefficienti di regressione.
* 7) in base alla regressione con variabili strumentali, guardare un film con un alto tasso di violenza fa aumentare o diminuire le
rapine? l'effetto stimato è statisticamente significativo? A che livello?
* Il coefficiente è significativo al 5%. Un milione di spettatori di film molto violenti in più, determina in media una diminuzione di
0,35% sul numero di rapine
42
* 8) guardare film molto violenti ha sul numero di rapine un effetto diverso da quello di guardare film non violenti?
* Il coefficiente guardare film non violenti è significativo al 5%. Un milione di spettatori di film non violenti in più, determina in
media una diminuzione di 0,24% sul numero di rapine (rispetto a 0,35%). Non si ha una differenza elevata
* 9) verificare la rilevanza degli strumenti utilizzati al punto 4) per ciascun regressore endogeno. Suggerimento: vedi ultima slide
"punti focali" del ripasso della lezione SA9.
* Bisogna testare il test F all'interno delle regressioni al primo stadio della procedura a due stadi di stima.
* Stimare quindi un modello in cui la variabile dipendente è uno dei regressori endogeni, includere tutti gli strumenti e poi la
variabile esogena
reg attend_v pr_attend_v pr_attend_m pr_attend_n year1-month12
reg attend_m pr_attend_v pr_attend_m pr_attend_n year1-month12
reg attend_n pr_attend_v pr_attend_m pr_attend_n year1-month12
* Il test F è sempre 0.0000 (significativo a tutti i livelli), quindi gli strumenti sono rilevanti per tutti e tre i regressori endogeni
24/05
Mock test II parziale
1. Vogliamo testare la differenza tra medie di due popolazioni μ1 e μ2 partendo da due campioni estratti dalle menzionate
popolazioni. In particolare le ipotesi sono le seguenti: H0: μ1=μ2 e H1: μ1≠μ2
Si consideri un generico livello di significatività α.
Qual è\quali sono la\e regione\i di rifiuto? Nelle risposte, qα denota un generico quantile alpha-esimo della distribuzione della
statistica test sotto l'ipotesi nulla.
a. statistica test osservata >qα/2
b. |statistica test osservata| < |qα/2|
c. statistica test osservata < qα/2 e statistica test osservata > q1−α/2 --> test a due code
d. q−α > statistica test osservata > qα
Le tabelle di frequenze sono tabelle a doppia entrata in cui in ogni riga e colonna viene espressa la frequenza relativa e assoluto
delle osservazioni all’interno del campione che assumono una data modalità per una variabile e una data modalità per un’altra
variabile. Per esempio 419 individui sono non occupati con un livello di istruzione minore.
Sulla base dell'output riportato si individui l'affermazione VERA tra quelle indicate qui sotto:
a. gli individui non occupati e con un livello di istruzione inferiore a quella secondaria sono il 20.95% del campione
b. 568 individui del campione sono non occupati e posseggono un livello di istruzione secondaria o superiore
c. la numerosità del campione è di 100 individui
d. gli individui occupati e con un livello di istruzione secondaria o superiore sono il 71.60% del campione
43
b. le variabili x3 ed x4 sono classificate come strumenti
c. i regressori x1 ed x2 sono classificati come variabili endogene
d. la regressione indicata risulta stimabile tramite la procedura TSLS
7. Il dataset contiene informazioni su 545 lavoratori per 8 anni. Di seguito sono riportate le variabili incluse.
nr person identifier
year 1980 to 1987
exper Esperienza nel mercato del lavoro (anni)
union =1 se il lavoratore fa parte di un sindacato, =0 altrimenti
area =1 North central, =2 North East, 3= South, =4 North West
wage Salario orario $
black =1 se di colore;=0 altrimenti
a) Si consideri il dataset relativo solo al 1981 con il comando keep if (year == 1981).
b) Si esegua un test d’ipotesi omoschedastico per verificare che il salario orario medio nel 1981 sia lo stesso per lavoratori
iscritti ad un sindacato e per i lavoratori non iscritti al sindacato. Si riporti il sistema di ipotesi, il valore della statistica test
osservata e la conclusione del test.
Stiamo utilizzando un test omoschedastico
µs = salario orario medio di coloro che sono iscritti al sindacato
µn = salario orario medio di coloro che non sono iscritti al sindacato
H0: µs = µn
H1: µs ≠ µn
T stat = -4,6915 --> lo stimatore deriva da uno stima che ha sotto l’ipotesi nulla una distribuzione T di student con 543 gradi di
libertà
La differenza tra le medie è -1,10, la differenza tra standard error è 0,23. È ragionevole l’ipotesi di un test omoschedastico in
quanto le standard deviation sono simili.
Essendo il p-value pari a 0, quindi inferiore a qualsiasi alfa rifiutiamo l’ipotesi nulla. Di conseguenza, il salario orario medio nel
1981 è statisticamente diverso tra i lavoratori iscritti ad un sindacato e i lavoratori non iscritti
44
c) Si stimi un modello probit per analizzare l’effetto dell’esperienza professionale e del salario orario sulla probabilità di essere
iscritti ad un sindacato. Qual è l’impatto dell’esperienza professionale sulla probabilità di iscriversi ad un sindacato? E del salario
orario? Sono significativi?
Il coefficiente exper non è significativo, mentre wage è significativo all’1%
Possiamo dire che un soggetto con un salario è più elevato avrà più probabilità di iscriversi a un sindacato, wage è positivamente
legato alla probabilità di far parte di un sindacato, a parità delle altre variabili
L’esperienza professionale dovrebbe portare ad avere una probabilità maggiore di iscriversi al sindacato.
e) Calcolare gli effetti marginali medi di ciascun regressore e commentarli, sono significativi?
L'effetto marginale medio è pari a 0,o33 per la variabile
wage, ed è significativo all’1%. Una variazione di un
dollaro nel salario orario medio, comporta un aumento
della probabilità in media di 3,3 percento della probabilità
di iscriversi a un sindacato. Mentre l’effetto marginale
medio per la variabile exper non è significativo, in linea con il fatto che tale variabile non è significativo nel modello probit. Il
regressore exper indica che un aumento di un anno di esperienza del soggetto, aumenta la probabilità dell’1,6 percento del
soggetto di iscriversi a un sindacato
Questo effetto marginale è calcolato come la media degli effetti marginali su tutti gli individui del campione.
f) Qual è la variazione di probabilità di essere iscritti ad un sindacato in punti percentuali se un soggetto con salario orario pari
a 15 dollari passa da 5 a 7 anni di esperienza nel mercato del lavoro?
La probabilità di essere iscritti ad un sindacato se un soggetto ha un salario orario pari a 15 dollari e ha 5 anni di esperienza è
pari a 0,66638 (66%), mentre è pari a 0,703596 (70%) se ha 7 anni di esperienza.
Di conseguenza vi è una variazione di probabilità positiva di 3.7 punti percentuali.
* a) Si consideri il dataset relativo solo al 1981 con il comando keep if (year == 1981).
cd "C:\Users\alice\OneDrive\Desktop\SA"
use "SAMPLETEST.dta", clear
keep if (year == 1981)
* b) Si esegua un test d'ipotesi omoschedastico per verificare che il salario orario medio nel 1981 sia lo stesso per lavoratori
iscritti ad un sindacato e per i lavoratori non iscritti al sindacato. Si riporti il sistema di ipotesi, il valore della statistica test
osservata e la conclusione del test.
ttest wage, by (union)
* c) Si stimi un modello probit per analizzare l'effetto dell'esperienza professionale e del salario orario sulla probabilità di essere
iscritti ad un sindacato. Qual è l'impatto dell'esperienza professionale sulla probabilità di iscriversi ad un sindacato? E del salario
orario? Sono significativi?
probit union exper wage, r
* d) Si calcoli la frazione correttamente predetta dal precedente modello considerando come soglia 0.50.
cap drop pr_probit
predict pr_probit
cap drop yhat_probit
gen yhat_probit=0
replace yhat_probit=1 if pr_probit>=0.5
45
tab union yhat_probit, cell
sum pr_probit if yhat_probit==0 & union==1
sum pr_probit if yhat_probit==1 & union==0
* e) Calcolare gli effetti marginali medi di ciascun regressore e commentarli, sono significativi?
probit union exper wage, r
margins, dydx(_all)
* f) Qual è la variazione di probabilità di essere iscritti ad un sindacato in punti percentuali se un soggetto con salario orario pari
a 15 dollari passa da 5 a 7 anni di esperienza nel mercato del lavoro?
probit union exper wage, r
scalar z1=normprob(_b[_cons]+_b[wage]*15+_b[exper]*5)
di z1
scalar z2=normprob(_b[_cons]+_b[wage]*15+_b[exper]*7)
di z2
scalar delta=z2-z1
di delta
Esercizio 1
Vogliamo testare la differenza tra medie di due popolazioni con riferimento alla variabile educational attainment, in particolare
disponiamo di 2 campioni estratti. Il primo campione registra l’educational attainment per gli individui di sesso maschile (he), il
secondo per gli individui di sesso femminile (we). Alla luce del seguente output che definisce rilevanti quantità campionarie per
ciascuno dei due campioni, decidere quale test di differenza tra medie è più opportuno utilizzare e descrivere il test e le sue
assunzioni. Inoltre, indicare ipotesi nulla, ipotesi alternativa e riportare genericamente le regioni di rifiuto nel caso di un test a due
code.
. sum he
. sum we
Possiamo vedere che ci sono 428 osservazioni in entrambi i campioni, la media per he è 12,61 per we 12,65. La standard
deviation per he è 4,03 e we 2,28. In questo caso sarebbe opportuno utilizzare un test di tipo eteroschedastico (test di Welch) in
quanto la variabilità delle due popolazioni ci dice che una è la metà dell’altra, quindi il campione della popolazione femminile è
molto meno variabile in termini di punteggio di educational atteinment rispetto agli individui maschili. C’è meno eterogeneità nel
campione degli individui femminile.
H0: µhe - µwe = 0
H1: µhe - µwe ≠ 0
Regione di rifiuto: t oss < qa/2 e t oss > q1-a/2 --> test a due code, testiamo una generica differenza.
Esercizio 2
Di seguito per ciascun settore di attività economica è riportata la percentuale
di imprese italiane che nell’ultimo triennio hanno effettuato investimenti in
Tecnologie e Digitalizzazione:
Si indichi se la seguente affermazione è vera o falsa: nel settore del
commercio la percentuale di imprese che hanno effettuato investimenti è
inferiore dell’11% rispetto al settore costruzioni.
Falso: non è inferiore dell’11% ma è inferiore di 11 punti percentuali rispetto al settore costruzioni. Per calcolare la differenza
percentuale dovremmo calcolare (35% – 46%) / 46%
Esercizio 3
Si consideri un campione di famiglie su cui è osservata la variabile faminc indicante il reddito disponibile e la variabile categoriale
nofigli indicante l’assenza di figli a carico (nofigli =1) e altrimenti (nofigli =0).
Commentare il seguente output specificando il tipo di metodologia implementata, l'obiettivo di tale metodologia e le assunzioni
alla base, le quantità rilevanti ed il responso finale che si può trarre.
46
0| 53 83948.95 6696.235 48749.32 70511.97 97385.93
1| 375 92239.65 1724.555 33395.88 87833.2 96646.1
---------+----------------------------------------------------------------------------------------------------------------
Combined | 428 91213 2132.492 44117.35 87021.51 95404.49
---------+----------------------------------------------------------------------------------------------------------------
diff | -8290.701 6469.21 -21006.25 4424.844
--------------------------------------------------------------------------------------------------------------------------
diff = mean(0) - mean(1) t = -1.2816
H0: diff = 0 Degrees of freedom = 426
Stiamo utilizzando un test di differenza tra media omoschedastico per testare la differenza di reddito disponibile per la
popolazione di famiglie con figli a carico e quelli senza figli a carico.
Mean(0) è la media di reddito disponibile per le famiglie con figli a carico e mean((1) senza figli a carico
Le assunzione alla base del test omoschedastico è che le varianze tra le popolazione siano non note e uguali tra loro
Il valore osservato della statistica test è -1,28, si tratta di uno stimatore ha una distribuzione T di student con 426 gradi di libertà
sotto l’ipotesi nulla
Le differenze osservate sono -8290 di reddito disponibile annuo, i valori di standard deviation sono molto diversi tra le due
popolazioni (potrebbe non essere sensato un test omoschedastico, più adatto un test eteroschedastico di Welch)
Se il sistema di ipotesi incorporasse tra l’ipotesi alternativa il fatto che la differenza sia diversa da 0 (non viene assunto un segno
positivo o negativo alla differenza), possiamo dire che l’ipotesi nulla non è rifiutata in quanto il p-value è maggiore di 0,10. Non c’è
una differenza statisticamente significativa tra i due redditi
Non possiamo accettare nemmeno le altre due ipotesi alternative (il fatto che la differenza abbia un segno positivo o negativo) in
quanto il p-value è sempre superiore a 0,10.
In generale non rifiutiamo l’ipotesi nulla in nessuno dei tre casi
Esercizio 1
Dataset: Occupancy.dta
Variabili incluse nel dataset:
Variabile Descrizione
price sale price, dollars
sqft total square feet
bedrooms number of bedrooms
baths number of full baths
age age in years
occupancy Stato di occupazione: =1 abitata dal proprietario, =2 Vuota, 3=in affitto
pool =1 if yes
style Traditional=1, Ranch=2, Contemporary=3 ,Cottage=4
fireplace =1 if yes
waterfront =1 if yes
dom Days on the market
4. Si stimi un modello in cui il prezzo della casa è funzione dell’ampiezza, dello stato di occupazione e del numero di giorni da
cui è sul mercato. Si commenti l’effetto dello stato di occupazione.
In base alle stime ottenute e riportate di seguito (non richiesto) le abitazioni vuote non hanno in media un prezzo diverso
rispetto a quelle in cui vive il proprietario, a parità di ampiezza e giorni da cui la casa è sul mercato.
In media le abitazioni in affitto hanno un prezzo maggiore di 34741 dollari rispetto alle abitazioni abitate dal proprietario.
5. Si stimi un modello in cui il prezzo della casa è funzione dell’ampiezza, del numero di giorni da cui è sul mercato e dello stile.
Si commenti l’effetto dello stile sul prezzo, prendendo come gruppo di riferimento le case in stile tradizionale.
In media un’abitazione in stile ranch, ha un prezzo superiore di 26438 dollari rispetto alle abitazioni tradizionali (significativo
all’1%). In media un’abitazione con stile contemporaneo, ha un prezzo superiore di 51659 dollari rispetto alle abitazioni
tradizionali (significativo all’1%)
Le abitazioni in stile cottage costano mediamente 10927$ in più di quelle in stile tradizionale (coefficiente significativo al
10%), a parità di ampiezza e di periodo sul mercato
47
*1) tab fireplace if style==2
*2) tab style if fireplace==1
*3) count if fireplace==1 & pool==1
/*oppure*/ tab pool fireplace
*4) *Creo le variabili dummy a partire da occupancy
tab occupancy, gen(stato)
reg price sqft dom stato2 stato3
*Oppure
reg price sqft dom i.occupancy
*5) *Creo le variabili dummy a partire da occupancy
tab style, gen(stile)
reg price sqft dom stile2 stile3 stile4
*Oppure
reg price sqft dom ib1.style
Esercizio 3
Dataset: Fertility.dta
Questi dati sono tratti dal censimento americano del 1980. Sono stati forniti dal Professor William Evans della University of
Maryland e sono stati usati nel suo articolo scritto con Joshua Angrist “Children and Thier Parents’ Labor Supply: Evidence from
Exogenous Variation in Family Size”, American Economic Review, giugno 1998.
Il file Fertility.dta contiene dati su 254.654 donne sposate di età compresa tra 21 e 35 con più di due figli.
Variabile Descrizione
morekids =1 se la madre aveva più di due figli
boy1st =1 se il primo figlio era maschio
boy2nd =1 se il secondo figlio era maschio
samesex =1 se i primi due figli sono dello stesso genere
agem1 età della mamma al censimento
black =1 se la madre è nera
hispan =1 se la madre è ispanica
othrace =1 se la madre non è nera, ispanica o bianca
weeksm1 settimane lavorate dalla madre nel 1979
1) Si stimi un modello di regressione lineare semplice con il metodo OLS in cui il numero di settimane lavorate sono funzione
dell’età della madre, della sua origine etnica e della presenza di più di due figli. Si commentino le stime ottenute.
Tutti i coefficienti sono significativi all’1%. Un anno in più nell’età della madre determina in media un aumento di 0,84
settimane lavorate.
In media se la madre è nera lavora 11 settimane in più rispetto alla situazione in cui la madre è bianca. Se la madre è
ispanica lavora in media 0,5 settimane in più rispetto alla situazione in cui la madre è bianca. E le donne di altre etnie
lavorano in media 2 settimane in più rispetto alle donne bianche, a parità delle altre condizioni
Le madri con più di due figli tendenzialmente lavorano 6 settimane in media rispetto alle madri con meno di due figli, a parità
delle altre condizioni.
La bontà del modello è molto bassa, con un R2 pari a 4,38%
2) Perché la regressione OLS stimata al punto precedente è inappropriata per stimare l’effetto causale della fertilità ()
sull’offerta di lavoro ()?
Il modello potrebbe essere affetto da endogenità. Il numero di figli ha certamente un effetto sul tempo che una donna dedica
al lavoro, ma allo stesso tempo anche il tempo dedicato al lavoro può avere un effetto sulla scelta di avere/non avere
(ulteriori) figli. Si configura quindi una situazione di causalità simultanea.
3) I dati contengono la variabile =1 se i primi due bambini sono dello stesso sesso (maschio-maschio o femmina-femmina) e
=0 altrimenti. Le coppie i cui primi due figli sono dello stesso sesso hanno maggiori probabilità di avere un terzo figlio?
È stato stimato un modello di probabilità lineare. In base alle stime ottenute si può affermare che la probabilità di avere più di
due figli per una coppia i cui primi due figli siano dello stesso sesso è maggiore di quasi 7 punti percentuali rispetto ad una
coppia i cui primi due figli sono di sesso diverso. L’effetto è statisticamente significativo all’1%.
4) Si vuole stimare l’effetto della fertilità sull’offerta di lavoro (espresso come numero di settimane lavorate), ma si vuole
correggere il problema rilevato al punto 2). Si proponga una soluzione e la si implementi motivandola.
Come discusso, il modello che mette in relazione weeksm1 e morekids è verosimilmente affetto da causalità simultanea. Lo
stimatore OLS produce quindi stime distorte dell’effetto di morekids su weeksm1. Si decide quindi di utilizzare il metodo delle
variabili strumentali e si utilizza samesex come strumento. Quest’ultima variabile costituisce un buono strumento perché:
• L’avere i primi due figli dello stesso sesso o no è del tutto casuale. Non ha alcun effetto sul numero di settimane lavorate
e quindi non è correlata con il termine di errore del modello. E’ dunque uno strumento esogeno.
• L’avere i primi due figli dello stesso sesso o no è però correlata con la probabilità di avere più di due figli. Come emerge
dal modello stimato al punto precedente le coppie i cui primi due figli sono di sesso diverso hanno una maggiore
probabilità di avere più di due figli. Si tratta di uno strumento rilevante.
Le stime ottenute usando il metodo IV indicano che l’avere più di due figli determina una riduzione nel numero di settimane
48
lavorate ogni anno pari a 5,8. Questo effetto (significativo all’1%) può essere legittimamente considerato l’effetto casuale di
avere più di due figli, a parità di età e origine etnica della madre.
Esercizio 4
Dataset: Income_Democracy.dta
Il file di dati Income_Democracy contiene dati per 195 paesi relativi agli anni 1960, 1965, ..., 2000.
Questi dati sono stati forniti dal professor Daron Acemoglu e costituiscono un sottoinsieme dei dati usati nel suo articolo scritto
con Simon Johnson, James Robinson e Pierre Yared, “Income and Democracy”, American Economic Review, 2008, 98:3: 808-
842.
Il file contiene 3.000 osservazioni sulle variabili descritte di seguito.
Variabile Descrizione
country nome paese
year Anno
dem_ind indice di democrazia
log_gdppc logaritmo del PIL reale pro capite
log_pop logaritmo della popolazione
age_1 frazione della popolazione di età 0-14
age_2 frazione della popolazione di età 15-29
age_3 frazione della popolazione di età 30-44
age_4 frazione della popolazione di età 45-59
age_5 frazione della popolazione di età 60 e oltre
educ numero medio di anni di istruzione per adulti (da 25 anni in su)
age_median età mediana
code codice paese
Note: le variabili di reddito e demografiche sono ritardate di cinque anni rispetto all’indice di democrazia in modo che la
democrazia abbia il tempo per adattarsi ai cambiamenti di queste variabili. Per esempio, log_gdppc per year = 1965 è il logaritmo
del PIL pro capite nel 1960.
I cittadini chiedono più democrazia e libertà politica all’aumentare del loro reddito? Ovvero, la democrazia è un bene normale?
1) Quali sono il valore minimo e il valore massimo che l’indice di democrazia assume nel campione?
Il valore minimo è 0 e il valore massimo è 1
2) Si stimi un modello in cui il grado di democrazia in un paese è funzione del logaritmo del PIL reale pro capite e si commenti
Il coefficiente è significativo all’1%. All’aumentare di 1% del PIL reale pro capite, l’indice di democrazia aumenta di 0.0023
punti.
3) Si suggerisca una variabile che varia tra paesi, ma varia poco o nulla nel tempo e che potrebbe causare distorsione da
variabili omesse nella regressione appena stimata.
I paesi presentano differenze nelle strutture sociali e religiose che possono essere correlate con lo sviluppo economico del
paese (quindi con il reddito pro-capite) e che possono influenzare le preferenze per la democrazia.
Esercizio 5
Dataset: SLEEP.dta
Il dataset include informazioni riguardanti le abitudini di sonno di un campione di individui.
id id
age eta
educ livello di istruzione (anni)
year year
gdhlth binaria=1 se in buona salute, =0 altrimenti
male binaria =1 se uomo, =0 se donna
49
marr binaria=1 se sposato, =0 altrimenti
sleep Tempo impiegato a dormire (minuti a settimana)
totwrk Tempo impiegato a lavorare (minuti a settimana)
yngkid binaria =1 se in famiglia è presente un bambino <3 anni, =0 altrimenti
Si può affermare che a parità degli altri fattori gli uomini dormono lo stesso tempo delle donne?
Il coefficiente male non è significativo, perciò si può affermare che gli uomini dormono lo stesso tempo delle donne a parità
degli altri fattori
Esercizio 6
Dataset CRIME.dta
Il dataset contiene informazioni riguardanti 90 contee del North Carolina relative alla criminalità dal 1981 al 1987.
county Contea
year Anno
crmrte Numero di crimini commessi per individuo
prbarr Probabilità stimata di arresto
prbconv Probabilità stimata di essere giudicati colpevoli dopo l'arresto
prbpris Probabilità stimata di ricevere una pena detentiva
avgsen Durata media della pena
polpc Numero di agenti di polizia pro capite
density Densità di popolazione , individui per km quadrato
west =1 se contea occidentale, =0 se contea orientale o centrale
central =1 se conte centrale, =0 se contea orientale o occidentale
pctymle Percentuale di giovani maschi nella popolazione
1) Si consideri solo il 1982 e si stimi un modello in cui il tasso di criminalità di una contea è funzione della probabilità stimata di
arresto e di essere giudicati colpevoli in quella contea, del numero di agenti di polizia pro-capite, della densità di
popolazione, dell’area geografica in cui la contea si trova. Si scriva l’equazione del modello e si commenti in che modo il
numero di agenti pro-capite presenti in una contea influenzano il tasso di criminalità.
Il coefficiente polpc è significativo all’1%, un agente in più pro capite determina in media un aumento di 4,61 punti percentuali
nel tasso di criminalità, a parità degli altri fattori
use CRIME.dta
*1) reg crmrte prbarr prbconv polpc density west central if year==82
Esercizio 7
Dataset: MROZ.dta
Il dataset contiene le seguenti variabili riferite ad un campione di lavoratori.
inlf =1 if in lab frce, 1975
hours hours worked, 1975
kidslt6 # kids < 6 years
kidsge6 # kids 6-18
age woman's age in yrs
educ years of schooling
wage est. wage from earn, hrs
repwage rep. wage at interview in 1976
hushrs hours worked by husband, 1975
husage husband's age
huseduc husband's years of schooling
huswage husband's hourly wage, 1975
faminc family income, 1975
mtr fed. marg. tax rte facing woman
motheduc mother's years of schooling
fatheduc father's years of schooling
unem unem. rate in county of resid.
city =1 if live in urban area
exper actual labor mkt exper
nwifeinc (faminc - wage*hours)/1000
lwage log(wage)
expersq exper^2
50
Si vuole stimare l’effetto dell’istruzione sul salario (nella letteratura che si occupa di questi temi, per indicare tale effetto si usa il
termine “return to education”).
1) Si stimi il seguente modello di regressione lineare semplice:
E si commenti l’effetto che l’istruzione ha sul salario in base alle stime ottenute
Il coefficiente educ è significativo all’1%. All’aumentare di un anno di istruzione, il salario aumenta del 10,86%
3) L’omissione della variabile “abilità” dal modello provocherà una sovrastima o una sottostima dell’effettivo impatto causale
dell’istruzione sul salario?
Immaginando che il modello completo sia:
log(wage)=β0+β1educ+β2ability+u
Il tipo di distorsione nella stima di β1 (l’effetto causale dell’istruzione sul salario) dovuta all’omissione della variabile rilevante
“abilità” è deducibile dalla seguente relazione:
distorsione di β1 =(β2*Cov(ability,educ)) / (Var(ability))
Siccome
• β2 (cioè l’effetto che la variabile omessa – l’abilità – ci si attende abbia sulla variabile dipendente – il salario) è con tutta
probabilità positivo (individui più abili hanno probabilmente salari maggiori e viceversa)
• la covarianza tra variabile omessa e variabile inclusa (rispettivamente ability e educ) è probabilmente positiva (individui
più abili hanno livelli di istruzione maggiori e viceversa)
La distorsione avrà probabilmente segno positivo (la varianza - al denominatore – è sempre un numero positivo). In altre
parole ci si attende che l’omissione della variabile ability dal modello causi una sovrastima dell’effetto causale dell’istruzione
sul salario (cioè una sovrastima di β1).
4) Si intende utilizzare la variabile (livello di istruzione del padre) come strumento per la variabile in un approccio di tipo IV.
Commentare brevemente se la scelta è opportuna.
La variabile fatheduc è in effetti un buono strumento per il livello di istruzione del lavoratore. Infatti:
• Il livello di istruzione di un lavoratore è correlato con il livello di istruzione di suo padre (un individuo il cui padre ha alti
livelli di istruzione è probabile che raggiunga anch’esso alti livelli di istruzione, è esposto ad un ambiente in cui
l’istruzione è un valore, è probabile che goda di un reddito famigliare più alto e possa permettersi percorsi di istruzione
più lunghi o scuole più prestigiose, etc.). Lo strumento dunque è rilevante (cioè è correlato con il regressore endogeno)
• Il livello di istruzione del padre di un lavoratore non ha un effetto diretto sul salario orario di quel lavoratore. L’unico
effetto che tale variabile ha sul salario orario si esprime attraverso l’effetto del regressore endogeno (cioè il livello di
istruzione del lavoratore stesso). Lo strumento dunque è esogeno (cioè non ha effetto diretto sulla variabile dipendente)
5) Si vuole verificare che è uno strumento rilevante. Si stimi un modello utile per tale verifica.
Si stima il seguente modello:
Il test F è pari a 0.0000 (inferiore di qualsiasi alfa9, perciò lo strumento è rilevante
6) Si decide di utilizzare la variabile (livello di istruzione del padre) come strumento per la variabile (livello di istruzione del
lavoratore) per stimare con il metodo IV il modello descritto al punto 1). Il metodo IV implica una strategia composta da due
stadi. Si scriva l’equazione dei modelli stimati in ciascuno dei due stadi.
Primo stadio: educ = y0 + y1fatheduc + u
Parte esogena:
Parte endogena: u
Secondo stadio: lwage = B0 + B1
7) Si stimi l’effetto dell’istruzione sul salario correggendo il problema dell’endogenità con il metodo IV utilizzando come
strumento. Si commenti la stima ottenuta.
Il coefficiente educ è significativo al 10% (p-valueu= 9,3%). All’aumentare di un anno di istruzione, il salario aumenta in
media del 6%
8) Si arricchisca il modello appena stimato con altri regressori potenzialmente utili a spiegare il salario orario, come l’esperienza
del lavoratore, il numero di ore lavorate e l’area di residenza del lavoratore (urbana/non urbana) ma si continui a correggere
il problema di endogenità della variabile Si scrivano nuovamente le equazioni dei modelli stimati nei due stadi.
Primo stadio: educ = y0 + y1exper + y2hours + y3city + fatheduc + u
Parte esogena:
Parte endogena: u
Secondo stadio: lwage = B0 + B1exper + B2hours + B3city + B4
51
9) Si stimi il modello con il metodo IV e si commenti l’effetto dell’istruzione sul salario.
Il coefficiente educ è significativo all’1% (p-value = 7,2%). All’aumentare di un anno nel livello di istruzione, il salario aumenta
in media di 6,5% a parità delle altre condizioni
52