Statistica m2

STATISTICA AZIENDALE
19/04
Confronto tra medie di popolazioni diverse
Test d’ipotesi per la differenza tra medie e Gender Pay Gap

Test d’ipotesi: quando si vuole testare l’ipotesi nulla, l’ipotesi alternativa è la sua complementare
o I neolaureati e le neolaureate guadagnano mediamente lo stesso ammontare?
µf: retribuzione oraria media per la popolazione delle donne neolaureate
µf: retribuzione oraria media per la popolazione degli uomini neolaureati
Per rispondere alla domanda, impostiamo il seguente sistema di ipotesi:
H0: µm = µf --> µm - µf = 0
H1: µm ≠ µf --> µm - µf ≠ 0
La statistica test per eseguire questa verifica è costruita analogamente alla statistica test per un’ipotesi riguardante la media di
una singola popolazione o un parametro di regressione. Cosa cambia:
• Riguarda non una singola quantità ma una combinazione lineare di quantità, ossia una somma di quantità che possono
anche essere moltiplicate per delle costanti.
• Non si tratta di un coefficiente di regressione.
Test d’ipotesi per la differenza tra medie (o Test t a 2 campioni)

H0: µm - µf = 0
H1: µm - µf ≠ 0
Assunzioni alla base:
• Le due popolazioni hanno distribuzioni normali, indipendenti, con identica varianza.
o Popolazioni indipendenti: una non implica l’altra. Le determinazioni casuali di una popolazione non sono connesse
all’altra
o Varianza: distanza dalla media, misura di variabilità del fenomeno. Misura dell’ampiezza della campana, quindi indica
l’incertezza del fenomeno
• La varianza può essere nota (caso 1) o non nota (caso 2).
Quantità da considerare:
• «parametro» in popolazione su cui è formulata l’ipotesi nulla: differenza tra le medie di due popolazioni (f e m): µm - µf
• stimatore del parametro: differenza fra gli stimatori della media nelle due popolazioni (combinazione lineare delle medie
campionarie ):
• valore ipotizzato per il parametro incognito: 0
• Standard Error dello stimatore (cioè radice quadrata della varianza):
Ripassino
Ho un generico campione y1, y2, …, yn è determinazione causale da una popolazione con distribuzione normale con valore
atteso E[y] = µ e varianza Var[y]= 2
La media campionaria ha distribuzione normale con valore atteso µ e varianza 2 / n.
Perché? Per le proprietà di valore atteso e varianza per cui:
E[a + by] = a + bE[y] = a + bµ
Var[a + by] = a + b2 Var[y] = b22 --> la varianza è invariante per traslazione.
con a e b due generiche costanti. Se invece sostituisco a con una generica variabile causale b:
E[x + by] = E[x] + bE[y] = E[x] + bµ
Var[x + by] = Var[x] + b2 Var[y] = Var[x] + b22
Dunque applicando tali proprietà alla media campionaria (in questo caso n è una costante):
Applicando le proprietà della varianza alla differenza tra le due

medie campionarie:

Caso 1: Varianza della popolazione è nota.
La statistica test per eseguire questa verifica è dunque:
Si può dimostrare che sotto l’ipotesi nulla H0 la statistica test ha distribuzione Normale Standard.
A questo punto funziona come un generico test d’ipotesi: fisso un livello di significatività a con relativa regione di rifiuto;
confronto il valore della mia statistica test con la regione di rifiuto (oppure il p-value osservato con a) e decido.
Tuttavia molto raramente la varianza della popolazione è nota.
Caso 2: Varianza della popolazione non nota, cioè la dobbiamo stimare!
1
Cosa cambia: utilizziamo uno stimatore della varianza/standard error che è una variabile casuale (invece se nota/o = costante),
questo modifica la statistica test utilizzata e conseguentemente la sua distribuzione di probabilità.
Quando lo standard error è noto lo scriviamo SE, quando è stimato . Lo stesso ragionamento si applicherà su qualsiasi altra
quantità.
Come lo stimiamo:
Dove sf2 e sm2 sono le varianze campionarie delle due popolazioni.

Varianza campionaria: media degli scarti quadratici dalla media campionaria:
n-1 è una misura del potere informativo del campione che sto usando.
La statistica test per eseguire questa verifica è dunque:
Si può dimostrare che sotto l’ipotesi nulla H0 la statistica test ha distribuzione t di Student con nf + nm − 2 gradi di libertà.
La distribuzione t di Student è una Normale che è molto più variabile, in quanto è più schiacciata, più ampie. È più probabile che i
valori estremi sulle code si possano verificare. I gradi di libertà determinano quanto è distante la distribuzione dalla normale.
Maggiori sono i gradi di libertà, più si avvicina a una normale.
Funziona come un generico test d’ipotesi. Come già precisato, su grandi campioni o per meglio
dire per alti gradi di libertà (degrees of freedom, df) cioè nf + nm - 2, la distribuzione t di
Student si approssima ad una Normale Standard.
Per campioni sotto i 100, 80 o 50 ci possono essere delle differenze.
Attenzione: i comandi di stata utilizzano la distribuzione t di Student!
Regione di rifiuto per H1: µm - µf ≠ 0

Abbiamo visto l’ipotesi nulla ed alternativa e la statistica test. Manca la regione di rifiuto:
• Fisso il livello di significatività del test a = P(errore di I tipo: rifiuto H0 quando è vera).
o a: Probabilità di rifiutare l’ipotesi nulla quando è vera
• Se tale errore ci risulta particolarmente costoso tenderemo a scegliere un a basso. Al
contrario, un a basso potrebbe portarci al errore di II tipo: non rifiuto H0 quando è falsa,
più difficile da controllare
Regione di rifiuto: se il valore osservato della statistica test cade nella regione di rifiuto, rifiuto
l’ipotesi nulla.
Quantile: valore in prossimità del quale la probabilità di osservare valori di t minori o uguali
del -tcrit sono uguali ad a/2. Al contrario la probabilità di osservare valori minori di +tcrit è 1-a/2.
Attenzione! Se cambia l’ipotesi alternativa cambia la regione di rifiuto

Test a una coda --> la regione di rifiuto non è più a/2 e a/2 ma a.
Se H1: µm - µf > 0 Se H1: µm - µf < 0
Test d’ipotesi per la differenza tra medie in Stata

Wage: hourly wage in $
Female: come dummy variable: 1=female; 0=male
2
Commento output
Il campione è compost da 274 maschi e 252 femmine, ossia 526 osservazioni. La media campionaria dei maschi è 7,09 e delle
femmine 4,58.
o Lo standard deviation è il quadrato della varianza della popolazione
o Lo standard error è invece il quadrato della varianza della media campionaria, che è sigma quadro su n
Quando si parla di stimatore si parla di errore, quando invece di parla di standard deviation è solo una misura della variabilità del
fenomeno, ma non determina una valutazione nel merito.
L’intervallo di confidenza è uno stima intervallare, che mi dice che il valore vero per i maschi è incluso tra 6,60 e 7,59 nel 95% dei
casi.
La differenza tra le media è 2,51, 0,30 è lo standard error della differenza.
La statistica test e è 8,278, ossia 2,51/0,30
Nell’output abbiamo anche i gradi di libertà, che sono 524.
Nella parte finale abbiamo tre Ha (H1) diverse.
o Test una coda: Ha in mezzo
o Test a due code: Ha a destra e a sinistra
1) Come prendere una decisione nel caso di H1: µm - µf ≠ 0? Come al solito ci sono due strade:
- Confronto tobs con i valori critici : se |tobs| > |tcrit| --> rifiuto H0
- Confronto P-value: P(t < -|tobs|) + P(t > |tobs| con a:
o se p-value < a --> rifiuto H0
o se p-value > a --> accetto H0
In questo caso rifiuto H0: µm - µf = o e concludo che il salario orario medio nelle due popolazioni è significativamente diverso (o -
in altre parole - la differenza nel salario medio nelle due popolazioni da cui i campioni sono estratti è significativamente diversa da
zero).
2) Come prendere una decisione nel caso di H1: µm - µf > 0? Come al solito ci sono due strade:
- Confronto tobs con i valori critici : se tobs > tcrit --> rifiuto H0
- Confronto P-value: P(t>tobs) con a : se p-value < a --> rifiuto H0
3
In questo caso rifiuto H0: µm - µf = 0 e concludo che il salario orario medio della popolazione maschile è significativamente
maggiore.
3) Come prendere una decisione nel caso di H1: µm - µf < 0? Come al solito ci sono due strade:
- Confronto tobs con i valori critici : se tobs < tcrit --> rifiuto H0
- Confronto P-value: P(t < tobs) con a: se p-value < a --> rifiuto H0
In questo caso accetto H0: µm - µf = 0 e concludo che il salario orario medio della popolazione maschile non è
significativamente minore di quello femminile.
Deja-vu: C’è una connessione tra questo test ed un test di significatività su coefficienti di regressione?
Sì. Riprendiamo in mano un modello di regressione lineare semplice di questo tipo:
Dove:
• y è la variabile dipendente (retribuzione oraria dei neolaureati)
• x è la variabile ausiliaria (in questo caso il genere dei neolaureati, 1=female ed 0=male)
• var. delle 2 popolazioni uguali come assunto all’inizio.
Questo implica che:
Testare µm - µf = 0 vuol dire testare β1 = 0

In questo caso è lo stesso test statistico.

Lo stesso risultato si ottiene stimando un modello di regressione lineare semplice specificato come sopra. Dall’output si notano
risultati familiari:
Vediamo dei risultati familiari, il t

test, il coefficiente, lo standard
error e l’intervallo di confidenza è identico tranne per il segno
Nel caso della regressione lineare testa la differenza tra la media femminile e quella maschile, quindi il segno è diverso.
Ma ha senso l’ipotesi di omoschedasticità? Ovvero varianza uguali tra le due popolazioni

o Omoschedasticità: varianza di due fenomeni uguale
o Eteroschedasticità: variabili con varianze diverse
Provo a visualizzare i due campioni tramite un boxplot
Comando che visualizza un Boxplot di
due variabili: wage e female
Comando: graph hbox
Un Boxplot è un modo di visualizzare
una distribuzione dei dati in orizzontale.
Cerca di spiegare la distribuzione di una
variabile casuale. Tale grafico è centrato
sulla mediana, non sulla media. La
mediana è il valore campionario grazie al
quale il 50% delle osservazioni sta sotto
quel valore e il 50% sta sopra.
Il perimetro della scatola è il 25esimo e il
75esimo percentile; la mediana è il
50esimo percentile. Le altre osservazioni
si trovano sulle code o sui baffi. I puntini
sono gli outliers, valori estremi molto
distanti dalla parte con più probabilità di
essere osservata.
Possiamo vedere che la distribuzione
maschile è molto più ampia di quella
femminile.
4
Questo lo notiamo anche quando usiamo il comando sum di stata, vediamo che la deviazione standard è 2 per le femmine e 4
per i maschi. Quindi assumere che la varianza sia uguale non ha senso
Test t a 2 campioni con varianze diverse tra le due popolazioni (test di Welch)
Dove:
Qual è la differenza? Sotto l’ipotesi di varianza uguale, lo standard error è di fatto lo standard error del campione aggregato, fatta
salva la correzione campionaria.
In questo caso, lo standard error è calcolato come somma degli standard error di due variabili distinte.
I gradi di libertà sono una complessa funzione delle var campionarie .
Comando di Stata sotto ipotesi di eteroschedasticità: ttest wage, by (female) unequal
Test t a 2 campioni con ipotesi di varianze diverse
Nonostante gli s.e. campionari molto diversi, rilassando tale assunzione i risultati non mostrano grosse differenze e così l’esito
del test.
5
Assignment 1
Esercizio 3.12, Stock & Watson (p.77)

Per esaminare la possibile presenza di discriminazione tra generi in un’impresa, viene selezionato un campione casuale di 120
uomini e 150 donne che svolgono un lavoro simile. I risultati relativi ai salari mensili sono riportati nella seguente tabella:
Vogliamo capire che cosa suggeriscono questi dati per quanto riguarda le differenze salariali nell’impresa: se forniscono evidenza
di una differenza statisticamente significativa tra i salari medi di uomini e donne oppure no.
a) Si formulino le ipotesi nulla ed alternativa appropriate;
H0: salario medio uomini - salario medio donne = 0
H1: salario medio uomini - salario medio donne ≠ 0
H0: µ1 − µ2 = 0
H1: µ1 − µ2≠ 0
b) In secondo luogo, si calcoli la statistica t corrispondente, con l’assunzione che le 2 popolazioni abbiano diversa varianza.
T stat =
c) Si calcoli il p-value associato alla statistica t (approssimando la distribuzione di quest’ultima sotto l’ipotesi nulla a quella di
una normale standard).
P-value = (1 - 1) * 2 = 0,000
d) Sulla base del p-value ottenuto, si risponda alla domanda: c’è evidenza nei dati di una differenza statisticamente significativa
tra i salari medi di uomini e donne?
Essendo il p-value < qualsiasi a, il coefficiente è significativo. Perciò rifiutiamo l’ipotesi nulla, di conseguenza vi è una
differenza statisticamente significativa tra i salari medi di uomini e donne
6
e) Questi dati suggeriscono che l’impresa è colpevole di discriminazione di genere nelle sue politiche salariali? Si spieghi.
Il test fornisce una incontrovertibile prova statistica del fatto che i guadagni medi degli uomini differiscono da quelli delle
donne. Tuttavia, di per sé ciò non implica che l’impresa sia colpevole di discriminazione di genere, in quanto i dati campionari
sono incompleti. Per meglio dire, la discriminazione di genere significa che due lavoratori, identici in tutto tranne che per il
genere, percepiscono salari differenti. La descrizione dei dati, tuttavia, non riporta accuratamente se l’osservazione avviene
tra lavoratori con incarichi ed inquadramento
professionale simile. Inoltre, non sono presenti altre variabili di controllo come istruzione, anni di esperienza, etc. che
potrebbero avere un effetto sulla produttività. Se tali caratteristiche fossero sistematicamente differenti tra i campioni di
uomini e donne, ciò potrebbe essere all’origine della differenza salariale. Dato che tali caratteristiche non vengono controllate
nell’indagine statistica, è prematuro giungere ad una conclusione sulla
discriminazione di genere.
f) Si calcoli ora la statistica t ed il relativo p-value sotto l’assunzione che le 2 popolazioni abbiano stessa varianza
(approssimando la distribuzione della statistica t sotto l’ipotesi nulla a quella di una normale standard). L’esito del test cambia
utilizzando tale assunzione maggiormente restrittiva?
T stat =
P-value = 0,000
Esercizio 3.13, Stock & Watson (p.77)

I dati sui punteggi nei test di quinta elementare (lettura e matematica) relativi a 400 distretti scolastici di Bruxelles hanno prodotto
una media campionaria = 712,1 ed una deviazione standard pari a sY = 23,2 . Suddividendo i distretti tra quelli con classi piccole
(<20 studenti per insegnante) e quelli con classi grandi (≥ 20 studenti per insegnante), si ottengono i seguenti risultati:
Esiste evidenza statistica che i distretti con classi più piccole abbiano risultati medi più alti nei test?
a) Si formulino le ipotesi nulla ed alternativa appropriate;
H0: µ1 − µ2 = 0
H1: µ1 − µ2 > 0
b) In secondo luogo, si calcoli la statistica t corrispondente. Adottare il test con l’assunzione che le 2 popolazioni abbiano
stessa varianza e spiegare perché tali ipotesi sembra ragionevole.
T stat =
Tale assunzione è ragionevole in quanto non sembrano esserci valori particolarmente diversi delle varianze
campionarie tali da ipotizzare eteroschedasticità.
c) Si calcoli il p-value associato alla statistica t o la regione di rifiuto.

P-value= 1 − Φ(t_oss) = 1-Φ(4,78) = 1 − 0.999999 ≈ 0.000
d) Sulla base del p-value ottenuto, si risponda alla domanda: c’è evidenza nei dati di una differenza statisticamente significativa
tra i risultati medi delle classi piccole e grandi?
Essendo il p-value < qualsiasi a, il coefficiente è significativo. Perciò rifiuto l’ipotesi nulla, di conseguenza vi è una differenza
statisticamente significativa tra i risultati delle classi piccole e quelli delle classi grandi. Esiste una prova statisticamente
significativa del fatto che i distretti con classi più piccole hanno punteggi medi maggiori nei test.
26/04
Regressione con variabile dipendente binaria
Regressioni con variabile dipendente binaria

Variabili continue: variabili definite in un intervallo che possono assumere tutti i valori all’interno di quell’intervallo
Ci sono determinati tipi di fenomeni che non sono continui, ma assumono solo poche determinazioni.
• Tali variabili spesso indicano comportamenti di scelta.
• Vogliamo studiare le ragioni alla base di una particolare scelta ed i fattori che entrano nel processo decisionale.
• Sapere in che misura ogni fattore influenza l’esito finale.
o Y = iscriversi all'università oppure no; X = voti del liceo, variabili sociodemografiche
o Y = fumare oppure no; X = imposte sulle sigarette, reddito, variabili sociodemografiche
o Y = domanda di mutuo accettata oppure no; X = reddito, caratteristiche della proprietà, caratteristiche socio-
demografiche.
Le scelte possono essere binarie oppure ci possono essere più categorie
Nell’esempio di oggi: vogliamo studiare i fattori che determinano la concessione o la non concessione di un mutuo alle famiglie
usando il Dataset HMDA (domande per mutui familiari, 1990, città di Boston, 2380 osservazioni):
7
• variabile dipendente: mutuo concesso / negato
• possibili fattori determinanti (variabili esplicative): reddito, ricchezza, stato occupazionale, altro prestito, caratteristiche della
proprietà, caratteristiche socio-demografiche
Regressioni con variabile dipendente binaria

Consideriamo il modello più semplice (un solo regressore):
- Variabile dipendente y (deny): variabile dummy binaria --> y = 1 se mutuo rifiutato, y = 0 se concesso
- Variabile esplicativa x (pi_rate): rapporto tra importo rata mensile del mutuo e reddito mensile del richiedente. Questo può
rappresentare una buona proxy del rischio di insolvenza del cliente.
Boxplot
Sembra esserci una relazione positiva tra y ed x.
Possiamo vedere che le distribuzioni campionarie delle due popolazioni sono
diverse: nel caso in cui la variabile y è 0 x è molto più basso (rende più facile
pagare la rata ed essere solvibile), quando invece il mutuo è rifiutato la variabile x
è più alta.
Se fosse il contrario si parlerebbe di relazione negativa
Altro modo per verificare (in)dipendenza tra y ed x → test della differenza tra
medie
Se io vedo distribuzioni molto diverse tra variabili posso valutare che ci sia
dipendenza tra le variabili. Se invece le distribuzioni sono molto simile la
componente mutuo accettato/mutuo rifiutato non indicherebbe differenze nelle due
distribuzioni
Modellare la probabilità
Relazione positiva tra y e x: maggiore è il rapporto rata/reddito, maggiore sarà la proporzione di rifiuti. Cosa significa?
• Per comprendere i modelli di regressione con variabile dipendente binaria occorre pensare all’effetto della variabile
esplicativa sulla variabile dipendente come effetto sulla probabilità che la variabile dipendente sia uguale a 1 --> proporzione
di rifiuti in popolazione = probabilità di osservare quel dato evento come 1
• Questo perché solitamente un modello di regressione modella E(Y|X) e, dato che y è una variabile binaria,
E (Y|X) = P(Y = 1|X).
• Il modello quindi descrive l’effetto che la variabile x ha NON direttamente su y, ma sulla probabilità che y sia uguale a 1: P (Y
= 1|X); dove P (Y = 0|X) = 1 – P(Y = 1|X)
Importante! Y ≠ P(Y)
Perché non usare il modello di regressione lineare

Il modello di regressione lineare quando la variabile dipendente è binaria è detto «modello di probabilità lineare»:
corrisponde a:
- ipotizzando una relazione lineare tra tale probabilità ed il regressore
- il punto è che questa relazione non sembra lineare
Sull’asse delle y abbiamo la dummy che assume valori 0 e 1, mentre
sull’asse delle x abbiamo pi_rate. Lo scatterplot permette di capire che
stiamo modellando una probabilità che sta all’interno dell’intervallo 0-1,
attraverso un modello che assume completa linearità tra le due. Assume
che ci siano dei rendimenti completamente costanti all’interno della retta,
anche se nella realtà la probabilità di scegliere una cosa rispetto ad
un’altra può essere influenzata da altri fattori
Limiti del modello di probabilità lineare

La linearità, che rende il modello semplice, è il suo maggior difetto. Porta
a due problemi:
1) La probabilità è sempre un numero tra 0 e 1. Usando questo modello le
probabilità previste possono anche essere <0 o >1
2) L’effetto marginale di x su P(Y = 1) è assunto costante per qualsiasi livello di
x. Questo non si adatta nei comportamenti di scelta e in generale sulle
variabili dicotomiche
Una variazione di rata/reddito in corrispondenza di valori centrali di P(Y=1), attorno
a 0.5, può avere un grande effetto sulla probabilità di rifiuto P(Y=1) . Un
incremento della stessa entità in corrispondenza di valori molto alti (o molto bassi)
di P(Y=1) avrà scarso effetto sulla variazione della probabilità.
Ciò che interessa a me è che l’effetto marginale sia più basso per valori vicini allo zero, aumenti per valori medi e diminuisca di
nuovo quando si ha valori vicini all’uno. Quindi mi interessa che la curva abbia più o meno la forma di S.
Se sono particolarmente decisa (zero o uno) l’effetto marginale avrà un impatto molto più basso perché parto già da una scelta
forte; rispetto a quando la stessa variazione si verifica nel momento in cui sono indecisa della scelta.
L’effetto marginale di y sarà diverso e non costante sulla base della probabilità di scelta, per tale motivo voglio modellare la
probabilità non con una retta, ma con una curva la cui pendenza varia in base al grado di probabilità. L’effetto marginale quindi
8
sarà diverso se mi trovo vicino allo 0,5, se mi trovo vicino allo 0 e vicino all’1. Questi tre comportamenti diversi portano a tre
pendenze diverse e quindi a una forma ad S della curva.
Una terza questione è data dalla modellazione della variabilità.

3) Le osservazioni binarie sono eteroschedastiche: ovvero la loro varianza varia da una osservazione all’altra, non è costante
tra osservazioni.
Abbiamo visto che:
Mentre possiamo definire la varianza come:
Dipende da x, dunque varia per ogni individuo quindi non può essere costante.
Perché?
Riprendiamo la proprietà della varianza:
In questo caso
Limiti del modello di probabilità lineare

Una classica stima OLS non aiuta, in quanto assume omoschedasticità (varianza costante tra osservazioni).
→ bisognerebbe ricorrere ad una versione generalizzata per i minimi quadrati che considera il caso eteroschedastico (chiamata
GLS, generalized least squares) che tuttavia presenta un altro problema:
Dunque:
Per alcune la varianza rischia di essere negativa (cosa impossibile in quanto la varianza è sempre maggiore di 0 essendo la
media degli scarti quadratici).
Passiamo ad un modello non-lineare

Al posto di una funzione lineare come:
Vogliamo
• Con f(⋅) funzione biunivoca crescente (decrescente) in X per B1 > 0 (B1 < 0).
Una funzione biunivoca è una funzione che mappa dei punti, ad ogni punto
che osservo dell’insieme A corrisponde uno e uno solo punto dell’insieme B,
inoltre non esistono punti dell’insieme B che non hanno dei corrispettivi
nell’insieme A. Quindi ci può essere reciprocità
• Che vincoli 0 ≤ P(Y = 1|X) ≤ 1 per tutte le X
Serve una forma funzionale non lineare per la probabilità (per es. "curva S“?) che
costringa i valori predetti ad essere compresi tra 0 ed 1.
I modelli probit e logit utilizzano come f(⋅) le funzioni di ripartizione (cumulative
distribution functions, cdf) che restituiscono una probabilità (compresa tra 0 e 1). Ciò che cambia nei due modelli è il tipo di
funzione di ripartizione utilizzata: nel caso del logit è utilizzata la distribuzione logistica, nel caso del modello probit è utilizzata la
normale standard
La funzione di ripartizione
Data una v.c. continua Y, la funzione di ripartizione è quella funzione che per ciascun valore yc restituisce la corrispondente
probabilità cumulata [P(Y ≤ yc)] , tipicamente si indica con Φ (Y)
nel caso della normale.
Nel grafico a sinistra abbiamo la funzione di probabilità cumulata, a
destra invece la funzione di densità di probabilità
Nel caso della funzione di densità di probabilità, la probabilità di
osservare un dato valore è l’integrale della retta compreso tra
meno infinito e il dato valore.
L’aria sottesa quindi varia a seconda della y stessa.
A sinistra abbiamo sull’asse delle x la variabile casuale e sull’asse
delle y la probabilità cumulata (un valore compreso tra 0 e 1) che
mi dice in corrispondenza di ogni valore della y la probabilità di
osservare un valore uguale o minore del valore stesso.
La funzione di ripartizione di una v.c. normale standard

Nel caso di una v.c. con distribuzione Normale Standard Z ~ N(0,1)
Φ (z) restituisce la probabilità che Z assuma un valore minore o uguale a z
o Φ (z = 1.5) = P(Z≤ 1.5) =0.9332
Solitamente Φ(⋅) si indica solamente in questo modo in quanto non ha forma chiusa, ovvero non ha una
formula esplicita (si ricava risolvendo numericamente un Integrale)

La funzione di densità (PDF) di una v.c. Z con distribuzione Normale Standard è descritta dall’equazione:
9
• e è una costante matematica (numero di Eulero) il cui valore approssimato è 2.7182
• π: è una costante matematica (pi greco) il cui valore approssimato è 3.14
• z è il valore generico assunto dalla v.c. Z
La funzione di ripartizione (CDF) della variabile normale Standard
(Z) è descritta dall’equazione
rappresenta la probabilità che la v.c. assuma un valore minore o

uguale a un dato valore z.
Il modello probit
Il modello probit è basato sulla funzione di ripartizione della normale standard ed esprime la probabilità che Y
assuma valore 1 come:
Φ è la funzione di ripartizione (CDF) normale standard e B0 + B1X è il valore "z“ (o z-score).
Se B0 = −2 e B1 = 3, qual è la probabilità di rifiuto quando il rapporto rata/reddito è 0.4?
P(Y= 1) = Φ (−2 + 3 ∗ 0.4) = Φ (−0.8) = P(Z < −0.8) = 1 − 0.7881 = 0.2119
La probabilità prevista dal modello probit che il mutuo venga rifiutato quando il rapporto rata/reddito è 0.4 è pari al
21.19%
Il modello probit
Nel modello probit la relazione fra x e P(Y = 1) è non lineare e descritta da una curva a forma di
S con le seguenti caratteristiche:
- i valori di P(Y = 1), sull’asse verticale, sono sempre compresi tra 0 e 1
- la pendenza della curva descrive la variazione della probabilità che Y = 1 a fronte di un
incremento unitario di x: l’effetto marginale della x sulla P(Y = 1) non è costante
- per valori bassi del predittore lineare (z-score) la curva cresce a un tasso elevato (un
aumento unitario di x provoca bassi incrementi di P(Y = 1) ma sempre maggiori al crescere
di x)
- in corrispondenza di B0 + B1x = 0 la pendenza della funzione probit è massima ed è pari a
0.5
- all’aumentare della x la velocità con cui cresce la probabilità P(Y = 1) diminuisce
progressivamente
Stima dei coefficienti di un modello probit

Il modello probit è non lineare (anche nei parametri β, non solo nella x) e per questo non può essere stimato con il metodo OLS.
Questo perché cambia il concetto di residui:
• Se nel modello lineare il residuo è in qualche modo una misura dell’errore; in questo caso non ha lo stesso significato,
perché non vogliamo predire y, ma la sua probabilità, che peraltro non abbiamo modo di osservare.
• Cambiando il concetto di «residuo», i metodi basati sulla loro minimizzazione (OLS, GLS, … ) non sono più adatti.
• Uno dei metodi utilizzati per la stima dei coefficienti di un modello probit è il metodo della massima verosimiglianza.
Stima dei coefficienti di un modello probit: Massima Verosimiglianza

Come funziona il metodo di stima della massima verosimiglianza?
Considerando Y una variabile binaria (o bernoulliana), questa ha una funzione di probabilità detta di Bernoulli, per cui:
se y=1 --> f(y) = P
se y=0 --> f(y)= 1-P
Se osservo 3 determinazioni della v.c. Y (3 individui) in maniera casuale (indipendente), la probabilità di osservare
y1 = 1, y2 = 1, y3 = 0 è una probabilità congiunta, prodotto delle 3 probabilità marginali:
Dove L(B0, B1) indica la funz.ne di verosimiglianza che dipende dai parametri ignoti B0, B1. Si tratta di una funzione che mi da la
probabilità di osservare congiuntamente i tre eventi insieme, è una funzione di probabilità congiunta che è funzione dei parametri
stessi.
Stima dei coefficienti di un modello probit: Massima Verosimiglianza

E’ ragionevole scegliere di stimare i parametri ignoti B0, B1 con i valori che ne massimizzano la probabilità (o equivalentemente
la verosimiglianza) di osservare il campione a nostra disposizione.
In questo caso gli stimatori derivanti da tale procedura non hanno forma chiusa (no formule esplicite), per ottenerle è necessario
ricorrere a metodi numerici.
Tali algoritmi sono costruiti per individuare i valori di B0, B1 che massimizzano L(B0, B1), questi sono definiti come
e chiamati stime di massima verosimiglianza (MV).
• lo stimatore di MV si distribuisce normalmente in grandi campioni;
• è inoltre il migliore, nel senso che nessun altro stimatore ha varianza inferiore;
• le statistiche test per i test sui coefficienti e la statistica F si possono costruire nel solito modo.
10
Interpretazione del coefficiente di regressione nel modello probit
P(Y = 1) = Φ(B0 + B1x)
B1: non è l’effetto marginale di x su P(Y=1).
Esso è la variazione del valore z (predittore lineare) associata ad un incremento unitario
di x.
• Se B1 > 0, allora un aumento di x fa aumentare il valore di z e quindi la probabilità che Y
sia = 1
Nell’esempio dei mutui: all’aumentare del rapporto rata/reddito dovrebbe essere più
probabile il rifiuto del mutuo stesso (in quando B1 > 0)
• Se B1 < 0, allora un aumento di x fa diminuire il valore di z e quindi la probabilità che Y
sia = 1
Il segno del coefficiente B1 ci dice se un aumento di x fa aumentare o diminuire la probabilità
che Y=1
Il modello probit, esempio sui dati HMDA

P(deny=1) = Φ(B0 + B1pi_rate)
Commando Stata: probit variabile dipendente variabile indipendente, r (versione più robusta
della regressione)
Entrambi i coefficienti sono significativamente diversi da zero --> p-value < qualsiasi a
I coefficienti non sono interpretabili direttamente. È però possibile affermare:
o che il rapporto rata/reddito è positivamente legato alla probabilità di rifiuto ( è positivo)
o che la relazione tra probabilità di rifiuto e rapporto rata/reddito è statisticamente significativa (zobs = 2.968/0.465 = 6.38) -->
c’è una connessione tra le due variabili; il rapporto rata/reddito è un fattore determinante per il rifiuto.
Viene adottato un test che utilizza una statistica che si distribuisce come una normale standard, quindi si utilizza z
Qual è la variazione nella probabilità prevista di rifiuto quando il rapporto rata/reddito passa da 0.3 a 0.4?
Calcolo le probabilità previste nei due casi:
La probabilità prevista di rifiuto passa da 0.097 a 0.159, aumenta di 0.062, cioè 6.2 punti percentuali.
Interpretazione: la differenza di probabilità è di 0,062, oppure di 6,2%. Non è corretto dire che la probabilità aumenta di 6,2%
Il modello probit con regressori multipli, esempio sui dati HMDA
P(deny = 1) = Φ(B0 + B1pi_rat + B2black)
Black = 1 se il residente è di colore e 0 se il residente è bianco
: è positivo --> un richiedente afroamericano ha una probabilità di rifiuto più alta rispetto a un richiedente bianco, a parità di
rapporto rata/reddito. Il coefficiente è statisticamente significativo all’1% (z_obs = 8.51)
Qual è l’effetto stimato dell’etnia per un rapporto rata/reddito = 0.3?
La differenza nelle probabilità di rifiuto è 0,158 (15,8 punti percentuali).

I richiedenti afroamericani con un rapporto rata/reddito di 0.3 hanno una probabilità più alta di 15.8 punti percentuali di ottenere
un rifiuto rispetto ai richiedenti Bianchi con il medesimo rapporto rata/reddito
Stima del modello probit: probabilità stimate

E’ possibile valutare la relazione tra P(Y = 1|X) e x calcolando la probabilità prevista (stimata)
In corrispondenza di specifici valori di x1 e delle altre covariate (o valutando la variazione di probabilità stimata in presenza di due
specifici valori di una covariata, a parità delle altre), ad es.:
11
In corrispondenza dei valori medi di x1 e delle altre covariate:
02/05
Interpretazione dell’effetto marginale nel modello probit
A quanto ammonta l’effetto marginale (EM) di una variazione unitaria di x sulla probabilità?
L’effetto marginale di x sulla probabilità che Y = 1 è dato dalla derivata prima della probabilità rispetto a x ovvero:
L’EM è il prodotto di due cose: coefficiente di regressione con riferimento alla covariata di interesse e peso che viene dato
all’effetto marginale B1. Il peso prende il valore della funzione di densità di una variabile normale standard
Secondo la regola di derivazione di una funzione composta:
• Il risultato di questa derivata è ancora funzione di x (cioè l’effetto marginale varia al variare di x).
• Dove è la funzione di densità della normale standard valutata in (B0 + B1x) che fa da «peso» a B1 con cui è
moltiplicata, modificandone l’intensità. Ha la solita forma a campana di una normale standard. All’avvicinarsi del predittore a
valori vicino a 0 il predittore (B0 + B1x) sarà molto alto
• Dato che è una funzione di densità, il suo valore è sempre positivo → l’effetto marginale ha lo stesso segno di B1
• A tal proposito è massima in corrispondenza di 0, in questo caso la probabilità è Φ(0)=0.5, la scelta è dunque in bilico: è
ragionevole pensare che l’effetto di una variazione di x sia massimo sulla probabilità di scelta
Stima del modello probit: effetti marginali stimati
E’ possibile calcolare l’effetto marginale di una variazione unitaria di un dato regressore x1 sulla probabilità stimata a parità degli
altri regressori*:
1) in corrispondenza di specifici valori di x1 e delle altre covariate (EM tout court).
Utilizziamo valori arbitrali delle coviariate, quindi non abbiamo una visione d’insieme di quel che succede. Ci dà una misura
di sintesi.
2) in corrispondenza delle medie campionarie di x1 e delle altre covariate, in questo caso si parla di effetto marginale «at
means»
3) come media degli effetti marginali calcolati in corrispondenza di ciascuna osservazione del campione. In questo caso si parla
di effetto marginale «medio», riassume la risposta degli individui che compongono il campione a una variazione del valore di
una variabile esplicativa.
*Gli effetti marginali sono a volte noti come effetti parziali («partial effects»)
L’effetto marginale «medio»

L’effetto marginale «medio» (EMM) è così definito
Riassume la risposta degli individui che compongono il campione a una variazione del valore di una variabile esplicativa (xi).
Dato che la stima di un effetto marginale varia da un individuo all’altro, potremmo essere interessati non solo alla sua media ma
anche alla sua variabilità nel campione:
Effetti marginali stimati: loro interpretazione

1) EM tout court: indica l’EM in corrispondenza di un dato valore del predittore lineare: inevitabilmente non dà una visione
d’insieme sui potenziali EM dati altri valori o nello spettro degli individui che osserviamo.
2) EM «at means»: fornisce un valore dell’EM in corrispondenza di un ipotetico soggetto «medio», con covariate i loro valori
medi nel campione. Ci dà l’idea di cosa succede ad una osservazione potenziale «nel mezzo» ma ancora una volta non ci
permette di avere una visione di insieme.
3) EM «medio» e la sua variabilità: ci forniscono delle misure di sintesi rispetto ai EM nello spettro degli individui che
osserviamo, in media ed in variabilità. Ci permette di capire dunque quanto varia tra soggetti e la magnitudine di tale
variazione.
Il modello logit
Il modello logit è molto simile al modello probit
Nel modello logit la funzione di ripartizione normale standard Φ è rimpiazzata dalla funzione di ripartizione logistica standard,
indicata con Λ :
• modello probit: P (Y = 1) = Φ (B0 + B1X)
• modello logit: P (Y = 1)= Λ (B0 + B1X)
L’equazione della funzione di ripartizione logistica standard ha forma chiusa ed è
Ciò significa che non si ricorre alle tavole per calcolarla, ma basta usare la funzione
La curva corrispondente è molto simile a quella della funzione di ripartizione normale standard, del modello probit:
12
Le differenze in termini di forma sono minime
Il modello logit
Come per il modello probit, i coefficienti del modello logit si interpretano meglio calcolando le probabilità predette e le differenze
nelle probabilità predette.
La predizione avviene nello stesso modo, sostituendo Φ(⋅) con Λ (⋅) .
Il modello logit può essere esteso a situazioni in cui la scelta avviene tra due alternative.
Come nel probit, i coefficienti logit possono essere stimati con il metodo della massima verosimiglianza, che si definisce nello
stesso modo sostituendo Φ(⋅) con Λ (⋅) .
Infine l’effetto marginale è definito come:
dove definisce la funzione di densità della variabile logistica.
Il modello logit, esempio sui dati HMDA

P(deny = 1) = Λ (B0 + B1pi-rate + B2black)
Comando Stata: logit variabile dipendente variabile indipendente, r (stima degli standard error robusti)
: è positivo --> un richiedente afroamericano ha una probabilità di rifiuto più alta rispetto a un richiedente bianco, a parità di
rapporto rata/reddito. Il coefficiente è statisticamente significativo all’1% (z_obs = 8.71)
Qual è l’effetto stimato dell’etnia per un rapporto rata/reddito = 0.3?
La differenza nelle probabilità di rifiuto è 0.148 (14.8 punti percentuali, rispetto ai 15.8 previsti dal modello probit)
Le regressioni probit e logit producono frequentemente risultati simili in termini di probabilità predette, ma è possibile che le stime
dei parametri di regressione siano diverse!
Modello probit e logit: misure di bontà dell’adattamento ai dati

Quando la variabile dipendente (Y) è continua è lecito immaginare una situazione in cui R2 = 1. Questo accade quando tutti i dati
giacciono esattamente sulla retta di regressione.
Quando la variabile dipendente (Y) è binaria questo non può accadere
Modello probit e logit: misure di bontà dell’adattamento ai dati

Nel caso di variabile dipendente binaria si utilizzano:
• Pseudo-R2. Lo pseudo-R2 si semplifica a R2 nel modello lineare con errori normalmente distribuiti.
13
• La frazione correttamente predetta: è la frazione delle n osservazioni del campione per le quali la variabile Y è correttamente
predetta dal modello. La regola per determinare se Y è correttamente predetta per una data osservazione i è la seguente:
o Se Yi = 1 e = 1) > oppure se Yi = 0 e = 1) < , allora Yi è predetta correttamente
o Altrimenti Yi non è predetta correttamente
Dove è un valore soglia che deve essere determinato attraverso specifici criteri.
Riepilogo
La probabilità non è lineare:
Nel modello probit:
Nel modello probit la funzione che lega P(Y=1) a x è la funzione Φ(⋅), funzione di ripartizione della normale standard.
Nel modello logit:
Nel modello logit la funzione che lega P (Y = 1|X) a x è la funzione Λ(⋅), funzione di ripartizione della logistica standard.
*LAB M2.1: modelli per variabili binarie
cd /* your directory */
use hmda_sw.dta, clear
*Preparazione variabili
*Creo una variabile binaria =1 se s7=3 e=0 se s7!=3
table s7
gen deny = (s7==3)
table deny
sum deny
Oppure:
gen deny=.
replace deny=1 if s7==3
replace deny=0 if s7!=3
gen pi_rate = s46/100
table s13
gen black = (s13==3)
Oppure
gen black=.
replace black=1 if s13==3
replace black=0 if s13!=3
label variable deny "Binaria =1 se mutuo rifiutato, =0 in tutti gli altri casi"
label variable pi_rate "Rapporto rata/reddito"
label variable black "Binaria =1 se richiedente di colore; =0 se non di colore"
*----------------------------------------------------------
* Il modello probit con un solo regressore
*----------------------------------------------------------
* Stimo un modello Probit
probit deny pi_rate, r
* Genero le probabilità previste dal modello
cap drop pr_probit --> serve per eliminare una variabile
predict pr_probit, pr --> assegno al nome pr_probit i valori del modello probit appena stimato. Predict serve per generare la
variabile e associare i valori stimati. Per tale motivo bisogna prima stimare il modello
label variable pr_probit "Prob stimate dal Modello Probit"
sum pr_probit
graph hbox pr_probit --> bloxplot
*Calcolo la "Frazione correttamente predetta" cioè la frazione di osservazioni per cui il modello prevede correttamente la
probabilità di rifiuto del mutuo
*Assumiamo come epsilon=0.50
cap drop yhat_probit --> cancello qualsiasi tipo di variabile con quel nome
gen yhat_probit=0
replace yhat_probit=1 if pr_probit>=0.5
tab deny yhat_probit, cell --> tramite cell vediamo non solo le frequenze, ma anche le percentuali che vengono messe ad ogni
elemento della tabella
*Studio le probabilità nel caso di misclassification

sum pr_probit if yhat_probit==0 & deny==1
14
*----------------------------------------------------------
* Calcolo delle probabilità stimate per diversi valori di x
*----------------------------------------------------------
*Calcolo la probabilità di rifiuto stimata quando pi_rat=0.3
scalar z1 = _b[_cons]+_b[pi_rat]*0.3
di z1
di normprob(z1) --> normprob(z1) restituisce la probabilità cumulata della v.c. normale Standard in corrispondenza del valore z1;
il comando normal(z1) ha la stessa funzione
*Calcolo la probabilità di rifiuto stimata quando pi_rate=0.4

scalar z2 = _b[_cons]+_b[pi_rate]*0.4
di z2 --> display
di normprob(z2)
*----------------------------------------------------------------
* Calcolo degli effetti marginali stimati per diversi valori di x
*-----------------------------------------------------------------
*Il comando margins va usato immediatamente dopo aver stimato il modello
* Calcolo l'effetto marginale stimato quando pi_rate=0.3

margins, dydx(_all) at(pi_rate=0.3) --> at indica il valore delle covariate che voglio indicare
*Calcolo l'effetto marginale stimato quando pi_rate=0.4

margins, dydx(_all) at(pi_rate=0.4)
*----------------------------------------------------------
* Modello probit con piu regressori
*----------------------------------------------------------
probit deny pi_rat black, r
*---------------------------------------------------------------------------------------------------------------------------------
* Calcolo delle probabiilta stimate in corrispondenza di specifici valori delle x
*---------------------------------------------------------------------------------------------------------------------------------
* Calcolo la probabilità stimata di non accedere al mutuo per un individuo di colore con un rapporto rata/reddito pari a 0.2?
scalar z3=_b[_cons]+_b[pi_rate]*0.2+_b[black]*1
di normprob(z3)
* Calcolo la probabilità stimata in corrispondenza dei valori medi dei regressori

Calcolo la media dei regressori continui e la moda di quelli binari
sum pi_rate /* 0.3308136*/
tab black /* La moda è il valore più frequente, dunque 0*/
Calcolo la probabilità stimata per quei valori di pi_rate e black
scalar z4=_b[_cons]+_b[pi_rate]*0.3308136+_b[black]*0
di normprob(z4)
*--------------------------------------------------------------------------------------------------------------------------------------------------------------------
* Calcolo degli effetti marginali (o partial effects) stimati in corrispondenza di specifici valori delle x
*--------------------------------------------------------------------------------------------------------------------------------------------------------------------
* Calcolo gli effetti marginali di pirate e black per un individuo di colore con un rapporto rata/reddito pari a 0.2
Attenzione! stimo nuovamente il modello probit e indico il regressore binario con i.black
probit deny pi_rat i.black, r --> mettere i. davanti perché in questo modo riconosce che è una binaria
margins, dydx(_all) at(pi_rate=0.2 black=1)
*-----------------------------------------------------------------------------------------------------------------------------------------------
* Calcolo degli effetti marginali (o partial effects) stimati at means - regressore binario
*------------------------------------------------------------------------------------------------------------------------------------------------
*---- Procedura manuale ---
probit deny pi_rat black, r
scalar p_neri=normprob(_b[_cons]+_b[pi_rate]*0.3308136+_b[black]*1)
di p_neri --> Calcolo la probabilità di rifiuto quando pi_rate è uguale alla media e black è uguale a 1
scalar p_bianchi=normprob(_b[_cons]+_b[pi_rate]*0.3308136+_b[black]*0)
di p_bianchi --> Calcolo la probabilità di rifiuto quando pi_rate è uguale alla media e black è uguale a 0
scalar ME_black=p_neri-p_bianchi
di ME_black --> L'effetto marginale di black è la differenza nelle due probabilità stimate
* ---- Utilizzo di margins ----
15
*Attenzione! stimo nuovamente il modello probit e indico il regressore binario con i.black
probit deny pi_rat i.black, r
*calcolo l'effetto marginale di black in corrispondenza delle medie
margins, dydx(_all) atmeans
*-------------------------------------------------------------------------------
* Calcolo degli effetti marginali medi
*-------------------------------------------------------------------------------
* ---- Utilizzo di margins ----
probit deny pi_rate i.black, r
margins, dydx(_all)
*---- Procedura manuale ---

In questo modo è inclusa una misura di variabilità ed è possibile plottare gli EM per tutti gli individui del campione
cap drop em
gen em=_b[pi_rate]*normalden(_b[_cons]+_b[pi_rate]*pi_rat+_b[1.black]*black)
sum em
graph hbox em
Esercitazione 1: test t per la differenza tra medie e modelli logit/probit
* 1) Caricare i dati hmda_sw.dta che si trovano su Virtuale, in corrispondenza dalla lezione 2 del Modulo 2
cd "C:\Users\alice\OneDrive\Desktop\SA"
use "hmda_sw2.dta", replace
* 2) Generare una nuova variabile binaria deny che assuma valore 1 quando la variabile categoriale s7 ha valore 3 e 0 altrimenti
(tale modalità infatti indica l'eventualità di rifiuto del mutuo)
gen deny=.
replace deny=1 if s7==3
replace deny=0 if s7!=3
* 3) Utilizzare la variabile s46 del dataset che riporta il rapporto rate/mutuo in percentuale così com'è (SENZA dividerla per 100),
rinominarla come perc_rate
gen perc_rate=s46
* 4) Generare la variabile white, ovvero una variabile binaria che assume valori 1 se s13 è uguale a 5 (white race) e 0 altrimenti
(black race)
gen white=.
replace white=1 if s13==5
replace white=0 if s13!=5
* 5) Associare dalle etichette "label" a ciascuna delle tre variabili ricavate sopra che rendano chiaro il loro significato
label variable deny "deny=1 rifiuto mutuo, deny=0 accetto mutuo"
label variable perc_rate "rapporto rate/mutuo in percentuale"
label variable white "white=1 per rispondente bianco, white=0 per rispondente di colore"
* 6) Lanciare un test per la differenza tra medie per la variabile perc_rate per le popolazione di individui con mutui rifiutati
(deny==1) e non rifiutati (deny==0); sia con un test omoschedastico che eteroschedastico, c'è differenza tra i due? quale è
preferibile? commentare i risultati in termini di dipendenza tra le due variabili.
ttest perc_rate, by (deny)
ttest perc_rate, by (deny) unequal
* Commento: entrambi i modelli portano al rifiuto dell'ipotesi nulla, in quanto i p-value sono uguali e pari a 0 (p-value < qualsiasi
alfa). Le standard deviation delle due popolazioni sono molto diverse (per la popolazione di mutui accettati è vicino a 8, per mutui
rifiutati vicino a 22), quindi quello eteroschedastico è preferibile che ipotizza che le due varianze siano diverse tra loro. Vi sono
delle differenze nel t osservato; nel modello omoschedastico è pari a -9,9 mentre nel modello eteroschedastico è pari a -5,1
* 7) Stimare il modello logit con variabile dipendente deny e var indipendente perc_rate, i coefficienti sono tutti significativi?
logit deny perc_rate, r
* Commento: entrambi i coefficienti sono significativi (p-value < qualsiasi alfa). Nel caso del rapporto rata/reddito il coefficiente è
positivo
* 8) Generare le probabilità previste dal modello logit, plottarle con boxplot e commentarle brevemente
cap drop pr_logit
predict pr_logit, pr
label variable pr_logit "Prob stimate dal Modello logit"
sum pr_logit
graph hbox pr_logit
16
* Commento: la media delle probabilità previste dal modello logit è pari a 0,12. La maggio parte delle osservazioni è compresa tra
0 e 0,20 circa. Abbiamo la presenza di pochi valori anomali che variano da 0,20 a 1, con alcuni di essi vicini ad 1 (quindi hanno
una probabilità altissima di rifiuto del mutuo)
* 9) Stimare un analogo modello probit, i coefficienti di regressione stimati sono analoghi?

probit deny perc_rate, r
* Commento: anche i coefficienti del modello probit sono entrambi significativi con un p-value < qualsiasi a. L'intercetta nel
modello logit è pari a -4, mentre pari a -2 nel modello probit (questa è la maggior differenza tra i due modelli). Mentre il
coefficiente perc_rate è pari a 0,06 nel modello logit e pari a 0,03 nel modello probit
* 10) Generare le probabilità previste dal modello probit e compararle con quelle previste dal modello logit, sono analoghe?
cap drop pr_probit
predict pr_probit, pr
label variable pr_probit "Prob stimate dal Modello probit"
sum pr_probit
graph hbox pr_probit
* Commento: la media delle probabiliktà previste dal modello probit è sempre pari a 0,12. Come nel modello logit, la maggior
parte delle osservazioni si trovano tra 0 e poco più di 0,2. Abbiamo la presenza di pochi valori anomali, con alcuni di essi vicino a
1. Possiamo dire che le probabilità previste dai due modelli sono analoghe
* 11) Calcolare la funzione correntemente predetta nei due modelli e compararli assumendo come epsilon = 0.50, è questa una
indicazione della bontà del modello?
cap drop yhat_logit
gen yhat_logit=0
replace yhat_logit=1 if pr_logit>=0.5
tab deny yhat_logit, cell
sum pr_logit if yhat_logit==0 & deny==1
sum pr_logit if yhat_logit==1 & deny==0
cap drop yhat_probit
gen yhat_probit=0
tab deny yhat_probit, cell
* Controllo le probabilità delle presunte osservazioni non correttamente predette: se esse sono vicino allo 0.50, non possono
considerarsi non correttamente predette poiché l'osservazione di 0 o di 1 è equiprobabile. Se le loro probabilità sono invece
vicino a 0 od a 1, allora possono considerarsi non correttamente predette.
* Commento: la frazione di osservazioni per cui il modello prevede correttamente la probabilità di rifiuto del mutuo è pari a 2100
nel modello logit, ossia circa il 90%. Nel modello probit tale frazione è pari a 2099, sempre circa il 90%. Mentre il restante 11% è
in maniera presunta non correttamente predetta.
* Altro modo per poter vedere le differenze. Dallo scatterplot possiamo vedere che i punti sono quasi sulla retta
scatter pr_logit pr_probit || /*
*/ line pr_logit pr_logit, sort
* In questo modo aggiungiamo una retta allo scatterplot. Possiamo vedere che gli outlier hanno delle proabilità più alte nel caso
del modello logit, mentre più basse nel caso del modello probit. Le altre osservazioni sono identiche
* d'ora in poi le indicazioni si riferiscono solo al modello logit

* 12) Calcolo la probabilità di rifiuto stimata quando perc_rate=70 ed 80
scalar z1 = _b[_cons]+_b[perc_rat]*70
di z1
di logistic(z1)
scalar z2 = _b[_cons]+_b[perc_rat]*80
di z2
di logistic(z2)
* Commento: la probabilità di rifiuto stimata quando perc_rate=70 è pari a 0,47, mentre quando è uguale a 80 è pari a 0,54
* 13) Calcolo l'effetto marginale stimato quando perc_rate=70 ed 80

margins, dydx(_all) at(perc_rate=70)
margins, dydx(_all) at(perc_rate=80)
* Commento: l'effetto marginale stimato quando perc_rate=70 (alla variazione di un punto percentuale del percentage rate la
probabilità aumenta di 1,4 punti percentuali) è pari a 0,014, mentre con perc_rate=80 è 0,013 (alla variazione di un punto
percentuale del percentage rate la probabilità aumenta di 1,3 punti percentuali)
* 14) Calcolare effetto marginale at means ed effetto marginale medio tramite la funzione margins e compararli; in seconda
battuta, calcolare l'effetto marginale medio manualmente e valutarne la variabilità sapendo che la funzione logisticden() fornisce
la densità di probabilità della distribuzione logistica
17
margins, dydx(_all)
* Commento: l'effetto marginale at means è pari a 0,0058 (un individuo con rapporto rata/reddito di 33,08 avrà lo 0,58%
probabiità di vedere il proprio mutuo rifiutato), mentre l'effetto marginale medio è pari a 0,0059. La differenza è di 5,9 punti
percentuali.
cap drop em
gen em=_b[perc_rate]*logisticden(_b[_cons]+_b[perc_rate]*perc_rate)
sum em
graph hbox em
* Commento: guardando il bloxplot vediamo che la variazione dell'effetto marginale è molto elevata tra individuo a individuo
* 15) Stimare modello logit multiplo: utilizzare come regressori sia perc_rate che white
logit deny perc_rate white, r
* 16) Tentare di calcolare l'effetto marginale at means di white con funzioni manuali sapendo che la funzione
logistic(x)=1/(1+exp(-x))
*calcolo la media campionaria di perc_rate, per il calcolo at means
sum perc_rate
scalar p_neri=logistic(_b[_cons]+_b[perc_rate]*33.08136+_b[white]*1)
di p_neri
scalar p_bianchi=logistic(_b[_cons]+_b[perc_rate]*33.08136+_b[white]*0)
di p_bianchi
scalar ME_white=p_neri-p_bianchi
di ME_white
* Commento: il passaggio da richiedente bianco a nero porta a una diminuzione dell'effetto marginale di 0,16
* 17) Comparare il modello logit multiplo col modello logit con un solo regressore in termini di pseudo-R^2, quale dei due è
preferibile?
* Commento: il modello multiplo presenta uno Pseudo R2 di 0,0876 mentre quello con un solo regressore di 0,0482. Possiamo
concludere che preferiamo quello multiplo, in quanto presenta una misura di bontà dell'adattamento ai dati maggiore, ha un
maggiore potere informativo
Assignment 2
Esercizio 1
Abbiamo a disposizione un dataset aventi 212 osservazioni che si riferiscono a specifiche aree delle Snowy Mountains in New
South Wales (Australia) ed indicano la distribuzione di una specie di rane. Le variabili sono:
• presabs: variabile dummy che indica presenza (1) o assenza (0) di rane nell’area;
• distance: distanza in metri dalla più vicina popolazione pre-esistente;
• noofpools: numero di potenziali bacini nidificanti;
• meanmin: media delle temperature minime primaverili
In base alle stime riportate sopra si risponda brevemente alle seguenti domande:
a) Si commenti l’effetto della temperatura minima media osservata sulla probabilità di osservare rane nell’area.
In base all’output disponibile si può affermare che la temperatura minima media dell’area ha un effetto positivo sulla
probabilità di osservare rane nell’area (l’aumentare della temperatura ne aumenta la probabilità di osservazione), a parità
delle altre variabili, con effetto statisticamente significativo al 1%.
18
b) Qual è la probabilità di osservare la presenza di rane in un’area con distanza 1000 mt da una popolazione pre-esistente, con
temperatura minima media di 4 gradi e 20 potenziali bacini nidificanti?
c) Qual è la probabilità di osservare la presenza di rane in un’area con distanza 150 mt da una popolazione pre-esistente, con
temperatura minima media di 5 gradi e 25 potenziali bacini nidificanti?
d) Si indichi se, ed in caso quali, coefficienti di regressione non sono significativamente diversi da zero ad un livello di
significatività del 10%.
Tutti i coefficienti sono significativi ad un livello del 10%
e) Si calcoli l’effetto marginale stimato al variare della distanza da 100 a 200 mt, sulla probabilità di osservare rane in un’area
con temperatura minima media di 3 gradi e 20 potenziali bacini nidificanti.
L’effetto marginale è 0,4364-0,42465 = 0,01175, l’aumento della distanza da popolazioni pre-esistenti di un centinaio di metri
abbassa la probabilità di osservare rane nell’area di 1,17 punti percentuali
Si osservino inoltre i seguenti output:

f) Considerare e spiegare l’effetto marginale "at means” delle variabili.
In base al modello stimato, nel caso di una area con distanza 1932, temperatura minima media 3 e numero di siti 25
(rispettivamente medie campionarie di distance, meanmin e noofpools) un incremento di un centinaio di metri in distance
determina un decremento nella probabilità di osservare rane di circa 1 punto percentuale, mentre un incremento di un grado
nella temperatura minima media determina un incremento della probabilità di osservare rane di 28 punti percentuali. Infine,
un incremento di una unità per il numero di potenziali bacini nidificanti determina un incremento della probabilità di osservare
rane di 0.5 punti percentuali. I tre effetti sono
statisticamente significativi all’1%.
g) Considerare e spiegare l’effetto marginale medio delle variabili.

L’effetto marginale medio della distanza sulla probabilità di osservare rane è pari a -0.087 per 1000 mt. Un aumento di 1000
mt nella distanza determina una diminuzione in media di 8.7 punti percentuali sulla probabilità di osservare rane. Esso è
calcolato come media degli effetti marginali stimati per ciascun individuo del campione. Allo stesso modo, l’effetto marginale
medio del numero di potenziali bacini nidificanti è pari a 0.0048. Un bacino in più nell’area incrementa la probabilità di
osservare rane in media di 0.48 punti percentuali. Infine, un grado in più nella temperatura minima media aumenta in media
di 23 punti percentuali la probabilità di interesse. I tre effetti sono statisticamente significativi all’1%.
Esercizio 2
Il dataset a disposizione ha 845 osservazioni che indicano:
• vote: variabile dummy che indica il voto elettorale nelle elezioni US del 200 per bush (1) o meno (0);
• female: il sesso del votante, se donna (1) o uomo (0);
• black: se il votante è di colore (1) o meno (0).
19
a) Indicare quale tipo di regressione è stata stimata attraverso i comandi di Stata in input.
È stato stimato un modello logit con variabile dipendente vote e variabili esplicative female e black
b) Indicare quali variabili, secondo il modello, hanno un impatto significativamente diverso da zero sulla variabile risposta e
quali non lo hanno.
La variabile female non ha impatto significativamente diverso da zero, secondo il modello, dal momento che il coefficiente di
regressione associato ha un p-value del 0.483, ben più alto di qualsiasi livello di significatività normalmente utilizzato (1%,
5%, 10%). Al contrario la variabile black ha un impatto significativamente diverso da zero, avendo il coefficiente di
regressione associato un p-value=0.
c) Si commenti l’effetto delle variabili il cui impatto è significativamente diverso da zero sulla probabilità di votare Bush.
La variabile black è negativa, per cui i votanti di colore hanno una probabilità minore di votare bush rispetto ai rispondenti
bianchi, a parità del sesso
d) Qual è la probabilità di votare Bush per la popolazione di donne di colore secondo il modello?
e) Si calcoli l’effetto marginale stimato dei votanti di colore, sulla probabilità di votare Bush nel caso di votanti di sesso
maschile.
L’effetto marginale è 0,31 – 0,62 = -0,31, l’essere di colore abbassa la probabilità di votare bush di 31 punti percentuali,
condizionatamente alla appartenenza al sesso maschile
Si osservi inoltre il seguente output:
f) Considerare e spiegare le quantità rilevanti date dall’output.

L’output mostra gli effetti marginali medi indotti dalle due covariate. L’effetto marginale medio della variabile black sulla
probabilità di votare è pari a -0.31, il che vuol dire che l’osservazione di un individuo come di colore determina un
abbassamento della sua probabilità di votare Bush in media di ben 31 punti percentuali, in linea con quanto osservato nel
punto c. Esso è calcolato come media degli effetti marginali stimati per ciascun individuo del campione. Tale effetto è
statisticamente significativo al 1%. Allo stesso modo l’effetto marginale medio del sesso dei votanti è del –0.023, tuttavia tale
effetto non è statisticamente significativo, in linea con il test sul relativo coefficiente di regressione.
20
Esercizio 3
Si consideri il dataset “incomedata.csv” contenente 1000 osservazioni relative a 1000 individui da cui sono
osservate le seguenti variabili di riferimento:
• income: normalized income owned by the observed person.
• gen: gender: 1=male, 2=female.
• educ: dummy variable indicating whether the person has a primary education level (0) or a secondary or post-secondary
education (1).
• labor: dummy variable indicating whether the person is employed (1) or unemployed/inactive (0).
a) Si carichi il dataset in stata usando il comando import delimited incomedata.csv, clear
b) Si trasformi gen in una variabile dummy per indicare il genere dove male=0, female=1; si crei una variabile binaria poor
partendo da income, considerando 5000 come soglia di povertà e dunque associando il valore poor=1 a coloro con un
reddito inferiore alla soglia e poor=0 altrimenti.
c) Quante persone nel campione hanno un livello di secondary e post-secondary education?

1432 una istruzione di secondo o più livello
d) Quante persone occupate hanno un livello di primary education? Ed in percentuale?

Nel campione ci sono 149 persone occupate con un livello di istruzione pari al primo livello
e) Si stimi un modello Probit in cui la variabile poor è funzione del genere, del livello di educazione e della condizione
occupazionale, si commentino le stime dei coefficienti.
Tutti i coefficienti tranne il genere sono significativi all’1%
Il coefficiente educ è negativo, perciò coloro che hanno un livello di istruzione superiore del primo livello hanno in media una
probabilità minore di essere poveri rispetto a coloro che hanno un livello di istruzione pari al primo livello, a parità delle altre
condizioni
Il coefficiente condizione occupazionale è negativo, perciò coloro che hanno un impiego hanno in media una probabilità
maggiore di essere poveri rispetto a coloro che sono disoccupati, rispetto alle altre condizioni
f) Si calcoli la probabilità prevista di essere in una condizione di povertà per una donna inoccupata/inattiva con livello di
educazione primaria senza l’utilizzo di Stata.
g) Qual è l’effetto marginale stimato della condizione di inoccupata o inattiva (unemployed/inactive) per una donna che ha un
livello di secondary/post-secondary education? Si risponda senza l’uso di Stata.
L’effetto marginale stimato della condizione di inoccupato o inattiva (unemployed/inactive) per una donna che ha un livello di
secondary/post-secondary education è del 0.1018, ovvero la condizione di inoccupazione/inattività nel caso di donne con
tale livello di educazione, aumenta di 10.2 punti percentuali la probabilità di essere in uno stato di povertà.
h) Si calcoli la stima degli effetti marginali medi delle 3 variabili ausiliarie tramite il comando di stata e si indichi se e quali sono
significativi.
L’effetto marginale medio della variabile gen non è significativo (p-value=60%).
L’effetto marginale medio della variabile educ è significativo all’1%, l’osservazione di un individuo con un livello di istruzione
superiore al primo livello determina una diminuzione di 5,9 punti percentuali nella probabilità di essere in stato di povertà.
Infine, l’effetto marginale della variabile labor è significativa all’1%, l’osservazione di un individuo con un lavoro determina in
media una diminuzione di 6,6 punti percentuali nella probabilità di essere in stato di povertà
09/05
Distorsione da variabili omesse, collinearità e trappola delle dummy
Vedremo insieme alcune problematiche legate alla specificazione del modello

Vogliamo modellare una variabile in funzione di altre. Per farlo dobbiamo:
Scegliere il modello statistico più appropriato: la forma funzionale (lineare/non-lineare) a seconda della natura della variabile
e della natura della sua relazione/elasticità con i principali regressori.
Specificare il modello attraverso l’opportuna inclusione/esclusione dei regressori (variable selection).
21
Ora ci riferiamo a quest’ultimo punto. In particolare ci confronteremo con le diverse problematiche e conseguenze che riguardano
le scelta sbagliata sull’inclusione di un insieme di regressori:
• Distorsione da variabile omessa;
• Inclusione di variabili irrilevanti;
• Collinearità (inclusione di variabili rilevanti ma che veicolano la stessa informazione);
• Trappola delle dummy.
Distorsione da variabili omesse

Vogliamo valutare se omettiamo variabili molto importanti per il fenomeno.
Cosa accade se il modello che scegliamo omette variabili importanti?
Per esempio vogliamo studiare un fenomeno di cui non abbiamo a disposizione i principali regressori oppure li abbiamo ma non li
includiamo
Dataset: Edu_inc.dta
Campione di 428 famiglie in cui entrambi i coniugi lavorano. Vogliamo comprendere quali fattori determinano il reddito familiare.
Variabili osservate:
• FAMINC: reddito famigliare
• HEDU: livello di istruzione del marito
• WEDU: livello di istruzione della moglie
• KL6: numero di figli minori di 6 anni
Stimo un modello in cui il reddito famigliare è funzione del livello di istruzione del marito e della moglie:
Coeff. S.E. P-Value
HEDU 3132 803 0.000
WEDU 4523 1066 0.000
_con -5534 11230 0.622

Entrambe le variabili sono significativamente diverse da zero (hanno un potere informativo rilevante per il fenomeno) mentre
l’intercetta no (possiamo escluderla, la baseline rimane la media delle covariate).
: un anno in più di istruzione del marito fa crescere il livello di reddito familiare di 3132 $/anno
: un anno in più di istruzione della moglie fa crescere il livello di reddito familiare di 4523 $/anno.
Questo può avere senso perché in base a delle ipotesi possiamo immaginare che questo campione sia stato osservato una
decina di anni fa in un contesto in cui c’è più probabilità per una moglie di rimanere a casa e non lavorare. Quindi, all’aumentare
del livello di istruzione della moglie aumenta la probabilità che lei lavori (ipotesi). Al contrario, all’aumentare dell’istruzione del
marito, questo non ha un impatto sulla probabilità che esso lavori di più o meno, ma sul suo inquadramento.
Cosa succede se ometto il livello di istruzione della moglie (regressore rilevante per la variabile dipendente e correlato al
regressore incluso nel modello, il livello di istruzione del marito)?
Coeff. S.E. P-Value
HEDU 5155 658 0.000
_con 26191 0.002 0.000
Il valore dell’intercetta è molto diverso, nel caso del modello ridotto l’intercetta è significativamente diversa da zero.
A destra abbiamo un modello completo in cui la variabilità spiegata dal modello è spiegata da due regressori, in più c’è una parte
non spiegata inclusa nel termine di errore.
Più è alta la variabilità spiegata dal modello, più R2 sarà vicino a 1.
Omettendo un regressore significativo, quella parte di variabilità non è più spiegabile dal modello, ma è spiegabile tramite una
intercetta che è uguale per tutti, ossia la media dei B3*WEDU. Gli scostamenti dall’intercetta dettati dalla variabile omessa tra gli
individui fanno parte della variabile non spiegata dal modello che viene incorporata nell’errore. Questo avviene sempre.
Quello che non avviene sempre è che B2 e a2 siano così diversi
: un anno in più di istruzione del marito fa crescere il livello di reddito familiare di 5155 $/anno omettere WEDU porta a
sovrastimare di circa 2000$ l’effetto di un anno in più di istruzione del marito.
Un cambiamento rilevante nella stima di un coefficiente è conseguenza tipica dell’omissione di una variabile esplicativa rilevante!
L’omissione di variabili rilevanti infatti produce stime distorte dei coefficienti (a2 e B2)

L’omissione di variabili rilevanti rende lo stimatore OLS uno stimatore distorto
Ripasso: che cos’è uno stimatore corretto (non distorto)
• Lo stimatore OLS () è uno stimatore corretto (= non distorto) del coefficiente di regressione )
• Uno stimatore di un parametro di popolazione incognito è corretto se il valore atteso della sua distribuzione campionaria è il
parametro incognito che vuole stimare:
Se il modello completo è:
• L’omissione del regressore WEDU rende lo stimatore OLS di (il coefficiente del regressore incluso) uno stimatore distorto
22
• La media della distribuzione campionaria dipotrebbe non essere uguale all’effetto vero di HEDU su FAMINC
• Dunque la stima ( ottenuta con il metodo OLS è distorta ed, in questo caso, porta alla sistematica sovrastima dell’effetto.

La distorsione da variabili omesse si verifica quando valgono due condizioni:
1. La variabile omessa è correlata con il regressore incluso
2. La variabile omessa contribuisce a spiegare la variabile
dipendente (deve essere rilevante e significativa)
È possibile dedurre la direzione della distorsione. Si può
dimostrare infatti che:
o Se la variabile B3 non è significativamente diversa da zero la distorsione non c’è (abbiamo fatto bene ad ometterla)
o Se la covarianza tra i due regressori è nulla, la distorsione è nulla
La distorsione non è calcolabile se non abbiamo la variabile rilevante.
Se è possibile ipotizzare:
• Il segno di (cioè come la variabile omessa WEDU incide su FAMINC)
• Il segno della covarianza tra variabile omessa e variabile inclusa (cioè la direzione della relazione fra le due variabili)
Si può dedurre se la distorsione provocherà una sovrastima o una sottostima di
Immaginiamo di non disporre del livello di istruzione della moglie (quindi di non poter stimare la regressione a destra) e di voler
capire che conseguenza abbia l’omissione di tale regressore.
È verosimile che:
• il livello di istruzione della moglie abbia un effetto positivo sul reddito famigliare nel modello completo avrebbe segno
positivo
• il livello di istruzione della moglie è positivamente correlato con il livello di istruzione del marito (la covarianza tra variabile
omessa e variabile inclusa è probabilmente positiva)
La distorsione dunque ha segno positivo e l’omissione di WEDU provocherà una sovrastima di
(Siccome disponiamo in effetti di quella variabile, possiamo verificare gli effetti dell’omissione confrontando i due modelli)
Cosa accade se viene omessa una variabile rilevante per la variabile dipendente ma non correlata con un regressore incluso?
Coeff. S.E. P-Value

Coeff. S.E. P-Value
HEDU 3212 797 0.000
HEDU 3132 803 0.000
WEDU 4777 1061 0.000
WEDU 4523 1066 0.000
KL6 -14311 5004 0.004
_con -5534 11230 0.622
_con -7755 11163 0.488
L’intercetta continua ad essere non significativamente diversa da 0
: un anno in più di istruzione del marito incrementa il reddito familiare di 3212 $/anno
: un anno in più di istruzione della moglie incrementa il reddito familiare di 4777$/anno
: un bambino con meno di 6 anni riduce il reddito familiare di 14311 $/anno
Rispetto al modello in cui KL6 è omessa (a destra) le stime dei coefficienti di HEDU e WEDU non sono molto diverse.
In effetti KL6 non è molto correlata con HEDU e WEDU.
Quando una variabile viene omessa è comunque possibile ottenere risultati utili a condizione che essa sia incorrelata con le
variabili incluse
Ma perché succede questo?

Abbiamo due ipotetici regressori e la variabile dipendente y.
Ipotizziamo di omettere x2 e che entrambi siano correlati ad y ed entrambi siano correlati tra di loro
La correlazione tra i due regressori ipotizziamo che non sia eccessiva.
Range della correlazione:
o la correlazione assume valori da -1 a +1
o 1 massima correlazione positiva
o -1 massimo correlazione negativa
o 0 minima correlazione
23
o 0,20 – 0,80 --> dipendenza lineare non fortissima (condividono qualcosa dell’informazione che hanno)
• condividono un pezzo di informazione ma apportano a due tipi di informazioni diverse. Il livello di correlazione ci porta a
pensare che condividono qualcosa dell’informazione ma spiegano la y in maniera diversa
• Se viene omessa, la «parte non spiegata» non ricade interamente nel termine di errore, come solito qualora non fossero
correlate
• Questo perché il modello legge l’informazione di «specchiata» in e la associa erroneamente ad , il cui coeff. di regressione
è dunque distorto.
Quindi se x2 viene omessa, il modello legge l’informazione che x1 veicola su y ma leggerà anche una parte di informazione
di x2 associandola erroneamente ad x1, dando un valore del coefficiente di regressione distorta e quindi fuorviante (perché
legge in x1 una parte di informazione che non è associata direttamente a quella variabile)
24
È un problema di flussi informativi
Inclusione di variabile irrilevanti

L’inclusione di variabili irrilevanti provoca un aumento nella varianza delle stima riduce la precisione!
Coeff. S.E. P-Value
HEDU 3340 1250 0.008
WEDU 5869 2278 0.010
KL6 -14200 5044 0.005
889 2242 0.692
1067 1982 0.591
_con -7759 11195 0.500

Introduco nel modello e , variabili casuali generate artificialmente:
• I coefficienti di e non sono significativi e non sono correlate tra tutti gli altri regressori (le variabili sono irrilevanti)
• Gli s.e. delle stime di tutti gli altri coefficienti sono aumentati!
L’inclusione di variabili irrilevanti ha ridotto la precisione delle stime dei coefficienti di tutte le altre variabili (i loro s.e. possono
anche aumentare fino a farle diventare non significative)
Inoltre, ha complicato inutilmente il modello.
Come mitigare questo problema?
Se si osservano stime dei coefficienti di regressione con segno inatteso (per esempio si ha una relazione negativa, quando dal
punto di vista economico dovrebbe essere positiva) o stime irrealistiche ci potrebbe essere una distorsione da variabile omessa.
Cosa fare?
• Includere tutte le variabili rilevanti che si hanno a disposizione e che aumentano il potere informativo del modello. Oppure
includerle di volta in volta ed eliminare quelle non significative
• Se il problema persiste: fare delle ipotesi su quale variabile che non si ha a disposizione può indurre tale problema.
• Lavorare su subset del nostro campione per capire se il problema persiste, se possibile subsettare il campione (dividere il
campione in categorie in modo che all’interno di ciascuna categoria la variabile omessa sia il più possibile omogenea e
verificare se questo problema sulle stime dei coefficienti persiste) con l’idea di mantenere costante la variabile omessa (), in
modo da valutare la relazione tra depurata dall’effetto di .
Tuttavia ciò è difficile se non si è in grado di osservare .
La collinearità
Caso che parte da un problema simile della distorsione della
variabile omessa, ma porta a differenze marcate nel problema e
nella soluzione
Ci sono sempre tre attori: variabile dipendente e due regressori
Entrambi i regressori sono correlati, ma la differenza è che la
correlazione è molto forte (vicina a 1 o -1), quindi una è una
combinazione lineare dell’altra.
• condividono la stessa informazione utile a predire
• inserendole entrambe le variabili come regressori, il modello
legge 2 volte la stessa informazione e non è in grado di
associarla ai regressori perché non è distinguibile.
Porta a stime non coerenti.
Molte variabili economiche tendono a muoversi nella stessa

(correlazione positiva) /opposta (correlazione negativa) direzione in
maniera sistematica, essendo legate deterministicamente (ad es. z=3x+2) oppure essendo molto correlate. Se incluse
simultaneamente come regressori, si pone un problema chiamato collinearità (le variabili sono collineari o multi collineari).
Esempio: desidero stimare l’aumento dei ricavi attribuibile alla spesa in pubblicità e quello attribuibile alla spesa in buoni sconto
promozionali.
Tuttavia, in passato i due tipi di investimento sono stati sempre coordinati (se sui quotidiani appariva un inserto pubblicitario,
contemporaneamente venivano offerti buoni sconto).
Se stimo un modello del tipo:
• SALES: volume delle vendite
• NUM.VOUCHER: numero di buoni sconto distribuiti
• ADVERT: spesa in attività pubblicitaria sui quotidiani
NUM.VOUCHER e ADVERT presenteranno una relazione sistematicamente positiva potrebbero essere collineari
• La spesa pubblicitaria certamente aumenterà le vendite
• Tuttavia sarà difficile scorporare gli effetti separati sui ricavi dei due tipi di spesa, proprio a causa della loro osservazione
come fenomeni sempre congiunti e dunque estremamente correlati.
25
Collinearità esatta --> esiste esatta/perfetta correlazione quando il coefficiente di correlazione = tra le variabili esplicative: lo
stimatore OLS non è definito. La regressione non si può stimare (è violata l’ipotesi degli OLS secondo cui le variabili
esplicative non sono funzioni lineari delle altre).
Collinearità non esatta --> c’è una correlazione tra le esplicative elevata che tende ad ma : le stime OLS avranno grandi s.e.
(stime poco precise, quindi test t diversi e coefficienti che potrebbero non essere significativamente diversi da 0). Nessuna
ipotesi è violata in questo caso
Collinearità perfetta
Vogliamo stimare l’effetto della zona di ubicazione sul prezzo medio delle abitazioni. Disponiamo di un campione di case
(dataset: Pregio.dta) di cui conosciamo:
- Prezzo (PRICE)
- Superficie dell’abitazione (Ampiezza)
- Ubicazione dell’abitazione in quartiere pregiato (PREGIO=1 sì, =0 no)
Il fatto che l’abitazione sia in un quartiere di pregio, mi aumenta il valore della casa di 46.000 dollari circa.
Cosa accadrebbe se inserissimo nel modello anche la variabile binaria NPREGIO?

NPREGIO: =1 se l’abitazione non è in un quartiere di pregio e =0 se è in quartiere di pregio
Lo stimatore OLS non è definito a causa di perfetta collinearità. Stata deve omettere uno dei regressori oggetto di perfetta
collinearità per poter stimare il modello.
e sono perfettamente collineari: esiste una relazione lineare esatta tra essi -->
Conseguenze della collinearità
La varianza dello stimatore dei minimi quadrati di in caso di collinearità è definita come:
Con r23 che definisce il coefficiente di correlazione tra e che assume valore tra –1 e +1
Possibile domanda esame: dato il coefficiente di correlazione, la variabilità dell’errore e la devianza di x2, si calcoli la varianza
dello stimatore indotta da un fenomeno di collinearità
• Nel caso di collinearità perfetta , (1 – r23) sarebbe zero quindi la varianza sarebbe infinita.
• Allo stesso modo se fosse costante (assume valori uguali alla sua media) più , in questo caso sarebbe collineare con il
termine costante.
Se si include un regressore che è costante, significa che non ha variabilità, non è rilevante in termini di potere informativo e
diventa collineare con l’intercetta.
In entrambi i casi lo stimatore OLS non è definito.
• Nel caso di collinearità non perfetta ma ne è molto vicino, la diventa elevata, rendendo le stime poco precise (coefficienti
poco significativi, alta instabilità all’aggiunta/esclusione di poche osservazioni (se tolgo un osservazione le stime saranno
completamente diverse), stime poco coerenti che dipendono troppo da quello che osserviamo, dal numero di osservazione,
dalla presenza di outliers).
Come identificare e mitigare la collinearità
26
Se la collinearità è perfetta, Stata ci dà errore
Se invece non è perfetta:
1) Calcolare la correlazione tra coppie di variabili esplicative (comando: cor variabili di cui si vuole stimare la correlazione
(sempre coppie di variabili)), se alte (>= ) probabilmente le due variabili veicolano la stessa informazione. Dunque se ne
esclude una senza perdita di informazione.
2) Se invece la collinearità non fosse relegata a un problema tra due variabili, ma fosse legato a più variabili, bisogna stimare le
«regressioni ausiliarie».
Ossia occorre stimare un modello di regressione che incorpora tutte le altre variabili esplicative osservate nel modello.
Ovvero regressioni tra variabili esplicative, ad es.:
Un elevato in questo modello artificiale che denotiamo con (il pedice denota il regressore a cui si fa riferimento) se
superiore a 0.80 segnala la presenza di collinearità tra quel regressore e le altre, in quanto R2 è una misura della bontà di
adattamento al modello.
Un indice molto usato in questo caso è infatti il Variance Inflation Factor (VIF) di :
Il VIF è il reciproco dell’R2. Quando il VIF è molto alto (maggiore di 5), significa alta collinearità.
Qualora osservassimo quindi un VIF=5 per il regressore 2, bisogna togliere il regressore 2. Se per gli altri regressori VIF<5
manteniamo gli altri regressori.
Quest’ultimo metodo permette di considerare non solo coppie di variabili.
Regressori categorici
La trappola delle dummy è una conseguenza diretta della collinearità
Vogliamo stimare un’equazione del salario che spieghi la retribuzione degli individui in funzione di alcune caratteristiche del
lavoratore, per es. livello di istruzione e regione di residenza.
Dataset: Wage.dta
Variabili:
• wage: salario orario in $
• educ: livello di istruzione in anni
• area: area di residenza, =1 north, =2 east, =3 south, =4 west (variabile binaria categorica che assume valori associati a
diverse categorie)
Se stimiamo un modello del tipo:
Vediamo che i due regressori non sono in grado di spiegare gran che della variazione dei salari orari
Le variabili sono tutte significative al 5%, solo educ è significativa anche all’1%
Quindi possiamo commentare l’output del modello, in quanto le variabili sono significative
Un anno di istruzione aggiuntivo determina un aumento del salario orario di 2 dollari
Problema: Come possiamo interpretiamo il coefficiente della variabile ? Che cos’è un incremento unitario dell’area di residenza?
Non si può commentare perché la variabile area è stata inclusa nel modello in maniera erronea.
L’abbiamo inserita come un valore ordinale, anche se non lo era. Il modello non è in grado di capire che quella variabile è
categoriale e non ordinale. Non si può verificare un incremento unitario dell’area di residenza.
Regressori categorici: Trappola delle dummy

Quando si dispone di regressori categorici è buona norma:
- Trasformarli in tante variabili binarie quante sono le sue modalità:
o North=1 se vive al nord, =0 altrimenti
o South=1 se vive al sud, =0 altrimenti
o East=1 se vive nelle regioni orientali, =0 altrimenti
o West=1 se vive nelle regioni occidentali, =0 altrimenti
- Includere nel modello tali variabili binarie al posto della variabile categorica iniziale. In questo modo posso verificare la
rilevanza nel vivere in un’area di residenza o meno guardando la stima dell’effetto marginale. Posso quindi analizzare
ciascuna modalità separatamente, guardando all’impatto di ciascuna separatamente.
- Attenzione! Se si includessero tutte le variabili binarie generate, ci sarebbe perfetta collinearità, in quanto una è la
combinazione lineare delle altre tre.
o North = 1 - (South + East + West)
o South = 1 - (North + East + West)
o ..
27
- Ricordarsi di includere tutte le variabili binarie tranne una che costituirà la baseline da cui interpretare i risultati. La baseline
la possiamo scegliere noi, dipendentemente da cosa ci interessa verificare
Il fenomeno per cui l’inclusione di tutte le variabili binarie (categoriche) determina perfetta collinearità è noto come trappola delle
dummy.
Regressori categorici, collinearità e trappola delle dummy
Il modello è significativo per quando riguarda tutti i coefficienti, con un R2 = 0,20 (quindi le variabili incluse non sono sufficienti a
spiegare gran parte della varianza del fenomeno).
Tutte le variabili sono significative al 10%, west non è significativa al 5%.
Il livello educativo ha un coefficienti che non è tanto diverso da quello stimato prima.
La variabile binaria non inclusa diventa la categoria di riferimento per il commento delle variabili binarie incluse (north):
- south: in media gli individui che vivono al sud hanno un salario orario inferiore di 0,95$ rispetto agli individui che vivono al
nord
- east: in media gli individui che vivono nelle regioni orientali hanno un salario orario inferiore di 1,5$ rispetto agli individui che
vivono al nord
- west: in media gli individui che vivono nelle regioni occidentali hanno un salario orario superiore di 0,8$ rispetto agli individui
che vivono al nord
Come procedere in Stata?

• Si possono creare tante dummy quante
sono le sue modalità usando il comando
tab var1, gen (nome)
Stimare il modello ricordandosi di
inserire tutte le dummy meno una!
• Si può stimare il modello facendo
precedere il regressore categorico da
una «i.», in questo modo Stata lo
considera regressore categorico
(«fattore» in Stata) e produce il
seguente output:
Stata automaticamente omette una
categoria, in questo caso area=1 (north), che
diventa il gruppo di riferimento
Suggerimenti per l’uso di regressori

categorici con Stata
Nel caso in cui si voglia stabilire quale
categoria deve essere esclusa e considerata categoria di riferimento si può utilizzare il seguente comando:
reg wage educ ib1.area la categoria area=1 è esclusa
reg wage educ ib2.area la categoria area=2 è esclusa
Se la variabile categorica non fosse 1, 2, 3 e 4 ma west, north, east e south dovremmo scrivere ibnorth.area se vogliamo
escludere area=north
Riassumendo
• L’inclusione di variabili irrilevanti non conviene in quanto complica inutilmente il modello e diminuisce la precisione delle
stime su molti dei coefficienti (non solo quelli che riguardano le variabili irrilevanti)
• L’omissione di variabili rilevanti e correlate (< corr > ) con altri regressori può portare ad una distorsione delle stime e quindi
sulle interpretabilità del modello e delle relazioni causali che vogliamo stimare. Quando abbiamo valori strani e segni strani
dei coefficienti dobbiamo capire se stiamo considerando i principali fattori determinati per misurare il fenomeno.
• L’inclusione di variabili eccessivamente correlate (corr >= ) con altri regressori può portare a collinearità ed a stime poco
precise.
Cosa viola cosa:
28
L’omissione di variabili rilevanti viola l’ipotesi OLS che . L’errore deve avere valore atteso nullo e deve essere indipendente
da x, quindi l’omissione della variabile rilevante fa si che la variabilità della variabile omessa va nel termine di errore. Questo
implica che il termine di errore diventi correlato con le altre ausiliare, questo viola le ipotesi OLS e fa si che le stime siano
distorte.
La collinearità esatta o perfetta viola l’ipotesi OLS per cui le variabili esplicative non possono essere funzione lineare di altre
variabili esplicative.
La collinearità inesatta non viola ipotesi OLS, così come l’inclusione di variabili irrilevanti.
Esempio domanda esame: la collinearità imperfetta viola un’ipotesi OLS? Se si, quale?
Non viola nessuna ipotesi
Importanza di individuare correttamente l’insieme delle variabili esplicative:

• Scelta sulla base della comprensione teorica e complessiva della relazione.
• Se la stima contiene coefficienti con segno inatteso o stime irrealistiche ci potrebbe essere un errore di specificazione del
modello. Bisogna capire che tipo di errore, per far ciò:
o Svolgere test di significatività sui coefficienti (se coefficiente non significativo la variabile può essere tralasciata).
o Includere tutti i regressori rilevanti nell’analisi ed effettuare uno studio sulla collinearità per escluderne i collineari.
o Interpretare le stime dei coefficienti con spirito critico.
Tabella riepilogativa possibili problemi di specificazione del modello
Problema Effetti Rimedi

Inclusione di 1. Il modello viene complicato Togliere dal modello tutte le variabili
variabili inutilmente. irrilevanti. A tal fine, escludere dal
irrilevanti 2. Avremo un aumento della varianza degli stimatori di tutti o modello tutte quelle variabili non
quasi i coefficienti, e quindi una riduzione della loro precisione. significative.
3. Non viola alcuna ipotesi OLS.
Inclusione di 1. Viola l’ipotesi OLS per cui le STATA toglie uno dei due regressori
variabili variabili esplicative non possono essere funzione lineare di perfettamente collineari
perfettamente altre variabili esplicative. Lo stimatore OLS pertanto non è automaticamente.
correlate: definito. In caso di trappola delle dummy:
collinearità 2. La regressione non si può togliere una delle dummy (o lo faccio
perfetta stimare. fare a STATA in automatico, o lo faccio
3. Trappola delle dummy: caso specifico di collinearità io
perfetta. Avviene quando tra manualmente).
i regressori includiamo tutte le variabili dummy relative alle Utilizzare il comando "i. nome variabile"
modalità di una variabile categorica (o in per far presente a STATA che è una var.
generale, una combinazione lineare di variabili dummy). categorica. Il comando “ib nome
modalità.nome variabile” permette di
fissare la baseline sulla modalità
indicata.
Inclusione di 1. Il modello riceve la stessa informazione due volte. Togliere la variabile maggiormente
variabili 2. Il modello porterà a stime poco precise dei coefficienti collineare sulla base di:
fortemente di tutti i regressori inclusi (aumento della varianza degli • Coefficienti di correlazione stimati (da
correlate: stimatori dei coeff.). STATA, stimano la correlazione solo tra
collinearità 3. Non viola ipotesi OLS. coppie di variabii).
imperfetta • Regressioni ausiliarie (se Rk2 ≥ 0,80
il regressore che in quella regressione
ausiliaria è impiegato
come var. dipendente va rimosso)
• (se ≥ 5 xk va rimosso dal modello di
partenza).
Omissione di 1. Gli stimatori dei coefficienti dei regressori inclusi sono distorti Se osserviamo stime dei coefficienti
variabili rilevanti e non consistenti --> stimatori distorti producono stime distorte con segno inatteso o stime irrealistiche,
e correlate (sistematicamente gli stimatori sottostimano o sovrastimano i devo chiedermi: “sto considerando tutti i
(modestamente) parametri incogniti). principali fattori rilevanti per la variabile
a quelle incluse 2. Stime distorte danneggiano l’interpretabilità del dipendente, e correlati modestamente
modello. con gli altri?” “Se no, cosa sto
3. Causa endogeneità. escludendo? Che variabile posso
4. Viola l’ipotesi OLS per cui E(ei|xi) = 0. osservare che mi può dare
un’indicazione del fenomeno che sto
studiando?”.
a) Se è possibile ricavare informazione
aggiuntiva:
o Includere direttamente le
o variabili omesse,
o Oppure dividere il dataset in
29 sottoinsiemi in cui la var omessa è
costante,
b) Se non è possibile ricavare info
aggiuntiva --> non posso procedere
nell’analisi.
12/05
Endogeneità e regressione con variabili strumentali
Ripassino: distorsione da variabili omesse

L’endogeneità è legata alla distorsione da variabile omessa, ossia quella situazione in cui abbiamo due regressori, entrambi
rilevanti nel predire e modellare la variabile dipendente e che veicolano verso y una informazione diversa e rilevante. Tuttavia
questi due regressori sono correlati tra loro (correlazione tra 20%-80%) e parte di questa informazione la condividono e la
specchiano tra di loro. Il fatto di omettere per esempio x2, faceva si che il modello vedeva solo l’informazione di x1 ma in x1 vi è
anche l’effetto di x2 specchiato su x1. Quindi lo stimatore di regressione che si riferisce ad x1 è distorto. Non si riesce a
identificare la vera informazione che x1 vuole specchiare su y e non si riesce a captare interamente l’informazione che x2 vuole
dare alla variabile dipendente. Si ha una interferenza nel flusso informativo. Di conseguenza tali stimatori sono distorti (la
distorsione è la distanza tra il valore atteso dello stimatore e il vero valore del parametro che vogliamo predire. Questa
distorsione dipendeva sia dalla covarianza tra i due regressori, sia da B3 che era una proxy della relazione che il regressore
omesse avrebbe avuto con y).
Nel contesto di un modello di regressione lineare, la distorsione da variabile omessa (variabile che ha un effetto su ed è correlata
con il regressore incluso ) è dovuta al venir meno di una delle assunzioni dei minimi quadrati:
--> la media condizionata dell’errore al regressore è uguale a 0.
: rappresenta tutti gli altri fattori oltre a che contribuiscono a determinare
Con questa formula si dicono contemporaneamente due cose: E (e) = 0 e Cov (ei, xi) = 0
Se uno di questi altri fattori (inclusi in ) è correlato con , allora anche l’errore risulta correlato con e la media di condizionata a
non sarà più nulla:
Perché?
Perché
Con =0, e potenzialemente dunque
In altre parole, se una variabile omessa:

• è una determinante di , allora sarà inclusa nell’errore
• se è correlata con , allora anche sarà correlato con
e di conseguenza .
Conseguenze:
La violazione di tale assunzione ha conseguenze gravi: lo stimatore OLS è distorto. Lo stimatore è distorto quando il valore
atteso dello stimatore – il suo valore vero è diverso da 0
La distorsione non svanisce neanche per grandi campioni, quindi lo stimatore OLS è inconsistente. Lo stimatore è
inconsistente quando la distorsione non svanisce nemmeno allargando il campione a più infinito.
La correlazione con il termine di errore:

Esistono diverse situazioni piuttosto frequenti in cui lo stimatore OLS cessa di essere valido a causa della presenza di
correlazione fra una variabile esplicativa e il termine di errore .
In questo caso la variabile esplicativa è detta endogena (regressore correlato con l’errore).
Siamo di fronte ad un problema di endogeneità tutte le volte in cui una variabile esplicativa è correlata con l’errore , cioè
Tipicamente si verifica endogeneità in tre situazioni:
1) variabili omesse
2) errore di misura nel regressore
3) causalità simultanea
Il contrario di endogeneità è esogeneità, cioè , la variabile è totalmente determinata al di fuori del modello, quindi non è
influenzato e influenzabile da altri fattori che stiamo considerando contemporaneamente.
Errori di misura
Se una variabile esplicativa è misurata con errore, essa potrebbe essere correlata con il termine di errore. In questo caso, si dice
che l’errore di misura di x introduce endogeneità.
Esempi:
- Se i dati sono raccolti attraverso un’indagine campionaria, un intervistato potrebbe dare la risposta sbagliata.
- Se i dati sono ottenuti da fonti amministrative, potrebbero esserci errori di inserimento.
Per capirlo intuitivamente, supponiamo una regressione con un singolo regressore (ad es. il reddito effettivo) che sia
imprecisamente misurato da (stima del reddito data dall’intervistato). Visto che osserviamo , la regressione sarà:
Per cui il termine di errore effettivo è

Oltre all’errore ui vi è anche un altro componente di errore, chiamato errore di misura che entrerà nella parte non spiegata nel
modello
Se l’errore di misurazione è correlato con (ad es. chi ha reddito più alto tende maggiormente a riportarlo “ribassato”, con errore,
nelle indagini) allora il primo termine di è correlato con c’è endogeneità.
Lo stimatore di è distorto ed inconsistente: l’entità della distorsione dipende da ovvero dalla natura dell’errore di misura.
30
La variabile esplicativapotrebbe essere vista come formata da due parti:
• una componente esogena (che incorpora l’informazione della variabile ed è determinata al di fuori del modello)
• una componente endogena, il suo errore di misura, correlata con e dunque problematica.
Causalità simultanea
La causalità simultanea riguarda il rapporto che c’è tra regressore e variabile dipendente
Finora abbiamo ipotizzato che la causalità andasse dal regressore alla variabile dipendente (X causa Y).
Può accadere però che la causalità in effetti vada in entrambe le direzioni: X causa Y ma
anche Y causa X (causalità simultanea).
La causalità simultanea comporta una correlazione tra il regressore e l’errore e quindi endogenità (la
regressione OLS cattura entrambi gli effetti rendendo lo stimatore distorto e inconsistente).
Esempio: si vuole stimare l’effetto del reddito sullo stato di salute degli individui tramite:
Causalità simultanea: un reddito più alto può consentire cure più efficaci, alimentazione migliore, comportamenti più salutari e
quindi livelli di salute più alti, tuttavia una salute compromessa può ridurre la capacità di lavorare di un individuo e quindi incidere
sul suo reddito.
Ma perché questo implica endogeneità?
• Supponiamo ci siano dei fattori non osservati che determinano delle variazioni nello stato di salute di un individuo.
• Tali variazioni di salute implicano l’impossibilità di percepire una parte del reddito (a causa della causalità simultanea)
Siamo quindi davanti ad un problema di variabili omesse: i fattori non osservati sono correlati sia a che a
Anche in questo caso, la variabile esplicativa potrebbe essere vista come composta da due parti:
1) una componente esogena (dovuta all’informazione «esterna» al modello e quindi incorrelata con ), ossia la parte di x che
non è causata da y
2) una componente endogena che deriva da e dunque correlata con e problematica.
Il modello soffre di endogeneità, lo stimatore OLS è distorto e inconsistente.
Un altro esempio: il problema di Wright

Philip Wright nel 900 in America voleva introdurre delle tasse sulla vendita di burro venduto. Voleva ottenere stime quantitative
dell’elasticità della domanda del burro, per poter determinare l’effetto economico dato dall’imposizione di una tariffa sulle
importazioni.
Voleva stimare l’elasticità attraverso il modello di regressione log-log:
con la quantità consumata e il rispettivo prezzo; rappresenta gli altri fattori che determinano la domanda (reddito, gusti dei
consumatori…).
o è l’elasticità della domanda.
Problema: a causa dell’interazione tra domanda ed offerta, il prezzo è verosimilimente correlato con l’errore. In altre parole, a
causa della causalità simultanea, gli altri fattori che determinano la domanda ne determinano anche il prezzo. Siamo davanti a un
contesto di endogeneità
L’interazione tra prezzo e quantità

Tale interazione è agevolmente
spiegata dalle curve di domanda (D1 e
D2) e di offerta (S) il cui punto di
equilibrio, che ne determina prezzo (P1
e P2) e quantità (Q1 e Q2) è dato dalla
loro intersezione.
(a) Sistema di curve (b) Punti di equilibrio

osservati in diverse situazioni.
Sulla destra quindi abbiamo tutti i punti di intersezione osservati in mercati diversi e in lassi di tempo differenti
Vogliamo modellare la nuvola di punti di equilibrio osservati, soggetti a spostamenti delle curve sia di domanda che di offerta
associati ai diversi fattori. Non possiamo fittare un OLS: c’è causalità simultanea. Inoltre, non sembra si possa identificare una
relazione né lineare né non-lineare tra prezzo e quantità!
31
Ma se io osservassi solo i punti caratterizzati da una curva di domanda (D1) costante, che implicano dunque un nuovo punto di
equilibrio dato da cambiamenti nella curva di offerta (qui O1 e O2):
(a) Sistema di curve (b) Punti di equilibrio osservati in diverse situazioni.

Annullo insieme il problema della causalità simultanea e della non netta relazione tra le due variabili! Mantenendo costante la
curva di domanda, so che qualsiasi variazione è dettata solo da variazioni della curva d’offerta.
Soluzione al problema di Wright

Come fare a mantenere costante la curva di domanda?
La chiave è cercare una terza variabile (variabile strumentale o strumento) che sposta l’offerta ma non la domanda:
• Ovvero che sia correlata con il prezzo, spostando la curva di offerta, questa condizione è detta rilevanza dello strumento.
• Ma incorrelata con , la curva di domanda resta stabile, questa condizione è detta esogeneità dello strumento.
Wright identifica una variabile climatica: piogge scarse inaridiscono i pascoli e determinano un calo nella produzione di burro
(facendo aumentare il prezzo) in maniera totalmente indipendentemente dalla domanda, soddisfa entrambe le condizioni.
Il metodo delle variabili strumentali (IV)

È possibile utilizzare un metodo di stima alternativo al metodo OLS per aggirare il problema dell’endogenità.
Tale metodo è detto «metodo delle variabili strumentali» (in inglese Instrumental Variables, da cui l’acronimo IV) o «stimatore dei
minimi quadrati a due stadi».
Come funziona?
Si consideri un modello di regressione lineare semplice: in cui un regressore è affetto da endogeneità. Se esiste un’altra
variabile tale che (condizioni):
- Esogeneità: non è correlata con l’errore di regressione , è una variabile esogena
- Rilevanza: è correlata con , la variabile esplicativa endogena
è detta variabile strumentale e può essere utilizzata come strumento per raggiungere l’obiettivo di stimare la relazione tra e .
Occorre scomporre la variabile endogena x in due parti:

1. parte correlata con l’errore (parte endogena di x)
2. parte incorrelata con l’errore (parte esogena di x).
Vogliamo scomporla per poter usarle la parte
esogena di x ai fini predittivi del modello. Per fare ciò
usiamo lo strumento z che è correlato con la parte
esogena, non con la parte endogena di x.
Ci da una parte di informazione che è legata alla
parte di informazione di x che ci serve
Il metodo delle variabili strumentali IV

La stima con il metodo delle variabili strumentali può
essere effettuata usando una procedura a due stadi,
ognuno dei quali contiene una regressione OLS,
chiamata minimi quadrati a due stadi (TSLS).
Primo stadio: regrediamo il regressore endogeno in
funzione della variabile strumento attraverso una
regressione
La regressione del primo stadio è così specificata:
- variabile dipendente: (la variabile endogena)
- variabili esplicative: (lo strumento)
- v: parte endogena che è trascurabile
quello che ci interessa tenere è:
Questa regressione fornisce la scomposizione richiesta:
- rappresenta la parte esogena, predetta da .
- La componente rappresenta la parte endogena di x, dunque problematica.
Secondo stadio: facciamo una seconda stima OLS utilizzando i valori predetti di x1
Data questa scomposizione, la parte esogena è stimata dal OLS nel primo stadio da
Su tale stima, si considera la regressione del secondo stadio, così specificata:
32
- variabile dipendente: (la variabile dipendente del modello di partenza)
- variabili esplicative: al posto della variabile endogena , i valori previsti al primo stadio
ottenuto con TSLQ è una stimatore consistente di . Quindi non abbiamo più uno stimatore inconsistente, ma per grandi campioni
il valore atteso dello stimatore che utilizziamo è centrato sul vero valore del parametro che vogliamo stimare.
Lo stimatore TSLS
Abbiamo detto che con TSLQ è uno stimatore consistente di
Quando vi è una sola ed un solo strumento tale stimatore ha una formulazione molto semplice:
Dove denota la covarianza campionaria di Z e Y e di Z e X. Si tratta dello stimatore della covarianza. La direzione e magnitudine
del rapporto sono dunque facilmente intuibili.
Quando lo strumento determina il regressore endogeno con la stessa direzione del rapporto che può avere lo strumento con la
variabile dipendente, allora lo stimatore avrà segno positivo. Quando invece i due rapporti hanno direzione opposta, il segno dello
strumento è negativo.
Essendo la covarianza campionaria uno stimatore consistente della covarianza in popolazione (converge al vero valore della
covarianza stessa), la proprietà si applica al suo rapporto, dunque:
È a sua volta consistente ed è normale in grandi campioni.
La definizione generale del modello di regressione IV

Si consideri un modello di regressione lineare multiplo:
in cui un regressore sia affetto da endogenità. I restanti regressori sono invece esogeni. Se esiste un’altra variabile esogena e
rilevante per la procedura TSLQ è come segue.
La regressione OLS al primo stadio è definita come:
• Dove rappresenta la parte esogena.
• Mentre rappresenta la parte endogena di (da eliminare).
La regressione al secondo stadio sarà condotta su:*
Con variabili esplicative: le variabili esogene del modello di partenza () ed i valori previsti al primo stadio .
Estensione a più regressori endogeni

In presenza di più regressori endogeni, ci devono essere tante variabili strumentali quanti i regressori endogeni. Il numero di
strumenti non è strettamente legato al numero di variabili endogene.
Se il numero di regressori endogeni è k ed il numero di strumenti è m:
• Quando m=k, i coefficienti sono detti esattamente identificati
• Quando m>k, i coefficienti sono detti sovraidentificati --> strumenti > regressori endogeni
• Quando m<k, i coefficienti sono detti sottoidentificati --> strumenti < regressori endogeni
I coefficienti di regressione devono essere esattamente identificati oppure sovraidentificati affinché possano essere stimati da
una regressione IV.
L’algoritmo del TSLS è simile. La principale differenza è che:

Ciascun regressore endogeno (, ) richiede la propria regressione del primo stadio, ognuna ha la forma vista sopra con regressori
tutti gli strumenti (, , …) e tutti i regressori esogeni (, , …).
…
Al secondo stadio, verranno inclusi tutti i regressori esogeni ed i valori predetti al primo stadio (, …) per i regressori oggetto di
studio: *
La definizione generale del modello di regressione IV

Nel caso del modello generale (con più variabili endogene ed esogene) le condizioni per la validità degli strumenti sono più
complesse:
1) Esogeneità degli strumenti: gli strumenti devono essere incorrelati con l’errore.
2) Rilevanza degli strumenti: non è più che deve essere correlata con la var. endogena, ma una assunzione più complessa
Siano , le predizioni che arrivano la primo stadio.
(, non devono essere perfettamente collineari, dove è una qualsiasi costante.
• In caso di più regressori endogeni, gli strumenti devono fornire sufficienti informazioni sui loro movimenti esogeni da
evidenziarne gli effetti separati su Y rispetto alle altre variabili in gioco.
• Gli strumenti devono essere correlati ai regressori endogeni ed apportare diversa informazione rispetto agli altri regressori
esogeni considerati.
Come detto prima, sotto queste assunzioni lo stimatore OLS è consistente e normale in grandi campioni.
Implementazione in Stata
La procedura a due stadi risolve il problema di endogenità di
Stata ha un comando (ivreg) che consente di stimare un modello con il metodo delle variabili a due stadi molto rapidamente,
senza dover specificare i due stadi.
Le due strade (i due stadi stimati autonomamente e per esteso con reg e i due stadi stimati da Stata con un unico comando ivreg)
producono:
- stime dei coefficienti identiche
33
- stime degli st.error diverse: gli st.error ottenuti con la stima per esteso dei due stadi non sono aggiustati propriamente (la
significatività dei coefficienti dunque non è attendibile). Al contrario, il comando ivreg produce stime corrette degli st.error.
Verifica della validità degli strumenti

Rilevanza:
• Più la variazione dei regressori endogeni è spiegata dagli strumenti, più informazione è disponibile per la regressione IV.
Strumenti che spiegano poco sono detti strumenti deboli, ossia strumenti che non sono in grado di predire in maniera
efficace e corretta la variabile endogena.
• Se gli strumenti sono deboli (ma validi): il metodo TSLS non è affidabile, anche se lo stimatore è ancora consistente.
• Se non sono completamente rilevanti ovvero allora:
• Un modo per testare la rilevanza, nel caso di un solo regressore endogeno è controllare il test F nel primo stadio della
regressione TSLS. Se i coefficienti sono significativamente diversi da 0 vuol dire che sono rilevanti, altrimenti no.
Esogeneità:
• Lo stimatore è inconsistente se non è esogeno.
• Il solo modo per comprendere se gli strumenti siano esogeni è quello di basarsi sull’opinione degli esperti e sulla conoscenza
personale del problema considerato.
16/05
è detto endogeno quando:

• --> valore atteso dell’errore condizionato al regressore sia diverso da zero
• Ovvero correlato con l’errore (una varia sistematicamente al variare dell’altra)
L’endogeneità succede quando:
• misurato con errore
• Causalità simultanea (x causa y, ma anche quando y causa x).
• Regressore correlato con viene omesso
Conseguenza:
• Stimatore OLS di distorto
• Sistematica sottostima o sovrastima del vero valore dei parametro
composta da 2 componenti:
1) Parte esogena (esterna al modello, incorrelata con ): mi interessa
2) Parte endogena (interna al modello e correlata con ): problematica
Soluzione: scindere nelle due componenti per mezzo di uno strumento informativo della parte esogena di , che è dunque:
1. Rilevante: correlato con
2. Esogeno: esterno al modello
Come? Regressione con variabili strumentali (Two Stage Least Square)
Regressione con variabili strumentali

Caso base: regressione semplice con 1 regressore endogeno (reddito) , 1 strumento
Al primo stadio lanciamo una regressione ausiliaria in cui le variabili indipendenti sono gli strumenti. Il primo stadio permette di
scomporre xk nelle due parti: parte esogena (yo + y1z) e parte endogena (v).
Al primo stadio quindi otteniamo i valori predetti della variabile, l’unico obiettivo del primo stadio è predittivo, ossia predire la parte
esogena di xk nella maniera più accurata possibile.
Estensione al modello di regressione semplice con 2 regressori endogeni ed e 2 strumenti e
N.B. il numero di strumenti deve essere sempre uguale o maggiore del numero di var. endogene (se è pari si dice che gli
strumenti sono esattamente identificati, se maggiore sono sovraidentificati)
34
Estensione al modello di
regressione multiplo con 1
regressore endogeno , 1
strumento
Dove regressori esogeni.
Regressori esogeni inclusi in

entrambi gli stadi:
• Al primo stadio per migliorare la
predizione (in questo stadio
conta solo il potere predittivo,
non l’interpretabilità!)
• Al secondo stadio per rendere il
modello completo (evitare var.
omesse) ed interpretabile.
Come verificare la validità degli

strumenti:
• Rilevanza: test F sulla/e
regressione/i al primo stadio.
• Esogeneità: basarsi sull’opinione degli esperti e sulla conoscenza personale del problema considerato.
Come implementare la stima su stata:

• Tramite il comando ivreg.
• Quest’ultimo fornisce stime affidabili degli standard error (aggiustate per la procedura a 2 stadi) contrariamente ad un
procedura manuale (con reg). Con il comando reg gli standard error non sono aggiustati, quindi saranno diversi. Bisogna
fare affidamenti su quelli che derivano dal comando automatico ivreg
LAB M2.2: distorsione da variabile omessa, collinearità e trappola delle dummy
cd /* YOUR DIRECTORY */
use Edu_inc.dta, clear
describe --> dati su reddito familiare della famiglia, livello educativo del marito e della moglie, numero di bambini con meno di 6
anni (k16) più alcune variabili irrilevanti
* ---------------------------------------------------
* ------ omissione di una var. rilevante
* ---------------------------------------------------
* modello con variabile omessa confrontato con modello con variabile inclusa
reg faminc he --> modello con test F positivo, R2 piuttosto basso. Un anno in più di istruzione del marito faceva si che la famiglia
avesse un reddito maggiore di 5155 dollari all’anno
reg faminc he we --> aggiungendo il reddito della moglie le stime cambiavano. Abbiamo aggiunto una variabile significativa,
questo lo vediamo dal fatto che tale variabile è significativa, il modello acquista potere informativo (R2 aumenta); le stime dei
coefficienti cambiano di 2000 dollari. Questo è dovuto alla distorsione da variabile omessa
Il modello acquista potere informativo e non ha più un coefficiente distorto
* calcolo la correlazione tra i due regressori: ha valore 0.60 approx, piuttosto elevata
35
cor he we --> ci permette di stimare il coefficiente di correlazione che va da -1 a +1. Valori sulla diagonale sono la correlazione su
se stesso (non da guardare), mentre sotto la diagonale abbiamo la correlazione a coppie (da giardare)
Persone che hanno un livello di istruzione elevato, sono portate ad avere un partner con livelli di istruzione elevati
* cioè conferma la grande discrepanza tra stime del coeff. di regressione di he nei due casi
* -------------------------------------------------------
* ------ inserimento di variabili irrilevanti
* -------------------------------------------------------
* inserisco variabili irrilevanti nell'analisi

reg faminc he we xtra_x5 xtra_x6 --> i coefficienti variano di poco, non sono distorti, ma gli std. error aumentano per tutte le
variabili: xtra_x5 xtra_x6 sono da escludere. L’inclusione di questi regressori irrilevanti crea un problema su tutto il modello per
quanto riguarda l’impatto degli altri regressori sull’analisi.
Bisogna includere i regressori piano piano, perché includendoli tutti abbiamo un output molto più confuso.
* ---------------------------------
* ------ collinearità esatta
* ---------------------------------
use Pregio.dta, clear

describe
Prediamo il prezzo delle case rispetto alla metratura dell’appartamento e alla posizione dell’appartamento
reg prezzo PREGIO ampiezza
reg prezzo ampiezza PREGIO NPREGIO --> introduco un problema di collinearità perché NPREGIO = 1 - PREGIO
Calcoliamo la correlazione
cor PREGIO NPREGIO --> correlazione pari a -1. L'una è perfetta combinazione lineare dell'altra: lo stimatore OLS non è definito
* ---------------------------------------
* ------ trappola delle dummy
* ---------------------------------------
use Wage.dta, clear

describe
Modello con area variabile categoriale (fattore), ma inserita come variabile numerica: le stime dei coefficienti non hanno
significato
reg wage educ area --> inserire una variabile categoriale come una variabile numerica porta a una stima del coefficiente non
interpretabile.
Generare tante dummy quante sono le categorie

* implementazione manuale delle variabili dummy, a seconda delle categorie della variabili
reg wage educ south east west --> includere sempre una dummy in meno perché altrimenti si ha il problema di collinearità esatta.
L’interpretazione dei coefficienti sarà rispetto alla baseline (north). Ad esempio: le persone che vivono ad est ricevono un salario
orario minore di 1,50 dollari rispetto a coloro che vivono a nord.
* implementazione automatica delle variabili dummy tramite il comando .i

reg wage educ i.area --> in questo modo stata capisce che quella variabile è una variabile categoriale, sceglie quale sarà la
baseline e stimerà l’output.
* implementazione automatica delle variabili dummy tramite il comando .i con scelta della modalità baseline (area=2)
reg wage educ ib2.area --> in questo modo scegliamo noi la baseline (2=south), compariamo tutti i risultati in funzione di sud.
* ------------------------------------
* ------ collinearità inesatta
* ------------------------------------
ssc install corrtable

describe
* vogliamo stimare wage attraverso un modello con alto potere predittivo, che incorpora la maggiore informazione possibile data
la grande quantità di variabili presenti nel dataset
* studio il coeffic
cor wage-asian --> stimiamo la matrice di correlazione con più variabili (wage-asian significa stimare la correlazione di tutte le
variabile da wage a asian)
36
* Make correlation table
* The half option just shows the lower triangle and puts variable names on the axis.
* The flag1 and howflag1 options tell corrtable to plot positive correlations (r(rho) > 0 & r(rho) < 0.80)
* as light blue (blue*.1)
* The flag2 and howflag2 options tell corrtable to plot STRONG positive correlations (r(rho) >= 0.80)
* as dark blue (blue*.8)
* and flag3 and flag4 similarly tell it to plot negative correlations as pink.
Stimare il grafico di correlazione

corrtable wage-asian, half flag1(r(rho) > 0 & r(rho) < 0.80) howflag1(plotregion(color(blue * 0.1))) flag2(r(rho) >= 0.80)
howflag2(plotregion(color(blue * 0.8))) flag3(r(rho) < 0 & r(rho)> -0.80) howflag3(plotregion(color(pink*0.1))) flag4(r(rho) <= -0.80)
howflag4(plotregion(color(pink*0.8)))
flag serve per associare a tutti i coefficienti di correlazione (rho) che sono > 0 e < 0,80 il flag 1 (con il comando howflag1 plot blue
0,1 (colore blue chiaro))
Abbiamo individuato tre correlazioni molto alte (>=0.80)
o exper e age, gli anni di esperienza lavorativi sono ragionevolmente molto correlati positivamente con l'età
o private e insurance, chi ha contratto una assicurazione privato ha spesso contratto anche una assicurazione sanitaria, le due
sono ragionevolmente molto correlate positivamente
o white e black, chi è di colore bianco non è di colore nero o viceversa: attenzione! qui le modalità categoriche sono tre, white,
black a asian. Ci troviamo di fronte ad una trappola della dummy (collinearità esatta) ma essendo coinvolte 3 dummy, l'indice
di corr. a coppie non coinciderà con 1 o -1.
* Da notare che pure la trappola delle dummy north-east non è assolutamente rilevata dal coeff. a coppie! Ciò mostra i limiti di
una valutazione puramente fondata su questo indicatore.
* procediamo escludendo white per poter stimare un OLS

* valutiamo gli altri regressori con una analisi del VIF per capire se ci sfugge qualcosa, ovvero se la correlazione coinvolge in
realtà gruppi maggiori di due variabili
reg wage educ-metro i.area asian black --> la baseline sarà soggetto che vive nell’area 1 (north) e soggetto bianco
Vediamo che ci sono molte variabili irrilevanti e non ho risolto il problema di collinearità inesatta.
Vif --> con questo comando Stata riporta le stime del vif indotte dall’ultimo modello di regressione, si tratta di una misura di
collinearità: se ha valori maggiori 0 uguali a 5 si tratta di variabili preoccupanti che possono indurre collinearità. In questo caso
abbiamo che exper e age hanno come vif valori molto più alti di 5 (sapevamo già che erano molto correlati), incurance e private
anche qui maggiori di 5 (sapevamo già che erano altamente correlate). Quindi dovremmo escludere una tra insurance e private,
e una tra age e exper.
Inoltre, vediamo un valore elevato del vif anche per educ, questo però ci sembra strano perché nel grafico educ non sembra
avere problemi di correlazione, questo vuol dire che la variabile educ è spiegata da un gruppo di regressori maggiori di due.
Per risolvere tale problema lanciamo la regressione ausiliaria relativa ad educ

* Le regressioni ausiliarie sono regressioni in cui la variabile dipendente è uno dei regressori e le altre variabili dipendenti sono gli
altri regressori. Regrediamo solo i regressori uno a uno in funzione degli altri
* Approfondiamo la questione lanciando una regressione ausiliaria: modello educ in funzione della altre variabili
describe
reg educ exper-metro i.area asian black --> usiamo come variabile dipendente educ.
Si nota un R2= 0.9477 le altre variabili sono in grado di spiegare gran parte della variabilità della variabile numero di anni di
educazione! Gli anni di educazioni sono spiegati da tutte le variabili socio demografiche già incluse dal modello
Veicola dunque una informazione già apportata da un gruppo di altri regressori più o meno congiuntamente (female, age, exper,
hrswk, metro; tutte significative all'1%)
* Dobbiamo rimuovere educ, una variabile tra exper ed age ed una tra insurance e private per collinearità inesatta. Ma quale
variabile di quelle in coppia scegliere di escludere?
cor wage exper age insurance private --> misuro la correlazione tra wage e altre variabili che vogli escludere. Escluderò quelle
meno correlate con wage
Scegliamo di mantenere nel modello la var della coppia maggiormente correlate con wage-asian, dunque escludiamo educ,
exper ed insurance.
* Lanciamo un Modello depurato della collinearità inesatta

describe
reg wage fulltime-female private-metro i.area asian black
gen log_wage=log(wage)
* Cambio la forma funzionale poiché ha senso immaginare un effetto marginale non costante tra le variabili
reg log_wage fulltime-female private-metro i.area asian black
L'R2 infatti aumenta leggermente
* togliamo asian e west come variabili irrilevanti

reg log_wage fulltime-female private-metro east south black
37
vif --> ha valori sempre molto vicini a 1, quindi non abbiamo problemi di collinearità inesatta residua.
Abbiamo un modello definitivo: ora è possibile procedere con l'interpretazione dei risultati e delle stime
LAB M2.3
cd "..."
use y2010, clear
describe
gen gdp_t=gdp/1000 --> generato una nuova variabile per dividere la variabile per 1000 e aumentare l’interpretabilità delle stime.
* Vogliamo modellare una 'health outcome' come il YPLL su 34 stati americani in funzione di suoi possibili determinanti.
Years of potential life lost (YPLL) or potential years of life lost (PYLL), is an estimate of the average years a person would have
lived if they had not died prematurely.It is, therefore, a measure of premature mortality.
/*Estimate the premature mortality without considering the endogeneity problem:*/
reg lpyll alcohol gdp_t hexp_pub --> la mortalità prematura è funzione del consumo di alcool, pil pro capite e il tasso di spesa
pubblica per il sistema sanitario.
Tutte le variabili sono significative, tuttavia c'è un grosso problema di endogeneità:
• Una spesa pubblica più elevata può sicuramente determinare un sistema sanitario più efficiente nella prevenzione/cura delle
principali causa di morte prematura (x causa y).
• Tuttavia tale spesa può essere conseguenza di politiche specifiche che aumentano la spesa sanitaria negli stati con mortalità
maggiore, per contrastare tale fenomeno (y causa x).
C'è causalità simultanea, dunque endogeneità!
* Dobbiamo trovare una variabile strumentale che ci porti a stimare la parte informativa (esogena) di tale variabile endogena,
ovvero la parte della spesa che spiega l'efficienza del sistema sanitario.
Strumenti rilevanti possono essere:
1. Il tasso di anzianità: denota spesso un sistema sanitario più efficiente.
2. Il tasso di fertilità: spesso tassi di fertilità più elevati indicano una spesa per la sanità più elevata.
Entrambe soddisfano le condizioni di:
1. rilevanza: sono entrambe correlate a hexp_pub
2. esogeneità
1 var endogena, 2 strumenti: siamo in un contesto di sovraidentificazione.
*First stage equation: il regressore endogeno è funzione di tutti gli altri regressori esogeni e degli strumenti (fertility e total health
expenditure)
Procedura manuale
reg hexp_pub fertility elderly alcohol gdp_t --> variabile dipendente è la spesa pubblica, includo i due strumenti e gli altri due
regressori esogeni
Vediamo che il test F è significativo (indica la significatività congiunta di tutti gli strumenti del modello) e il tasso di variabilità
spiegata è pari al 62%.
/*obtain the fitted values of spesa pubblica */

cap drop f_hexp_pub --> comando che consente di eliminare con lo stesso nome già presenti nel dataset
predict f_hexp_pub --> associo alla variabile nuova i valori predetti dell’ultimo modello di regressione lanciato
sum hexp_pub --> comparo i valori predetti con i veri valori della spesa sanitaria pubblica
sum f_hexp_pub
Utilizzando il comando sum con le due variabili possiamo fare una comparazione: vediamo che la media è identica, la variabilità è
un po’ più piccola per quanto riguarda i valori predetti (normale in quanto la variabilità del modello era il 62%)
*Second stage equation: la variabile dipendente (lpyll) + funzione dei regressori esogeni e dei fitted values della variabile
endogena
reg lpyll alcohol gdp_t f_hexp_pub --> lancio un modello log lineare, dove il logaritmo degli anni di vita persi è funzione del
consumo di alcool, pil pro capite e i valori predetti del regressore spesa pubblica (parte esogena della spesa pubblica che spiega
l’efficienza del sistema sanitario)
Vediamo che il modello di regressione ha un tasso di variabilità spiegato del 53% e test F significativo.
Ci sono delle stime dei coefficienti sensate: alcool incide positivamente sul tasso di mortalità prematura (se il consumo di alcool
aumenta di 1 litro, il tasso di mortalità prematura aumenta del 4,7%). L’aumento di 1000 dollari nel reddito provoca una
diminuzione del 0,7% nella mortalità prematura. Un aumento di 1 milione della spesa pubblica destinata alla sanità provoca una
diminuzione della mortalità prematura del 10,9%
* Confronto col modello iniziale ovvero:

reg lpyll alcohol gdp_t hexp_pub
Le stime dei coefficienti sono diverse. Lo stimatore TSLS denota un impatto negativo maggiore della spesa (1 milione in più di
spesa pubblica fa diminuire del 6,8): tale impatto era sottostimato (distorto) nella regressione iniziale che trascurava
l'endogeneità.
Procedura automatica
38
ivreg lpyll alcohol gdp_t (hexp_pub= fertility elderly) --> ivreg variabile dipendente, regressori esogeni e regressore endogeno
(includerlo nelle parentesi e metterlo a sinistra dell’uguale, a destra dell’uguale invece gli strumenti)
nel caso di due regressori endogeni e due strumenti: ivreg y1 x1 (y2 y3 = z1 z2)
* Confronto col modello stimato manualmente

reg lpyll alcohol gdp_t hexp_pub
Le stime dei coefficienti sono uguali, quelle degli s.e. diverse in quanto aggiustate a causa della procedura a due stadi. Gli
standard error della procedura automatica sono quelli affidabili.
Assignment 3
Concetto chiave 6.1

La distorsione da variabili omesse nella regressione con un singolo regressore
La distorsione da variabili omesse è la distorsione dello stimatore OLS dell’effetto causale di X su Y che nasce quando il
regressore X è correlato con una variabile omessa. Affinché vi sia distorsione da variabile omesse devono verificarsi due
condizioni:
1. X è correlata con la variabile omessa
2. la variabile omessa contribuisce a determinare la variabile dipendente Y
Concetto chiave 6.4

Le assunzioni dei minimi quadrati per l’inferenza causale nel modello di regressione multipla
Esercizio 6.9
(Y1 , X1 , X2) soddisfano le assunzione del concetto chiave 6.4. Si è interessati a B1, l’effetto causale di X1 su Y. Si supponga
che X1 e X2 siano incorrelate. Si stimi B1 effettuando una regressione di Y su X1 (cosicché X2 non sia inclusa nella regressione).
Questo stimatore soffre di distorsione da variabili omesse? Si argomenti la risposta
No, in quanto X1 e X2 non sono correlate tra di loro. Perciò l’informazione che X2 vuole veicolare a Y non viene specchiata in X1
(rendendo B1 distorto), ma ricade interamente sul termine di errore.
Esercizio 6.12
Un distretto scolastico conduce un esperimento per stimare l’effetto della dimensione delle classi sul punteggio ottenuto nei test
dalle classi seconde. Il distretto assegna il 50% degli studenti proveniente dalle classi prime a classi seconde piccole (18 studenti
per classe) e il 50% a classi di dimensione normale (21 studenti per classe). Gli studenti che entrano per la prima volta nel
distretto sono trattati diversamente: il 20% è assegnato casualmente a classi piccole e l’80% a classi di dimensione normale. Al
termine del secondo anno di scuola, ogni studenti viene sottoposto a un test standardizzato. Sia Yi il punteggio ottenuto nel test
dallo studente i.esimo, Xi una variabile binaria che vale 1 se lo studente è assegnato alla classe piccola, e Wi una variabile
binaria che vale 1 se lo studente è iscritto al distretto per la prima volta. Sia B1 l’effetto causale sul punteggio nei test della
riduzione della dimensione di una classe da normale a piccola.
a) Si consideri la regressione Y = B0 + B1Xi + ui. Si ritiene che E(ui | Xi) = 0? Lo stimatore OLS di B1 è non distorto e
consistente? Si argomenti la risposta
Lo stimatore OLS di B1 è distorto e inconsistente in quanto Xi e Wi sono correlata tra loro e Wi contribuisce a spiegare la
variabile dipendente Y, infatti il fatto che lo studente sia iscritto al distretto per la prima volta influisce sulla composizione delle
classi (20% a classi piccole e 80% a classi normali). Se gli studenti di nuova iscrizione ottengono performance
sistematicamente diverse nei test standardizzati rispetto a quelli provenienti dalle classi prime, questo diviene parte termine
di errore u.
b) Si consideri la regressione Y = B0 + B1Xi + B2Wi + ui. Si ritiene che E(ui | Xi, Wi) dipenda da Xi? Lo stimatore OLS di B2 è
non distorto e consistente? Si argomenti la risposta.
E(ui | Xi, Wi) non dipende da Xi in quanto il trattamento (assegnazione a classi piccole) è stato assegnato casualmente
condizionatamente allo stato di iscrizione (proveniente da classe prima o nuovo iscritto).
Lo stimatore OLS di B2 è non distorto e consistente.
c) Si ritiene che E(ui | Xi, Wi) dipenda da Wi? Lo stimatore OLS di B2 fornirà una stima consistente dell’effetto causale del
trasferimento in una nuova scuola (cioè dell’essere uno studente nuovo iscritto)? Si argomenti la risposta
Poiché W non è stato assegnato casualmente E(ui | Xi, Wi) potrebbe dipendere da Wi, quindi B2 potrebbe essere uno
stimatore distorto e inconsistente dell’effetto causale del trasferimento in una nuova scuola
Esercizio 6.1
39
Usando il dataset Birthweight_Smoking:
a) Si effettui una regressione di Birtweight su Smoker. Qual è l’effetto stimato del fumo sul peso alla nascita?
Il coefficiente smoker è significativo all’1%. Il fatto che la madre fumasse durante la gravidanza riduce il peso alla nascita del
bambino di 253 grammi
b) Si effettui una regressione di Birtweight su Smoker, Alcohol e Npprevist

o Usando le due condizione del concetto chiave 6.1, si spieghi perché l’esclusione di Alcohol e Nprevist potrebbe portare
a distorsione da variabile omessa nella regressione stimata al punto (a)
Il fumo può essere correlato sia con il consumo di alcol sia con il numero di visite mediche prenatali, quindi soddisfa la
condizione 1. Inoltre, sia il consumo di alcool sia il numero di visite mediche possono avere effetti indipendenti sul peso
alla nascita, quindi soddisfano la condizione 2.
o L’effetto stimato del fumo sul peso alla nascita è sostanzialmente diverso dalla regressione che esclude Alcohol e
Nprevist? La regressione al punto (a) sembra affetta da distorsione da variabile omessa?
L’effetto stimato è un po' più ridotto: differenza di 36 grammi. Nella seconda regressione infatti il fatto che la madre fumi
riduce il peso del bambino di 217 grammi (contro i 253 iniziali). Perciò la regressione in (a) potrebbe soffrire da
distorsione da variabile omessa
o Jane durante la gravidanza ha fumato, non ha bevuto alcolici e ha fatto 8 visite mediche. Si usi la regressione per
predire il peso alla nascita di suo figlio:
o Come si dovrebbe interpretare il coefficiente su Nprevist? Tale coefficiente misura un effetto causale delle visite prenatali
sul peso alla nascita? Se no, che cosa misura?
Nprevist è una variabile di controllo che cattura, per esempio, l’accesso della madre al sistema sanitario. Poiché è una
variabile di controllo, il suo coefficiente non ha un’interpretazione causale
c) Un modo alternativo per il controllo delle visite mediche prenatali è quello di usare le variabili binarie da Tripre0 e Tripre3. Si
effettui la regressione di Birthweight su Smoker, Alcohol, Tripre0, Tripre2 e Tripre3.
o Perché Tripre1 è esclusa dalla regressione? Che cosa accadrebbe se invece la si includesse?
Si tratta di una variabile categorica con 4 modalità, bisogna obbligatoriamente escludere una delle modalità che
rappresenterà la baseline. Se la includessimo nel modello avremmo collinearità perfetta, in quanto una è la
combinazione lineare delle altre.
o Il coefficiente stimato su Tripre0 è grande e negativo. Che cosa misura tale coefficiente? Si fornisce un’interpretazione
del suo valore
Tale coefficiente è significativo e pari a -697.9687. In media il peso alla nascite dei bambini, le cui madri non hanno fatto
nessuna visita prenatale è inferiore di 698 grammi rispetto al peso alla nascita dei bambini le cui madri hanno fatto la
prima visita prenatale nel primo trimestre
o Si interpreti il valore dei coefficienti stimati su Tripre2 e Tripre3
Il coefficiente Tripre2 è significativo all’1%: in media il peso alla nascite dei bambini, le cui madri hanno fatto la prima
visita prenatale nel secondo trimestre è inferiore di 100 grammi rispetto al peso alla nascita dei bambini le cui madri
hanno fatto la prima visita prenatale nel primo trimestre
Il coefficiente Tripre3 è significativo al 5%: in media il peso alla nascite dei bambini, le cui madri hanno fatto la prima
visita prenatale nel terzo trimestre è inferiore di 136 grammi rispetto al peso alla nascita dei bambini le cui madri hanno
fatto la prima visita prenatale nel primo trimestre
o La regressione del punto (c) spiega una quota più ampia della varianza nel peso alla nascita rispetto alla regressione del
punto (b)?
No, in quanto l’R2 corretto della regressione stimata al punto (b) è pari al 71,9%, mentre l’R2 corretto della regressione
spiegata nel punto (c) è pari al 44,9%
23/05
Esercitazione 2: distorsione da variabile omessa, collinearità e trappola delle dummy (SA8)
* 1) caricare il dataset beer.dta, identificare le variabili incluse e visualizzare le loro etichette per comprendere il loro significato
use "beer.dta", clear
describe
40
* 2) stimare tramite un modello log-log, dunque previa opportuna trasformazione delle variabili stesse, la quantità di birra
consumata in funzione del suo prezzo, del prezzo delle altre bevande alcoliche (liquor), del prezzo di altri beni e servizi e del
reddito
gen lq=ln(q)
gen lpb=ln(pb)
gen lpl=ln(pl)
gen lpr=ln(pr)
gen li=ln(i)
reg lq lpb lpl lpr li
* Log-log: un aumento dell'1% della variabile x determina una variazione del B % della variabile.
* L'aumento dell'1% del prezzo della birra determina una diminuzione del 1,02% del prezzo della birra
* 3) (osservare le stime dei coefficienti di regressione, sono sensate? ci sono alcuni segni sospetti relativamente alle stime dei
coefficienti?) n.b. all'esame non ci sarà una domanda di questo tipo: è utile in fase di esercitazione per stimolare il confronto
* Commento: ci aspettiamo una relazione negativa tra quantità di birra consumata e prezzo della birra, quindi il coefficiente lpb è
sensato. Il coefficiente prezzo delle altre bevande alcoliche non è sensato, in quanto all'aumentare del prezzo delle altre bevande
alcoliche la quantità consumata di birra dovrebbe aumentare non diminuire (effetto sostituzione).
* 4) ci potrebbe essere collinearità tra le variabili? se sì, perchè? stimare la matrice di correlazione tra tutte le variabili
considerate, plottare una correlation table e commentarla
cor lq-li
* Commento: la prima colonna rappresenta la correlazione a coppie che la variabile dipendente ha con i regressori. Ha con tutte
una correlazione negativa e alta.
* Spostandoci sulle altre colonne vediamo la correlazione a coppie con tutti i regressori; possiamo vedere che c'è un grande
problema di collinearità potenziale. Si tratta di collinearità imperfetta, in quanto la correlazione è vicina a 1 ma non uguale a 1
corrtable lq-li, half flag1(r(rho) > 0 & r(rho) < 0.80) howflag1(plotregion(color(blue * 0.1))) flag2(r(rho) >= 0.80)
howflag2(plotregion(color(blue * 0.8))) flag3(r(rho) < 0 & r(rho)> -0.80) howflag3(plotregion(color(pink*0.1))) flag4(r(rho) <= -0.80)
howflag4(plotregion(color(pink*0.8)))
* Abbiamo individuato 6 correlazioni molto alte (>=0,80):
* lq e lpq: correlazione negativa pari a -0,83
* lpb e lpl: correlazione molto forte positiva pari a 0,96
* lpl e lpr: correlazione molto forte positiva pari a 0,80
* lpq lpl lpr con li: correlazione molto forte positiva
* 5) se sì, come si può definire questo tipo di collinearità? viola alcune ipotesi OLS? cosa implica in termini pratici?
* Si tratta di una collinearità inesatta che non viola nessuna ipotesi OLS, ma la conseguenza è che ci sono stime imprecise, in
quanto gli s.e. saranno elevati. Implica quindi un aumento della variabilità degli stimatori, gli standard error sono inflated da
questa collinearità.
* 6) tale collinearità riguarda solo coppie di variabili oppure anche gruppi di variabili maggiori di 2? stimare tutte le regressioni
ausiliarie per valutarlo e commentarle una per una
* Le regressioni ausiliarie sono regressioni in cui la variabile dipendente è uno dei regressori e le altre variabili dipendenti sono gli
altri regressori. Regrediamo solo i regressori uno a uno in funzione degli altri, escludiamo la variabile lq.
reg lpb lpl lpr li
* R^2 = 0,95 molto alto. La variabile li è significativa all'1%, la variabile lpr non è significativa e la variabile lpl al 5%. L'intercetta è
significativa all'1%. Due regressori su tre contribuiscono a spiegare il logaritmo del prezzo della birra. Quindi la collinearità non
riguarda coppie di variabili, ma un gruppo di tre variabili.
reg lpl lpb lpr li
* R^2 = 0,95 molto alto. Lpl è spiegato al 95% dagli altri regressori. Anche qui due regressori sono statisticamente significativi: li e
lpb. C'è ancora una relazione tra un gruppo di tre variabili.
reg lpr lpb lpl li
* R^2 = 0,69 abbastanza alto, ma più basso degli altri. Solo li è significativo al 10%. In questo caso, il regressore lpr non è tanto
speigato dagli altri regressori, è spiegato solo da li. Quindi le aree con un livello più elevato di reddito pro capite, ha anche prezzi
più alti.
reg li lpb lpl lpr
* R^2 = 0,96 molto alto. Le variabili significative sono tutte e tre. Quindi li è il primo regressore da togliere in quanto ci sono delle
relazioni positive fortissime, ma anche lpb e lpl hanno una relazione molto forte. Ci sono tre regressori su quattro che hanno una
variabilità spiegata molto alta, solo lpr non ha una variabilità spiegata così alta. La regressione più preoccupante è li che è
spiegato da tutti i tre regressori.
* 7) calcolare il vif e commentarlo

reg lq lpb lpl lpr li
vif
* Tutte le variabili, tranne lpr (non è spiegato dagli altri regressori), presentano un vif > 5. Perciò si tratta di variabili preoccupanti
che possono indurre collinearità. Difatti sapevamo già che lq e lpq, lpb e lpl, lpl e lpr, li e lpl lpr lpb erano fortemente correlate tra
loro. Questo ci fa capire che dobbiamo rimuovere 1 o 2 di quei regressori problematici.
41
* 8) stimare tramite un modello log-log la quantità di birra consumata in funzione del suo prezzo e del prezzo di altri beni, c'è un
problema di collinearità? calcolare nuovamente il vif in questo caso
reg lq lpb lpr
vif
* Tutte le variabili sono significative all'1%. Il coefficiente lpr è molto diverso, prima era negativo, ora è positivo
* In questo caso non si ha più un problema di collinearità, in quanto il vif è minore di 5 per entrambe le variabili. è stato risolto il
problema di collinearità inesatta
* 9) commentare le stime e la var. spiegata dal modello. Considerare pbr come una variabile utile a controllare l'inflazione e
dunque il livello dei prezzi in generale.
* Entrambi i coefficienti sono significativi all'1%. All'aumentare di 1% nel prezzo della birra, il consumo di birra diminuisce di
0,73% (siamo in un caso di anelasticità, in quanto la quantità di birra diminuisce meno dell'aumento del prezzo della stessa).
Mentre all'aumentare di 1% nel prezzo di altri beni e servizi, il consumo di birra aumenta di 0,26% (coefficiente utile per
controllare l'inflazione). La variabilità spiegata dal modello è pari a 79%.
* 10) stimare tramite un modello log-log la quantità di birra consumata in funzione solamente del suo prezzo e confrontarlo con il
modello al punto 9). ci sono differenze nella stime dell'elasticità della domanda? a quale problematica potrebbero essere dovute?
reg lq lpb
* In questo modello il coefficiente è sempre significativo, tuttavia all'aumentare di 1% nel prezzo di birra, il consumo di birra
diminuisce di 0,50%. Anche lo standard error è diminuito (0,063 rispetto a 0,084). La differenza può essere dovuta al fatto che,
togliendo lpr, il modello non considera la variazione degli altri prezzi. Quindi l'elasticità stimato nel punto 10 non è corretta, il
coefficiente di regressione è in questo caso distorto; si tratta di una distorsione da variabile omessa. Se calcolassimo infatti la
regressione tra lpb e lpr avremo 0,77, in questo caso il coefficiente di correlazione è rilevante ma inferiore a 0,80. Quindi si ha il
problema di distorsione da variabile omessa.
Esercitazione 3: endogeneità e variabili strumentali (SA9)
* 1) caricare i dati ed identificare i nomi della variabili ed il loro significato tramite la documentazione in allegato all'esercizio.
use "Movies.dta", clear
describe
* 2) si esegua una regressione che modella il numero di rapine in logaritmo, dunque trasformando opportunamente la variabile, in
funzione del numero di spettatori di film fortemente violenti (in milioni), numero di spettatori di film mediamente violenti (in milioni)
ed il numero di spettatori di film non violenti (in milioni) ed infine includendo come regressori anche le variabili indicatrici relativi
all'anno ed al mese di riferimento, per quest'ultime è sufficiente inserire il comando "year1-month12" nella lista dei regressori.
gen lassaults=ln(assaults)
reg lassaults attend_v attend_m attend_n year1-month12
* 3) Gli effetti stimati sono statisticamente significativi? Perchè le variabili year1 e month7 sono omesse da stata?
* Il coefficiente attend_v è significativo al 10%, attend_m all'1% e attend_n non è significativo. La vairabilità spiegata è pari a 0,99
* Year1 e month7 sono esclusi a causa della collinearità perfetta, c'è quindi un problema di trappola delle dummy. Rappresentano
la baseline su cui interpretare i risultati
* 4) abbiamo ragione di pensare che il modello appena stimato sia affetto da endogeneità a causa della variabile omessa sulle
condizioni meteo:
* il meteo può infatti essere contemporaneamente connesso al numero di rapine effettuate quel weekend ed al numero di
persone che si recano al cinema: tutti i regressori sono coinvolti.
* Per risolvere tale problema si esegua la stessa regressione al punto 2) ma con variabili strumentali, adottare come strumenti le
variabili pr_attend_v, pr_attend_m, pr_attend_n.
ivreg lassaults year1-month12 (attend_v attend_m attend_n=pr_attend_v pr_attend_m pr_attend_n)
* Quindi le variabili dentro la parentesi a sinistra dell'uguale sono le variabili endogene, quelle a destra sono gli strumenti. I
coefficienti sono diversi da quelli visti prima e anche la loro significatività.
* 5) I regressori sono sovraidentificati? Spiegare inoltre perchè non è possibile usare come strumenti solamente le variabili
pr_attend_v e pr_attend_m.
* I regressori sono perfettamente identificati in quanto il numero di regressori endogeni è pari al numero di variabili strumentali.
Se usassimo sono due strumenti, i regressori endogeni sarebbero sotto identificati. Non è possibile stimare la regressione
* 6) ci sono differenze nella stime rispetto al modello stimato al punto 2)? a cosa potrebbero essere imputabili tali differenze?
* Ci sono differenze sia nella stima dei coefficienti che negli standard error. Le differenze sono imputabili al fatto che il modello al
punto (2) era affetto da endogeneità a causa della trappola delle dummy. Determina una violazione delle ipotesi OLS che
determina una distorsione dei coefficienti di regressione.
* 7) in base alla regressione con variabili strumentali, guardare un film con un alto tasso di violenza fa aumentare o diminuire le
rapine? l'effetto stimato è statisticamente significativo? A che livello?
* Il coefficiente è significativo al 5%. Un milione di spettatori di film molto violenti in più, determina in media una diminuzione di
0,35% sul numero di rapine
42
* 8) guardare film molto violenti ha sul numero di rapine un effetto diverso da quello di guardare film non violenti?
* Il coefficiente guardare film non violenti è significativo al 5%. Un milione di spettatori di film non violenti in più, determina in
media una diminuzione di 0,24% sul numero di rapine (rispetto a 0,35%). Non si ha una differenza elevata
* 9) verificare la rilevanza degli strumenti utilizzati al punto 4) per ciascun regressore endogeno. Suggerimento: vedi ultima slide
"punti focali" del ripasso della lezione SA9.
* Bisogna testare il test F all'interno delle regressioni al primo stadio della procedura a due stadi di stima.
* Stimare quindi un modello in cui la variabile dipendente è uno dei regressori endogeni, includere tutti gli strumenti e poi la
variabile esogena
reg attend_v pr_attend_v pr_attend_m pr_attend_n year1-month12
reg attend_m pr_attend_v pr_attend_m pr_attend_n year1-month12
reg attend_n pr_attend_v pr_attend_m pr_attend_n year1-month12
* Il test F è sempre 0.0000 (significativo a tutti i livelli), quindi gli strumenti sono rilevanti per tutti e tre i regressori endogeni
24/05
Mock test II parziale
1. Vogliamo testare la differenza tra medie di due popolazioni μ1 e μ2 partendo da due campioni estratti dalle menzionate
popolazioni. In particolare le ipotesi sono le seguenti: H0: μ1=μ2 e H1: μ1≠μ2
Si consideri un generico livello di significatività α.
Qual è\quali sono la\e regione\i di rifiuto? Nelle risposte, qα denota un generico quantile alpha-esimo della distribuzione della
statistica test sotto l'ipotesi nulla.
a. statistica test osservata >qα/2
b. |statistica test osservata| < |qα/2|
c. statistica test osservata < qα/2 e statistica test osservata > q1−α/2 --> test a due code
d. q−α > statistica test osservata > qα
2. Si considerino le seguenti variabili rilevate in un campione di individui.

educ: =1 se l'individuo ha un livello di istruzione secondaria o superiore, =0 altrimenti
labor: =1 se l'individuo è occupato; =0 altrimenti
. tab educ labor, cell

| labor
educ | 0 1 | Total
-----------+----------------------+----------
0| 419 149 | 568
| 20.95 7.45 | 28.40
-----------+----------------------+----------
1| 804 628 | 1,432
| 40.20 31.40 | 71.60
-----------+----------------------+----------
Total | 1,223 777 | 2,000
| 61.15 38.85 | 100.00
Le tabelle di frequenze sono tabelle a doppia entrata in cui in ogni riga e colonna viene espressa la frequenza relativa e assoluto
delle osservazioni all’interno del campione che assumono una data modalità per una variabile e una data modalità per un’altra
variabile. Per esempio 419 individui sono non occupati con un livello di istruzione minore.
Sulla base dell'output riportato si individui l'affermazione VERA tra quelle indicate qui sotto:
a. gli individui non occupati e con un livello di istruzione inferiore a quella secondaria sono il 20.95% del campione
b. 568 individui del campione sono non occupati e posseggono un livello di istruzione secondaria o superiore
c. la numerosità del campione è di 100 individui
d. gli individui occupati e con un livello di istruzione secondaria o superiore sono il 71.60% del campione
3. Stimo un modello di regressione semplice come segue: y=α0+α1x1+

all'interno del quale ometto un regressore x2 che ha covarianza pari a 58.9 con il regressore incluso x1.
Decido quindi di includere il regressore omesso in un secondo modello di regressione (multiplo) del tipo:
y=β0+β1x1+β2x2+
In quest'ultimo modello, la stima di β2 è -45.6.
Abbiamo ragione di pensare che il coefficiente di regressione α1 relativo al primo modello sia distorto. Sapendo che la varianza è
sempre positiva, possiamo dedurre il segno della distorsione? Se si quale è?
a. negativo
b. positivo
c. non è possibile dedurlo
4. Si consideri un generico comando di stata di questo tipo: .ivreg y x1 x2 (x3 x4 = q1)

Sulla base di tale output si individui l'affermazione VERA tra quelle indicate qui sotto.
a. sembra un contesto di sottoidentificazione dei coefficienti
43
b. le variabili x3 ed x4 sono classificate come strumenti
c. i regressori x1 ed x2 sono classificati come variabili endogene
d. la regressione indicata risulta stimabile tramite la procedura TSLS
5. Si consideri un campione di soggetti su cui sono osservate le seguenti

variabili:
poor, variabile dummy con valore =1 se il soggetto è povero, =0 altrimenti;
educ, variabile dummy con valore =1 se il soggetto ha una educazione
secondaria o superiore, =0 altrimenti;
labor, variabile dummy con valore =1 se il soggetto è occupato, =0 altrimenti;
Si consideri il seguente comando di stata ed il conseguente output. Si identifichi
il metodo utilizzato e lo si descriva brevemente, si commentino le principali
quantità dell'output e le stime ottenute.
Si tratta di un modello di regressione logit. È un modello di regressione non

lineare, utilizzato per modellare il valore atteso di variabili binarie. È un modello
che si stima con il metodo della verosimiglianza. Il modello logit utilizza una
funzione di logistica standard. Il modello lineare presenta dei vincoli. Il modello
logit è un modello che assume l’effetto marginale come non costante e questo fa
si che sia massimo in determinati valori della probabilità (quando la probabilità =
0,5). Questo modello governa l’eteroschedasticità, contrariamente a un modello
di regressione semplice che non tiene conto che ciascuna osservazione possa
avere una variabile diversa e non costante all’interno del processo.
La significatività complessiva del modello è 0, quindi sono tutti significativi. Entrambi i coefficienti sono significativi all’1%. La
statistica test è -4,27 e -4,23. La sua distribuzione sotto l’ipotesi nulla è quella di una Normale standard, in quando la statistica
test è z.
Relativamente alla variabile educ possiamo dire che i livello di istruzione è negativamente legato al fatto di essere povero: un
soggetto con una educazione secondaria o superiore ha una probabilità di essere povero più bassa rispetto a un soggetto senza
una educazione secondaria o superiore, a parità di occupazione.
Mentre relativamente alla variabile labor possiamo dire che il livello di istruzione è negativamente legato al fatto di essere povero:
un soggetto occupato ha una probabilità di essere povero più bassa rispetto a un soggetto senza lavoro, a parità di istruzione
6. Si consideri un modello di regressione di questo tipo: y=β0+β1x+

con x variabile endogena. Abbiamo a disposizione la variabile strumento z, rilevante ed esogena, che ci permette di stimare un
modello di regressione con variabili strumentali.
Considerando che le covarianze campionarie che osserviamo tra z ed x e tra z ed y sono le seguenti:
szx=140
szy=350
Si calcoli lo stima TSLS del coefficiente di regressione β1
Risposta: 350/140 = 2,5 (scrivere solo valore numerico, non calcoli)
7. Il dataset contiene informazioni su 545 lavoratori per 8 anni. Di seguito sono riportate le variabili incluse.
nr person identifier
year 1980 to 1987
exper Esperienza nel mercato del lavoro (anni)
union =1 se il lavoratore fa parte di un sindacato, =0 altrimenti
area =1 North central, =2 North East, 3= South, =4 North West
wage Salario orario $
black =1 se di colore;=0 altrimenti
a) Si consideri il dataset relativo solo al 1981 con il comando keep if (year == 1981).
b) Si esegua un test d’ipotesi omoschedastico per verificare che il salario orario medio nel 1981 sia lo stesso per lavoratori
iscritti ad un sindacato e per i lavoratori non iscritti al sindacato. Si riporti il sistema di ipotesi, il valore della statistica test
osservata e la conclusione del test.
Stiamo utilizzando un test omoschedastico
µs = salario orario medio di coloro che sono iscritti al sindacato
µn = salario orario medio di coloro che non sono iscritti al sindacato
H0: µs = µn
H1: µs ≠ µn
T stat = -4,6915 --> lo stimatore deriva da uno stima che ha sotto l’ipotesi nulla una distribuzione T di student con 543 gradi di
libertà
La differenza tra le medie è -1,10, la differenza tra standard error è 0,23. È ragionevole l’ipotesi di un test omoschedastico in
quanto le standard deviation sono simili.
Essendo il p-value pari a 0, quindi inferiore a qualsiasi alfa rifiutiamo l’ipotesi nulla. Di conseguenza, il salario orario medio nel
1981 è statisticamente diverso tra i lavoratori iscritti ad un sindacato e i lavoratori non iscritti
44
c) Si stimi un modello probit per analizzare l’effetto dell’esperienza professionale e del salario orario sulla probabilità di essere
iscritti ad un sindacato. Qual è l’impatto dell’esperienza professionale sulla probabilità di iscriversi ad un sindacato? E del salario
orario? Sono significativi?
Il coefficiente exper non è significativo, mentre wage è significativo all’1%
Possiamo dire che un soggetto con un salario è più elevato avrà più probabilità di iscriversi a un sindacato, wage è positivamente
legato alla probabilità di far parte di un sindacato, a parità delle altre variabili
L’esperienza professionale dovrebbe portare ad avere una probabilità maggiore di iscriversi al sindacato.
d) Si calcoli la frazione correttamente predetta dal precedente modello

considerando come soglia 0.50.
La frazione correttamente predetta del modello è una diagnostica che ci
permette di capire quanto un modello è capace di predire in maniera
accurata l’output. La tabella incorpora sia le frequenze assolute che relative.
La frazione di osservazioni correttamente predetta è pari al 75%.
Mentre il restante 25% è in maniera presunta non correttamente predetta.
All’interno delle restanti 138 osservazioni molte hanno una probabilità molto
vicina allo 0,5 quindi la frazione di osservazioni correttamente predetta è
maggiore di 0,75
Se con il comando sum vediamo probabilità vicine a 0,50 possiamo non
concludere che il modello si stia sbagliando e quindi possono rientrare nella
frazione di osservazioni correttamente predette.
Calcolando il comando sum vediamo che se yhat_probit=0 e union=1 la
media è 0,30, va da una probabilità di 0,11 a 0,47. In questo caso una gran
parte delle osservazioni ha una probabilità molto vicina allo 0,50
Nel caso di yhat_probit=1 e union=0 possiamo vedere che il minimo è 0,50,
il massimo 0,75 e la media 0,59; molte osservazioni hanno una probabilità vicina a 0,5. Quindi i 6 individui non possiamo
categorizzarli come errori del modello
e) Calcolare gli effetti marginali medi di ciascun regressore e commentarli, sono significativi?
L'effetto marginale medio è pari a 0,o33 per la variabile
wage, ed è significativo all’1%. Una variazione di un
dollaro nel salario orario medio, comporta un aumento
della probabilità in media di 3,3 percento della probabilità
di iscriversi a un sindacato. Mentre l’effetto marginale
medio per la variabile exper non è significativo, in linea con il fatto che tale variabile non è significativo nel modello probit. Il
regressore exper indica che un aumento di un anno di esperienza del soggetto, aumenta la probabilità dell’1,6 percento del
soggetto di iscriversi a un sindacato
Questo effetto marginale è calcolato come la media degli effetti marginali su tutti gli individui del campione.
f) Qual è la variazione di probabilità di essere iscritti ad un sindacato in punti percentuali se un soggetto con salario orario pari
a 15 dollari passa da 5 a 7 anni di esperienza nel mercato del lavoro?
La probabilità di essere iscritti ad un sindacato se un soggetto ha un salario orario pari a 15 dollari e ha 5 anni di esperienza è
pari a 0,66638 (66%), mentre è pari a 0,703596 (70%) se ha 7 anni di esperienza.
Di conseguenza vi è una variazione di probabilità positiva di 3.7 punti percentuali.
* a) Si consideri il dataset relativo solo al 1981 con il comando keep if (year == 1981).
use "SAMPLETEST.dta", clear
keep if (year == 1981)
* b) Si esegua un test d'ipotesi omoschedastico per verificare che il salario orario medio nel 1981 sia lo stesso per lavoratori
iscritti ad un sindacato e per i lavoratori non iscritti al sindacato. Si riporti il sistema di ipotesi, il valore della statistica test
osservata e la conclusione del test.
ttest wage, by (union)
* c) Si stimi un modello probit per analizzare l'effetto dell'esperienza professionale e del salario orario sulla probabilità di essere
iscritti ad un sindacato. Qual è l'impatto dell'esperienza professionale sulla probabilità di iscriversi ad un sindacato? E del salario
orario? Sono significativi?
probit union exper wage, r
* d) Si calcoli la frazione correttamente predetta dal precedente modello considerando come soglia 0.50.
cap drop pr_probit
predict pr_probit
cap drop yhat_probit
gen yhat_probit=0
45
tab union yhat_probit, cell
sum pr_probit if yhat_probit==0 & union==1
sum pr_probit if yhat_probit==1 & union==0
* e) Calcolare gli effetti marginali medi di ciascun regressore e commentarli, sono significativi?
margins, dydx(_all)
* f) Qual è la variazione di probabilità di essere iscritti ad un sindacato in punti percentuali se un soggetto con salario orario pari
a 15 dollari passa da 5 a 7 anni di esperienza nel mercato del lavoro?
scalar z1=normprob(_b[_cons]+_b[wage]*15+_b[exper]*5)
di z1
scalar z2=normprob(_b[_cons]+_b[wage]*15+_b[exper]*7)
di z2
scalar delta=z2-z1
di delta
Esercizio 1
Vogliamo testare la differenza tra medie di due popolazioni con riferimento alla variabile educational attainment, in particolare
disponiamo di 2 campioni estratti. Il primo campione registra l’educational attainment per gli individui di sesso maschile (he), il
secondo per gli individui di sesso femminile (we). Alla luce del seguente output che definisce rilevanti quantità campionarie per
ciascuno dei due campioni, decidere quale test di differenza tra medie è più opportuno utilizzare e descrivere il test e le sue
assunzioni. Inoltre, indicare ipotesi nulla, ipotesi alternativa e riportare genericamente le regioni di rifiuto nel caso di un test a due
code.
. sum he
Variable | Obs Mean Std. dev. Min Max

-------------+------------------------------------------------------------------------------
he | 428 12.61215 4.035163 4 17
. sum we
Variable | Obs Mean Std. dev. Min Max

-------------+------------------------------------------------------------------------------
we | 428 12.65888 2.285376 5 17
Possiamo vedere che ci sono 428 osservazioni in entrambi i campioni, la media per he è 12,61 per we 12,65. La standard
deviation per he è 4,03 e we 2,28. In questo caso sarebbe opportuno utilizzare un test di tipo eteroschedastico (test di Welch) in
quanto la variabilità delle due popolazioni ci dice che una è la metà dell’altra, quindi il campione della popolazione femminile è
molto meno variabile in termini di punteggio di educational atteinment rispetto agli individui maschili. C’è meno eterogeneità nel
campione degli individui femminile.
H0: µhe - µwe = 0
H1: µhe - µwe ≠ 0
Regione di rifiuto: t oss < qa/2 e t oss > q1-a/2 --> test a due code, testiamo una generica differenza.
Esercizio 2
Di seguito per ciascun settore di attività economica è riportata la percentuale
di imprese italiane che nell’ultimo triennio hanno effettuato investimenti in
Tecnologie e Digitalizzazione:
Si indichi se la seguente affermazione è vera o falsa: nel settore del
commercio la percentuale di imprese che hanno effettuato investimenti è
inferiore dell’11% rispetto al settore costruzioni.
Falso: non è inferiore dell’11% ma è inferiore di 11 punti percentuali rispetto al settore costruzioni. Per calcolare la differenza
percentuale dovremmo calcolare (35% – 46%) / 46%
Esercizio 3
Si consideri un campione di famiglie su cui è osservata la variabile faminc indicante il reddito disponibile e la variabile categoriale
nofigli indicante l’assenza di figli a carico (nofigli =1) e altrimenti (nofigli =0).
Commentare il seguente output specificando il tipo di metodologia implementata, l'obiettivo di tale metodologia e le assunzioni
alla base, le quantità rilevanti ed il responso finale che si può trarre.
ttest faminc, by(nofigli)

Two-sample t test with equal variances
--------------------------------------------------------------------------------------------------------------------------
Group | Obs Mean Std. err. Std. dev. [95% conf. interval]
---------+----------------------------------------------------------------------------------------------------------------
46
0| 53 83948.95 6696.235 48749.32 70511.97 97385.93
1| 375 92239.65 1724.555 33395.88 87833.2 96646.1
---------+----------------------------------------------------------------------------------------------------------------
Combined | 428 91213 2132.492 44117.35 87021.51 95404.49
---------+----------------------------------------------------------------------------------------------------------------
diff | -8290.701 6469.21 -21006.25 4424.844
--------------------------------------------------------------------------------------------------------------------------
diff = mean(0) - mean(1) t = -1.2816
H0: diff = 0 Degrees of freedom = 426
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 0.1003 Pr(|T| > |t|) = 0.2007 Pr(T > t) = 0.8997
Stiamo utilizzando un test di differenza tra media omoschedastico per testare la differenza di reddito disponibile per la
popolazione di famiglie con figli a carico e quelli senza figli a carico.
Mean(0) è la media di reddito disponibile per le famiglie con figli a carico e mean((1) senza figli a carico
Le assunzione alla base del test omoschedastico è che le varianze tra le popolazione siano non note e uguali tra loro
Il valore osservato della statistica test è -1,28, si tratta di uno stimatore ha una distribuzione T di student con 426 gradi di libertà
sotto l’ipotesi nulla
Le differenze osservate sono -8290 di reddito disponibile annuo, i valori di standard deviation sono molto diversi tra le due
popolazioni (potrebbe non essere sensato un test omoschedastico, più adatto un test eteroschedastico di Welch)
Se il sistema di ipotesi incorporasse tra l’ipotesi alternativa il fatto che la differenza sia diversa da 0 (non viene assunto un segno
positivo o negativo alla differenza), possiamo dire che l’ipotesi nulla non è rifiutata in quanto il p-value è maggiore di 0,10. Non c’è
una differenza statisticamente significativa tra i due redditi
Non possiamo accettare nemmeno le altre due ipotesi alternative (il fatto che la differenza abbia un segno positivo o negativo) in
quanto il p-value è sempre superiore a 0,10.
In generale non rifiutiamo l’ipotesi nulla in nessuno dei tre casi
Esercizio 1
Dataset: Occupancy.dta
Variabili incluse nel dataset:
Variabile Descrizione
price sale price, dollars
sqft total square feet
bedrooms number of bedrooms
baths number of full baths
age age in years
occupancy Stato di occupazione: =1 abitata dal proprietario, =2 Vuota, 3=in affitto
pool =1 if yes
style Traditional=1, Ranch=2, Contemporary=3 ,Cottage=4
fireplace =1 if yes
waterfront =1 if yes
dom Days on the market
1. Qual è la percentuale tra le abitazioni in stile Ranch che hanno un caminetto?

58/138 = 42%
2. Fra le abitazioni che hanno il caminetto quante sono in stile tradizionale?

Il 49,18% (299)
3. Quante abitazioni hanno sia la piscina che il caminetto?

64 abitazioni hanno sia la piscina che il caminetto
4. Si stimi un modello in cui il prezzo della casa è funzione dell’ampiezza, dello stato di occupazione e del numero di giorni da
cui è sul mercato. Si commenti l’effetto dello stato di occupazione.
In base alle stime ottenute e riportate di seguito (non richiesto) le abitazioni vuote non hanno in media un prezzo diverso
rispetto a quelle in cui vive il proprietario, a parità di ampiezza e giorni da cui la casa è sul mercato.
In media le abitazioni in affitto hanno un prezzo maggiore di 34741 dollari rispetto alle abitazioni abitate dal proprietario.
5. Si stimi un modello in cui il prezzo della casa è funzione dell’ampiezza, del numero di giorni da cui è sul mercato e dello stile.
Si commenti l’effetto dello stile sul prezzo, prendendo come gruppo di riferimento le case in stile tradizionale.
In media un’abitazione in stile ranch, ha un prezzo superiore di 26438 dollari rispetto alle abitazioni tradizionali (significativo
all’1%). In media un’abitazione con stile contemporaneo, ha un prezzo superiore di 51659 dollari rispetto alle abitazioni
tradizionali (significativo all’1%)
Le abitazioni in stile cottage costano mediamente 10927$ in più di quelle in stile tradizionale (coefficiente significativo al
10%), a parità di ampiezza e di periodo sul mercato
cd "C:\Users\alice\OneDrive\Desktop\Statistica aziendale 2\SA"

use "Occupancy.dta", clear
47
*1) tab fireplace if style==2
*2) tab style if fireplace==1
*3) count if fireplace==1 & pool==1
/*oppure*/ tab pool fireplace
*4) *Creo le variabili dummy a partire da occupancy
tab occupancy, gen(stato)
reg price sqft dom stato2 stato3
*Oppure
reg price sqft dom i.occupancy
*5) *Creo le variabili dummy a partire da occupancy
tab style, gen(stile)
reg price sqft dom stile2 stile3 stile4
*Oppure
reg price sqft dom ib1.style
Esercizio 3
Dataset: Fertility.dta
Questi dati sono tratti dal censimento americano del 1980. Sono stati forniti dal Professor William Evans della University of
Maryland e sono stati usati nel suo articolo scritto con Joshua Angrist “Children and Thier Parents’ Labor Supply: Evidence from
Exogenous Variation in Family Size”, American Economic Review, giugno 1998.
Il file Fertility.dta contiene dati su 254.654 donne sposate di età compresa tra 21 e 35 con più di due figli.
morekids =1 se la madre aveva più di due figli
boy1st =1 se il primo figlio era maschio
boy2nd =1 se il secondo figlio era maschio
samesex =1 se i primi due figli sono dello stesso genere
agem1 età della mamma al censimento
black =1 se la madre è nera
hispan =1 se la madre è ispanica
othrace =1 se la madre non è nera, ispanica o bianca
weeksm1 settimane lavorate dalla madre nel 1979
1) Si stimi un modello di regressione lineare semplice con il metodo OLS in cui il numero di settimane lavorate sono funzione
dell’età della madre, della sua origine etnica e della presenza di più di due figli. Si commentino le stime ottenute.
Tutti i coefficienti sono significativi all’1%. Un anno in più nell’età della madre determina in media un aumento di 0,84
settimane lavorate.
In media se la madre è nera lavora 11 settimane in più rispetto alla situazione in cui la madre è bianca. Se la madre è
ispanica lavora in media 0,5 settimane in più rispetto alla situazione in cui la madre è bianca. E le donne di altre etnie
lavorano in media 2 settimane in più rispetto alle donne bianche, a parità delle altre condizioni
Le madri con più di due figli tendenzialmente lavorano 6 settimane in media rispetto alle madri con meno di due figli, a parità
delle altre condizioni.
La bontà del modello è molto bassa, con un R2 pari a 4,38%
2) Perché la regressione OLS stimata al punto precedente è inappropriata per stimare l’effetto causale della fertilità ()
sull’offerta di lavoro ()?
Il modello potrebbe essere affetto da endogenità. Il numero di figli ha certamente un effetto sul tempo che una donna dedica
al lavoro, ma allo stesso tempo anche il tempo dedicato al lavoro può avere un effetto sulla scelta di avere/non avere
(ulteriori) figli. Si configura quindi una situazione di causalità simultanea.
3) I dati contengono la variabile =1 se i primi due bambini sono dello stesso sesso (maschio-maschio o femmina-femmina) e
=0 altrimenti. Le coppie i cui primi due figli sono dello stesso sesso hanno maggiori probabilità di avere un terzo figlio?
È stato stimato un modello di probabilità lineare. In base alle stime ottenute si può affermare che la probabilità di avere più di
due figli per una coppia i cui primi due figli siano dello stesso sesso è maggiore di quasi 7 punti percentuali rispetto ad una
coppia i cui primi due figli sono di sesso diverso. L’effetto è statisticamente significativo all’1%.
4) Si vuole stimare l’effetto della fertilità sull’offerta di lavoro (espresso come numero di settimane lavorate), ma si vuole
correggere il problema rilevato al punto 2). Si proponga una soluzione e la si implementi motivandola.
Come discusso, il modello che mette in relazione weeksm1 e morekids è verosimilmente affetto da causalità simultanea. Lo
stimatore OLS produce quindi stime distorte dell’effetto di morekids su weeksm1. Si decide quindi di utilizzare il metodo delle
variabili strumentali e si utilizza samesex come strumento. Quest’ultima variabile costituisce un buono strumento perché:
• L’avere i primi due figli dello stesso sesso o no è del tutto casuale. Non ha alcun effetto sul numero di settimane lavorate
e quindi non è correlata con il termine di errore del modello. E’ dunque uno strumento esogeno.
• L’avere i primi due figli dello stesso sesso o no è però correlata con la probabilità di avere più di due figli. Come emerge
dal modello stimato al punto precedente le coppie i cui primi due figli sono di sesso diverso hanno una maggiore
probabilità di avere più di due figli. Si tratta di uno strumento rilevante.
Le stime ottenute usando il metodo IV indicano che l’avere più di due figli determina una riduzione nel numero di settimane
48
lavorate ogni anno pari a 5,8. Questo effetto (significativo all’1%) può essere legittimamente considerato l’effetto casuale di
avere più di due figli, a parità di età e origine etnica della madre.
use Fertiliy.dta, clear

*1) reg weeksm1 morekids age black hispan othrace
*3) reg morekids samesex
* Alternativamente posso stimare un modello probit (o Logit) e calcolare l'effetto marginale
probit morekids samesex
* Calcolo manuale dell'effetto marginale
scalar pmore1=normprob(_b[_cons]+_b[samesex]*1)
scalar pmore0=normprob(_b[_cons]+_b[samesex]*0)
scalar ME=pmore1-pmore0
di ME
* Calcolo dell'effetto marginale con il comandi margins
probit morekids i.samesex
*4) ivreg weeksm1 age black hispan othrace (morekids=samesex)
Esercizio 4
Dataset: Income_Democracy.dta
Il file di dati Income_Democracy contiene dati per 195 paesi relativi agli anni 1960, 1965, ..., 2000.
Questi dati sono stati forniti dal professor Daron Acemoglu e costituiscono un sottoinsieme dei dati usati nel suo articolo scritto
con Simon Johnson, James Robinson e Pierre Yared, “Income and Democracy”, American Economic Review, 2008, 98:3: 808-
842.
Il file contiene 3.000 osservazioni sulle variabili descritte di seguito.
country nome paese
year Anno
dem_ind indice di democrazia
log_gdppc logaritmo del PIL reale pro capite
log_pop logaritmo della popolazione
age_1 frazione della popolazione di età 0-14
age_5 frazione della popolazione di età 60 e oltre
educ numero medio di anni di istruzione per adulti (da 25 anni in su)
age_median età mediana
code codice paese
Note: le variabili di reddito e demografiche sono ritardate di cinque anni rispetto all’indice di democrazia in modo che la
democrazia abbia il tempo per adattarsi ai cambiamenti di queste variabili. Per esempio, log_gdppc per year = 1965 è il logaritmo
del PIL pro capite nel 1960.
I cittadini chiedono più democrazia e libertà politica all’aumentare del loro reddito? Ovvero, la democrazia è un bene normale?
1) Quali sono il valore minimo e il valore massimo che l’indice di democrazia assume nel campione?
Il valore minimo è 0 e il valore massimo è 1
2) Si stimi un modello in cui il grado di democrazia in un paese è funzione del logaritmo del PIL reale pro capite e si commenti
Il coefficiente è significativo all’1%. All’aumentare di 1% del PIL reale pro capite, l’indice di democrazia aumenta di 0.0023
punti.
3) Si suggerisca una variabile che varia tra paesi, ma varia poco o nulla nel tempo e che potrebbe causare distorsione da
variabili omesse nella regressione appena stimata.
I paesi presentano differenze nelle strutture sociali e religiose che possono essere correlate con lo sviluppo economico del
paese (quindi con il reddito pro-capite) e che possono influenzare le preferenze per la democrazia.
Use “Income_Democracy.dta”, clear

*1) sum dem_ind
*2) reg dem_ind log_gdppc
Esercizio 5
Dataset: SLEEP.dta
Il dataset include informazioni riguardanti le abitudini di sonno di un campione di individui.
id id
age eta
educ livello di istruzione (anni)
year year
gdhlth binaria=1 se in buona salute, =0 altrimenti
male binaria =1 se uomo, =0 se donna
49
marr binaria=1 se sposato, =0 altrimenti
sleep Tempo impiegato a dormire (minuti a settimana)
totwrk Tempo impiegato a lavorare (minuti a settimana)
yngkid binaria =1 se in famiglia è presente un bambino <3 anni, =0 altrimenti
1) Si stimi il seguente modello, utilizzando solo i dati riferiti al 2021:
Si può affermare che a parità degli altri fattori gli uomini dormono lo stesso tempo delle donne?
Il coefficiente male non è significativo, perciò si può affermare che gli uomini dormono lo stesso tempo delle donne a parità
degli altri fattori
use SLEEP.dta, clear

*1) reg sleep totwrk educ age male if year==2021
Esercizio 6
Dataset CRIME.dta
Il dataset contiene informazioni riguardanti 90 contee del North Carolina relative alla criminalità dal 1981 al 1987.
county Contea
year Anno
crmrte Numero di crimini commessi per individuo
prbarr Probabilità stimata di arresto
prbconv Probabilità stimata di essere giudicati colpevoli dopo l'arresto
prbpris Probabilità stimata di ricevere una pena detentiva
avgsen Durata media della pena
polpc Numero di agenti di polizia pro capite
density Densità di popolazione , individui per km quadrato
west =1 se contea occidentale, =0 se contea orientale o centrale
central =1 se conte centrale, =0 se contea orientale o occidentale
pctymle Percentuale di giovani maschi nella popolazione
1) Si consideri solo il 1982 e si stimi un modello in cui il tasso di criminalità di una contea è funzione della probabilità stimata di
arresto e di essere giudicati colpevoli in quella contea, del numero di agenti di polizia pro-capite, della densità di
popolazione, dell’area geografica in cui la contea si trova. Si scriva l’equazione del modello e si commenti in che modo il
numero di agenti pro-capite presenti in una contea influenzano il tasso di criminalità.
Il coefficiente polpc è significativo all’1%, un agente in più pro capite determina in media un aumento di 4,61 punti percentuali
nel tasso di criminalità, a parità degli altri fattori
2) Il risultato ottenuto corrisponde alle aspettative?

No, perché all’aumentare del numero di agenti il tasso di criminalità dovrebbe diminuire.
use CRIME.dta
*1) reg crmrte prbarr prbconv polpc density west central if year==82
Esercizio 7
Dataset: MROZ.dta
Il dataset contiene le seguenti variabili riferite ad un campione di lavoratori.
inlf =1 if in lab frce, 1975
hours hours worked, 1975
kidslt6 # kids < 6 years
kidsge6 # kids 6-18
age woman's age in yrs
educ years of schooling
wage est. wage from earn, hrs
repwage rep. wage at interview in 1976
hushrs hours worked by husband, 1975
husage husband's age
huseduc husband's years of schooling
huswage husband's hourly wage, 1975
faminc family income, 1975
mtr fed. marg. tax rte facing woman
motheduc mother's years of schooling
fatheduc father's years of schooling
unem unem. rate in county of resid.
city =1 if live in urban area
exper actual labor mkt exper
nwifeinc (faminc - wage*hours)/1000
lwage log(wage)
expersq exper^2
50
Si vuole stimare l’effetto dell’istruzione sul salario (nella letteratura che si occupa di questi temi, per indicare tale effetto si usa il
termine “return to education”).
1) Si stimi il seguente modello di regressione lineare semplice:
E si commenti l’effetto che l’istruzione ha sul salario in base alle stime ottenute
Il coefficiente educ è significativo all’1%. All’aumentare di un anno di istruzione, il salario aumenta del 10,86%
2) Si ritiene che il regressore scelto abbia un problema di endogenità. Spiegare brevemente.

Il livello di istruzione del lavoratore, usato come regressore nel modello appena stimato, è endogeno, cioè correlato con il
termine di errore a causa di un problema di variabile rilevante omessa. Il modello infatti non tiene conto di un fattore
difficilmente osservabile come l’abilità dell’individuo. L’abilità è certamente correlata con il livello di istruzione raggiunto
dall’individuo (è probabile che individui più abili ottengano alti livelli di istruzione e viceversa) e ha un impatto sulla variabile
dipendente (è probabile che individui più abili abbiano impieghi più complessi e con maggiore remunerazione e viceversa).
L’omissione di variabili rilevanti (cioè variabili che hanno un impatto sulla variabile dipendente e sono correlate con un
regressore incluso) causa endogenità nel modello. L’endogenità fa sì che lo stimatore OLS sia distorto. La stima dell’effetto
dell’istruzione sul salario ottenuta al punto precedente dunque non può essere considerata una stima attendibile dell’effetto
causale che l’istruzione ha sul salario.
3) L’omissione della variabile “abilità” dal modello provocherà una sovrastima o una sottostima dell’effettivo impatto causale
dell’istruzione sul salario?
Immaginando che il modello completo sia:
log(wage)=β0+β1educ+β2ability+u
Il tipo di distorsione nella stima di β1 (l’effetto causale dell’istruzione sul salario) dovuta all’omissione della variabile rilevante
“abilità” è deducibile dalla seguente relazione:
distorsione di β1 =(β2*Cov(ability,educ)) / (Var(ability))
Siccome
• β2 (cioè l’effetto che la variabile omessa – l’abilità – ci si attende abbia sulla variabile dipendente – il salario) è con tutta
probabilità positivo (individui più abili hanno probabilmente salari maggiori e viceversa)
• la covarianza tra variabile omessa e variabile inclusa (rispettivamente ability e educ) è probabilmente positiva (individui
più abili hanno livelli di istruzione maggiori e viceversa)
La distorsione avrà probabilmente segno positivo (la varianza - al denominatore – è sempre un numero positivo). In altre
parole ci si attende che l’omissione della variabile ability dal modello causi una sovrastima dell’effetto causale dell’istruzione
sul salario (cioè una sovrastima di β1).
4) Si intende utilizzare la variabile (livello di istruzione del padre) come strumento per la variabile in un approccio di tipo IV.
Commentare brevemente se la scelta è opportuna.
La variabile fatheduc è in effetti un buono strumento per il livello di istruzione del lavoratore. Infatti:
• Il livello di istruzione di un lavoratore è correlato con il livello di istruzione di suo padre (un individuo il cui padre ha alti
livelli di istruzione è probabile che raggiunga anch’esso alti livelli di istruzione, è esposto ad un ambiente in cui
l’istruzione è un valore, è probabile che goda di un reddito famigliare più alto e possa permettersi percorsi di istruzione
più lunghi o scuole più prestigiose, etc.). Lo strumento dunque è rilevante (cioè è correlato con il regressore endogeno)
• Il livello di istruzione del padre di un lavoratore non ha un effetto diretto sul salario orario di quel lavoratore. L’unico
effetto che tale variabile ha sul salario orario si esprime attraverso l’effetto del regressore endogeno (cioè il livello di
istruzione del lavoratore stesso). Lo strumento dunque è esogeno (cioè non ha effetto diretto sulla variabile dipendente)
5) Si vuole verificare che è uno strumento rilevante. Si stimi un modello utile per tale verifica.
Si stima il seguente modello:
Il test F è pari a 0.0000 (inferiore di qualsiasi alfa9, perciò lo strumento è rilevante
6) Si decide di utilizzare la variabile (livello di istruzione del padre) come strumento per la variabile (livello di istruzione del
lavoratore) per stimare con il metodo IV il modello descritto al punto 1). Il metodo IV implica una strategia composta da due
stadi. Si scriva l’equazione dei modelli stimati in ciascuno dei due stadi.
Primo stadio: educ = y0 + y1fatheduc + u
Parte esogena:
Parte endogena: u
Secondo stadio: lwage = B0 + B1
7) Si stimi l’effetto dell’istruzione sul salario correggendo il problema dell’endogenità con il metodo IV utilizzando come
strumento. Si commenti la stima ottenuta.
Il coefficiente educ è significativo al 10% (p-valueu= 9,3%). All’aumentare di un anno di istruzione, il salario aumenta in
media del 6%
8) Si arricchisca il modello appena stimato con altri regressori potenzialmente utili a spiegare il salario orario, come l’esperienza
del lavoratore, il numero di ore lavorate e l’area di residenza del lavoratore (urbana/non urbana) ma si continui a correggere
il problema di endogenità della variabile Si scrivano nuovamente le equazioni dei modelli stimati nei due stadi.
Primo stadio: educ = y0 + y1exper + y2hours + y3city + fatheduc + u
Parte esogena:
Parte endogena: u
Secondo stadio: lwage = B0 + B1exper + B2hours + B3city + B4
51
9) Si stimi il modello con il metodo IV e si commenti l’effetto dell’istruzione sul salario.
Il coefficiente educ è significativo all’1% (p-value = 7,2%). All’aumentare di un anno nel livello di istruzione, il salario aumenta
in media di 6,5% a parità delle altre condizioni
use MROZ.dta, clear

*1) reg lwage educ
*5) reg educ fatheduc
*7) ivreg lwage (educ=fatheduc)
*9) ivreg lwage exper hours city (educ=fatheduc)
52

Statistica m2

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Statistica m2

Caricato da

Copyright:

Formati disponibili

STATISTICA AZIENDALE

Test d’ipotesi per la differenza tra medie e Gender Pay Gap

Test d’ipotesi per la differenza tra medie (o Test t a 2 campioni)

Applicando le proprietà della varianza alla differenza tra le due

Test d’ipotesi per la differenza tra medie (o Test t a 2 campioni)

Caso 2: Varianza della popolazione non nota, cioè la dobbiamo stimare!

Dove sf2 e sm2 sono le varianze campionarie delle due popolazioni.

La statistica test per eseguire questa verifica è dunque:

Regione di rifiuto per H1: µm - µf ≠ 0

Attenzione! Se cambia l’ipotesi alternativa cambia la regione di rifiuto

Test d’ipotesi per la differenza tra medie in Stata

Test d’ipotesi per la differenza tra medie in Stata

Testare µm - µf = 0 vuol dire testare β1 = 0

Test d’ipotesi per la differenza tra medie in Stata

Vediamo dei risultati familiari, il t

Ma ha senso l’ipotesi di omoschedasticità? Ovvero varianza uguali tra le due popolazioni

Test t a 2 campioni con ipotesi di varianze diverse

Test d’ipotesi per la differenza tra medie (o Test t a 2 campioni)

Esercizio 3.12, Stock & Watson (p.77)

Esercizio 3.13, Stock & Watson (p.77)

c) Si calcoli il p-value associato alla statistica t o la regione di rifiuto.

Regressioni con variabile dipendente binaria

Regressioni con variabile dipendente binaria

Perché non usare il modello di regressione lineare

Limiti del modello di probabilità lineare

Una terza questione è data dalla modellazione della variabilità.

Limiti del modello di probabilità lineare

Passiamo ad un modello non-lineare

La funzione di ripartizione di una v.c. normale standard

La funzione di ripartizione di una v.c. normale standard

rappresenta la probabilità che la v.c. assuma un valore minore o

Stima dei coefficienti di un modello probit

Stima dei coefficienti di un modello probit: Massima Verosimiglianza

Stima dei coefficienti di un modello probit: Massima Verosimiglianza

Il modello probit, esempio sui dati HMDA

La differenza nelle probabilità di rifiuto è 0,158 (15,8 punti percentuali).

Stima del modello probit: probabilità stimate

Stima del modello probit: effetti marginali stimati

L’effetto marginale «medio»

Effetti marginali stimati: loro interpretazione

dove definisce la funzione di densità della variabile logistica.

Il modello logit, esempio sui dati HMDA

Modello probit e logit: misure di bontà dell’adattamento ai dati

Modello probit e logit: misure di bontà dell’adattamento ai dati

*LAB M2.1: modelli per variabili binarie

*Studio le probabilità nel caso di misclassification

*Calcolo la probabilità di rifiuto stimata quando pi_rate=0.4

* Calcolo l'effetto marginale stimato quando pi_rate=0.3

*Calcolo l'effetto marginale stimato quando pi_rate=0.4

* Calcolo la probabilità stimata in corrispondenza dei valori medi dei regressori

* ---- Utilizzo di margins ----

*---- Procedura manuale ---

Esercitazione 1: test t per la differenza tra medie e modelli logit/probit

* 9) Stimare un analogo modello probit, i coefficienti di regressione stimati sono analoghi?

* d'ora in poi le indicazioni si riferiscono solo al modello logit

* 13) Calcolo l'effetto marginale stimato quando perc_rate=70 ed 80

Si osservino inoltre i seguenti output:

g) Considerare e spiegare l’effetto marginale medio delle variabili.

Si osservi inoltre il seguente output:

f) Considerare e spiegare le quantità rilevanti date dall’output.

c) Quante persone nel campione hanno un livello di secondary e post-secondary education?

d) Quante persone occupate hanno un livello di primary education? Ed in percentuale?

Vedremo insieme alcune problematiche legate alla specificazione del modello

Distorsione da variabili omesse

/obtain the fitted values of spesa pubblica /