Sei sulla pagina 1di 39

Microeconometrı́a II

Soluciones de los ejercicios teóricos


Florian Chávez-Juárez

CIDE - Otoño 2019


Versión del 14 de agosto de 2019

Índice
1 MCO: Mı́nimos cuadrados ordinarios (repaso) 3
Ejercicio 1 Derivar el estimador MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Ejercicio 2 MCO sin intercepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Ejercicio 3 Efectos no-lineales y el método delta . . . . . . . . . . . . . . . . . . . . . . . . 6
Ejercicio 4 Estimador por momentos vs. MCO . . . . . . . . . . . . . . . . . . . . . . . . . 6
Ejercicio 5 Heterogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Ejercicio 6 GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Gráficos causales 9
Ejercicio 7 Construir/dibujar gráficos causales . . . . . . . . . . . . . . . . . . . . . . . . . 9
Ejercicio 8 Interpretar gráficos causales para decidir que modelo estimar . . . . . . . . . . 10
Ejercicio 9 Los diferentes efectos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Variables instrumentales (IV) 10


Ejercicio 10 El estimador de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Ejercicio 11 Prueba ad-hoc de la validez de los instrumentos . . . . . . . . . . . . . . . . . . 11
Ejercicio 12 Varianza del estimador IV e instrumentos débiles . . . . . . . . . . . . . . . . . 11
Ejercicio 13 First stage regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Ejercicio 14 Efecto de computadores sobre la calificación . . . . . . . . . . . . . . . . . . . . 12
Ejercicio 15 Error de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Ejercicio 16 Simultaneidad: Modelo Keynesiano . . . . . . . . . . . . . . . . . . . . . . . . . 15
Ejercicio 17 Error de medición y endogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . 16

4 SUR y SEM 17
Ejercicio 18 Notación de modelos con múltiples ecuaciones. . . . . . . . . . . . . . . . . . . 17
Ejercicio 19 Identificación de un modelo SEM . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5 Datos de panel 20
Ejercicio 20 Estimar DiD por MCO con interacciones . . . . . . . . . . . . . . . . . . . . . . 20

1
Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Ejercicio 21 Inversión de capital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21


Ejercicio 22 Primeras diferencias y efectos fijos . . . . . . . . . . . . . . . . . . . . . . . . . 22
Ejercicio 23 Efectos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6 Modelos de variables limitadas 25


Ejercicio 24 Regresión lineal por MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Ejercicio 25 Máxima verosimilitud: distribución de Poisson . . . . . . . . . . . . . . . . . . . 27
Ejercicio 26 Probit: estimador MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Ejercicio 27 Efectos marginales en el modelo probit . . . . . . . . . . . . . . . . . . . . . . . 28
Ejercicio 28 Normalización en el modelo probit . . . . . . . . . . . . . . . . . . . . . . . . . 29
Ejercicio 29 Error estándar de efectos marginales . . . . . . . . . . . . . . . . . . . . . . . . 30
Ejercicio 30 Dı́as en el hospital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Ejercicio 31 Patentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Ejercicio 32 Truncado, top-coded o censurado? . . . . . . . . . . . . . . . . . . . . . . . . . 31
Ejercicio 33 Función de ahorro de las familias . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Ejercicio 34 Admisión al CIDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Ejercicio 35 Efectos marginales en el modelo tobit . . . . . . . . . . . . . . . . . . . . . . . 34
Ejercicio 36 Efectos marginales en el modelo two-part . . . . . . . . . . . . . . . . . . . . . 35
Ejercicio 37 Modelo de selección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

7 Métodos no paramétricos 37
Ejercicio 38 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Ejercicio 39 Densidad por núcleos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Ejercicio 40 Estimador Nadaraya-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Versión del 14 de agosto de 2019 Página 2


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

1 MCO: Mı́nimos cuadrados ordinarios (repaso)


Ejercicio 1 Derivar el estimador MCO
a)
Definimos la suma de los errores cuadrado como:
N
X
S(β0 , β0 ) = (yi − β0 − β1 xi )2 (1)
i=1

Derivamos ésta expresión con respecto a β0 y β1 y obtenemos las condiciones de primer orden:
N
∂S(β0 , β0 ) X
= −2 (yi − β0 − β1 xi ) = 0 (2)
∂β0 i=1
N
∂S(β0 , β1 ) X
= −2 xi (yi − β0 − β1 xi ) = 0 (3)
∂β1 i=1

Usamos primero (2)


N
X N
X
yi − N β̂0 − β̂1 xi = 0 (4)
i=1 i=1
N
X N
X
yi − β̂1 xi = N β̂0 (5)
i=1 i=1
N N
1 X 1 X
yi − β̂1 xi = β̂0 (6)
N i=1 N i=1
β̂0 = ȳ − β1 x̄ (7)

Ahora podemos manipular (3) y sustituir β̂0 por la expresión que encontramos:
N
X N
X N
X
xi yi − β̂0 xi −β̂1 (x2i ) = 0 (8)
i=1 i=1 i=1
| {z }
=N x̄
N
X N
X
xi yi − ȳN x̄ + β̂1 N x̄2 − β̂1 (x2i ) = 0 (9)
i=1 i=1
N
X N
X
xi yi − ȳN x̄ − β̂1 (x2i − x̄2 ) = 0 (10)
i=1 i=1
N
X N
X
xi yi − ȳN x̄ = β̂1 (x2i − x̄2 ) (11)
i=1 i=1
N
X N
X
(xi − x̄)(yi − ȳ) = β̂1 (xi − x̄)2 (12)
i=1 i=1
PN
i=1 (xi − x̄)(yi − ȳ)
β̂1 = PN (13)
2
i=1 (xi − x̄)

Versión del 14 de agosto de 2019 Página 3


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Si dividimos el numerador y el denominador por (n − 1) obtenemos:


PN
(n − 1)−1 i=1 (xi − x̄)(yi − ȳ) Cov(y, x)
β̂1 = PN = (14)
(n − 1)−1
i=1 (xi − x̄)
2 V ar(x)

b)
Usando la notación matricial, los cálculos son exactamente los mismos. Empezamos definiendo ε2 :

S(β) = (y − Xβ)0 (y − Xβ) = y 0 y − 2y 0 Xβ + β 0 X 0 Xβ (15)

Calculamos la primera derivada con respecto a β y la igualamos a cero y resolvemos por β:

∂S(β)
= −2(X 0 y − X 0 X β̂) = 0 (16)
∂β
X 0 y = X 0 X β̂ (17)
(X 0 X)−1 X 0 y = β̂ (18)

Para hacer este cálculo tuvimos que invertir X 0 X, lo cual es únicamente posible si rank(X 0 X) = K o
en otras palabras si no hay colinealidad perfecta entre los vectores en X.

Ejercicio 2 MCO sin intercepto


a)
El estimador de MCO de β está dado por la solución del problema de optimización:
n
X
mı́n (yi − β̂xi )2 (19)
α̂β̂ i=1

La condición de primer orden está dada por:


n n
δ X X
(yi − β̂xi )2 = −2xi (yi − β̂xi ) = 0 (20)
δ β̂ i=1 i=1

Ordenando:
Pn
xi yi
β̂ = Pi=1
n 2 (21)
i=1 xi

b)
Sustituyendo yi = βxi + ui en el estimador anterior:

Pn Pn Pn
xi yi xi (βxi + ui xi ui
β̂ = Pi=1
n 2 = i=1
P n 2 = β + Pi=1
n 2 (22)
x
i=1 i x
i=1 i i=1 xi

Y tomando valor esperado:


Pn
x E[u ]
E[β̂] = β + Pn i 2 i = β
i=1
(23)
i=1 xi

Versión del 14 de agosto de 2019 Página 4


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

c)
Utilizando
Pn
xi ui
β̂ = β + Pi=1
n 2 (24)
i=1 xi

Obteniendo la varianza del estimador,

V ar(β̂) = E[(β̂ − E[β̂])2 ] = E[(β̂ − β)2 ] (25)

Y
" P 2 #
n
xi ui
E[(β̂ − β)2 ] = E i=1
Pn 2 (26)
i=1 xi

 
n X
n
1 X
Pn E xj uj  (27)
( i=1 x2i )2 i=1 j=1

n
n X
1 X
Pn xi xj E(ui uj ) (28)
( i=1 x2i )2 i=1 j=1

Como E(ui uj ) = 0 para todo i 6= j, se tiene:

X n
n X n
X n
X n
X
xi xj E(ui uj ) = xi xi E(ui ui ) = x2i E(u2i ) = σ 2 x2i (29)
i=1 j=1 i=1 i=1 i=1

Y
Pn
σ2 x2 σ2
V ar(β̂) = E[(β̂ − β)2 ] = Pn i=12 i2 = Pn 2 (30)
( i=1 xi ) i=1 xi

Y la desviación estándar es igual a:


σ
q
SE(β̂) = V ar(β̂) = pPn (31)
i=1 x2i

d)
σ puede estimarse de los residuales:
v
u n
u 1 X 2
σ̂ = t u (32)
n − 1 i=1 i

Un estimador de SE(β̂) está dado por:

\ σ̂ β̂ σ̂ σ̂
SE(β̂) = pPn =√ q P = =√ (33)
√ ˆ i)
q
2
i=1 xi
1 n ˆ i) nSE(x
n n i=1 x2i n V ar(x

Versión del 14 de agosto de 2019 Página 5


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Ejercicio 3 Efectos no-lineales y el método delta


a)
Manipulando la ecuación (1) de tal forma que:

wage = exp {β0 + β1 educ + β2 married + zγ + u}


Aplicando el operador esperanza y condicionando sobre married, educ y z

E(wage|married, educy, z) = exp {β0 + β1 educ + β2 married + zγ} · E(exp(u)|X)


Definamos E(exp(u)|X) = δ0 .Observemos que married es un variable binaria, si:

married = 1 exp (β2 ) · exp {β0 + β1 educ + zγ} · δ0 (2)


married = 0 exp {β0 + β1 educ + zγ} · δ0 (3)
Definamos exp {β0 + β1 educ + zγ} = γ0 .Si estamos interesados en la diferencia porcentual sobre el
salario de estar o no casado, entonces, tomemos la diferencia entre (2) y (3), de tal forma que:

γ0 δ0 exp (β2 ) − γ0 δ0 γ0 δ0 [exp (β2 ) − 1]


× 100 = × 100 = 100 × [exp (β2 ) − 1] = θ2
γ0 δ 0 γ0 δ 0

b)
Usando el método delta

g(β2 ) = 100 × [exp (β2 ) − 1] = θ2


∂g
= 100 × exp (β2 )
∂β2
Por lo tanto,

∂g
se(θ̂2 ) = · se(β̂2 ) = [100 × exp (β2 )] · se(β̂2 )
∂β2

Ejercicio 4 Estimador por momentos vs. MCO


a)

 1
Pn  1
Pn 1
Pn
yi i=1 E[yi ] xi
E[β̄] = E n
1
Pni=1 = n
1
P n = β n
1
Pi=1
n =β (34)
n i=1 xi n x
i=1 i n i=1 xi

La varianza de β̄ está dada por:

 1
Pn  1
Pn 1
Pn
yi n2 i=1 V ar(yi ) n2 i=1 V ar(βxi + ui )
V ar(β̄) = V ar n
1
Pni=1 = Pn 2 = Pn 2 (35)
1
i=1 xi
1
n n i=1 xi n2 ( i=1 xi )

Pn Pn 2
i=1 V ar(ui ) i=1 σ nσ 2 σ2
V ar(β̄) = P n = n 2 = n 2 = n 2 (36)
( i=1 xi )2 1
P P P
( i=1 xi ) ( i=1 xi ) n ( i=1 xi )

Versión del 14 de agosto de 2019 Página 6


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Retomando la varianza del estimador por MCO:

σ2
V ar(β̂) = Pn (37)
i=1 x2i
Pn 2 Pn Pn 1
Pn 2
Como ( i=1 xi ) ≤ n i=1 x2i , se sigue que i=1 x2i ≥ n ( i=1 xi ) , y el estimador por MCO tiene
menor varianza.

b)
Denotando el estimador MCO usando m observaciones para β̄. Por la fórmula usual:
Pm
xi yi
β̄ = Pi=1
m 2 (38)
i=1 xi

El cual es lineal en yi , y:
Pm Pm
i=1 xi E[yi ] i=1 xi βxi
E[β̄] = Pm 2 = P m 2 =β (39)
i=1 xi i=1 xi

La varianza del estimador de MCO usando n observaciones está dado por:

σ2
V ar(β̂) = Pn (40)
i=1 x2i

Se sigue que:

σ2
V ar(β̄) = Pm (41)
i=1 x2i
Pm Pn
x2i es débilmente creciente con m, se sigue que mx2i ≤ x2i y
P
Como i=1 i=1 i=1

V ar(β̄) ≥ V ar(β̂) (42)

Ejercicio 5 Heterogeneidad
a)
2
Por definición V ar(u|X) = E(u2 |X) − [E(u|X)] = σ 2 , dado que X = (1, x1 , ..., xk ) considera un
intercepto, entonces E(u) = 0 y sumado a que por hipótesis se tiene que E(u) 6= E(u|X) 6= 0 entonces,
E(u2 |X) 6= V ar(u|X).

b)
Para la estimación basta con tener que E(X 0 u) = 0 para asegurar consistencia en los estimadores.
Sin embargo, si E(u2 |X) 6= V ar(u|X), no es posible sostener el supuesto de homogeneidad en varianza
E(u2 X 0 X) = σ 2 E(X 0 X) donde E(u2 |X) = σ 2 teniendo en consecuencia que los estimadores β̂LS no
sean eficientes.

Versión del 14 de agosto de 2019 Página 7


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Ejercicio 6 GLS
a)
Primero calculamos los momentos de X y y. Recuerda que la matriz X tiene un primer vector de
unos (la constante, la llamamos x0 ) y un vector con la variable x1 . Por lo tanto los elementos en la
diagonal de la matriz X 0 X representan x2j . Los elementos fuera de la diagonal son x0 x1 y dado que
P P
P
x0 tiene únicamente el valor 1, el elemento es simplemente x1 = N x¯1 . Ahora usamos la propiedad
Sxx = x0 x − N x̄2 y obtenemos todos los valores necesarias. Vemos el ejemplo para Sxx en la primera
x0 x1 N1 = 300
P
muestra. Obtenemos la media de x usando 50 = 6. Ahora obtenemos directamente Sxx :

Sxx = x0 x − nx̄2 = 2100 − 50 × 62 = 300 (43)

Hacemos el mismo cálculo para los demás elementos y para las dos muestras para obtener la siguiente
tabla de los momentos:
β̂0 β̂1 Sxx Syy Sxy
Muestra 1 6 6 300 300 200
Muestra 2 6 6 300 1000 400
Obtenemos ahora los parámetros de las dos regresiones. El cálculo para la primera muestra es:
 −1    
0 −1 0 50 300 300 2
β̂ = (X X) Xy= = 2 (44)
300 2100 2000 3

Ahora podemos calcular la suma de los errores cuadrados para obtener la R2 y las s2 (vemos el cálculo
para la muestra 1):

e0 e y 0 y − β̂ 0 X 0 y 166.66 4
R2 = 1 − =1− =1− = (45)
Syy Syy 300 9
e0 e 166.66
s2 = = = 3.472 (46)
N −K 50 − 2
Los resultados numéricos para las dos muestras son:
ȳ x̄ R2 s2
2 4
Muestra 1 2 3 9 3.472
4 16
Muestra 2 -2 3 30 9.722

b)
Primero definimos las matices X 0 X, X 0 y y y 0 y para el conjunto de las dos muestras:
   
0 100 600 0 600
y 0 y = 4900
 
XX= Xy= (47)
600 4200 4200

Hacemos exactamente los mismos cálculos como en el punto a) y obtenemos:


ȳ x̄ R2 s2
6
Muestra 1 +2 0 1 13 7.142
Podemos observar que la estimación por MCO usando la muestra conjunta produce estimadores de β
que son justamente el promedio de las estimaciones individuales de cada muestra.

Versión del 14 de agosto de 2019 Página 8


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

c)
   
Primero definimos la matriz X como una matriz en bloques: X = X1 X2 y Ω̂ = s21 s22 ⊗ I50
Vimos que s2m1 < s2m2 , ası́ que queremos estimar el modelo por FGLS para tomar en cuenta la
heterocedasticidad. Ahora podemos desarrollar:
β̂F GLS = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y (48)
 0 h 1 i −1  0 h i y 
1 1 1 1
= X1 X2 s21
⊗ I50 s22
⊗ I50 X1 X2 X1 X2 s21
⊗ I50 s22
⊗ I50 (49)
y2
 −1  
1 0 1 1 0 1
= X X1 + 2 X20 X2 X y1 + 2 X20 y2 (50)
s21 1 s2 s21 1 s2

d)
Dado que en este ejercicio X10 X1 = X20 X2 , podemos simplificar la expresión para βF GLS :
  −1  
1 1 0 1 0 1 0
β̂F GLS = + 2 X2 X2 X y1 + 2 X2 y2 (51)
s21 s2 s21 1 s2
  −1       
1 1 50 300 1 300 1 300 0.9469
= + + = (52)
3.472 9.722 300 2100 3.472 2000 9.722 2200 0.8422

2 Gráficos causales
Ejercicio 7 Construir/dibujar gráficos causales
Este ejercicio no tiene una solución única. A continuación se presenta una propuesta de solución.

a)

Educación Habilitad
de los padres cognitiva

Ingreso

Ingreso de
Educación
los padres

b)

Estatus general de salud Esperanza de vida

Preferencias por la salud* Fumar

Versión del 14 de agosto de 2019 Página 9


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Ejercicio 8 Interpretar gráficos causales para decidir que modelo estimar


a. Sı́, porque al no controlar por X podemos capturar una relación espuria entre D y Y que va vı́a
X

b. No, porque desbloquearı́amos el efecto vı́a X

c. No, porque bloquearı́amos el efecto indirecto vı́a X.

d. En este caso no podemos hacer nada. Incluyendo o excluyendo X no permite identificar el efecto.
Tenemos una relación cı́clica.

e. No es necesario incluir X. Aquı́ X es algo que influye D, pero si queremos tener el efecto de D
sobre Y , no importa a qué se debe el cambio en D.

f. No es necesario incluir X porque es una variable que no tiene relación con Y .

g. No es necesario incluir X para identificar el efecto causal de D sobre Y . Sin embargo, al incluir
podemos potencialmente obtener un estimador más preciso ya que quitamos la heterogeneidad
en Y que se debe a X. La decisión en este caso depende mucho del contexto.

h. No hay que incluir X porque es una variable que depende de Y .

Ejercicio 9 Los diferentes efectos


a. E[C|A, B, D]: Aquı́ controlamos por todas las variables que también influyen directamente en C.
No incluimos E porque su efecto va vı́a A, ası́ que al incluir A ya está en la regresión.

b. E[C|A, B]: Tenemos que incluir B para excluir el efecto indirecto de A vı́a B hacia C. Podrı́amos
incluir D como variable de control, pero no es relevante para la identificación.

c. E[C|A]: Ahora no debemos incluir B porque queremos estimar el efecto total que consiste en
el efecto directo, pero también el efecto que va vı́a B. Nuevamente podrı́amos incluir D como
variable de control, pero no afecta la identificación.

d. E[B|E]: No incluimos A porque nos interesamos al efecto de E sobre B, ası́ que al incluir A
interrumpimos la cadena de causalidad. No incluimos C en este caso porque desbloquearı́a el
efecto vı́a C que no forma parte del efecto total de E sobre B. D es irrelevante para el efecto que
queremos estimar, ası́ que no lo incluimos.

3 Variables instrumentales (IV)


Ejercicio 10 El estimador de Wald
Empezamos con la expresión general del estimador 2SLS:
PN PN
i=1 (zi − z̄)(yi − ȳ) i=1 (zi )(yi − ȳ)
β̂1 = PN = PN (53)
i=1 (zi − z̄)(xi − x̄) i=1 (zi )(xi − x̄)

Versión del 14 de agosto de 2019 Página 10


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

podemos eliminar z̄ porque se trata de una variable binaria y la suma no se ve afectada con este
cambio. Ahora definimos como n1 el número de observaciones para las cuales z = 1. Obtenemos
n1 ȳ1 − n1 ȳ
(54)
n1 x̄1 − n1 x̄
n0 n1
Ahora remplazamos ȳ = n ȳ0 + n ȳ1 lo cual nos da:
n0 n1
n1 (ȳ1 − n ȳ0 − n ȳ1 ) n1 ( nn0 ȳ1 − n0
n ȳ0 )
n1 n0
n (ȳ1 − ȳ0 ) ȳ1 − ȳ0
β̂1 = n0 n1 = = = (55)
n1 (x̄1 − n x̄0 − n x̄1 ) n1 ( nn0 x̄1 − n0
n x̄0 )
n1 n0
n (x̄1 − x̄0 ) x̄1 − x̄0

Ejercicio 11 Prueba ad-hoc de la validez de los instrumentos


Sabemos que: x1 es exógeno, cov(x2 , q) 6= 0, z debe ser redundante en la ecuación estructural (6) y
además si z es una variable instrumental válida para x2 , entonces están parcialmente correlacionadas
y se cumple que la proyección lineal de x2 sobre x1 y z es,

x2 = αx1 + θz + rk
Cumpliendo que θ 6= 0 y cov(z, rk ) = cov(z, u) = 0.Ahora bien, si cov(z, q) 6= 0 deja de ser un
instrumento válido ya que rk contendrı́a la relación que existe entre z y q, provocando que cov(z, rk ) 6=
0. Por otra parte, aún cuando z y x1 son variables exógenas, la cov(x2 , v) 6= 0 en la regresión propuesta
en (7), lo cual indica que dicha regresión también sufre de un problema de endogeneidad, provocando
que los parámetros β0 , β1 , β2 y φ estén sesgados y no sean consistentes, por lo que no es posible realizar
una prueba de hipótesis sobre φ en donde el estadı́stico t asociado sea fiable.

Ejercicio 12 Varianza del estimador IV e instrumentos débiles


a)
√    n o−1 
a 2 0 0 −1 0
Como punto de referencia, recordemos que N β̂ − β ∼ N 0, σ E (x z) · E (z z) E (z x) .
−1 −1 −1
Ahora bien, veamos que β̂ = (z 0 x) z 0 y = (z 0 x) z 0 (xβ + u) = β + (z 0 x) z 0 u, reescribiendo:

−1 √   √
−1 −1
β̂ − β = (z 0 x) z0u ⇒ N β̂ − β = N (z 0 x) z 0 u = N −1/2 N (z 0 x) z 0 u

√   −1  −1/2 0 
N β̂ − β = N −1 z 0 x N z u

h√  i −1  −1/2 0    −1


Avar N β̂ − β = N −1 z 0 x N z V ar(u) N −1/2 z N −1 z 0 x

Sabemos que V ar(u) = σ 2 , lo que implica que


 
h√ 0
" #
zi2
 P 
 i zz 1 1
Avar N β̂ − β = σ2 = σ2
 
z0 x 2
2 
N N
 P
z i xi
N N

Utilizando el principio de analogı́a


h√  i σz2 σ2
Avar N β̂ − β = σ 2 2 =
[σz ρzx σx ] ρzx σx2

Versión del 14 de agosto de 2019 Página 11


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

b)
Por el teorema 5.3 (Wooldrige, 2002) sabemos que los estimados de 2SLS (IV) son eficientes dentro
de la clase de estimadores que usan instrumentos lineales. Por lo tanto, si comparamos la varianza
asintótiva obtenida en (a) con la varianza asintótica usual del teorema de Gauss-Markov no existe
diferencia alguna, dado que ambos estimadores alcanza cota Cramer-Rao.

c)
La varianza asintótica del estimador de IV diverge, dado que es necesario que z esté parcialmente
correlacionado con x, para que sea un instrumento válido.

Ejercicio 13 First stage regression


Utilizando el procedimiento alternativo para la primera etapa de 2SLS:

x∗3 = γ0 + γ1 z + v2 = x̃3 + v2
Donde x̃3 es la proyección lineal de x3 sobre z (sin utilizar las otras variables exógenas x1 y x2 ).
Sustituyendo la ecuación 11 en la ecuación 9, tenemos:
.

y = β0 + β1 x1 + β2 x2 + β3 [x̃3 + v2 ] + u
= β0 + β1 x1 + β2 x2 + β3 x̃3 + [β3 v2 + u]

Definamos a w = [β3 v2 + u] como el error compuesto del procedimiento alternativo y la ecuación 9.


Recordemos que el supuesto clave para que β̂2SLS = (β̂0 β̂1 β̂3 ) sean consistentes y insesgados es que
cada variable (x1 , x2 y x̃3 ) sea ortogonal a w. Veamos que por construcción cov( x̃3 , v2 ) = 0 y por
hipótesis cov( xi , u) = 0 para i = 1, 2. Sin embargo, el problema está en que la cov( xi , v2 ) 6= 0 debido
a que las demás variables exógenas no fueron incluidas en la ecuación 11. Por lo tanto, β̂2SLS está
sesgado y no es consistente en general, es decir:
h i h i
p lı́m β̂2SLS = β + (X̂ 0 X)−1 E X̂w con E X̂w 6= 0
y

E(β̂2SLS ) 6= β
Debido a que E(w|X̂) 6= 0 donde X̂ = (x1 x2 x̃3 ).

Ejercicio 14 Efecto de computadores sobre la calificación


a. La literature encontró en varios estudios que el estatus socio-económico tiene impacto en los
resultados de los alumnos. El error u en la regresión contiene, entre otras cosas, el ingreso de
la familia que tiene un efecto positivo sobre el GPA. Al mismo tiempo, es muy probable que el
ingreso de la familia tiene una correlación positiva con la presencia de una computadora en casa.

b. El ingreso de los padres tiene una correlación positiva con PC porque familias más ricas pueden
comprar más fácilmente una computadora. Por lo tanto la condición de correlación entre el
instrumento potencial y la variable endógena queda satisfecha. Sin embargo, eso no significa que

Versión del 14 de agosto de 2019 Página 12


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

podrı́a ser un instrumento. El problema en este case es que el ingreso de la familia también
tiene un efecto sobre GPA (que no va únicamente a través de P C), por lo tanto la condición de
exogeneidad del instrumento no está satisfecha y no podemos usar el ingreso de la familia como
instrumento. Si el ingreso de la familia fuera la única variable omitida, la podrı́amos incluir como
variable de control y obtener el efecto causal de P C sobre el GPA.
c. En un caso interesante porque se trata de un experimento natural que podemos a priori explotar
para identificar el efecto causal. La idea es que los alumnos que recibieron un voucher tienen
mayor probabilidad de tener una computadora hoy. Es una condición que podemos verificar
fácilmente analizando los datos. La condición de exogeneidad del instrumento deberı́a estar sa-
tisfecha, por lo menos si la distribución de vouchers realmente fue aleatorio. Si por alguna razón
alumnos de familias con poco ingreso tenı́an mayor probabilidad de recibir un voucher, entonces
el instrumento tendrı́a correlación con u y por lo tanto no podrı́amos identificar el efecto.
Suponiendo que la distribución fue realmente aleatoria, tendrı́amos que definir una variable
voucher que toma el valor de 1 si el alumno recibió el voucher y cero en el caso opuesto. Usarı́amos
dicha variable binaria para instrumentar la variable (binaria) PC. OJO: dado que la variable
endógena es una variable binaria, no podemos usar el 2SLS!! Una buena alternativa es usar el
estimador de Wald:

E[GP A|voucher = 1] − E[GP A|voucher = 0]


β̂IV,W ald = (56)
E[P C|voucher = 1] − E[P C|voucher = 0]

Ejercicio 15 Error de medición


a)
La relación que nos interesa verdaderamente es:
y = β0 + β1 x + u (57)
pero únicamente observamos w = x + v. Si ponemos w en la ecuación (57) obtenemos:
y = β0 + β1 w + u − β1 v (58)
| {z }
≡ε

podemos ver de inmediato que E[wε] 6= 0 porque Corr(w, v) > 0. Aunque ya podemos concluir que β̂
será sesgado, vamos a desarrollar la expresión para ver si logramos identificar la dirección del sesgo.
PN
(wi − w̄)(yi − ȳ)
β̂1 = i=1 PN (59)
2
i=1 (wi − w̄)
remplazamos yi por la expresión en ecuación (58):
PN
(wi − w̄)(εi − ε̄)
β̂1 = β1 + i=1 PN (60)
2
i=1 (wi − w̄)
Dividimos el numerador y el denominador por N y tomamos el lı́mite de probabilidad (plim). Usando
E[ε] = 0 podemos simplificar:
1
PN
(wi − w̄)(εi − ε̄) E[wi εi ]
plim β̂1 = β1 + N 1 i=1
PN = β1 + (61)
i=1 (wi − w̄)2 V ar(wi )
N | {z }
sesgo

Versión del 14 de agosto de 2019 Página 13


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Analizamos el segso con más detalle:


E[wi εi ] E[(xi + vi )(ui − β1 vi ) −β1 σv2
= = 2 (62)
V ar(wi ) V ar(xi + vi ) σx + σv2
Poniendo (62) en (61):

σ2
 
plim β̂1 = β1 1− 2 v 2 (63)
σx + σv
Podemos sacar dos conclusiones de ésta expresión:

Si σv2 6= 0 tenemos un estimador no consistente de β1

El sesgo siempre va hacia cero, quiere decir que |β̂1 | < |β1 |

b)
Para ésta pregunta usamos la notación de momentos para describir el estimador IV en el modelo
con una variable explicativa. En el caso de general, el estimador βIV se puede escribir como:
cov(y, z)
βIV = (64)
cov(x, z)
En nuestro caso no observamos x, pero únicamente w = x + v, ası́ que el estimador se vuelve:
cov(y, z) cov(βx + u, z)
βIV = = (65)
cov(w, z) cov(x + v, z)
bajo el supuesto E[uz] = E[vz] = 0 obtenemos:

βσxz
plim β̂IV = =β (66)
σxz
Entonces, si el instrumento no tiene correlación con el error de medición, podemos obtener un estimador
no sesgado!

c)
Como en el punto anterior, usamos nuevamente la notación con las covarianza. Ahora no observamos
z directamente, si no z̃ = z + ξ:
cov(y, z̃) cov(βx + u, z + ξ)
βIV = = (67)
cov(w, z̃) cov(x + v, z + ξ)
βcov(x, z) + βcov(x, ξ) + cov(u, z) + cov(u, ξ)
= (68)
cov(x, y) + cov(x, ξ) + cov(v, z) + cov(v, ξ)
Además de la condición de E[uz] = E[vz] = 0 necesitamos ahora E[ξu] = E[ξv] = E[ξx] = 0. Si dichas
condiciones están satisfechas, todas las covarianzas con excepción de cov(x, z) son iguales a cero y por
lo tanto la ecuación 68 se convierte en:

βcov(x, z)
βIV = =β (69)
cov(x, z)

Versión del 14 de agosto de 2019 Página 14


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Lo que nos muestra eso es que también con un instrumento que tiene un error de medición podemos
obtener un estimador insesgado. Lo único que necesitamos es que este error de medición no tenga
ninguna relación con algún otro elemento, lo cual parece razonable si pensamos en un verdadero error
de medición. A lo mejor podrı́a no cumplirse si pensamos que el error de medición se genera por
sobre- o sub-estimación de las respuestas de las personas y las personas que sobre-estiman x también
sobre-estiman z. En este caso cov(v, ξ) 6= 0 y seguimos con un sesgo.

d)
Este ejercicio describe un problema recurrente en la investigación empı́rica: tenemos más de un
problema econométrico y tenemos un trade-off entre dos soluciones. Aquı́ tenemos en primer lugar un
problema de una variable omitida, porque no podemos observar qi . Al no incluir la variable, vamos a
tener un sesgo en la estimación de nuestro parámetro de interés β1 . Ya vimos que usar un instrumento
puede ser una buena solución, pero no siempre es posible. Al seguir la recomendación del econometrista
e incluir la variable proxy t = q + v corremos el riesgo de un sesgo que se debe al error de medición
v. Vimos que eso puede sesgar la estimación de β2 . El punto crucial aquı́ es que nos interesamos sobre
todo a la estimación no sesgada de β1 . Si ponemos la expresión t = θ0 + θ1 q + v en la regresión,
obtenemos:

y = (β0 + γθ0 ) + β1 x1 + β2 θ0 q + (β2 v + u) (70)

Vemos de inmediato que no vamos a poder identificar β0 y β2 , lo cual no es muy problemático si no


son parámetros de interés. Para que E[β̂1 ] = β1 necesitamos que Cov(β2 v + u, x1 ) = 0. Dado que
Cov(x1 , u) = 0 según el supuesto general del modelo, es suficiente que Cov(v, x1 ) = 0. Entonces, si el
error de medición de la variable proxy de x2 no tiene correlación con la variable de interés x1 , podemos
obtener una estimación no sesgada de β1 .

Ejercicio 16 Simultaneidad: Modelo Keynesiano


a)
Como se puede observar, It es exógena. Sin embargo, tanto Ct como Yt son determinadas simultánea-
mente. Por lo tanto, se tiene un modelo de ecuaciones simultáneas de forma estructural. Como Ct influye
Yt no se puede suponer que Yt y et no estén correlacionadas. Por lo tanto, el estimador MCO de β2
será sesgado e inconsistente. La forma reducida se obtiene cuando las variables endógenas Ct y Yt se
expresen como función de la variable exógena It y el término de error. Despejando para Ct y Yt , se
obtiene la ecuación de forma reducida:

β1 1 1
Yt = + It + et (71)
1 − β2 1 − β2 1 − β2

β1 β2 1
Ct = + It + et (72)
1 − β2 1 − β2 1 − β2

b)
De las ecuaciones anteriores se sigue que

Versión del 14 de agosto de 2019 Página 15


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

1 1 σ2
Cov(Yt , et ) = Cov(It , et ) + V ar(et ) = (73)
1 − β2 1 − β2 1 − β2
Asimismo,
Cov(Yt , et )
plimβ̂2 = β2 + (74)
V ar(Yt )
Donde:
 
1 1 1
V ar(Yt ) = V ar It + et = (V ar(It ) + σ 2 ) (75)
1 − β2 1 − β2 (1 − β2 )2
Con lo cual se obtiene:
σ2
plimβ̂2 = β2 + (1 − β2 ) (76)
V ar(It ) + σ 2 )
Como 0 < β2 < 1 y σ 2 > 0, el estimador de MCO sobre estimará la verdadera propensión marginal a
consumir, β2 .

c)
Una variable exógena que tiene un efecto en la variable endógena puede ser usada como instrumento,
mostrando que se excluye de la ecuación que está siendo estimada. En este modelo simple, se puede
inferir que la inversión It puede ser un instrumento válido para el ingreso Yt .

Ejercicio 17 Error de medición y endogeneidad


a)
Al introducir x∗t = xt − et en yt = β0 + β1 x∗t + ut :
yt = β0 + β1 (xt − et ) + ut = β0 + β1 xt + ut − β1 et (77)
Sustituyendo vt = ut − β1 et y como ut no está correlacionado con x∗t y et ; entonces, ut no está
correlacionado con xt . Como et no está correlacionada con x∗t
E(xt et ) = E[(x∗t + et )et ] = E(x∗t et ) + E(e2t ) = σe2 (78)
Por lo tanto, con vt definida anteriormente,
Cov(xt , vt ) = Cov(xt , ut ) − β1 Cov(xt , et ) = −β1 σe2 < 0 (79)
Y −β1 σe2 < 0 cuando β1 > 0. Como la variable explicativa y el error tienen covarianza negativa, el
estimador de MCO de β1 tiene sesgo hacia abajo.

b)
Recordando los supuestos:
E(x∗t−1 ut ) = E(et−1 ut ) = E(x∗t−1 et ) = E(et−1 et ) = 0 (80)

E(xt−1 ut ) = E(xt−1 et ) = 0 (81)


Entonces,
E(xt−1 vt ) = E(xt−1 ut ) − β1 E(xt−1 et ) = 0 (82)

Versión del 14 de agosto de 2019 Página 16


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

c)
La mayorı́a de las series de tiempo están correlacionadas positivamente en el tiempo, algunas excep-
ciones ocurren cuando la serie representa la primera diferencia o series en cambios porcentuales.

d)
Con los supuestos, xt−1 es exógena en

yt = β0 + β1 xt + vt (83)

Asimismo, xt−1 estará frecuentemente correlacionada con xt . Esto sugiere que se puede estimar la
ecuación por variables instrumentales, donde xt−1 es la variable instrumental de xt .

4 SUR y SEM
Ejercicio 18 Notación de modelos con múltiples ecuaciones.
Empezamos analizando la notación inicial

y1 = β10 + β11 x1 + β12 x2 + u1 (84)


y2 = β20 + β21 x1 + β22 x2 + u2 (85)

Cabe señalar que dicha expresión ya usa una notación matricial:


y1 X1 u1
z }| { z }| { β1 z }| {
  
y11 1 x11 x21 
 z }| {  u11 

 y12  1 x12 x2n  β10
    u12 
 
 .  = . ..  β11 +  ..  (86)
  
..
 ..   .. . .  β  . 
12
y1n 1 x1n x2n u1n
  
y21 1 x11 x21  
 
u21

 y22  1 x12 x2n  β20
    u22 
 
 .  = . β + (87)
  
.. .. 21 . 
 ..   ..  .. 
 
. .  β
22
y2n 1 x1n x2n | {z } u2n
| {z } | {z } β2 | {z }
y2 X2 u2

Vemos que la matriz X es la misma en ambas ecuaciones, mientras que las demás matrices son distintas.
Ahora podemos empilar todas las matrices y obtenemos:
      
y1 X1 0 β1 u
= + 1 (88)
y2 0 X2 β2 u2
|{z} | {z } | {z } | {z }
≡y ≡X ≡β ≡u

y = Xβ + u (89)

lo cual nos da la notación más sencilla. La matrices en la ecuación (89) tienen las siguientes dimensiones:

y(2n×1) = X(2n×2k) β(2k×1) + u(2n×1) (90)

Versión del 14 de agosto de 2019 Página 17


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Ejercicio 19 Identificación de un modelo SEM


a)

       
1 0 0 y1 β11 β12 β13 x1 u1
α21 1 1 − α21  y2  + β21 β22 0  x2  = u2  (91)
α31 α32 1 y3 β31 β32 β33 x3 u3
| {z } | {z } | {z } | {z } | {z }
A Y B X U

b)

      
1 0 0 c11 c12 c13 β11 β12 β13 0 0 0
α21 1 1 − α21  c21 c22 c23  + β21 β22 0  = 0 0 0 (92)
α31 α32 1 c31 c32 c33 β31 β32 β33 0 0 0

c)
g=1

 
1 0 0
0 1 0
 
0
 0 1 

p01 Φ1 = λ1 ⇔
 
α11 α12 α13 β11 β12 β13  = 1 0 0 (93)
0 0 0
 
0 0 0
0 0 0

g=2

 
0 1 0
1 0 0
 
0
 1 0 

p02 Φ2 = λ2 ⇔
 
α21 α22 α23 β21 β22 β23  = 1 1 0 (94)
0 0 0
 
0 0 0
0 0 1

g=3

 
0
0
 
1  
 
p03 Φ3 = λ3 ⇔

α31 α32 α33 β31 β32 β33   = 1 (95)
0
 
0
0

Versión del 14 de agosto de 2019 Página 18


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

d)
Si usamos la condición del orden, obtenemos los siguientes resultados:

g Rg G Condición del orden Conclusión


1 3 3 pasa puede estar identificada
2 3 3 pasa puede estar identificada
3 2 3 no pasa no está identificada

En el caso de la ecuación 3 podemos decir con certeza que no está identificada. Para las primeras dos
ecuaciones todavı́a no podemos decir nada, porque la condición del orden es únicamente necesaria,
pero no suficiente!

e)
Ahora aplicamos el método de las ’estructuras equivalentes’. Definimos la matriz M como:

 
m11 m12 m13
m21 m22 m23  (96)
m31 m32 m33

Entonces, M A = A y M B = B nos da respectivamente:

m11 + m12 α21 + m13 α31 m12 + m13 α32 m12 (1 − α21 ) + m13
   
1 0 0
m21 + m22 α21 + m23 α31 m22 + m23 α32 m22 (1 − α21 ) + m23  = α21 1 1 − α21 
m31 + m32 α21 + m33 α31 m32 + m33 α32 m32 (1 − α21 ) + m33 α31 α32 1
(97)
   
β31 m13 + β21 m12 + β11 m11 β32 m13 + β22 m12 + β12 m11 β33 m13 + β13 m11 β11 β12 β13
β31 m23 + β21 m22 + β11 m21 β32 m23 + β22 m22 + β12 m21 β33 m23 + β13 m21 = β21
  β22 0 
β31 m33 + β21 m32 + β11 m31 β32 m33 + β22 m32 + β12 m31 β33 m33 + β13 m31 β31 β32 β33
(98)

Podemos sacar todos los elementos A(i, j) 6= αij y obtenemos un sistema de ecuaciones:


 m11 + m12 α21 + m13 α31 = 1 (a)





 m 12 + m13 α32 = 0 (b)

m12 (1 − α21 ) + m13 = 0 (c)



m22 + m23 α32 = 1 (d) (99)

m22 (1 − α21 ) + m23 = 1 − α21 (e)









 m32 (1 − α21 ) + m33 = 1 (f )

β33 m23 + β13 m21 = 0 (g)

Si combinamos la (b) y (c), podemos concluir que m12 = 0 y que m13 = 0. Usando este resultado en
(a), vemos que m11 = 1. Entonces pudimos identificar todos los elementos de la primera ecuación de
nuestro sistema.
Para la segunda ecuación de nuestro sistema tenemos también 3 ecuaciones. Las ecuaciones (d) y (e)
vienen de las restricciones sobre A y la ecuación (g) viene de la restricción en B. Podemos combinar

Versión del 14 de agosto de 2019 Página 19


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

(d) y (e) para obtener primero m23 = 0. Usando este resultado en (e) obtenemos m22 = 1 y luego
poniendo eso en (f) nos permite ver que m21 = 0. Podemos concluir que la ecuación 2 está identificada.
Lo ’bonito’ de este enfoque es que podemos ver de inmediato de donde viene la identificación. Mientras
que para la primera ecuación no se requiere ninguna restricción sobre B, la identificación de la segunda
ecuación se puede comprobar únicamente cuando usamos la restricción en B también (no podrı́amos
identificar los elementos sin la ecuación (g)).
Para la tercera ecuación tenemos únicamente (f) con 3 variables desconocidas. Es imposible resolver
identificar los elementos y por lo tanto la ecuación 3 no está identificada. Este resultado ya obtuvimos
con la condición del orden.
Entonces, la conclusión es que únicamente la primera y la segunda ecuación están identificadas y que
el sistema en general no está identificado.

5 Datos de panel
Ejercicio 20 Estimar DiD por MCO con interacciones
a)
Para evitar todo tipo de confusión, empezamos definiendo cada variable en el modelo1 .
(
1 Grupo de tratamiento (siempre 1, también antes del tratamiento
D= (100)
0 Grupo de contról
(
0 Periodo antes del tratamiento
T = (101)
1 Periodo después del tratamiento

Nos da los siguientes valores de T y D:

Pre-tratamiento Post-tratamiento
Grupo de contról D = 0, T=0 D=0,T=1
Grupo de tratamiento D = 1, T=0 D=1,T=1

Ahora, estimamos la siguiente ecuación

Y = α0 + α1 D + α2 T + α3 DT + Xβ + u (102)

donde X es una matriz de variable de contról y β los parámetros correspondientes.


Podemos calcular los valores esperados de los diferentes elementos vistos en clase:

E[Y0C |X] = α0 + Xβ (103)


E[Y1C |X] = α0 + α2 + Xβ (104)
E[Y0T |X] = α0 + α1 + Xβ (105)
E[Y1T |X] = α0 + α1 + α2 + α3 + Xβ (106)

1 Algunos autores usan una notación ligeramente diferente, lo cual puede resultar en una confusión importante

Versión del 14 de agosto de 2019 Página 20


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Calculamos ahora el cambio esperado de cada grupo a lo largo del tiempo:

∆C = E[Y1C |X] − E[Y0C |X] = (α0 + α2 + Xβ) − (α0 + Xβ) (107)


= α2 (108)
∆T = E[Y1T |X] − E[Y0T |X] = (α0 + α1 + α2 + α3 + Xβ) − (α0 + α1 + Xβ) (109)
= α2 + α3 (110)

Y finalmente, podemos calcular la diferencia en dichos cambios:

αDiD = ∆T − ∆C = α2 + α3 − α2 = α3 (111)

entonces, el efecto causal del tratamiento se estima simplemente por α3 , el parámetro del término de
interacción.

b)
α2 es la tendencı́a temporal que hubiera occurido sin tratamiento. α0 captura el nivel de Y para el
grupo de control durante el periodo antes del tratamiento y α1 nos indica la diferencia que habı́a entre
los dos grupos antes del tratamiento.
Nota que en el caso de experimentos, se supone normalmente que α1 = 0. Usando el modelo DiD no
tenemos que hacer dicho supuesto porque estimamos el parámetro α1 .

Ejercicio 21 Inversión de capital


a)
Las decisiones de inversión se ven afectadas por las condiciones macroeconómicas (internacionales y
nacionales) por lo que es importante reconocer dichos factores a través de interceptos no fijos a lo largo
del tiempo. Por ejemplo, al estudiar las decisión de inversión para los EE.UU. serı́a correcto reconocer
un cambio estructural en los datos para las fechas posteriores a las crisis económica de 2008.

b)
El término Ci busca reconocer efectos no-observados pero constantes en el tiempo que afecten las
decisiones de inversión, podrı́an deberse a caracterı́sticas particulares de los paı́ses. Por ejemplo: condi-
ciones polı́ticas, criminalidad o corrupción podrı́an ser factores que afecten la confianza empresarial, o
leyes fiscales acomodaticias para ciertos sectores de la población que afecten directamente a la decisión
de inversión y/o a las variables exógenas, como la tasa impositiva. En el último ejemplo, si los datos
fuesen de corte transveral ¿cómo se tendrı́a que proseguir con la variable de impuestos?

c)
La teorı́a macroeconómica clásica señala que un impuesto al capital (inversión), consumo, ingre-
so, etc. distorsionan las decisión intertemporal de los agentes, que en última instancia provoca una
reasignación en su selección de consumo, inversión y oferta de trabajo. Por lo tanto, δ1 < 0, si todo
permanece constante, una mayor tasa impositiva provocará una disminución en la inversión.

d)
Al inicio correrı́a pooled OLS con matriz de varianza-covarianza robusta (heterocedasticidad y auto-
correlación), harı́a un análisis preliminar de los residuos del modelos (para detectar posibles violaciones

Versión del 14 de agosto de 2019 Página 21


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

a los supuestos del modelo clásico) y revisarı́a si los signos de los parámetros coinciden con la intuición
económica del modelo. Después correrı́a el modelos de efectos fijos bajo los supuestos de estricta exoge-
neidad de las variables independientes; si los residuales del modelo están serialmente correlacionados
proseguirı́a a aplicar el método de primeras diferencias y volverı́a a estima el modelo y adicionalmente
harı́a una prueba de autocorrelación a los residuales diferenciados, de no ser ası́, recuperarı́a de la
matriz de varianza-covarianza robusta a heterocedasticidad para proseguir con la labor de inferencia.

e)
Dado que los desastres obedecen a situaciones naturales, ajenas a las decisiones de los agentes, la
condición de exogeneidad se cumple con certeza. Sin embargo, un cambio permanente en la polı́tica
fiscal modifica el estado estable de las decisiones de consumo e inversión de los agentes, haciendo
que la condición de exogeneidad no se cumpliera necesariamente. Otra posibilidad es que los agentes
resuelvan su problema de optimización, considerando a su expectativa de polı́tica fiscal como una
restricción adicional a su problema de optimización, lo cual harı́a que nuevamente, la condición de
exogeneidad fallara en nuestro modelo de efectos fijos.

Ejercicio 22 Primeras diferencias y efectos fijos


a) FE = FD si T=2
Para simplificar la notación, omitimos el ı́ndice i en la ecuación y usamos t = {0, 1}. Empezamos
con el modelo por efectos fijos y reemplazamos los promedios por su expresión completa:

y1 − ȳ = (x1 − x̄)β1 + u1 − ū (112)


y1 + y0 x1 + x0 u1 + u0
y1 − = (x1 − )β1 + u1 − (113)
2 2 2
y1 − y0 x1 − x0 u1 − u0
=( )β1 + − (114)
2 2 2
y1 − y0 = (x1 − x0 )β1 + (u1 − u0 ) (115)
∆y1 = ∆x1 β1 + ∆u1 (116)

lo cual es simplemente el estimador por primeras diferencias!

b) Mostrar que E[β̂] = β


Dado que el modelo se estima por MCO, la prueba es muy similar al modelo estándar.
"P #
N
i=1 (xi1 − xi0 )(yi1 − yi0 )
E[β̂] = E PN (117)
2
i=1 (xi1 − xi0 )

Reemplazamos y1 y y0 por sus valores reales:


"P #
N
i=1 (x i1 − x i0 )(αi + x i1 β + u i1 − αi − x i0 β − u i0 )
E[β̂] = E PN (118)
2
i=1 (xi1 − xi0 )
" PN #
1 2 2
N i=1 (xi1 β + xi1 ui1 − xi1 xi0 β − xi1 ui0 − xi0 xi1 β − xi0 ui1 + xi0 β + xi0 ui0 )
=E 1
PN (119)
2
N i=1 (xi1 − xi0 )

Podemos eliminar todos los elementos con ui0 y ui1 porque suponemos que E[xit uis ] = 0 ∀t, s = 0, 1.
Nos quedamos con:

Versión del 14 de agosto de 2019 Página 22


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

" PN #
β N1 i=1 (xi1 − xi0 )
2
E[β̂] = E 1
PN
=β (120)
2
N i=1 (xi1 − xi0 )

c) FE vs FD cuando T=3
Como para el caso de T = 2, usamos una notación simplificada. Ahora tenemos t = {1, 2, 3} y
hacemos el cálculo para t = 2. Hacemos los mismos pasos que hicimos antes:

y2 − ȳ = (x2 − x̄)β1 + u2 − ū (121)


y1 + y2 + y3 x1 + x2 + x3 u1 + u2 + u3
y2 − = (x2 − )β1 + u2 − (122)
3 3 3
∆y2 = ∆x2 β1 + ∆u2 − ∆y3 + ∆x3 β1 + ∆u3 (123)
| {z } | {z }
Estimador FD diferencia

Nota que E[∆y3 + ∆x3 β1 + ∆u3 ] = 0

d)
Ver punto b), para ambos modelos hay que seguir exactamente los mismos pasos.

Ejercicio 23 Efectos aleatorios


a)
E[eit ] = E[vit − λv¯i ] = E[vit ] − λE[v̄i ] = 0 porque E[vit ] = 0

b)

V ar[vit − λv̄i ] = V ar[vit ] + λ2 V ar[v̄i ] − 2λCov[vit , v̄i ] (124)


= σv2 2
+ λ E[v̄i ] − 2λE[vit v̄i ] (125)
2
Sabemos que σv2 = E[vit ] = σa2 + σu2 . Además tenemos:
T
1X
E[vit v̄i ] = E[vit vis ] (126)
T s=1
1 2
{E[vit vi1 ] + .. + E[vit
= ] + .. + E[vit viT ]} (127)
T
1
= {σa2 + .. + (σa2 + σu2 ) + .. + σa2 } (128)
T
σ2
= σa2 + u (129)
T
PT σ2
y equivalente podemos mostrar que E[v̄i2 ] = T1 t=1 E(vit v̄i ) = σa2 + Tu . Eso nos permite modificar la
expresión (125):

σu2 σ2
V ar[vit − λv̄i ] = (σa2 + σu2 ) + λ2 (σa2 + ) − 2λ(σa2 + u ) (130)
T T

Versión del 14 de agosto de 2019 Página 23


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

√ 2 2
η σu σu
Ahora definimos λ = 1 − √
γ donde η ≡ T y γ ≡ σa2 + T lo cual nos simplifica la notación:

σ2 σ2
V ar[vit − λv̄i ] = (σa2 + σu2 ) + λ2 (σa2 + u ) − 2λ(σa2 + u ) (131)
T T
 √   √ 2
η η
= (σa2 + σu2 ) − 2 1 − √ γ+γ 1− √ (132)
γ γ

√ √ η η
= (σa2 + σu2 ) − 2γ + 2 η γ + (1 − 2 √ + )γ (133)
γ γ
√ √ √ √
= (σa2 + σu2 ) − 2γ + 2 η γ + γ − 2 η γ + η (134)
= (σa2 + σu2 ) +η−γ (135)
σu2 σu2
= (σa2 + σu2 ) + − σa2 − = σu2 (136)
T T

c)
La propiedad muestra que los errores son homoscedasticos, lo cual es una condición para que el
estimador por pooled OLS proporcione errores estándares correctos.

d)
Tenemos que mostrar que E[eit eis ] = 0 ∀ s 6= t. La prueba es bastante similar al ejercicio anterior:

E[eit eis ] = E[(vit − λv̄i )(vis − λv̄i )] (137)


2
= E(vit vis ) − λE(v̄i vis ) − λE(vit v¯i ) + λ E(v̄i2 ) (138)
σu2 σu2
   
2 2 2 2
= σa − 2λ σa + + λ σa + (139)
T T
 √   √ 2
η η
= σa2 − 2 1 − √ γ+ 1− √ γ (140)
γ γ
√ √ √ √
= σa2 − 2γ + 2 η γ + γ − 2 η γ + η (141)
= σa2 +η−γ (142)
σu2 σu2
= σa2 + − σa2 − =0 (143)
T T

e)
La propiedad muestra que no tenemos correlación serial (serial correlation), lo cual es importante
para que podamos estimar el modelo transformado por pooled OLS y obtener los errores estándares
correctos.

f)
Recordemos que los supuestos básico para implementar el modelo de efectos aleatorios son:
E(uit |xi , ci ) = 0 para todo t e independencia entre el efecto aleatorio y las variables independientes.
También se requiere que E(ui u0i |xi , ci ) = σu2 y E(c2i |xi ) = σc2 para asegurar que E(vi vi0 |xi ) = E(vi vi0 ),
lo que implica que las varianzas condicionales sean constantes y las covarianzas cero. Con base a lo
anterior, podemos decir que Ω = σu2 IT + σc2 JT JT0 (donde JT es un vector de unos con T renglones) y
con ello, utilizar sus estimadores muestrales para construir la matriz Ω̂, poderar y utilizar el estimador
de beta para efectos aleatorios.

Versión del 14 de agosto de 2019 Página 24


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Sin embargo, ¿Qué pasa si Ω̂ 6= E(vi vi0 )? puede emplearse un método alternativo de FGLS tomando
como herramienta los residuos de regresión lineal de pooled effects de tal forma que
N
X
Ω̂ = N −1 (ei,pooled )(e0i,pooled ) (144)
i=1

matriz que ponderará todas las observaciones de las variables independiente y la variable dependiente,
utiliando los residuales al cuadrado de la regresión por pooled effects. En términos asintóticos, este
último procedimiento es igual o mejor en términos de eficiencia (Entonces, ¿Por qué no proseguir
siempre por RE FGLS?).

6 Modelos de variables limitadas


Ejercicio 24 Regresión lineal por MV
a)
Para poder estimar el modelo de la regresión simple por máxima verosimilitud, tenemos que suponer
una distribución del término de error. Suponemos que ui ∼ N ID(0, σ 2 ) donde N ID significa normally
and independently distributed. Ahora podemos describir la función de densidad de yi :
(yi − β0 − β1 xi )2
 
2 1
f (yi |xi ; β0 , β1 , σ ) = √ exp − (145)
2πσ 2 2σ 2
Gracias al supuesto de independencia, podemos obtener fácilmente la distribución conjunta de y1 , ..., yN :
2 Y N
(yi − β0 − β1 xi )2
  
2 1
f (yi |xi ; β0 , β1 , σ ) = √ exp − (146)
2πσ 2 i=1
2σ 2
Ahora podemos definir la función de log-verosimilitud tomando el logaritmo de la función de densidad
conjunta y cambiando los argumentos de la función a β0 , β1 y σ 2 :
N
N 1 X (yi − β0 − β1 xi )2
log L(β0 , β1 , σ 2 ) = − log(2πσ 2 ) − − (147)
2 2 i=1 σ2
Vemos que la primera parte de la expresión no depende de β0 y β − 1, ası́ que podemos maximizar
únicamente la segunda parte. Nos da exactamente el mismo cálculo como para el estimador MCO, ası́
que βM V = βM CO (ver el capı́tulo de MCO para los detalles del cálculo).
2
Para obtener el estimador σM V definimos primero el error ui = yi − β̂0 − β̂1 xi y obtenemos la función
de log-verosimilitud:
N
N 1 X u2i
log L(β0 , β1 , σ 2 ) = − log(2πσ 2 ) − − (148)
2 2 i=1 σ 2

calculamos la primera derivada con respecto a σ 2 y obtenemos la condición de primer orden:


N
N 2π 1 X u2i
− 2
+ =0 (149)
2 2πσ 2 i=1 σ 4

resolvemos por σ 2 :
N
2 1 X 2
σ̂M V = u (150)
N i=1 i

Versión del 14 de agosto de 2019 Página 25


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

b)
Como ya vimos en la parte a), el estimador de β0 y de β1 por máxima verosimilitud es equivalente
al estimador por MCO. Al contrario, el estimador de σ 2 nos da otra expresión si lo estimamos por
máxima verosimilitud:

β̂M V = β̂M CO (151)


N N
2 1 X 1 X
σ̂M V = ε2i < σ̂M
2
CO = ε2i (152)
N i=1
N −k i=1

c)
La solución más sencilla es calcular el estimador no sesgado de σ 2 y después compararlo con el
estimador por MV.
Los residuos de la estimación por mı́nimos cuadrados se pueden escribir como:

u = M y = M [Xβ + ε] = M ε (153)

donde M es una matriz de proyección y por definición tenemos M X = 0. Un estimador de σ 2 será


basado en la suma de los residuos cuadrados:

u0 u = ε0 M ε (154)

Tomamos el valor esperado:

E[u0 u] = E[ε0 M ε] (155)

dado que ε0 M ε es una matriz 1 × 1, el único elemento es igual a la traza (trace). Podemos usar la
propiedades de la traza para obtener:

E[tr(ε0 M ε)|X] = E[tr(M ε0 ε)|X] (156)

dado que M es una función de X, podemos sacar M del valor esperado:

tr(M E[ε0 ε]) = tr(M σ 2 I) = σ 2 tr(M ) (157)

Ahora tenemos que calcular tr(M ). Sabemos que M = IN − X(X 0 X)−1 X 0 , entonces:

tr(IN − X(X 0 X)−1 X 0 ) = tr(IN ) − tr(X(X 0 X)−1 X 0 ) = tr(IN ) − tr(Ik ) = N − k (158)

Por lo tanto:

E[u0 u|X] = (n − k)σ 2 (159)


1
σ2 = E[u0 u|X] (160)
N −k
2 2
Ahora es fácil mostrar que E[σ̂M V ] 6= σ :
"N #
1 X 1 1 N −k 2
2
E[σ̂M V]= E ε2i = E[u0 u|X] = (N − k)σ 2 = σ < σ2 (161)
N i=1
N N N

Versión del 14 de agosto de 2019 Página 26


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Ejercicio 25 Máxima verosimilitud: distribución de Poisson


Definimos primero la función de log-verosimilitud:
N
X
log L(λ) = [−λ + yi ln(λ) − ln(yi !)] (162)
i=1

Podemos ignorar el último elemento de la expresión, porque no depende de nuestro parámetro de


interés λ. Calculamos la condición de primer orden:
N 
X yi 
−1 + =0 (163)
i=1
λ
PN
i=1 yi
=N (164)
λ
N
1 X
λ̂ = yi (165)
N i=1

A notar que en este ejercicio estamos viendo el estimador de la distribución de Poisson, no estamos
viendo el estimador de la regresión de Poisson. Vamos a ver dicha regresión más adelante. La idea del
estimador es muy similar a lo que hicimos aquı́, se recomienda hacerlo como ejercicio adicional a la
hora de ver el modelo de la regresión de Poisson.

Ejercicio 26 Probit: estimador MV


Podemos expresar la probabilidad condicional del modelo probit como2 :

x0i α
   0 
∗ 0 0 ui xi α
P (yi = 1) = P (yi ≥ 0) = P (xi α + ui ≥ 0) = P (ui ≥ −xi α) = P ≥− =Φ (166)
σ σ σ

Entonces, podemos describir la probabilidad en función de la densidad normal estándar:



1 con probabilidad p = Φ x0i α
 
i σ
yi = (167)
0 con probabilidad 1 − pi

Lo cual nos permite construir la función de densidad y luego la función de verosimilitud:


y   0 1−yi
x0i α i

xi α
P (Yi = yi ) = Φ 1−Φ (168)
σ σ
N  0
y i
  0 1−yi
2
Y xi α xi α
L(y; α, σ ) = Φ 1−Φ (169)
i=1
σ σ

Ahora tomamos el logaritmo natural para obtener la función de log-verosimilitud:


N    0    0 
X xi α xi α
ln L(y, α, σ 2 ) = yi ln Φ + (1 − yi ) ln 1 − Φ (170)
i=1
σ σ
2 Usamos α en lugar de β aquı́ porque después haremos un cambio de sı́mbolo

Versión del 14 de agosto de 2019 Página 27


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

α
Vemos que no podemos identificar α y σ de manera separada. Por lo tanto definimos β = σ y obtene-
mos:
N
X
ln L(y, β) = {yi ln [Φ (x0i β)] + (1 − yi ) ln [1 − Φ (x0i β)]} (171)
i=1

lo cual podemos derivar con respecto a β para obtener la condición de primer orden:

d ln L
(y, β) = 0 (172)

N 
Φ0 (x0i β) Φ0 (x0i β)
X 
⇔ yi xi − (1 − yi ) xi = 0 (173)
i=1
Φ(x0i β) 1 − Φ(x0i β)
N 
φ(x0i β) φ(x0i β)
X 
⇔ yi x i − (1 − yi ) x i =0 (174)
i=1
Φ(x0i β) 1 − Φ(x0i β)
N 
[yi − Φ(x0i β)] φ(x0i β)xi
X 
⇔ ≈0 (175)
i=1
Φ(x0i β) [1 − Φ(x0i β)]

dicha expresión no tiene una solución analı́tica, por lo tanto indicamos el sı́mbolo de una aproximación
(≈). Se requiere una optimización numérica para obtener una estimación de β.

Ejercicio 27 Efectos marginales en el modelo probit


a)
Primero, es importante acordarse que los parámetros del modelo probit no son los efectos marginales,
ası́ que no podemos interpretar directamente el valor del parámetro. Lo que sı́ podemos interpretar es
la significáncia y la dirección del efecto.
En este caso observamos un efecto de 0.02 para la variable age, lo cual nos indica que a mayor edad,
la probabilidad de estar en una situación de desempleo es mayor.
El efecto negativo de la variable tenure nos indica que a mayor antigüedad en el empleo, menor es la
probabilidad de estar en desempleo.
Dado que las dos variables tienen la misma unidad (años), podemos decir algo sobre el tamaño relativo
del efecto. Vemos que el efecto negativo de la edad es aproximadamente el doble del efecto positivo
de antigüedad. Ası́ que la probabilidad de desempleo de una persona que sigue en el mismo empleo
aumenta porque el efecto de la edad es mayor al efecto de la antigüedad.

b)

P [unemployed|edad = 40, tenure = 15] = Φ(−1.5 + 0.02 × 40 − 0.01 × 15) (176)


= Φ(−0.85) = 0.1977 = 19.77 % (177)

c)

Versión del 14 de agosto de 2019 Página 28


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

∂P (X) ∂P (X)
Edad Tenure z P (X) = Φ(z) ∂edad = 0.02φ(z) ∂tenure = −0.01φ(z)
Persona 1 55 10 -0.5 0.309 0.70 % -0.35 %
Persona 2 26 5 -1.03 0.152 0.47 % -0.23 %
Persona 3 45 12 -0.72 0.236 0.62 % -0.31 %
AME 0.596 % -0.30 %
Promedio 42 9 -0.75 0.227 0.60 % -0.30 %
En las primeras tres lı́neas de la tabla calculamos primero el argumento de la densidad normal. Después
obtenemos el efecto marginal multiplicando la densidad evaluada en el argumento calculado y el coefi-
ciente estimado. Nos da un efecto marginal para cada individuo y cada indicador. Para obtener el AME
(average marginal effect) simplemente calculamos el promedio de los efectos marginales individuales.
La otra manera de calcular el efecto marginal es primero calcular el promedio de cada caracterı́stica
(edad y antiguedad). Luego se calcula nuevamente el argumento z para el promedio y se calcula el
efecto marginal de la misma manera como para los individuos. Obtenemos el marginal effect at the
mean (MEM).
En este caso podemos observar que los dos efectos marginales son casi idénticos y la conclusión económi-
ca no depende de la manera de calcular los efectos marginales.
La interpretación económica aquı́ es que con cada año más de edad, la probabilidad de estar en
desempleo aumenta de 0.6 %. Con cada año de antigüedad baja de 0.3 %.

Ejercicio 28 Normalización en el modelo probit


Empezamos con los supuestos que normalmente tenemos y consideramos el siguiente modelo:

P (Y = 1|X) = P (y ∗ > 0|X) = Φ (α + β1 x1 + β2 x2 ) (178)

con

y ∗ = α + β1 x1 + β2 x2 + ε (179)
ε ∼ N (0, 1) (180)

Vemos ahora que se puede generalizar el supuesto de ε ∼ N (0, 1) a ε ∼ N (a, σ 2 ).

a)
Consideramos primero ε ∼ N (0, σ 2 ), ası́ que nuestro modelo cambia a

y ∗ = α + β1 x 1 + β2 x 2 + σ 2 ε (181)
y∗ α β1 β2
2
= 2 + 2 x1 + 2 x2 + ε (182)
σ σ σ σ
vemos que cada parámetro se divide por una constante. Dado que el parámetro es algo que tenemos
que estimar de todas formas, podemos redefinir cada razón por otro coeficiente:
y∗
= δ 0 + δ 1 + δ 2 x2 + ε (183)
σ2
y∗
además, dado que y ∗ no tiene ninguna escala definida, tenemos y ∗ ∼
= σ2 Por lo tanto, el modelo en
(183) es equivalente al modelo en (179).

Versión del 14 de agosto de 2019 Página 29


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

b)
Ahora vemos lo que pasa si en lugar de suponer

P (y = 1|X) = P (y ∗ > 0|X) (184)

suponemos

P (y = 1|X) = P (y ∗ > a|X) (185)

Nuestro modelo ahora es:

P (y ∗ > a|X) = P (α + β1 x1 + β2 x2 + ε > a|X) (186)


 

= P α − a +β1 x1 + β2 x2 + ε > 0|X  (187)


| {z }
≡β0

= P (β0 + β1 x1 + β2 x2 + ε > 0|X) (188)

β0 es igual de desconocido como lo fue α, ası́ que este modelo transformado es exactamente equivalente
al modelo anterior!.

Ejercicio 29 Error estándar de efectos marginales


Tenemos el modelo:
 
P (Y\
= 1|X) = Φ α̂ + β̂1 x1 + β̂2 x2 (189)

a) Efecto marginal

∂ P (Y\= 1|X)  
= φ α̂ + β̂1 x1 + β̂2 x2 β̂1 ≡ γ̂1 ≡ h1 (β) (190)
∂x1

b) Varianza de γ̂1

K  2
∂h1 (β)
V ar(γ̂1 ) ∼
X
= V ar(β̂k ) (191)
βk
k=1
h i2
= V ar(β̂1 ) φ0 (α̂ + β̂1 x1 + β̂2 x2 )β̂1 x1 + φ(α̂ + β̂1 x1 + β̂2 x2 )
h i2
+ V ar(β̂2 ) φ0 (α̂ + β̂1 x1 + β̂2 x2 )β̂1 x2 (192)

Ejercicio 30 Dı́as en el hospital


a)
No es buena idea estimar una regresión log-lineal por MCO en este caso. Hay principalmente dos
razones porque no deberı́amos estimar este modelo:

Versión del 14 de agosto de 2019 Página 30


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

a. Mucha gente no va al hospital durante un año, ası́ que seguramente tenemos muchas observaciones
con el valor cero. Sin embargo, el logaritmo natural no está definido para el valor de cero, ası́
que perderı́amos todas las observaciones con cero dı́as en el hospital. Nos causarı́a un sesgo de
muestra importante porque perderı́amos a la gente más sana de la población.

b. Tı́picamente una variable como dı́as en el hospital tiene una concentración de valores cerca de
cero. Si usamos un modelo diseñado por este tipo de variables, podemos obtener una estimación
más eficiente.

b)
El modelo Poisson resuelve precisamente los problemas anteriormente mencionados. Por un lado no
tiene ningún problema en incluir los valores cero y de otro lado se puede esperar que la estimación sea
más eficiente, ya que la distribución de Poisson tiene una concentración de valores chicos.

c)
El modelo Poisson (debido a la distribución de Poisson) tiene la restricción de E[dias|X] = V ar[dias|X].
Podrı́amos estimar un modelo binomial negativo.

Ejercicio 31 Patentes
a) La variable patents es una variable de recuento, ası́ que es preferible estimar la ecuación con un
modelo para datos de recuento en lugar de tomar un modelo lineal. En este caso la regresión Poisson
es un buen candidato.

b) El parámetro β1 es el coeficiente de log(sales) y no de sales, por lo tanto tenemos que interpretarlo


como una elasticidad. Entonces, β1 es la elasticidad de E[patents|sales, RD] con respecto a sales.

c) Usamos la regla de la cadena para obtener la derivada parcial de exp[β0 + β1 log(sales) + β2 RD +


β3 RD2 ] con respecto a RD:

∂E[patents|sales, RD]
= (β2 + 2β3 RD) × exp[β0 + β1 log(sales) + β2 RD + β3 RD2 ] (193)
∂RD

Ejercicio 32 Truncado, top-coded o censurado?


a. El número de horas de trabajo al dı́a es una variable censurada, tanto en el mı́nimo de cero
(nadie puede trabajar menos de cero horas) como en el máximo de 24 horas. Por supuesto, el
lı́mite inferior es mucho más relevante en este caso, porque nadie trabaja realmente 24 horas al
dı́a. Sin embargo, si uno toma encuestas, hay gente que indica un número muy alto de horas de
trabajo por dı́a/semana, ası́ que en un estudio empı́rico hay que analizar ambos lı́mites.

b. Es el tı́pico ejemplo de una variable truncada en el lı́mite superior (valor máximo que reporta
la encuesta). También es una variable censurada en el lı́mite inferior, porque nadie puede ganar
un salario negativo.

c. El gasto no puede ser negativo, ası́ que tenemos una variable censurada en cero.

Versión del 14 de agosto de 2019 Página 31


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

d. Es el ejemplo de una variable truncada, porque sı́ existe gente que gana menos de 400.000 pesos,
pero no aparecen en la base de datos, si no hacen su declaración de impuestos.

e. Es una variable censurada en cero, porque no se paga un impuesto negativo (por lo menos si
nos enfocamos únicamente en el ISR y no consideramos subsidios como impuestos negativos).

f. La calificación del alumno es una variable censurada en ambos lı́mites, tı́picamente en cero y
diez.

Ejercicio 33 Función de ahorro de las familias


a) MCO no tiene sesgo, porque estamos eligiendo la muestra basándonos en una variable exógena.
La función de regresión para la población es la misma como para la sub-población de edad > 25. Eso
se debe al supuesto que nuestra relación entre ’sav’ y las variables explicativas es la correcta. Por lo
tanto, al quitar una parte del soporte de una variable X, no deberı́a cambiar la relación. A continuación
se presenta un ejemplo (datos aleatorios) de este fenómeno. Como podemos observar, la regresión sin
y con las observaciones abajo de 25 años es la misma.
12000
10000
savings
8000
6000
4000

20 40 60 80
edad

Observaciones edad<=25 Observaciones edad>25


MCO edad>25 MCO muestra total

El problema de la selección de muestra requiere que la selección se hace sobre el ahorro. Por ejemplo,
si pedimos a un banco datos sobre gente que tiene una cuenta de ahorro, vamos a tener una muestra
sesgada, ya que gente sin ahorros (o con poco), tal vez tiene menos probabilidad de tener una cuenta
de ahorros.

Versión del 14 de agosto de 2019 Página 32


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

b) Si suponemos que el estatus civil y el número de hijos influye sav únicamente a través del tamaño
del hogar (hhsize), entonces estamos nuevamente en una situación de selección por variables exógenas.
Ası́ que en términos de sesgo no hay problema. Sin embargo, si tenemos únicamente una muestra de
parejas casadas sin niños, ya no tenemos variación en la variable hhsize. Para todas las observaciones
tenemos hhsize = 2. Como consecuencia, ya no podemos estimar identificar/estimar el parámetro β2 .
La constante que estimamos será β0 + 2β2 . Suponiendo que tenemos suficiente variación en las demás
variables y que la muestra es suficientemente representativa, podemos todavı́a estimar los parámetros
β1 , β3 y β4 .

c) En este caso la selección de la muestra se hace en función de la variable dependiente, lo cual causa
un problema. La estimación de los β será sesgada y no consistente. En lugar de un modelo lineal,
tenemos que usar un modelo de regresión truncada.
Como para el inciso a), presento a continuación un ejemplo con datos simulados. Aquı́ eliminé las
observaciones con un valor mayor a 10mil. Vemos que en este caso las regresiones sı́ cambian y por lo
tanto sı́ tenemos un sesgo.
12000
10000
savings
8000
6000
4000

20 40 60 80
edad

Observaciones edad<=25 Observaciones edad>25


MCO savings <=10K MCO muestra total

Ejercicio 34 Admisión al CIDE


Este ejercicio nos muestra que no podemos discutir la calidad de un estimador únicamente basándonos
en propiedades estadı́sticas. La respuesta a la pregunta depende en primer lugar del objetivo del

Versión del 14 de agosto de 2019 Página 33


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

estudio.
Si el objetivo del estudio es analizar el comportamiento de los candidatos del CIDE, es perfectamente
correcto usar la muestra que se propone. Se puede estimar un modelo por MCO, logit o probit y uno
obtiene estimadores no sesgados para la población “CIDE”.
Lo que no podemos hacer con la muestra es hacer una inferencia sobre la población total (todos los
candidatos a licenciaturas en México por ejemplo).
Otro problema potencial ocurre si el objetivo es hacer pronósticos para el futuro. Para poder hacer eso,
se requiere hacer el supuesto que las caracterı́sticas de los candidatos que aplican al CIDE no cambia
de un año a otro, lo cual puede ser un supuesto razonable en el corto plazo. .

Ejercicio 35 Efectos marginales en el modelo tobit


a) Efecto marginal de la variable latente
Calcular el efecto marginal de la variable latente es muy sencillo, pero tı́picamente no de mucho
interés. Sabemos que el modelo de la variable latente es simplemente un regresión lineal del tipo
y ∗ = Xβ + u y por lo tanto el efecto marginal de xj es simplemente βj .

Efecto parcial de y para y > 0


Tenemos que encontrar una expresión para E[y|y > 0, X]. Para eso vamos a usar la siguiente pro-
piedad de la distribución normal estándar:
φ(c)
Si z ∼ N (0, 1) ⇒ E[z|z > c] = (194)
1 − Φ(c)
En nuestro caso tenemos que aplicar una pequeña transformación para obtener una distribución normal
estándar:
E[y|y > 0, X] = Xβ + E[u|u > −Xβ] (195)
 
u u −Xβ
= Xβ + σE | > (196)
σ σ σ
   
φ −Xβσ φ Xβ
σ
= Xβ + σ   = Xβ + σ   (197)
−Xβ Xβ
1−Φ σ Φ σ
| {z }
≡λ( Xβ
σ )
 

= Xβ + σλ (198)
σ
Ahora podemos calcular el efecto marginal
 
∂E[y|y > 0, X] d Xβ
= βj + βj λ (199)
∂xj dxj σ
φ(c) dΦ(c)
usamos el hecho de que λ(c) = Φ(c) , dc = φ(c) y dφ(c)
dc = −cφ(c), se puede mostrar que dλ(c)
dc =
−λ(c) [c + λ(c)] Entonces podemos escribir:
    
∂E[y|y > 0, X] Xβ Xβ Xβ
= βj 1 − λ +λ (200)
∂xj σ σ σ
Podemos observar que el efecto marginal no depende únicamente de βj , pero de todo el vector β y
también de σ.

Versión del 14 de agosto de 2019 Página 34


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

c) Efecto parcial de la probabilidad de y > 0


Comparado al efecto marginal que calculamos en el punto b), es muy sencillo calcular el efecto
marginal (o la probabilidad marginal) de P (y > 0). Tenemos la expresión
 

P (y > 0|X) = Φ (201)
σ
y por lo tanto el efecto marginal es simplemente:
 
∂P (y > 0|X) βj Xβ
= φ (202)
∂xj σ σ

d) Efecto marginal de y
Ahora nos interesamos al efecto marginal de y sin condicionar a y > 0. Empezamos definiendo el
valor esperado E[y|X]:
 

E[y|X] = P (y > 0|X) × E[y|y > 0, X] = Φ × E[y|y > 0, X] (203)
σ
Usamos la regla del producto y obtenemos:
∂E(y|X) ∂P (y > 0|X) ∂E[y|y > 0, X]
= × E[y|y > 0, X] + P (y > 0|X) × (204)
∂xj ∂xj ∂xj
Ahora usamos los resultados en las ecuaciones (200) y (202). Para simplificar la notación, definimos
c = Xβ
σ .
∂E(y|X) βj
= φ(c) × (Xβ + σλ(c)) + Φ(c) × βj {1 − λ(c) [c + λ(c)]} (205)
∂xj σ
= βj {cφ(c) + φ(c)λ(c) + Φ(c) − c Φ(c)λ(c) − Φ(c)λ(c) λ(c)} (206)
| {z } | {z }
φ(c) φ(c)
 

= βj Φ (207)
σ
Ésta expresión se puede comparar a los efectos marginales de un modelo lineal.
Vemos que si P (y > 0) → 1 el efecto marginal va hacia βj .

Ejercicio 36 Efectos marginales en el modelo two-part


Empezamos describiendo E[y|x] del modelo two-part donde usamos un modelo probit en la primera
parte y una regresión lineal en la segunda parte:

E[y|x] = Φ(Xβ) × Zγ (208)


Ahora es relativamente fácil calcular los efectos marginales con respecto a la variable j:
∂E[y|X]
a. ∂xj = βj φ(X̄β) × γj WRONG; REQUIRES CHAIN RULE
∂E[y|y>0,X]
b. ∂xj = γj
∂P [y>0|X]
c. ∂xj = βj φ(X̄β)
Con este ejercicio vemos que una ventaja práctica del modelo en dos partes es que el cáculo de efectos
marginales es muy sencillo.

Versión del 14 de agosto de 2019 Página 35


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Ejercicio 37 Modelo de selección


a)
Primero usamos la ecuación de selección zi∗ = wi0 γ+vi que vimos en clase para definir E[yi |yi observado]:

E[yi |yi observado] = E[yi |z ∗ > 0] (209)


= E[yi |wi0 γ + vi > 0] (210)
= E[yi |vi > −wi0 γ] (211)
= x0i β + E[ui |vi > −wi0 γ] (212)

Hasta aquı́ no hemos usado el supuesto de normalidad bivariada. Para que una regresión lineal por
MCO de la ecuación de interés nos de resultados sin sesgo, necesitamos que E[ui |vi > −wi0 γ] = 0. Ahora
introducimos el supuesto de normalidad bivariada y usamos el teorema para analizar este elemento
con más detalle:
−wi0 γ
 
0
E[yi |yi observado] = xi β + ρuv σu λi (213)
σv
wi0γ
−wi0 γ
  φ( σv )
donde λ σv = w0 γ
se conoce como inverse Mill’s ratio o el caso particular del modelo Heckit
Φ( σiv )
como Heckman’s lambda.
Vemos que el segundo elemento de la ecuación (213) tiene dos parámetros que podemos juntar defi-
niendo βλ = ρuv σu :
−wi0 γ
 
E[yi |yi observado] = x0i β + βλ λi (214)
σv

b)
Primero definimos y|z ∗ > 0:

y|z ∗ > 0 = E[yi |yi observado] + ui (215)


−wi0 γ
 
∗ 0
y|z > 0 = xi β + βλ λi + ui (216)
σv
Vemos que ahora podemos considerar el problema de selección como un problema de una variable
omitida. Si corremos una regresión MCO del tipo yi = x0i β + ui obtenemos un sesgo en la estimación
de β debido a la exclusión de la lambda de Heckman. Teóricamente hay dos condiciones en las cuales,
el estimador MCO puede dar resultados sin sesgo:

a. Si βλ = 0, lo cual es equivalente a decir que ρuv = 0, no tememos un sesgo, porque el término


desaparece en la ecuación (216). Cuando usamos el estimador de Heckman, se puede hacer una
simple prueba estadı́stica para ver si βλ 6= 0.
 0 
−w γ
b. La otra situación en la cual no tenemos un sesgo con MCO es cuando λi σvi no tiene
correlación con X. Si consideramos el ejemplo del mercado laboral donde queremos estimar
el salario de mujeres. La condición implicarı́a que la probabilidad de trabajar (margen extensivo)
es independiente de las caracterı́sticas que determinan el salario. También se puede decir que
los determinantes de la decisión de trabajar son independientes de los factores que explican el
salario! No es muy probable!

Versión del 14 de agosto de 2019 Página 36


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

7 Métodos no paramétricos
Ejercicio 38 Histograma
La manera más fácil de crear un histograma es primero calcular una tabla de frecuencias. Definimos
primero las casillas:
Casilla Observaciones Frecuencia Densidad
1
2-4 2.4 1 8
2
4-6 4.2, 4.4 2 8
3
6-8 6.1, 7.3, 7.6 3 8
2
8-10 8.1, 9.7 2 8
Ahora simplemente dibujamos las densidades en función de las casillas para obtener el histograma:
.2
.15
Density
.1.05
0

2 4 6 8 10
x

Ejercicio 39 Densidad por núcleos


En este caso particular es relativamente fácil calcular la densidad por núcleos porque estamos usando
el núcleo uniforme (o rectangular). Si por ejemplo queremos calcular la densidad para x = 5 podemos
ver cuántas observaciones se encuentran en el intervalo [x − h, x + h]. Usando h = 2 simplemente
contamos el número de observaciones en el intervalo [3, 7]. En este caso hay tres observaciones y por
lo tanto podemos calcular:
1
f (x = 5) = (0.5 + 0.5 + 0.5) = .09375 (217)
2∗8
el mismo ejercicio se puede hacer para x = 5.5, donde tomamos todas las observaciones en el intervalo
[3.5, 7.5]:
1 1
f (x = 5) = (4 × 0.5) = (218)
2∗8 8

Versión del 14 de agosto de 2019 Página 37


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

Si hacemos este ejercicio para muchos puntos en el intervalo x = [0, 12] obtenemos la función de
densidad por núcleos:

Kernel density estimate


.15
.1
Density
.05
0

0 5 10 15
x
kernel = rectangle, bandwidth = 2.0000

Las densidades exactas se muestran en la siguiente tabla:


x f(x) x f(x) x f(x)
0 0 4 0.09375 8 0.15625
0.5 0.03125 4.5 0.09375 8.5 0.125
1 0.03125 5 0.09375 9 0.125
1.5 0.03125 5.5 0.125 9.5 0.09375
2 0.03125 6 0.15625 10 0.0625
2.5 0.09375 6.5 0.125 10.5 0.03125
3 0.09375 7 0.125 11 0.03125
3.5 0.09375 7.5 0.125 11.5 0.03125
12 0

Ejercicio 40 Estimador Nadaraya-Watson


a)
Como en el caso del estimador de densidad por núcleos tenemos que decidir en que puntos calculamos
E[Y |X]. Una forma natural de hacerlo es usar los valores reales de X. Tomamos el ejemplo de x = 4
y calculamos K(u) = 21 1(|u| < 1) para cada valor de x tomando h = 2:

x 1 2 3 4 5 6 7 8
u -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0
K(u) 0 0 0.5 0.5 0.5 0 0 0

Versión del 14 de agosto de 2019 Página 38


Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019

En el caso del ancho de banda de 2:


0.5 × (2 + 2.5 + 3)
E[Y |x = 4, h = 2] = = 2.5 (219)
0.5 × 3
Y el mismo cálculo para el ancho de banda de 3:

0.5 × (1.5 + 2 + 2.5 + 3 + 2.5)


E[Y |x = 4, h = 3] = = 2.3 (220)
0.5 × 5

Tenemos que hacer éste cálculo para cada valor de x para obtener el estimador Nadaraya-Watson que
se muestra en el siguiente gráfico:

Estimadores Nadaraya-Watson
3.00

2.67 2.67
2.50

2.50 2.50 2.50 2.50

2.30 2.33 2.33


y, E[y|x]

2.25
2.00

2.00

1.75
1.50

1.50 1.50

1.25
1.00

0 2 4 6 8
x

Observaciones Estimador NW (h=2)


Estimador NW (h=3)

b)
Vemos que el estimador con h = 2 nos da una curva que se acerca mucho más a los datos. Podemos
calcular el RMSE para ambos estimadores y vemos que RM SE(h = 2) = 0.191 < RM SE(h = 3) =
0.299. Sin embargo, cabe mencionar que este ejercicio usa datos que normalmente no permiten hacer
un análisis razonable con el estimador NW. Tı́picamente es útil usar este estimador cuando tenemos
un gran número de observaciones.

c)
Para que todavı́a haya más de una observación que se toma en cuenta, necesitamos h > 1, porque
para h ≤ 1 tenemos K(u) > 0 únicamente en x = x0 , ası́ que el estimador reproducirı́a simplemente el
vector x!

Versión del 14 de agosto de 2019 Página 39

Potrebbero piacerti anche