Sei sulla pagina 1di 10

Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

IN4402 Aplicaciones de Probabilidades y Estadı́stica en Gestión


Profesor: Daniel Schwartz P.
Auxiliares: Constanza Balbontı́n - Lucas Donoso - Claudio Mena -
Carolina Mondaca - Angelo Muñoz - Vicente Plaza
Fecha: 15 de mayo del 2019

Variables Instrumentales
P1. [Variables Instrumentales] David Card (1995) utilizó datos de salarios, educación y otras variables
de una muestra de jóvenes en 1976 de EE.UU para estimar un problema muy conocido: el retorno
económico debido a los años educación.
Sabiendo que la educación es una variable endógena uso la estrategia de Variables Instrumentales.
La variable instrumental era una variable binaria que indicaba si el individuo creció cerca de un college
con carreras de 4 años (nearc4) e incluyó otros controles estándar: experiencia (exper), una variable
binaria para raza afroamericana (black), una variable binaria por vivir en un área metropolitana
(smsa76), una binaria por vivir en el sur (south76), entre otras asociadas a la educación de su padre y
madre. La lógica detrás del instrumento es que la distancia a un college de 4 años se correlaciona con
la decisión de obtener un grado college (relevancia) pero puede no predecir los salarios (solo a través)
de la educación (exogeneidad), por lo que la proximidad al college podrı́a considerarse un instrumento
válido.
En lo que sigue estudiaremos el caso sobre si la estrategia estuvo bien implementada, entre otras cosas.
Para esto se le facilita la base de datos que utilizó David Card. Se pide:

i) Utilizando la ecuación de Mincer simple:

Log(wage) = β0 + β1 Educ + ui

Estime el coeficiente β1 . Luego estime nuevamente el coeficiente pero incluyendo co-variables.


¿Es posible atribuir causalidad?. ¿En que casos se podrı́a?
ii) Vea si se cumple el supuesto de relevancia para el instrumento. ¿Por qué están importante no
tener un instrumentos débil?
a) Estime mediante 2SLS el retorno económico de la educación.
b) Reflexione sobre si se justifica el uso del instrumento planteado para resolver el problema
de endogeneidad: ¿La proximidad al college está relacionada con las variables omitidas que
afectan los salarios?. ¿Qué pasa con las caracterı́sticas del área, como vivir en una gran ciudad
o un pequeño pueblo?. ¿Que ocurre con las decisiones familiares sobre la educación? ¿Que
ocurre con el IQ de cada uno?
c) Repita el mismo procedimiento pero agregue co-variables al procedimiento 2SLS. ¿Como cam-
bian los supuestos en este nuevo escenario? ¿Se cumplirá el supuesto de exogeneidad para el
instrumento al incluir co-variables?.
iii) David Carter también consiguió datos de otro potencial instrumento: la proximidad a un college
con carreras de 2 años, por lo que ahora tiene 2 instrumentos para ocupar.
a) ¿Como cambian los supuestos en la estrategia IV en este nuevo escenario?. ¿Que problemas
podrı́a tener si cuenta con muchos instrumentos?
b) Implemente 2SLS con dos instrumentos y covariables para estimar el retorno econónomico de
la educación sobre los salarios.

1
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

c) ¿Mejora la estimación de βiv,educ en esta nueva situación? ¿Por qué?


iv) ¿Es la proximidad un instrumento válido para poder estimar los retornos económicos de la edu-
cación? . Proponga otro instrumento para estimar dicho efecto.

2
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

P1. Solución: Antes que todo, puede revisar la base de datos en material docente y el código de Stata
para entender la pregunta. Las variables están descritas en la ventana de base de datos de Stata.

En lo que sigue supondremos que se cumple todos los supuestos MCO, excepto el de exogeneidad en
las variables.

i) Estimamos la regresión pedida sin covariables:

Vemos que el signo del coeficiente es positivo, que se apega a la teorı́a del capital humano. En
términos de significancia la evidencia muestra que esta variable es significativa al 5%, pero hay
que tomar en cuenta que estamos omitiendo otros factores que explican los salarios y que, incluso,
podrı́an estar correlacionados con la ecuación (Problema de endogeneidad e identificación). Por
lo tanto, la estimación que observamos no es un efecto, es solo una correlación promedio por-
centual que se interpreta de acuerdo a que si hay un aumento de un año de educación , el salario
aumentarı́a cerca de un 5%.

¿Como resolverı́amos el problema de endogeneidad e identificación causal?. Rezar para que la


educación sea asignada aleatoriamente en la población y en la muestra. ¿Es esto creı́ble?. Es
decir, ¿los años de educación entre las personas se asignan al azar?. Sabemos que esto no es ası́
hay un montón de factores que afectan el nivel de educación: Decisiones familiares, nivel socio-
económico, la habilidad innata, etc. ¿Que hacemos entonces?. Otra forma de superar el problema

3
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

de endogeneidad es incluir todas las variables que afectan a los salarios, que no incluimos en la
regresión y que están correlacionadas con la educación. Agreguemos covariables a la regresión
entonces!

Podemos observar que al incluir covariables como la experiencia laboral, afroamericano y vari-
ables regionales, la estimación y el error estándar de la estimación ligada a la educación varı́an
(aumentan ambos). La interpretación, el signo y la significancia se mantienen. ¿Esto soluciona la
endogenidad e idenficación causal?. Si supieramos que las covariables que incluimos son las única
que se correlacionan con la educación y que afectan a los salarios, esto resolverı́a el problema.
Sin embargo, esto último no es creı́ble, deben seguir existiendo factores no observables de los
cuales no poseo datos (ej: Habilidad innata). Por lo tanto, por más que yo agregue covariables
relevantes nunca sabre si estoy solucionando el problema de endogeneidad. Usemos la estrategia
de Variables instrumentales!
ii) Resaltemos un punto esencial que quiero que entiendan del ejercicio. Vamos a aplicar la estrategia
de David Card, el sugiere que la distancia a un college de 4 años (nearc4) se correla-
cionará con la decisión de obtener un grado college (relevancia para la educación)
pero no explica los salarios o lo hace solo a traés de la variable educación (exogenei-
dad), por lo que la proximidad al college podrı́a considerarse un instrumento válido.
¿Son estas las condiciones para un a buena variable instrumental?. Dejaremos la respuesta para
después y aplicaremos la estrategia a ciegas:

Primer escenario (regresión y test de relevancia):

4
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

Para esta ocasión, tenemos que el instrumento es relevante. Podemos observarlo para este caso
particular en el p-valor de la variable (es significativo) o a través del test F de modelo restringido
a la variable Educ que evidencia una variable relevante cuando el estadı́stico F > 10, este último
test no es el de significancia global, es el de modelo restringido!.
a) Supongamos que se cumple la exogeneidad del intrumento. Aplicando 2SLS obtenemos:

Lo que representarı́a esto serı́a el real efecto de la educación sobre los salarios. El signo, la
interpretación se mantiene, cambia la magnitud que ahora serı́a el impacto de un 18% sobre
los salarios. También aumenta el error estándar, este es el precio que pagamos al aplicar 2SLS
para estimar el efecto.
b) La relevancia la tenemos asegurada dada la evidencia estadı́stica. ¿Pero el instrumento es
exógeno?. Un buen enfoque serı́a, dado que no incluı́ covariables en la regresión, veamos si
la variable nearc4 esta correlacionada a factores que no incluı́ en la regresión, si encuentro
que es ası́, el instrumento queda invalidado. Supongamos que la habilidad innata se mide por
el coeficiente intelectual (iq), tenemos las variables regionales y que las decisiones familiares
están ligadas al nivel educacional del padre (fatheduc) y de la madre (motheduc). Veamos el
balance de nearc4 respecto a las covariables:

5
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

Al parecer el iq, los años de educación del padre y de la madre, y varias variables regionales
no están correlacionadas. Esto da paso a pensar que, en general el instrumento si es exógeno,
pero lo que debemos observar es el test F de significancia conjunta que es significativo (no
queremos que sea ası́!). Por lo tanto, la exogeneidad del instrumento queda en duda y podrı́a
no ser válido. Sin embargo, de la parte i) podemos decir que si agregamos covariables a la
estrategia de variables instrumentales, en cierta medida vamos eliminando la endogeneidad.
Entonces, agreguemos covariables a nuestra estrategia de variables instrumentales!.
c) Los supuestos ahora que agregamos covariables a 2sls cambian a:
• Cov(educi , near4i |W ) 6= 0
• Cov(ui , near4i |W ) = 0
Donde W es el set de covariables. ¿Por que tenemos que condicionar las condiciones sobre
las covariables?. Cuando incluimos covariables a una regresión las estimaciones empiezan a
depender de la variación que todas las variables independientes en conjunto pueden aportar
para explicar la variable dependiente y de la correlación que tienen estas entre si. Supongamos,
por ejemplo, que incluimos la covariable afroamericano (black) y otras. ¿Que ocurre si descub-
rimos que Cov(educi , near4i |Black = 1) = 0, es decir que para afroamericanos el instrumento
es muy débil, ya supimos que puede ocurrir cuando tenemos un instrumento débil, por lo
tanto, debemos exigir que se condicione sobre todas las covariables y sobre todos sus posibles
valores. Una idea similar explica el porque debemos condicionar también en la exogeneidad.
¿Que otra cosa debe preocuparnos al incluir covariables?, que las covariables sean exógenas!.
Esto último es pedir mucho, pero si tenemos covariables endógenas sesgarán los resultados de
nuestra regresión. Vamos a asumir (en un mundo ideal) que nuestras covariables son exógenas
y procedemos como sigue:
• Primer escenario:
Educi = α0 + α1 near4i + δ t W + vi
Vemos si el instrumento es relevante con el test F de modelo restringido (comparando dos
modelos uno con todas las variables y otro sin el instrumento):

6
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

Vemos que el estadı́stico es mayor a 10 y por lo tanto, el instrumento es relevante.


• Segundo escenario: 2sls
ˆ + γ t W + ui
Log(W agei ) = β0 + β1 Educ

El instrumento es relevante y tenı́amos la duda de si era exógeno. Al incluir covariables (si


éstas son exógenas) nos ayuda de alguna manera a dispersar las dudas sobre la exogeneidad
del instrumento (aunque muchas otras covariables se nos quedan afuera). Vemos de la
estimación de Educ, que se redujo en magnitud, mantiene el signo, la significancia y
aumento el error estándar en comparación al modelo sin covariables.
iii) Tenemos una nueva candidata a variable instrumental siguiendo la misma linea de la proximidad
a un college pero de 2 años. Tener otras variables instrumentales nos ayuda a extraer más

7
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

parte exógena de Educ en el primer escenario de 2sls para ası́ conseguir una mejor estimación
en el segundo escenario del real efecto de Educ sobre los salarios. Esto suena muy bonito, si se
cumplen los supuestos y superamos todos los inconvenientes que hemos tenido hasta el momento
(y que hemos asumido por arte de magia). ¿Que deberı́a preocuparnos al tener más instrumentos?,
imagina que tienes muchos instrumentos y varios de ellos son débiles o no son exógenos, si uno
produce distorsión en las estimaciones, varios podrı́an llevar al extremo esa distorsión tanto en la
estimación del coeficiente, como en la varianza (y error estándar) del coeficiente estimado. ¿Como
cambia 2sls con la inclusión de otro instrumento (o varios) y covariables?:
a) ¿Como cambian las condiciones de IV? ¿Como cambia 2sls con la inclusión de otro instrumento
(o varios) y covariables?. Las condiciones y 2sls:
• Cov(educi , near4i |W ) 6= 0 y Cov(educi , near2i |W ) 6= 0
• Cov(ui , near4i |W ) = 0 y Cov(ui , near2i |W ) = 0
• Primer escenario:
Educi = α0 + α1 near4i + α2 near4i + δ t W + vi
Vemos si los instrumentos son importantes en conjunto con el test F de modelo restringido
(comparando dos modelos, uno con todas las variables y otro quitando los dos instrumen-
tos):

Vemos que el estadı́stico es menor a 10 y por lo tanto, alguno o ambos son instrumentos
débiles. Claramente mirando la significancia individual el nuevo candidato a instrumento
es débil y por lo tanto, no deberı́amos considerarlo. ¿Que paso?, la proximidad a un
college de 4 años funciona dudosamente, al menos es relevante y al parecer es exógeno al
incluir covariables, pero la proximidad a un college de 2 años ni siquiera es relevante. Por
lo tanto no deberı́amos incluirlo, pero solo por curiosidad veamos que sucede si estimamos
por 2sls el efecto de Educ sobre salarios.
b) Segundo escenario: 2sls
ˆ + γ t W + ui
Log(W agei ) = β0 + β1 Educ

8
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

c) ¿Que es lo que espero ver en esta estimación?. si nearc4 es un buen instrumento, las estima-
ciones cuando se ocupo como un único instrumento deberı́an ser mejores que las que observo.
Vemos que en esta nueva estimación con dos instrumento (sabiendo que uno es débil), el co-
eficiente del efecto de la educación incremento y redujo su varianza. ¿Que esta pasando?. Al
menos se esperaba que la varianza se inflará más que antes. Quizá hay una mezcla de varia-
ciones entre las covariables y los instrumentos que están distorsionando las estimaciones. Quizá
nearc4 desde un principio nunca fue un buen instrumento (era relevante pero no exógeno) y
como vimos nearc2 es de esperar que no cumpla ninguna de las condiciones de instrumento.
Otro detalle: ¿Mis covariables son exógenas?
iv) Que hemos visto: Cómo afrontar el problema de endogenidad e identificación causal. Ver las
condiciones para aplicar IV cuando se tienen 1 o más candidatos a instrumentos, cuando hay o
no covariables. Estimar 2sls.
• En este ejercicio, el instrumento era la proximidad a un college de 4 años. Vimos que el
instrumento era relevante, pero dejaba la duda en la exogeneidad.
• Incluimos covariables (de manera de disminuir la endogeneidad y aportar a la exogeneidad
del instrumento). Las covariables que incluyo deben ser exógenas, si no es ası́ no aportarán
mucho a las estimaciones. Claramente nuestras covariables pueden estar relacionadas a otros
factores no observables que afecten los salarios.
• Incluı́mos otro instrumento del mismo tipo al anterior que no cumplı́a ninguna de las dos
condiciones.
• Incluso luego de estimar un modelo con un instrumento más y débil, las estimaciones, al
menos respecto al error estándar, parecı́an mejores.
Todas estas trabas y evidencias estadı́sticas que observamos al realizar el ejercicio, dan para pen-
sar que la proximidad a un college no es una buena variable instrumental para estimar el efecto
de la educación en los salarios. Más aún no basta con:

David Card, sugiere que la distancia a un college de 4 años (nearc4) se correlacionará con la
decisión de obtener un grado college (relevancia para la educación) pero no explica los salarios
o lo hace solo a traés de la variable educación (exogeneidad), por lo que la proximidad al college

9
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile

podrı́a considerarse un instrumento válido.

Hay que realmente hacer un esfuerzo para tener un buen instrumento y cumplir las reales condi-
ciones para un buen instrumento.

10

Potrebbero piacerti anche