Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Variables Instrumentales
P1. [Variables Instrumentales] David Card (1995) utilizó datos de salarios, educación y otras variables
de una muestra de jóvenes en 1976 de EE.UU para estimar un problema muy conocido: el retorno
económico debido a los años educación.
Sabiendo que la educación es una variable endógena uso la estrategia de Variables Instrumentales.
La variable instrumental era una variable binaria que indicaba si el individuo creció cerca de un college
con carreras de 4 años (nearc4) e incluyó otros controles estándar: experiencia (exper), una variable
binaria para raza afroamericana (black), una variable binaria por vivir en un área metropolitana
(smsa76), una binaria por vivir en el sur (south76), entre otras asociadas a la educación de su padre y
madre. La lógica detrás del instrumento es que la distancia a un college de 4 años se correlaciona con
la decisión de obtener un grado college (relevancia) pero puede no predecir los salarios (solo a través)
de la educación (exogeneidad), por lo que la proximidad al college podrı́a considerarse un instrumento
válido.
En lo que sigue estudiaremos el caso sobre si la estrategia estuvo bien implementada, entre otras cosas.
Para esto se le facilita la base de datos que utilizó David Card. Se pide:
Log(wage) = β0 + β1 Educ + ui
1
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
2
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
P1. Solución: Antes que todo, puede revisar la base de datos en material docente y el código de Stata
para entender la pregunta. Las variables están descritas en la ventana de base de datos de Stata.
En lo que sigue supondremos que se cumple todos los supuestos MCO, excepto el de exogeneidad en
las variables.
Vemos que el signo del coeficiente es positivo, que se apega a la teorı́a del capital humano. En
términos de significancia la evidencia muestra que esta variable es significativa al 5%, pero hay
que tomar en cuenta que estamos omitiendo otros factores que explican los salarios y que, incluso,
podrı́an estar correlacionados con la ecuación (Problema de endogeneidad e identificación). Por
lo tanto, la estimación que observamos no es un efecto, es solo una correlación promedio por-
centual que se interpreta de acuerdo a que si hay un aumento de un año de educación , el salario
aumentarı́a cerca de un 5%.
3
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
de endogeneidad es incluir todas las variables que afectan a los salarios, que no incluimos en la
regresión y que están correlacionadas con la educación. Agreguemos covariables a la regresión
entonces!
Podemos observar que al incluir covariables como la experiencia laboral, afroamericano y vari-
ables regionales, la estimación y el error estándar de la estimación ligada a la educación varı́an
(aumentan ambos). La interpretación, el signo y la significancia se mantienen. ¿Esto soluciona la
endogenidad e idenficación causal?. Si supieramos que las covariables que incluimos son las única
que se correlacionan con la educación y que afectan a los salarios, esto resolverı́a el problema.
Sin embargo, esto último no es creı́ble, deben seguir existiendo factores no observables de los
cuales no poseo datos (ej: Habilidad innata). Por lo tanto, por más que yo agregue covariables
relevantes nunca sabre si estoy solucionando el problema de endogeneidad. Usemos la estrategia
de Variables instrumentales!
ii) Resaltemos un punto esencial que quiero que entiendan del ejercicio. Vamos a aplicar la estrategia
de David Card, el sugiere que la distancia a un college de 4 años (nearc4) se correla-
cionará con la decisión de obtener un grado college (relevancia para la educación)
pero no explica los salarios o lo hace solo a traés de la variable educación (exogenei-
dad), por lo que la proximidad al college podrı́a considerarse un instrumento válido.
¿Son estas las condiciones para un a buena variable instrumental?. Dejaremos la respuesta para
después y aplicaremos la estrategia a ciegas:
4
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
Para esta ocasión, tenemos que el instrumento es relevante. Podemos observarlo para este caso
particular en el p-valor de la variable (es significativo) o a través del test F de modelo restringido
a la variable Educ que evidencia una variable relevante cuando el estadı́stico F > 10, este último
test no es el de significancia global, es el de modelo restringido!.
a) Supongamos que se cumple la exogeneidad del intrumento. Aplicando 2SLS obtenemos:
Lo que representarı́a esto serı́a el real efecto de la educación sobre los salarios. El signo, la
interpretación se mantiene, cambia la magnitud que ahora serı́a el impacto de un 18% sobre
los salarios. También aumenta el error estándar, este es el precio que pagamos al aplicar 2SLS
para estimar el efecto.
b) La relevancia la tenemos asegurada dada la evidencia estadı́stica. ¿Pero el instrumento es
exógeno?. Un buen enfoque serı́a, dado que no incluı́ covariables en la regresión, veamos si
la variable nearc4 esta correlacionada a factores que no incluı́ en la regresión, si encuentro
que es ası́, el instrumento queda invalidado. Supongamos que la habilidad innata se mide por
el coeficiente intelectual (iq), tenemos las variables regionales y que las decisiones familiares
están ligadas al nivel educacional del padre (fatheduc) y de la madre (motheduc). Veamos el
balance de nearc4 respecto a las covariables:
5
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
Al parecer el iq, los años de educación del padre y de la madre, y varias variables regionales
no están correlacionadas. Esto da paso a pensar que, en general el instrumento si es exógeno,
pero lo que debemos observar es el test F de significancia conjunta que es significativo (no
queremos que sea ası́!). Por lo tanto, la exogeneidad del instrumento queda en duda y podrı́a
no ser válido. Sin embargo, de la parte i) podemos decir que si agregamos covariables a la
estrategia de variables instrumentales, en cierta medida vamos eliminando la endogeneidad.
Entonces, agreguemos covariables a nuestra estrategia de variables instrumentales!.
c) Los supuestos ahora que agregamos covariables a 2sls cambian a:
• Cov(educi , near4i |W ) 6= 0
• Cov(ui , near4i |W ) = 0
Donde W es el set de covariables. ¿Por que tenemos que condicionar las condiciones sobre
las covariables?. Cuando incluimos covariables a una regresión las estimaciones empiezan a
depender de la variación que todas las variables independientes en conjunto pueden aportar
para explicar la variable dependiente y de la correlación que tienen estas entre si. Supongamos,
por ejemplo, que incluimos la covariable afroamericano (black) y otras. ¿Que ocurre si descub-
rimos que Cov(educi , near4i |Black = 1) = 0, es decir que para afroamericanos el instrumento
es muy débil, ya supimos que puede ocurrir cuando tenemos un instrumento débil, por lo
tanto, debemos exigir que se condicione sobre todas las covariables y sobre todos sus posibles
valores. Una idea similar explica el porque debemos condicionar también en la exogeneidad.
¿Que otra cosa debe preocuparnos al incluir covariables?, que las covariables sean exógenas!.
Esto último es pedir mucho, pero si tenemos covariables endógenas sesgarán los resultados de
nuestra regresión. Vamos a asumir (en un mundo ideal) que nuestras covariables son exógenas
y procedemos como sigue:
• Primer escenario:
Educi = α0 + α1 near4i + δ t W + vi
Vemos si el instrumento es relevante con el test F de modelo restringido (comparando dos
modelos uno con todas las variables y otro sin el instrumento):
6
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
7
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
parte exógena de Educ en el primer escenario de 2sls para ası́ conseguir una mejor estimación
en el segundo escenario del real efecto de Educ sobre los salarios. Esto suena muy bonito, si se
cumplen los supuestos y superamos todos los inconvenientes que hemos tenido hasta el momento
(y que hemos asumido por arte de magia). ¿Que deberı́a preocuparnos al tener más instrumentos?,
imagina que tienes muchos instrumentos y varios de ellos son débiles o no son exógenos, si uno
produce distorsión en las estimaciones, varios podrı́an llevar al extremo esa distorsión tanto en la
estimación del coeficiente, como en la varianza (y error estándar) del coeficiente estimado. ¿Como
cambia 2sls con la inclusión de otro instrumento (o varios) y covariables?:
a) ¿Como cambian las condiciones de IV? ¿Como cambia 2sls con la inclusión de otro instrumento
(o varios) y covariables?. Las condiciones y 2sls:
• Cov(educi , near4i |W ) 6= 0 y Cov(educi , near2i |W ) 6= 0
• Cov(ui , near4i |W ) = 0 y Cov(ui , near2i |W ) = 0
• Primer escenario:
Educi = α0 + α1 near4i + α2 near4i + δ t W + vi
Vemos si los instrumentos son importantes en conjunto con el test F de modelo restringido
(comparando dos modelos, uno con todas las variables y otro quitando los dos instrumen-
tos):
Vemos que el estadı́stico es menor a 10 y por lo tanto, alguno o ambos son instrumentos
débiles. Claramente mirando la significancia individual el nuevo candidato a instrumento
es débil y por lo tanto, no deberı́amos considerarlo. ¿Que paso?, la proximidad a un
college de 4 años funciona dudosamente, al menos es relevante y al parecer es exógeno al
incluir covariables, pero la proximidad a un college de 2 años ni siquiera es relevante. Por
lo tanto no deberı́amos incluirlo, pero solo por curiosidad veamos que sucede si estimamos
por 2sls el efecto de Educ sobre salarios.
b) Segundo escenario: 2sls
ˆ + γ t W + ui
Log(W agei ) = β0 + β1 Educ
8
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
c) ¿Que es lo que espero ver en esta estimación?. si nearc4 es un buen instrumento, las estima-
ciones cuando se ocupo como un único instrumento deberı́an ser mejores que las que observo.
Vemos que en esta nueva estimación con dos instrumento (sabiendo que uno es débil), el co-
eficiente del efecto de la educación incremento y redujo su varianza. ¿Que esta pasando?. Al
menos se esperaba que la varianza se inflará más que antes. Quizá hay una mezcla de varia-
ciones entre las covariables y los instrumentos que están distorsionando las estimaciones. Quizá
nearc4 desde un principio nunca fue un buen instrumento (era relevante pero no exógeno) y
como vimos nearc2 es de esperar que no cumpla ninguna de las condiciones de instrumento.
Otro detalle: ¿Mis covariables son exógenas?
iv) Que hemos visto: Cómo afrontar el problema de endogenidad e identificación causal. Ver las
condiciones para aplicar IV cuando se tienen 1 o más candidatos a instrumentos, cuando hay o
no covariables. Estimar 2sls.
• En este ejercicio, el instrumento era la proximidad a un college de 4 años. Vimos que el
instrumento era relevante, pero dejaba la duda en la exogeneidad.
• Incluimos covariables (de manera de disminuir la endogeneidad y aportar a la exogeneidad
del instrumento). Las covariables que incluyo deben ser exógenas, si no es ası́ no aportarán
mucho a las estimaciones. Claramente nuestras covariables pueden estar relacionadas a otros
factores no observables que afecten los salarios.
• Incluı́mos otro instrumento del mismo tipo al anterior que no cumplı́a ninguna de las dos
condiciones.
• Incluso luego de estimar un modelo con un instrumento más y débil, las estimaciones, al
menos respecto al error estándar, parecı́an mejores.
Todas estas trabas y evidencias estadı́sticas que observamos al realizar el ejercicio, dan para pen-
sar que la proximidad a un college no es una buena variable instrumental para estimar el efecto
de la educación en los salarios. Más aún no basta con:
David Card, sugiere que la distancia a un college de 4 años (nearc4) se correlacionará con la
decisión de obtener un grado college (relevancia para la educación) pero no explica los salarios
o lo hace solo a traés de la variable educación (exogeneidad), por lo que la proximidad al college
9
Facultad de Ciencias Fı́sicas y Matemáticas Universidad de Chile
Hay que realmente hacer un esfuerzo para tener un buen instrumento y cumplir las reales condi-
ciones para un buen instrumento.
10