Sei sulla pagina 1di 31

Microeconometra y evaluacion de programas

Parcial 1

1 de octubre de 2017

1. Experimentos aleatorios
1.1. Definicion
En las ciencias sociales el experimento controlado aleatorio ideal esta inspirado en los experimentos
clnicos donde se administra de manera aleatoria un medicamento y un pacebo. Sin embargo, este
tipo de experimentos en las ciencias sociales sufren de un problema, pues no es posible observar a los
individuos con y sin tratamiento al mismo tiempo. Es decir, no se puede construir unc ontrafactual.

Sin embargo, se han identificado diversas maneras en las que se puede introducir un elemento aleato-
rio en la aplicacion de programas sin entorpecer o dificultar el funcionamiento de programas existentes.

Tambien puede haber ocasiones en las que el investigador no necesite asignar aleatoriamente el tra-
tamiento, pues este ya se ha dado de manera aleatoria por algun motivo. A estos se les conoce como
experimentos naturales y el requisitmo mas importante es que las causas ajenas de la aleatorizacion
sean exogenas al efecto causal que se busca estudiar

1.2. Metodos de aleatorizacion


1. Sobresuscripcion: Se usa cunado hay recursos limitados, o la capacidad de implementacion o
demanda exceden la oferta. Se seleccionan a los beneficiados de manera aleatoria del universos
de los elegibles.

2. Asignacion por etapas: Se usa cuando no es etico o cinveniente que el apoyo no sea recibido.
Tiene como ventaja que facilita la cooperacion del grupo de control. Sin embargo, presenta como
desventaja que es difcil estimar los efectos de largo plazo, pues el grupoo de control puede
modificar su comportamiento si espera recibir el programa en el futuro.

3. Asignacion aleatoria dentro de grupo: Resulta provechoso cuando los grupos se niegan a
participar si quedan fuera del programa; as, se aplica a todas los grupos, pero no a todos los
individuos dentro de estos. Sin embargo, un problema que presenta es que el grupo control se
contamine por un efecto de reasignacion de recursos.

4. Disenos de fomento: Permite evaluar el impacto de un programa disponible para todos, pero
que no todos adoptan. En lugar de aleatorizar la participacion del programa, se aleatoriza un
estmulo para recibir el tratamiento.

1.3. Problema de seleccion


Supongamos que estamos interesados en el estado de salud de una persona, denotado como Yi , y el
tratamiento sera la atencion hospitalaria, denotada por la variable binaria Di = (0, 1). Lo que queremos

1
saber es si los hospitales hacen a la gente mas saludable. Esta Yi afectado por la atencion hospitalaria?

Para cada individuo hay dos resultados potenciales:


(
Y1i si Di =1
Resultado potencial =
Y0i si Di =0

Donde Y0i es el estado de salud del individuo si no hubiera ido al hospital, y Y1i es el estado de
salud del individuo va al hospital, independientemente de si fue o no. La diferencia entre estos dos
resultados, Y1i Y0i es el efecto del tratamiento hospitalario; aqu es posible apreciar mas claramente
el problema de construccion del contrafactual para el individuo.

El resultado observado Yi puede ser escrito en terminos de los resultados potenciales como
Yi = Y0i + (Y1i Y0i )Di .

El efecto promedio de la hospitalizacion comparando la salud promedio de aquellos que fueron


y no fueron hospitalizados, que mide?

E[Yi |Di = 1] E[Yi |Di = 0] = E[Y |D = 1] E[Y0i |Di = 1] + E[Y0i |Di = 1] E[Y0i |Di = 0]
| {z } | 1i i {z } | {z }
Diferencia observada en salud promedio Efecto promedio de tratamiento en tratados Sesgo de seleccion

Lo que esta ecuacion dice es que la diferencia en salud entre los que fueron y los que no fueron
alhospital es igual al efecto promedio de los que fueron (su salud antes y despues de haber ido) mas la
diferencia en salud que exista desde antes entre quienes fueron y no fueron. Como es mas probable
que los enfermos busquen tratamiento que los sanos, los que fueron hospitalizados tienen peores
valores de Y0i , haciendo negativo el sesgo de seleccion en este caso.

Si la asignacion de Di se hace de manera aleatoria, entonces el tratamiento sera independiente


de los resultados potenciales. Si Di es independiente de Yi entonces E[Y0i |Di = 0] = E[Y0i |Di = 1], lo
que permite intercambiarlas en la ecuacion de la diferencia observada en la salud promedio y eliminar
el sesgo de seleccion. De ah la importancia de aleatorizar la asignacion de tratamiento.

1.4. Proyecto STAR (Krueger, 1999)


Krueger (1999) reanaliza econometricamente un experimento aleatorio del efecto del tamano de
clase en el rendimiento estudiantel conocido como Tennesse Student/Teacher Achievement Ratio
(STAR) que se ejecuto en la decada de los 80.

En el 11,600 estudiantes y sus maestros fueron asignados al azar a uno de tres grupos, a nivel
de escuela: clases pequenas (13-17 estudiantes), clases regulares (22-25 estudiantes), y clases regulares
con un asistente de tiempo completo del profesor. Despues de la asignacion, el experimento exiga que
los estudiantes permanecieran en el mismo tipo de clase durante cuatro anos.

Con la asignacion aleatoria podemos simplemente comparar resultados medios de tratamiento y


grupo de control para obtener el efecto causal del tratamiento. Tambien podemos analizar los datos
experimentales con analisis de regresion, suponiendo que hay un tratamiento constante:

Yi = |{z}
+ di + i donde i es una parte aleatoria de Y0i (1)
|{z} |{z}
E[Y0i ] Y1i Y0i Y0i E[Y0i ]

2
Si corremos la regresion obtendremos el efecto causal del tratamiento. Entonces:

E[Yi |Di = 1] = + + E[i |Di = 1]


E[Yi |Di = 0] = + E[i |Di = 0]

Por lo tanto:

E[Yi |Di = 1] E[Yi |Di = 0] = + E[i |Di = 1] E[i |Di = 0]


|{z} | {z }
Tratamiento Sesgo de seleccion

En el programa STAR la asignacion a la clase fue aleatoria, por lo que el sesgo de seleccion desaparece.

En lugar de estimar (1) se podra estimar:


0
Yi = + Di + Xi + i (2)

Esta ecuacion de regresion incluye controles adicionales, por que querramos incluirlos?

1. A veces la asignacion aleatoria del tratamiento se hace condicional a algunos observables.

2. Los controles adicionales aumentan la presicion. Aunque las variables de control Xi no esten
correlacionadas con Di pueden tener poder explicativo sobre Yi ; al incluirlos se reduce la varianza
de i y se vuelve mas eficiente.

3. Si el tratamiento no se asigno de manera aleatoria, no sera insesgado si no se incluyen los


controles.

Krueger estima el siguiente modelo:

Yics = 0 + 1 SM ALLcs + 2 Reg/Acs + 3 Xics + s + isc

donde Yics es percentil de calificacion del alumno por escuela; SM ALLcs es el indicador de si el
estudiante fue asignado a una clase pequena; Reg/Acs es el indicador de si el estudiante fue asignado
a una clase regular con ayuda y s son efectos fijos por escuela porque la asignacion al azar ocurrio
dentro de las escuelas.

Los resultados muestran que las clases pequenas tienen un impacto positivo sobre las califica-
ciones de los estudiantes, superiores incluso a las de clases de tamano regular con ayuda. Sin embargo,
el efecto es menor cuando se incluyen controles adicionales.

1.5. Problemas en los experimentos aleatorios


1.5.1. Fuga
Si la salida de participantes del programa es aleatoria tanto en el grupo de tratamiento como en el
de control, las estimaciones seguiran siendo insesgadas; el problema es que la fuga no sea aleatoria. Por
ejemplo, en el experimento de STAR estudiantes especialmente buenos de las clases grandes podran
haberse matriculado en escuelas privadas, creando un problema de sesgo de seleccion.

Krueger aborda esta preocupacion imputando las puntuaciones de los examenes de pruebas an-
teriores para todos los alumnos que abandonan la muestra y reestima el modelo incluyendo a los
estudiantes con puntajes imputados. De esta manera comprueba que la fuga no aleatoria no sesga los
resultados.

3
1.5.2. Inclumplimiento
El incumplimiento se da cuando despues de la aleatorizacion los individuos no cumplen con el
tratamiento que les corresponde de acuerdo con la asignacion; hubo movimientos entre los grupos de
tratamiento y control. Por ejemplo, en el caso del proyecto STAR hubo alumnos que cambiaron de
clase luego de la aleatorizacion.

Una solucion comuin a este problema es utilizar la asignacion inicial como instrumento para la
asignacion real. Krueger reporta resultados de forma reducida donde utiliza la asignacion inicial como
variable explicativa.

1.5.3. Costos
En ocasiones los experimentos suelen ser costosos financieramente y difciles de implementar
adecuadamente.

Pero hay otro tipo de costos, los eticos. Muchas veces no es posible ejecutar los experimentos
ideales, ya que podran alterar sustancialmente variables sociales y economicas de los tratados. En
otras ocasiones no es posible privar al grupo de control de un tratamiento valioso.

1.5.4. Amenazas de validez interna


Las amenazas a la validez interna se dan cuando las inferencias estadsticas sobre los efectos causales
podran no ser validas para la poblacion estudiada. Esto se puede dar tras el incumplimiento y la fuga,
si no son corregidos.

1.5.5. Amenazas de validez externa


En tanto, las amenazas externas se dan cuando las inferencias y conclusiones no pueden generali-
zarse de la poblacion y escenario estudiado a otras poblaciones y escenarios. Se puede deber a que las
personas reaccionan diferente a programas temporales (como los experimentos) que a los permanentes.

Ademas, si se lleva a cabo un experimento en una area geografica particular, a menudo es


difcil generalizar los resultados del experimento a la poblacion general. En estos casos la muestra
experimental puede ser diferente a la de la poblacion de interes debido a la aleatorizacion y, por lo
tanto, tener efectos distintos (heterogeneos).

Los grupos de tratamiento y control tambien podran comportarse diferente porque saben que
estan siendo observados. En el experimento STAR los maestros de clases pequenas podran ser mas
efectivos porque forman parte de un experimento, lo que afecta el resultado (efecto Hawthorne, se da
en grupos de tratamiento); y los maestros en clases regulares podran dar un menor esfuerzo al normal
para superar la mala suerte de tener mas estudiantes, haciendo que el efecto de clases pequenas se
sobreestime (efecto John Henry, se da en grupos de control).

Finalmente, los experimentos son a pequena escala, por lo que no generan efectos de equilibrio
general y estos pueden ser importantes cuando un tratamiento se aplica a toda la poblacion.

1.6. Conclusiones
Un artcula emprico no solo debe contar una historia relevante y se convincente desde un punto
de vista logico. Tambien debe ser convincente desde un punto de vista tecnico, debe tener validez

4
interna.

Usualmente no tendremos datos perfectos, por lo que es imprescindible reconocer y exponer los
problemas existentes y atacarlos de la mejor manera posible.

2. Muestreo y tamano de la muestra


2.1. Sesgo y precision
Existe una relacion entre sesgo y precision para la muestra del experimento. Una muestra pequena
nos dara una menor precision sobre los estimadores de efecto, mientras que una mas grande nos dara
mayor presicion. Mientras que una aleatorizacion mejor hecha y a niveles que representen mas a la
poblacion general nos daran estimadores de efecto mas insesgados.

Podemos decir que lo ideal sera tener una muestra de gran tamano y aleatorizada a nivel
poblacional.

2.2. Pruebas de hipotesis


Lo que queremos es determinar si el efecto del tratamiento viene de una distribucion donde el
efecto real es nulo (H0 ) o significativo (H1 ). Para determinar como se distribuyen los efectos estimados,
si alrededor de un efecto cero o uno significativo, realizaremos una prueba de hipotesis.

Supongamos que se corre un solo experimento y se observa una estimacion de efecto . Como
sabemos que nuestro efecto estimado es significativo? Queremos saber si nuestra estimacion proviene
de la distribucion de H0 o la de H1 .

Definiremos como valor crtico al tamano del efecto estimado que corresponde exactamente
con el nivel de significancia. Si nuestra estimacion se encuentra entre las lneas que indican los valores
crticos, no podemos decir que el efecto estimado es distinguible del efecto cero.

Si lo que queremos es probar que el efecto es mas grande que cero y es significativo a un nivel
de %, entonces el valor crtico es el nivel de la estimacion donde exactamente % del area bajo la
curva se encuentra a la derecha. Es similar para cuando el efecto es menor y puede probarse cualquier

5
magnitud de efecto.

Para entender mejor la prueba de hipotesis hagamos una analoga con el derecho penal. La
mayora de las instituciones sigue la regla de presuncion de inocencia, donde el acusado es inocente y
el fiscal debe demostrar que es culpable. Entonces, el juez inicia con la hipotesis nula de presuncion
de inocencia y el fiscal tiene la hipotesis alternativa de culpabilidad.

En la evaluacion de programas en lugar de la presuncion de inocencia la regla sera presuncion


de cero efecto. Entonces H0 , la hipotesis nula, es que ni hubi impacto del programa. La carga de la
prueba es demostrar que s lo hubo.

Si es muy improbable (menos de un % de probabilidad) de que la diferencia entre el gru-


po de control y tratamiento se deba exclusivamente a la casualidad, rechazamos la hipotesis nula
y decimos que no podemos aceptar que el programa no tenfa un impacto estadsticamente significativo.

Hay que tener cuidado, lo que es estadsticamente significativo y lo que es mas probable son
conceptos diferentes.

2.3. Nivel de significancia


Al hacer pruebas de hipotesis nos enfrentamos a la posibilidad de cometer dos tipos de errores.

El Error Tipo I implica rechazar la hipotesis nula a pesar de que es verdadera. El nivel de sig-
nificancia es la probabilidad de que esto pase y usualmente se fija en 5 por ciento. Esto significa que
se permite una probabilidad de 5 % de experimentar Error Tipo I, en el 5 % de las ocasiones diremos
que el programa no tuvo impacto cuando en realidad s lo tuvo.

El Errpr Tipo II consiste en no rechazar la hipotesis nula (concluyendo que no hay diferencias
entre el grupo de control y tratadas) cuando de hecho la hipotesis nula es falsa. Aqu definimos al
poder como la probabilidad de detectar un efecto, es decir, de rechazar la hipotesis nula. Tradicional-
mente el objetivo es de 80 % de poder estadstico; un nivel bajo significa que no podemos encontrar
un efecto significativo a pesar de que existe un efecto.

En resumen, estos son los cuatro resultados de la prueba de hipotesis.

6
En la siguiente figura, el area sombreada representa el poder, el porcentaje de veces que en-
contraremos que H es diferente de cero cuando el verdadero efecto es, de hecho, .

Como cambia la proporcion de hipotesis de investigacion que estan sombreadas, es decir, la


proporcion que cae a la derecha (o izquierda) de la curva de la hipotesis nula? Comprender esto nos
ayudara a disear experimentos mas potentes.

Una mayor superposicion de las curvas implica menos poder. Algunas cosas que influyen en es-
ta superposicion son el tamao del efecto, el tamao de la muestra, la varianza, la proporcion de las
muestras entre grupos, y el clustering.

Por ejemplo, si el tamano del efecto es de un error estandar, el poder sera de 26 %, pues las
curvas estaran muy superpuestas; si en cambio, el efecto es de tres veces el error estandar, el poder
sera de 91 por ciento. Si hay un mayor efecto hipotetizado, las distribuciones estan mas alejadas.

Efecto de 1 S.E. Efecto de 3 S.E.

Ahora, digamos que creemos que el impacto es de tres errores estandar. Que pasa si la participacion es
de un tercio de los participantes? Regresaremos al mismo poder que si el efecto es de un error estandar.

En cuanto al tamano de la muestra, conforme mayor es, mas se estrechan las curvas, por lo
que la superposicion es menor. Supongamos que el efecto es de un error estandar; con una muestra de

7
4,000 personas el poder es de 64 %, mientras que con 9,000 participantes es de 91 por ciento.

4,000 participantes 9,000 participantes

Esto se relaciona con la varianza; si la varianza es poca, entonces tendremos estimaciones mas
agrupadas, es decir, curvas mas estrechas y mayor poder. Mientras que con estimaciones mas
dispersas, con mayor varianza, el poder sera menor.

La proporcion entre los grupos de control y tratamiento tambien afecta la anchura de las cur-
vas. Una proporcion 50-50 nos asegura la misma anchura entre las distribuciones y el mayor poder
posible. Si la proporcion no es de 50 %, el grupo con mayor proporcion tendra mas anchura.

El no tener una proporcion 50-50 no es problema. Debido a que la precisios se erosiona lenta-
mente hasta el grado que el desequilibrio se vuelve extremo, hay margen de maniobra para el uso de
una asignacion desequilibrada. Esto ayuda si por alguna razon se necesita un grupo de control pequeno.

La siguiente ecuacion describe el efecto mnimo detectable:


s r
1 2
EM D = (t1 + t )
p(1 p) N

Donde t1 corresponde al estadstico del poder deseado y t al estadstico del nivel de significancia.

En ocasiones nos enfrentaremos a experimentos donde grupos de individuos son seleccionados


al azar de la poblacion antes de seleccionar a los individuos que seran observados, o cuando grupos de
individuos son asignados al azar a diferentes grupos de tratamiento. En estos casos se puede presentar
una correlacion dentro de las agrupaciones o clusters, que llamaremos .

Para un tamano de muestra determinado tenemos menos poder cuando aleatorizamos a nivel
de cluster, a menos de que sea cero. Por lo que el numero e clusters sera clave para determinar el
poder, no el numero de personas por cluster. Entonces nuestra formula para calcular el efecto mnimo
detectable sera: s r
EM D 1 2
p = (t1 + t )
1 + (m 1) p(1 p) N
Donde m es el tamano promedio del cluster.

8
3. Regresion con controles
3.1. Funcion de esperanza condicional
La funcion de esperanza condicional (CEF) para una variable dependiente Yi dado un vector de
covariantes Xi de dimension Kx1 (con elementos xki ) se escribe como E[Yi |Xi ] y es una funcion de Xi .
Como Xi es una variable aleatoria, la CEF tambien lo es.

Para una dummy Di , la CEF toma dos valores: E[Yi |Di = 1] y E[Yi |Di = 0]. Mientras que pa-
ra un valor espacfico de Xi escribimos E[Yi |Xi = x].

Paria variables Rcontinuas Yi con una funcion de densidad condicional P fy (|Xi = x), la CEF es
E[Yi |Xi = x] = tfy (t|Xi = x)dt. Si es discreta, entonces E[Yi |Xi ] = t tfy (t|Xi = x).

El residual de la CEF no se correlaciona con ninguna funcion de Xi . Si i Yi E[Yi |Xi ], en-


tonces para cualquier funcion h(Xi ) tenemos: E[i h(Xi )] = E[(Yi E[Yi |Xi ]h(Xi ))] = 0.

Ahora definamos a la regresion poblacional como la solucion al problema de mnimos cuadra-


dos de la poblacion. Especficamente el vector de coeficientes de la regresion, , de dimension Kx1 se
define resolviendo:
0
= arg mn E[(Yi Xi b)2 ]
b
Usando las condiciones de primer orden tenemos:
)
E[Xi (Yi Xi 0 b] = 0

Y la solucion para b puede escribirse como:


0
= E[Xi Xi ]1 E[Xi Yi ]

Por construccion el residual de la poblacion, i no esta correlacionado con los regresores Xi .

Por que usamos la regresion? Por tres razones: resuelve el problema de minimizacion de erro-
res al cuadrado, por lo que es el mejor predictor lineal (BLP) de Yi dado Xi ; si la CEF es lineal, la
regresion tambien lo es; y da la mejor aproximacion lineal a la CEF. La primera razon es cierta por
definicion, la segunda se deriva de la primera, y para la tercera tenemos el siguiente teorema:
0
Teorema 3.1 (Teorema Regresion-CEF). La funcion de regresion poblacional Xi provee la aproxi-
macion lineal a E[Yi |Xi ] con el error cuadrado mnimo. Esto es:
0
= arg mn E[(Yi Xi b)2 ]
b
0
Demostracion. Recordemos que = arg mnb E[(Yi Xi b)2 ]. Empezamos reescribiendo:
0 0
(Yi Xi )2 = ((Yi E[Yi |Xi ]) + (E[Yi |Xi ] Xi ))2
0 0
= (Yi E[Yi |Xi ])2 + 2(Yi E[Yi |Xi ])(E[Yi |Xi ] Xi b) + (E[Yi |Xi ] Xi )2

El primer termino no involucra a b, el segundo tiene esperanza cero y, por lo tanto:


0
= arg mn E[(Yi Xi b)2 ]
b

. 

9
El teorema implica que podemos usar E[Yi |Xi ] como variable dependiente en lugar de Yi , tomando
en cuenta factores de expansion.

Otra manera de ver a es:


0 0
= E[Xi Xi ]1 E[Xi Yi ] = E[Xi Xi ]1 E[Xi E[Yi |Xi ]]

3.2. Modelos saturados y efectos principales


Estos son modelos de regresion con variables explicativas discretas y que incluyen un parametro a
parte para todos los posibles valores que las variables explicativas pueden tomar. Por ejemplo, supon
que si = 0, 1, 2... ; un modelo de regresion saturada para si es:

Yi = + 1 d1i + 2 d2i + ... + d i + i

donde dji = 1[si = j] es una variable dummy indicando la un nivel j de la variable s, y betaj es
interpretado como el efecto de j-esimo nivel. Notese que:

j = E[Yi |si = j] E[Yi |si = 0]

Mientras que = E[Yi |si = 0].

Ahora, sea x1i graduados y x2i mujeres, la CEF dados x1i y x2i toma cuatro valores que pue-
den definirse como:

E[yi |x1i = 0, x2i = 0] =


E[yi |x1i = 1, x2i = 0] = + 1
E[yi |x1i = 0, x2i = 1] = +
E[yi |x1i = 1, x2i = 1] = + 1 + + 1

Entonces la regresion saturada es:

E[yi |x1i , x2i ] = + 1 x1i + x2i + 1 (x1i x2i )

Tenemos dos efectos principales y un termino de interaccion, el cual es inusual que aparezca en modelos
que no consideran efectos principales.

3.3. Regresion bivariada


cov(Yi ,xi )
Recordemos que el coeficiente 1 = var(xi ) es la pendiente de la lnea de regresion y el intercepto
es = E[Yi ] 1 E[xi ].

Con mas de un regresor no constante, el k-esimo coeficiente de pendiente es:

cov(Yi , xki )
k =
var(xki )

Donde xki es el residual de una regresion de xki sobre los demas covariantes.

Cada coeficiente en la regresion multivariada es un coeficiente bivariado para el regresor corres-


pondiente, despues de eliminar parcialmente las otras variables del modelo.

10
3.4. Sesgo por variables omitidas
La formula del sesgo por variables omitidas describe la relacion entre los estimadores de la regresion
en modelos con diferentes controles. Por ejemplo, en una regresion lorga de salarios contra educacion
si se controla por habilidad, Ai .
0
Yi = + si + Ai + i
Como la habilidad es difcil de medir, que pasa si la dejamos fuera? El resultado es:
cov(Yi , si ) 0
= + As
var(si )
Donde As es el vector de coeficientes de regresiones de los elementos de Ai sobre si . Es decir, el
coeficiente de la regresion corta es igual al de la larga mas el efecto de las variables omitidas por el de
las omitidas sobre las incluidas. En caso de que no haya correlacion entre las variables incluidas y las
omitidas, los efectos de las regresiones corta y larga son iguales.

3.5. Regresion y causalidad


Las regresion causales pueden hacerse por diversos motivos, ya sea para analisis exploratorios o
descriptivos. Ademas, son mas serias y perdurables, permiten describir estados contrafactuales del
mundo, lo que las hacen utiles para el analisis de polticas.

Por ejemplo, consideremos a los hogares hipotecados en Estados Unidos que consideran enviar
a sus hijos a universidades privadas de elite. La pregunta que queremos responder es si la educacion
privada tiene un retorno. Denotemos la asistencia a una escuela privada como Ci . La relacion causal
entre asistencia a escuela privada y salario es:

Y1i si Ci = 1
Y0i si Ci = 0

Entonces Y1i Y0i es el efecto causal individual, sin embargo, solo podemos observar uno de los dos.
El resultado observado es:

Yi = Y0i + (Y1i Y0i )Ci (3)

Deseamos medir Y1i Y0i promedio para algun grupo, digamos, para aquellos que fueron a una escuela
privada: E[Y1i Y0i |Ci = 1], al cual llamamos efecto sobre los tratados (TOT).

Sin embargo, las comparaciones entre los que fueron y no fueron a una escuela privada esta
sesgado. Recordemos:

E[Yi |Di = 1] E[Yi |Di = 0] = E[Y1i Y0i |Di = 1] + E[Y0i |Di = 1] E[Y0i |Di = 0]
| {z } | {z } | {z }
Diferencia observada en salarios TOT Sesgo de seleccion

Es probable que aquellos que fueron a una escuela privada hubieran ganado mas de cualquier manera,
por lo que la sencilla comparacion E[Yi |Ci = 1] E[Yi |Ci = 0] exagera los beneficios de asistir a una
escuela privada. Entonces, el sesgo de seleccion es igual al sesgo por variables omitidas en el modelo
causal.

Introducimos el concepto de supuesto de independencia condicional (CIA), el cual dice que


condicional en los observables Xi el sesgo de seleccion desaparece:

Y0i , Y1i
Ci |Xi

11
Entonces, dada la CIA, las comparaciones condicionales en Xi son causales:

E[Yi |Xi , Ci = 1] E[Yi |Xi , Ci = 0] = E[Y1i Y0i |Xi ]

La CIA implica que Ci es tan bueno como una asignacion aleatoria, condiconal en Xi .

Una implicacion secundaria es que dada la CIA, condiconal en Xi , el efecto causal de asistir a
un colegio privado sobre los graduado que asistieron a una escuela privada es igual al efecto promedio
de la educacion privada en Xi :

E[Y1i Y0i |Xi , Ci = 1] = E[Y1i Y0i |Xi ]

El efecto marginal promedio de ir a una escuela privada se puede obtener promediando sobre Xi

E[E[Yi |Xi , Ci = 1] E[Yi |Xi , Ci = 0]] = E[E[Y1i Y0i |Xi ]] = E[Y1i Y0i ]

Esto sugiere que comparamos a las personas con las mismas X, justo como en matching (mas sobre
esto mas adelante).

Usando CIA la regresion se puede convertir en efectos causales. Los efectos causales constantes
nos permiten enfocarnos en problas de seleccion. Supongamos:

Y0i = + i
Y1i = Y0i + (4)

Usando (3) y (4) tenemos: Yi = + Ci + i , la cual se parece a un modelo de regresion bivariada,


excepto que (4) asocia los coeficientes a una relacion causal. Esta no es una regresion, pues Ci puede
estar correlacionada con los resultados potenciales, en este caso, el residual i .

La CIA aplicada a nuestro entorno de efectos constantes implica que E[i |Ci , Xi ] = E[i |Xi ].
0
Supon tambien que E[i |Xi ] = Xi , entonces:
0
E[Yi |Xi , Ci ] = + Ci + E[i |Xi ] = + Ci + Xi

La independencia de medias implica ortogonalidad, entonces:


0
Yi = + Ci + Xi + i
0
Donde el error i i Xi = i E[i |Ci , Xi ] no esta correlacionado con los regresores Ci y Xi .
Entonces, la misma aparece en la regresion y en el modelo causal.

A manera de conclusion, podemos decir que la regresion provee la mejor aproximacion a la


CEF y es usualmente donde empezamos; es nuestra primera lnea de ataque en el problema de
identificacion. Si la regresion que tenemos no es la que queremos entonces la relacion subyacente es
insatisfactoria. Si esto pasa entonces necesitamos de variables instrumentales (que veremos en otro
momento).

3.6. Controles buenos y malos


Controlar por mas covariantes incrementa la posibilidad de que los estimadores de la regresion
tengan una interpretacion causal. Sin embargo, mas controles no son mejores. Hay malos controles,
como variables que son resultados; y buenos, como variables fijas al momento en que el regresor de

12
interes es determinado.

Por ejemplo, se asigna aleatoriamente un ttulo universitario Ci (0, 1) y queremos conocer el


efecto causal del ttulo sobre los salarios Yi ; una CEF causal. Ahora, las personas pueden trabajar en
dos cosas: oficinas (Wi = 1) o talleres (Wi = 0). Que regresion debemos correr?

La opcion natural sera una donde satisface E[Ci (Yi Ci )] = 0, aunque tambien pode-
mos considerar aquella donde satisface E[Ci (Yi Ci Wi )] = 0. Sera mejor?

Observemos que Yi = Ci Y1i + (1 Ci )Y0i . La regresion bivariada:

E[Yi |Ci = 1] E[Yi |Ci = 0] = E[Ci Y1i + (1 Ci )Y0i |Ci = 1] E[Ci Y1i + (1 Ci )Y0i |Ci = 0]
= E[Y1i |Ci = 1] E[Y0i |Ci = 0]
= E[Y1i Y0i ]
| {z }
Efecto de tratamiento medio

La CEF es causal.

Ahora pensemos en incluir las posible ocupaciones en la regresion. Observemos que


Wi = Ci W1i + (1 Ci )W0i . En este caso controlar por la ocupacion es un mal control, pues
Wi no tiene una interpretacion causal. Para ver esto claramente, consideremos la diferencia en salarios
promedio entre graduados universitarios y otros condicional a trabajar como oficinistas:

E[Yi |Wi = 1, Ci = 1] E[Yi |Wi = 1, Ci = 0] = E[Y1i |W1i = 1, Ci = 1] E[Y0i |W0i = 1, Ci = 0]

Por la independencia conjunta de (Y1i , W1i , Y0i , Y1i ) y Ci yenemos:

= E[Y1i |W1i = 1] E[Y0i |W0i = 1]


= E[Y1i Y0i |Wi1 = 1] + E[Y0i |W1i = 1] E[Y0i |W0i = 1]
| {z } | {z }
Efecto causal sobre titulados sesgo por seleccion

Esto expresa el salario esperado para personas con un ttulo universitario en trabajos de oficina menos
el salario esperado para personas sin un ttulo en trabajos de oficina.

Notemos que el sesgo por seleccion probablemente sera negativo. Cualquier titulado puede ob-
tener un trabajo de oficinista, por lo que E[Y0i |W1i = 1] no debe estar muy lejos de E[Y0i ]. Sin
embargo, alguien que trabaja como oficinista sin el beneficio de un ttulo universitario esta mejor que
el Y0i promedio.

Otro control malo es el proxy, una variable que puede parcialmente controlar por factores omi-
tidos, pero que es afectado por la variable de interes. Supongamos que no interesa la regresion
larga:

Yi = + si + ai + i (5)

Donde ai es una calificacion de IQ que mide la habilidad innata en octavo grado, antes de que
cualquier eleccion educativa relevante se tome. Por definicion E[si i ] = E[ai i ] = 0. Como ai es medida
antes de que se determine si , es un buen control.

13
Desafortunadamente los datos para ai no estan disponibles. Supongamos que tenemos otra me-
dicion de habilidad que se obtiene despues de que la educacion es completada. Especficamente:

ali = 0 + 1 si + 2 ai (6)

Donde ali es la habilidad tarda y tanto la escolaridad como la habilidad innata incrementan la habilidad
tarda. Digamos que se regresiona Yi sobre si y ali , porque ai no esta disponible. Usando (6) para
sustituir ai en (5), la regresion de si y ali es:
0 1
Yi = ( ) + ( )si + ali + i (7)
2 2 2
Como , 1 , 2 son positivos, el segundo coeficiente tiende a cero. A menos de que pi1 sea cero, el
coeficiente esta por debajo del efecto deseado.

Es importante considerar que la formula de sesgo por variables omitidas nos dice que la regre-
sion sobre si sin controles genera un coeficiente de + as donde as es el coeficiente de la regresion de
ai sobre si . Entonces correr la regresion (7) es informativa porque asumiendo que deltaas es positiva,
tenemos lmites superiores e inferiores para el parametro verdadero.

3.7. Variables por las cuales controlar


Al buscar el efecto del tratamiento d sobre una variable de respuesta yi con datos observados, el
grupo de control con d = 0 puede ser diferente al grupo de tratamiento con d = 1 sobre las variables
observables x. Controlar por x significa que comparamos sujetos en el control y tratamiento que
comparten el mismo valor de x. Pero por que variables controlar? De manera general podemos decir
que se debe controlar por covariantes pretratamiento, es decir, variables que importan para yi , pero
que no son afectadas por d.

A continuacion analizamos algunos casos. En los diagramas las flechas indican una cadena cau-
sal.

3.7.1. Must
Caso (i): x es una variable pretratamiento por la cual se debe controlar, ya que puede estar no
balanceada entre los grupos de tratamiento y control. x es llamado confundidor.

dy
%
x

Un modelo especfico para este caso es:

di = 1[1 + x xi + i > 0]
yi = 1 + d di + x xi + ui
ui
i |Xi

Supon que d = 0, de manera que no hay efecto de d sobre y. Esto implica que
[y|x, d = 1] = E[y|x, d = 0] = 1 + x xi .

Pero si x 6= 0:

E[y|d = 1] = 1 + x E[x|d = 1] 6= E[y|d = 0] = 1 + x E[x|d = 0]

14
Si la flecha diagonal x y es removida, es decir, si x = 0, entonces tenemos que x d y y
E[y|x, d] = 1 + d d. Si x no esta balanceada entre ambos grupos, el desbalance no tiene consecuencias
sobre el efecto de d sobre y.

Caso (ii): Hay covariantes pretratamiento y postratamiento. Solo se debera controlar por xpre .

d y
%
xpre xpost

3.7.2. No-no
Caso (i): Si w es una variable post respuesta no debe controlarse, pues controlar por w removera
parte o todo el efecto de d sobre y.
dyw
Caso (ii): d afecta a y de dos maneras, mediante e1 y e2 ; controlar por la variable post tratamiento ei
debilita la diferencia por el tratamiento.

d e1 y
& %
e2

3.7.3. Yes-No
Caso (i): Se queremos saber cual es el efecto de d neto de w sobre y, entonces controlar por w es
lo correcto. Si lo que queremos es cualquier efecto de d sobre y, entonces no se debe controlar por w.

dwy

Caso (ii) Controlar por w en este caso mostrara el efecto directo de d sobre y.

dy
&
w

Por ejemplo, un programa que afecta tanto la titulacion como los salarios.

wi = 1 + d di + i
yi = 1 + d di + w wi + ui
| {z }
ecuacion de forma estructural para y

(d, w)
u
w E[w|d]

Sustituimos la ecuacon de w en la forma estructural para y y obtenemos:

yi = (1 + w 1 ) + (d + w + d )di + w i + ui
| {z }
ecuacion de forma reducida para y

El efecto directo es: E[y|d = 1, w] E[y|d = 0, w] = d (proveniente de la forma estructural).

El efecto indirecto es: (E[w|d = 1] E[w|d = 0])(E[y|d, w = 1] E[y|d, w = 0]) = d w

15
3.8. Conclusion
Que identificamos cuando controlamos por x?

(i) y0 d|x E[(y1 y0 |d = 1, x)] efecto en los tratados


(iI) y1 d|x E[(y1 y0 |d = 0, x)] efecto en los no tratados
(iII) y0 , y1 d|x E[(y1 y0 |x)] efecto en la poblacion

Para (i) observemos:

E[y|d = 1, x] E[y|d = 1, x] = E[y1 |d = 1, x] E[y0 |d = 0, x]


= E[y1 |d = 1, x] E[y0 |d = 1, x] + E[y0 |d = 1, x] E[y0 |d = 0, x]
= E[y1 y0 |d = 1, x] + sesgo del grupo de comparacion y0

Para (ii) podemos escribir la diferencia de esperanzas condicionales E[y|d = 1, x] E[y|d = 0, x] como
(E[y1 |d = 1, x]E[y1 |d = 0, x])+E[y1 y0 |d = 0, x] donde el primer termino es el sesgo de comparacion
del grupo y1 .

4. Matching
En matching buscamos efectos causales comparando al grupo de tratamiento y control dentro de
subgrupos donde todo o la mayora de las cocas (o las cosas que mas importan) se mantienen fijas.

4.1. Volunteers of America (Angrist, 1993a)


El Ejercito es el mayor empleador individual de hombres y mujeres jovenes en Estados Unidos.
Entre 1989 y 1992, los alistamientos de hombres y mujeres sin experiencia previa en el servicio
militar cayeron un 27 por ciento. Los reclutamientos de hombres blancos disminuyeron en un
25 %, mientras que los reclutas de hombres negros, el grupo mas golpeado por la reduccion militar
cayeron un 47 por ciento. La principal va utilizada para efectuar estas disminuciones fue un au-
mento en los puntos de corte de las pruebas de los solicitantes y otros cambios en las normas de entrada.

Cuales fueron las consecuencias del servicio militar para los reclutados? Si respondemos a esto
aprenderemos si las reducciones militares constituyen una oportunidad economica perdida (como
muchos crean en ese momento). El sesgo de seleccion hace que las comparaciones entre veteranos y
no veteranos sean enganosas.

4.1.1. Estrategia de matching


1. Comparar a los veteranos y no veteranos que aplicaron (solo la mitad de los candidatos calificados
sirven en el Ejercito)

2. Controla por las caractersticas que los militares usan para seleccionar a los soldados

a) El estimador de matching es un promedio de contrastes o comparacaiones entre celdas


definidas por covariantes

16
b) Si nos enfocamos en el efecto de tratamiento sobre los tratados, E[Y1i Y0i |Di = 1] nos
indica la diferencia promedio entre las ganancias observadas de los soldados E[Y1i |Di = 1]
y el promedio contrafactual si no hubieran servido E[Y0i |Di = 1]
c) El diferencial de ingresos por estatus de veterano es una medida sesgada de TOT, a menos
de que Di sea independiente de Y0i :

E[Yi |Di = 1] E[Yi |Di = 0] = E[Y1i Y0i |Di = 1] + (E[Y0i |Di = 1] E[Y0i |Di = 0])

4.1.2. Supuesto de independencia condicional


Condicional en las caractersticas observadas, Xi , el tratamiento es tan bueno como si hubiese sido
asignado al azar: Y0i , Y1i
Di |Xi .

Dada la CIA, los efectos causales pueden ser construidos iterando el valor esperado sobre Xi :

T OT = E[Y1i Y0i |Di = 1]


= E[E[Y1i |Xi , Di = 1] E[Y0i |Xi , Di = 1]|Di = 1]
Z
= (E[Y1i |Xi , Di = 1] E[Y0i |Xi , Di = 1])dF (Xi |Di = 1)

E[Y0i |Xi , Di = 1] es contrafactual, pero por virtud del CIA:

T OT = E[E[Y1i |Xi , Di = 1] E[Y0i |Xi , Di = 0]|Di = 1]


= E[x |Di = 1] (8)

Donde x E[Yi |Xi , Di = 1] E[Yi |Xi , Di = 0] es la diferencia aleatoria X-especfica en ganancia


medias por estado de veterano en cada valor de Xi .

4.1.3. Resultados
Angrist construye el analogo muestral del lado derecho de la ecuacion (8) para covariantes discretos:
X
E[Y1i Y0i |Di = 1] = x P (Xi = x|Di = 1)
x

Donde P (Xi = x|Di = 1) es la densidad de Xi para los veteranos. El estimador se obtiene remplazando
deltax con la diferencia promedio muestral entre los ingresos de los veteranos y no veteranos de cada
celda y ponderando por la distribucion emprica de P (Xi = x|Di = 1).

Angrist encuentra que los veteranos blancos ganan mas que los no veteranos, pero este efecto
se vuelve negativo una vez que hay matching de covariantes. Los veteranos no blancos ganan mucho
mas que los no veteranos, pero el control de las covariantes reduce esta diferencia considerablemente.

4.2. Regresion contra matching


Angrist reporta estimaciones de R en la ecuacion:
X
Yi = dix x + R Di + i
x

17
Donde dix indica Xi = x, x es un efecto de regresion para Xi = x y R es el efecto de tratamiento de
la regresion. Entonces:

cov(Yi , Di )
R =
var(Di )
E[(Di E[Di |Xi ])Yi ]
=
E[(Di E[Di |Xi ])2 ]
E[(Di E[Di |Xi ])E[Yi |Di , Xi ]]
= (9)
E[(Di E[Di |Xi ])2 ]

Donde Di = Di E[Di |Xi ] es el residuo de una regresion de Di en Xi . La regresion de Yi sobre Di y


Xi es la misma que la regresion de Yi sobre E[Yi |Di , Xi ].

Utilizando E[Yi |Di , Xi ] = E[Yi |Di = 0, Xi ] + X Di para sustituir en el numerador de (9):

E[(Di E[Di |Xi ])E[Yi |Di , Xi ]] = E[(Di E[Di |Xi ])E[Yi |Di = 0, Xi ]] + E[(Di E[Di |Xi ])Di X ]
= E[(Di E[Di |Xi ])Di X ]

El primer termino es cero al no existir correlacion entre (Di E[Di |Xi ]) y E[Yi |Di = 0, Xi ]. Similar-
mente, E[(Di E[Di |Xi ])Di X ] = E[(Di E[Di |Xi ])2 X ]. Iterando sobre X, hemos mostrado que:
2 (X ) ]
E[E[(Di E[Di |Xi ])2 |Xi ]X ] E[D i X
R = = 2 (X )]
E[E[(Di E[Di |Xi ])2 |Xi ]] E[D i

2 (X ) es la varianza de D condicional en X: 2 = E[(D E[D |X ])2 |X ].


Donde D i D i i i i

La regresion produce un promedio ponderado de varianza de X . Puesto que Di es una dummy:


sigma2D = P (Di = 1|Xi )(1 P (Di = 1|Xi )), entonces:
X X
R = f rac X [P (Di = 1|Xi )(1 P (Di = 1|Xi ))]P (Xi = x) [P (Di = 1|Xi )(1 P (Di = 1|Xi ))]P (Xi = x)
x x

En contraste, TOT es:


X
E[Y1i Y0i |Di = 1] = X P (Xi = x|Di = 1)
x
P
x X P (Di = 1|Xi = x)P (Xi = x)
= P
x P (Di = 1|Xi = x)P (Xi = x)

Porque P (Xi = x|Di = 1) = P (Di =1|X i =x)P (Xi =x)


P (Di =1) .
TOT pondera las celdas de covariantes en proporcion a la probabilidad de tratamiento.

Una regresion pondera en proporcion a la varianza condicional de tratamiento; esto se maximi-


za cuando P (Di = 1|Xi = x) = 21 .

5. Propensity score
Cuando el tratamiento no es aleatorio, se puede utilizar el propensity score matching para
comparar a un grupo de tratamiento y control que son equivalentes en caractersticas observables.
Tambien proporciona una manera de resumir la informacion de covariantes sobre la seleccion del

18
tratamiento en un solo escalar.

La idea de hacer matching en Xi era comparar las unidades que estaban cerca una de la
otra, basandose en cierta distancia al vecino Xi mas cercano. Pero hay problemas referentes con la
medicion de la dimensionalidad.

La idea del propensity score matching es comparar unidades que, basadas unicamente en sus
observanles, tienen probabilidades muy similares de ser asignados al tratamiento. Si condicional en Xi
dos unidades tienen una probabilidad similar de tratamiento, entonces decimos que tienen propensity
scores similares.

Si comparamos una unidad en el grupo de tratamiento con una unidad en el grupo de conoc-
trol con dos propensity scores que son similares, entonces condicional en el propensity score, toda la
variacion restante entre las dos es aleatoria. Y esto su el supuesto de seleccion en observables es correcto.

El propensity score se define como la probabilidad de tratamiento condicionada en los covariantes:


p(Xi ) = P (Di = 1|Xi ) = E[Di |Xi ].

5.1. Supuestos de identificacion


1. Independencia condiconal: Existe un conjunto X de covariantes observables tal que despues de
controlar por estas, la asignacion de tratamiento es independiente de los resultados potenciales.
La asignacion es tan buena como si fuera aleatoria.
Y0i , Y1i
D|Xi
La independencia condicional nos permite construir un contrafactual insesgado para el grupo
de tratamiento utilizando las unidades del grupo de control no experimentales. Este supuesto
tambien se denomina ignorabilidad del tratamiento, seleccion en observables, exogeneidad o
unconfoundness.

Este supuesto no es verificable.


2. Soporte comun: Para cada valor de X existe una probabilidad positiva de ser tratados y no
tratados: 0 < P (Di = 1|Xi ) < 1.

El soporte comun garantiza que existe una superoposicion entre las caractersticas de las
unidades tratadas y las no tratadas para encontrar parejas adecuadas. Este supuesto puede
verificarse.

Cuando ambos supuestos estan satisfechos, la asignacion de tratamiento se dice que es fuertemente
ignorable, en la terminologa de Rosenbaum y Rubin (1983).

Por definicion:
i (Xi ) = E[Y1i Y0i |Xi = x]
= E[Y1i |Xi = x] E[Y0i |Xi = x]
La ignorabilidad de tratamiento o unconfoundness nos permite sustituir
E[Y1i |D = 1, Xi = x] = E[Yi |D = 1, Ci = x]
E[Y0i |D = 1, Xi = x] = E[Yi |D = 0, Ci = x]

19
El soporte comun nos permite estimar ambos terminos, tal que = E[(Xi )].

(Recordemos que Yi = + Di + Xi + i )

5.2. Teorema del propensity score


Teorema 5.1 (Teorema del propensity score). Si Y1i ,0i
Di |Xi (CIA), entonces Y0i , Y1i
Di |p(Xi )
donde p(Xi ) = P (Di = 1|Xi ), el propensity score.

Condicionar en el propensity score es suficiente para tener independencia entre el indicador de


tratamiento Di y los resultados potenciales Y0i , Y1i .

La estratificacion de Xi tiende a tener problemas relacionados con la escasez (es decir, celdas
vacas) en muestras finitas, incluso para numeros moderados de covariantes. Pero el propensity score
es solo un escalar y, por lo tanto, estratificar a traves de esta probabilidad es mucho mas facil.

Demostracion. Si podemos demostrar que la probabilidad de que un individuo reciba tratamiento


condicional en los condicional en los resultados potenciales y el propensity score, no es una funcion de
los resultados potenciales:
P (Di = 1|Y0i , Y1i , p(Xi )) 6= f (Y0i , Y1i )
Entonces habremos probado que ha y independencia entre Y0i , Y1i , Di condicional en Xi . Recordemos
que:
P (Di = 1|Y0i , Y1i , p(Xi )) = E[Di |Y0i , Y1i , P (Xi )]
Pues E[Di |Y0i , Y1i , p(Xi )] = 1 P (Di = 1|Y0i , Y1i , p(Xi )) + 0 P (Di = 0|Y0i , Y1i , p(Xi )) y el segundo
termino es cero.

Asumamos que Y0i , Y1i


Di |Xi . Entonces:

P (Di = 1|Y0i , Y1i , p(Xi )) = E[Di |Y0i , Y1i , p(Xi )]


Por ley de esperanzas iteradas
z }| {
= E[E[Di |Y0i , Y1i , p(Xi )]|Y0i , Y1i , p(Xi )]
Dado Xi es que conocemos p(Xi )
z }| {
= E[E[Di |Y0i , Y1i , Xi ]|Y0i , Y1i , p(Xi )]
Por independencia condicional
z }| {
= E[E[Di |Xi ]|Y0i , Y1i , p(Xi )]
Definicion de propensity score
z }| {
= E[p(Xi )|Y0i , Y1i , p(Xi )]
= p(Xi )

Al igual que la formula de sesgo por variables omitidas en una regresion, el teorema del propensity
score dice que solo necesitamos controlar por los covariantes que afectan la probabilidad de trata-
miento. El unico covariante que realmente necesitamos controlar es por la probabilidad de tratamiento.

Matching a traves del propensity score funciona de la misma manera que matching a traves de
covariantes, excepto que emparejamos en el propensity score en lugar de los covariantes directamente.

20
Usando el teorema del propensity score y CIA, el efecto promedio del tratamiento sobre los
tratados (TOT), puede estimarse como:

= E[Y1i Y0i |Di = 1]


= E[E[Y1i Y0i |Di = 1, p(Xi )]]
= E[E[Y1i |Di = 1, p(Xi )] E[Y0i |Di = 0, p(Xi )] |Di = 1]
| {z }
por CIA

La expectativa exterior es sobre la distribucion de p(Xi )|Di = 1.

Lema 5.2 (Propiedad de balanceo del propensity score). Si p(Xi ) es el propensity score, entonces:
DI
Xi |p(Xi )

Demostracion. Tenemos que demostrar que P (Di = 1|Xi , p(Xi )) = P (Di = 1|p(Xi )), lo cual implica
que Di es independiente de Xi dado el propensity score.

Primero consideremos la parte izquierda de la ecuacion:

P (Di = 1|Xi , p(Xi )) = P (Di = 1|Xi ) = p(Xi )

Segundo, consideremos la parte derecha. Por ley de las expectativas iteradas:

P (Di = 1|p(Xi )) = E[Di |p(Xi )]


= E[E[Di |p(Xi )]|p(Xi )]
= p(Xi )

La propiedad de balanceo del propensity score implica que:

p(Xi |Di = 1, p(Xi )) = P (Xi |Di = 0, p(Xi ))

Condicional en el propensity score, la distribucion de covariantes es la misma para el grupo de control


y el grupo de tratamiento.

5.3. Implementacion practica


5.3.1. Propensity score
1. Estimar el propensity score.

Se estima como P (Di = 0|Xi ) = F (h(Xi )) donde F es una funcion de covariantes con terminos
lineales y de mayor grado. La eleccion de los terminos de mayor grado a incluir se determina uni-
camente por la necesidad de obtener una propensity score que satisfaga la propiedad de balanceo.

Se suele hacer va probit o logit.

2. Calcular el efecto causal promedio de interes promediando las diferencias de la variable depen-
diente entre unidades con propensity score similares.

21
5.3.2. Comprobacion de la propiedad de balanceo
1. Estimar el propensity score.

2. Ordenar los datos segun el propensity score y divide en grupos de observaciones de igual tamao
con propensity score similares.

3. Dentro de cada grupo, prueba (mediante prueba t) si las medias de los covariantes X son iguales
entre tratamiento y control.

4. Si es as, para. Si no, significa que las covariantes no estan equilibradas dentro de ese grupo.
Divide el grupo por la mitad y prueba de nuevo.

5. Si un covariante particular esta desequilibrado para varios grupos, modifica la ecuacion logit
o probit inicial incluyendo terminos de orden superior y/o interacciones con esa covariante y
empieza de nuevo.

Los pasos 2 a 5 del algoritmo pueden limitarse a la zona de soporte comun.

5.3.3. Ponderacion
Para reducir el sesgo de los estimadores se recomienda ponderar.

Asumamos que (Y0i , Y1i )


Di |Xi . Entonces:
 
Yi D i Yi (1 Di )
AT E = E[Y1i Y0i ] = E
p(Xi ) 1 p(Xi )
 
(Di p(Xi ))Yi
=E
p(Xi )(1 p(Xi ))
 
(Di p(Xi ))Yi
T OT = E[Y1i y0i |Di = 1] = E
(1 p(Xi ))P (Di = 1)

ATE pondera las observaciones en el grupo de tratamiento y control por el inverso de su propensity
score (probabilidad de tratamiento). Mientras que TOT pondera por p(Xi )/(1 p(Xi )), por lo que a
una mayor propensity score, mayor es la ponderacion.

El analogo muestral de los parametros poblacionales es:


N
1 X Di p(Xi )
AT E = Yi
N p(Xi )(1 p(Xi ))
i=1
N
1 X Di p(Xi )
T OT = Yi
NT 1 p(Xi )
i=1

En este caso el estimador muestral es de dos etapas: primero se estima el propensity score p(Xi ), y
luego se usa para producir los estimadores.

Es necesario hacer un bootstrap de las dos etapas del procedimiento para tener errores estandar
correctos.

22
5.4. Otros metodos de matching
La probabilidad de observar dos unidades con exactamente el mismo propensity score es en principio
cero porque p(Xi ) es continua. Se han propuesto varios metodos de propensity score matching en la
literatura, pero los mas utilizados son:

1. Nearest Neighbour y Radius matching

Sea T el conjunto de unidades tratadas, C el conjunto de unidades en el grupo de con-


trol, YiT la variable dependiente para tratados, YjC la variable dependiente para los controles.
Denota C(i) el conjunto de las unidades de control emparejadas a la unidad de tratamiento i
con un valor estimado de propensity score pi . Entonces:

Nearest-neighbour matching: Ci = mn k pi pj k
j

Radius matching: C(i) = {pj | k pi pj k< r}


Entonces:  
1 X X
TMOT = T
Yi wij YjC
NT
iT jC(i)

Donde M se refiere al tipo de matching, NT es el numero de unidades en el grupo de tratamiento,


NiC el numero de controles emparejados con observaciones inT , y pesos wij = N1C si j C(i) o
i
wij = 0 de otra manera.

2. Kernel matching
P C pj pi 
jC Yj G( hn )

1 X
TKOT = T
Yi P pk pj
NT kC G( )
iT hn

Donde G es una funcion kernel y hn es un parametro de ancho de banda.

3. Stratification matching

Este metodo se basa en el mismo procedimiento de estrateficion utilizado para estimar el


propensity score. Dentro de cada bloque el programa calcula:
T C
P P
S il(q) Yi il(q)YiC Nq
q =
NqT

Donde l(q) es el conjunto de unidades en el bloque q y NqT y NqC son el numero de observaciones
en el grupo de tratamiento y control. El estimador TOT se calcula usando la formula:
Q P
il(q) Di
X
TS OT = qS P
q=1 i Di

Donde el peso que se le da a cada bloque esta dado por la fraccion correspondiente de unidades
tratadas y Q es el numero de bloques.

23
5.5. Comprobacion del supuesto de soporte comun
Podemos resumir el propensity score en el grupo de tratamiento y control, y contar cuantas uni-
dades estan fuera del soporte. Por ejemplo, digamos que el propensity score del grupo de tratamiento
oscila entre 0.1 y 0.85.

Verificamos cual es la distribucion para el grupo de control y eliminamos todas las unidades
antes de 0.1 y despues de 0.85. En otras palabras, estamos rechazando observaciones que no satisfacen
la superposicion de soporte comun.

Un histograma del propensity score por tratamiento y grupo de control tambien destaca el
problema de superposicion.

6. Generalized propensity score para tratamientos continuos


6.1. Marco basico
Sea Yi (t) el conjunto de resultados potenciales para t T donde T es el conjunto de tratamientos
potenciales sobre [t0 , t1 ]. Asumamos que: hay N individuos o unidades, Xi es un vector de carac-
tersticas pretratamiento o covariantes, Ti es el nivel de tratamiento recibido y Yi (Ti ) es el resultado
potencial correspondiente al nivel de tratamiento Ti .

Queremos el promedio de la funcion dosis-respuesta:

(t) = E[Yi (t)]

Sea r(t, x) la funcion de densidad condicional del tratamiento dados los covariantes, r(t, x) = fT |X (t|x),
Hirano-Ibens define el generalized propensity score (GPS) como: R = r(T, X). Es decir, la densidad
condicional del tratamiento real recibido dado los covariantes.

6.2. Propiedad de balanceo


Dentro de una estrato con la misma r(t, x), la probabilidad de que T = t no depende de X:
X
1{T = t}|r(t, x).

Si se cumple la propiedad de ignorabilidad debil, entonces tenemos que: Y (t) T |Xt T .


Esto significa que el GPS puede ser utilizado para eliminar cualquier sesgo asociado con diferencias en
covariantes.

6.3. Funcion dosis-respuesta


La funcion de dosis-respuesta se puede calcular como:

(t, r) = E[Y (t)|r(t, X) = r] = E[Y |T = t, R = r]

(t) = E[(t, r(t, X))]


La funcion dosis-respuesta se puede implementar en tres etapas:

1. Corre un probit de Ti en Xi . Es decir, toma la distribucion condicional del tratamiento dados los
covariantes:
0
Ti |Xi N (0 + 1 Xi , 2 )

24
En el probit, 0 , 1 y 2 pueden ser estimados por maxima verosimilitud. La GPS estimada es:
 
1 1 0
Ri = exp 2 (ti 0 1 Xi )2
2 2 2

Hay que checar la propiedad de balanceo.

2. Modelar la funcion de esperanza condicional de E[Yi |Ti , Ri ] como funcion de Ti y Ri .

E[Yi |Ti , Ri ] = 0 + 1 Ti + 2 Ti2 + 3 Ri + 4 Ri2 + 5 Ti Ri

Estimar los parametros por mnimos cuadrados ordinarios usando la GPS estimada Ri .

3. Estimar la funcion dosis-respuesta haciendo un promedio de la expectativa condicional estimada


sobre el GPS en cada nivel de tratamiento que nos interesa. En particular:
N  
1 X 2 2
E[Y (t)] = 0 + 1 t + 2 t + 3 r(t, Xi ) + 4 r(t, Xi ) + 5 tr(t, Xi )
N
i=1

6.4. Aplicacion (Imbens, Rubin y Sacerdote, 2001)


A los ganadores de la lotera en Massachussets se les hace una encuesta. Lo que se quiere saber es
cual es el efecto del tamano del premio en los ingresos laborales. Entonces, la cantidad del premio es
el tratamiento Ti ; los ingresos 6 aos despues de ganar son el resultado Yi ; la edad, sexo, educacion,
numero de boletos comprados, status laboral, ingresos laborales rezagados (antes de 6 anos) son los
covariantes Xi .

La cantidad del premio es aleatoria, pero hay correlacion entre los covariantes y el tamano del
premio debido a la no respuesta.

6.4.1. Primera etapa


Modelando la distribucion condicional del premio dados los covariantes:
0
log Ti |Xi N (0 + 1 Xi , 2 )

Dado que la distribucion del tamano del premio es altamente sesgada, se transofrma tomando
logaritmos.

Se divide el rango de premios en tres intervalos de tratamiento. Para cada uno de los 13 cova-
riantes investigan si la media en cada uno de los tres grupos de tratamiento es diferente de la media
en los otros dos grupos combinados. Encuentran que no hay balance.

Hay que ajustar por la GPS. Recordemos que Xi 1{Ti = t}|r(t, Xi ). Esto se implemnta
discrtizando el nivel de tratamiento y el GPS. Es decir, se prueba: Xi
1{0 Ti 23}|r(14, Xi ),
donde 14 es la mediana del premio en el grupo que va de 0 a 23 en el tratamiento. Esto se prueba
haciendo 5 bloques definidos por los quintiles del score r(14, Xi ).

El ajuste por el GPS mejora el balance.

25
6.4.2. Segunda etapa
Se estima la funcion de esperanza condicional dado el premio y GPS. Se corre una regresion de la
variable dependiente en el premio Ti y el score Ri usando logaritmos e incluyendo segundos momentos.

Los coeficientes estimados no tienen interpretacion directa. Pero si todos los coeficientes que
implican el GPS son iguales a cero, se puede interpretar como una prueba de si las covariantes
introducen algun sesgo.

6.4.3. Tercera etapa


Se estima la funcion de dosis-respuesta y se repota la derivada de la misma.

El dinero del premio se considera como ingrsos no ganados y la derivada del ingreso laboral
promedio con respecto a esto es la propension marginal a consumirse los ingresos no ganados.

6.4.4. Conclusion
La propension a consumir ingresos no ganados baja drasticamente con el nivel de ingreso no
ganado. Aquellos con ingresos mas bajos son mucho mas sensibles a cambios de ingreso que aquellos
con ingresos mas altos.

Se ha demostrado que el metodo del propensity score se puede generalizar a tratamientos con-
tinuos.

7. Lecturas
7.1. Worms: Identifying impacts on education and health in the presence of treat-
ment externalities (Miguel and Kremer)
Se quiere saber cuales son los efectos de los programas de desparastiacion sobre la educacion
y salud de los tratados. La principal diferencia del estudio respecto a previos s la aleatoriza-
cion a nivel escuela, no de individuo, lo que permitio evaluar externalidades sobre los no tratados.
Se presume que la desparacitacion mejora la salud de los tratados, lo que tiene efecto sobre la educacion.

Otra variables que podran afectar el resultado son mejoras a la educacion que no esten liga-
das con la salud, aunque la literatura muestra que intentos previos han sido poco efectivos.

Para el experimento 75 escuelas rurales del sur de Kenia fueron separadas en tres grupos, los
cuales recibieron tratamiento contra lombrices de maera escalonada a lo largo de cuatro anos. Haba
30,000 alumnos entre 6 y 18 anos, pero ninas mayores de 13 no se trataron por recomendacion de la
OMS. Las escuelas en tratamiento recibieron educacion preventiva. Se hicieron examenes medicos de
seguimiento, visitas sorpresa para identificar ausentismo y se usaron examenes oficiales para evaluar
el impacto sobre la educacion.

El grupo de tratamiento consistio de escuelas con mas de 50 % de prevalencia de gusanos, y


escuelas con mas de 30 % de prevalencia de esquistosiamisis. El grupo de control no recibio tratamien-
to, pero se les prometio que lo recibiran posteriormente.

El tratamiento redujo el ausentismo escolar en un cuarto, con el mayor aumento de participacion en

26
los mas pequenos. Redujo la presencia de gusanos y aumento la participacion escolar en alumnos de
las escuelas vecinas a las de tratamiento. Tambien hay externalidades positivas dentro de las escue-
las tratadas, pero no fue posible comprobarlo. No se encontro que mejorara los resultados en examenes.

Los resultados tienen relevancia para las polticas publicas, pues es el metodo mas costo-efectivo
para aumentar la participacion escolar. Y sus externalidades podran justificar subsidios para su
implementacion.

El experimento no esta exento de dudas de validez. El metodo de consentimiento para recibir


el tratamiento cambio del primer ano a los siguientes. En el primero se obtena a nivel de localisas,
mientras que en los siguientes los padres deban acudir a la escuela.

En cuanto a la validez externa, los resultados pueden depender de la prevalencia de los gusa-
nos en otras areas, ya que el impacto de las externalidades puede variar.

7.2. Women as Policy Makers: Evidence from a randomized policy experiment in


India (Chattopadhyay and Duflo)
Se preguntan que efectos tiene la participacion de la mujer en las decisiones de poltica publica.
Esto es importante para pases donde se establecen cuotas de genero. Se asumen que el genero del
tomador de decisiones impacta que tipo de proyectos se ejecutan.

Se realizo un sondeo detallado de las inversiones en bienes publicos locales en comunidades de


dos distritos de India. Se compararon con consejos locales reservados y no reservados para mujeres
y minoras, los cuales se seleccionan aleatoriamente. Tambien se recolectaron las quejas hechas por
ciudadanos ante el consejo, separando por sexo. Los datos fueron normalizados.

Se uso como base el modelo de toma de decisiones de Osborne y Slivinski, y Besley y Coate,
as como el modelo de Down.

El grupo de control fueron consejos donde el puesto de Pradhan no estaba restringido a muje-
res y minoras. Y el grupo de tratamiento fueron los consejos con cuota de genero o miniras. La
aleatorizacion es a nivel de consejos de villas locales (Gram Pnchayat).

Se encontro que hay un incremento en la participacion de mujeres en sesiones de consejo don-


de el Pradhan es reservado para una mujer. Mujeres en villas con Pradhan reservado para mujeres
tienen el doble de posibilidad de haber llevado una queja ante el consejo. La distribucion de las quejas
entre hombres y mujeres no son iguales. En villas con Pradhan reservado para mujeres hay mas
inversion en los temas que preocupan a las mujeres, mostrando que el genero importa al decidir la
provision de bienes publicos. Esto no porque las mujeres se hayan quejado mas que los hombres, sino
porque las preferencias de la Pradhan estan mas alineadas con su genero.

Dudas de validez interna es que se pueden elegir mujeres inexpertas, que sigan las opiniones de
su marido o que no tengan interes por seguir en la vida poltica. En cuanto a la validez externa, la
investigacion se hizo en distritos donde la cuota de genero es relativamente nueva, por lo que no sera
correcto generalizar los resultados a zonas con mas tiempo de este instrumento.

Se hicieron pruebas de robustez sobre las variables que preocupan para la validez interna. No
se encontro validez en las preocupaciones.

27
Los resultados obtenidos contradicen las predicciones del modelo de Down y el proceso de ne-
gociacion de Coase. En ambos se espera que el genero del poltico no influya sobre las decisiones, pero
se confirmo que la Pradhan tiene control sobre las polticas a ejecutarse.

Pregunta de control: Verdadero: Se basa en Osborne y Slivinski, y Besley y Coate, los cos-
tos de correr para la eleccion son diferentes para hombres y mujeres, y los ciudadanos deciden si
se postulan o no para un cargo comparando la probabilidad de ser elegidos contra el costo fijo de
participar. Falso: Los ciudadanos se comprometen a implementar una plataforma poltica.

7.3. How Computers Have Changed the Wage Structure: Evidence from Micro-
data, 1984-1989 (Krueger)
El autor se pregunta si los trabajadores que usan computadoras en el trabajo ganan mas como
resultado de sus habilidades computacionales, y si esto explica el cambio en la estructura de salarios
en Estados Unidos a finales de los 80. Se asumen que los conocimientos de computacion tienen un
impacto positivo sobre el salario.

Sin embargo, puede haber variables omitidas. Se controla por el uso de computadoras en el ho-
gar porque pudiera que una persona que la usa en el hogar sea seleccionada para hacerlo tambien en
el trabajo. Tambien se controla por ocupacion, y educacion, pues se espera que alumnos con mejores
calificaciones ganen mas de cualquier manera. Y se controla por el crecimiento de la proporcion de
trabajadores que usan una computadora en una ocupacion especfica.

Se uso informacion de encuestas que incluyen preguntas sobre el uso de computadoras en el


trabajo y se compara con el diferencial que existe en salarios.El grupo de control fueron personas
sin uso de computadora en el trabajo, mientras que el de tratamiento fueron personas que usan
computadoras en el trabajo.

Como no es un experimento, sino informacion observada, se controla para verificar que el uso
de computadoras en el trabajo no este sesgado por seleccion de trabajadores con un perfil especfico.

Se encontro que los trabajadores que usan computadora ganan de 10 a 15 % mas; que el au-
mento en el uso de las computadoras representa entre 22 y 50 % del incremento en el retorno sobre la
educacion, y que las computadoras han contribuido significativamente a los cambios en la estructura
salarial. Se observoo que mujeres, caucasicos y educados tienen mas probabilidad de ser quienes usan
una computadora en el trabajo.

Una pregunta que surge es que si los salarios han subido por el uso de las computadoras, por
que la productividad no?

Pregunta de control: Verdadero: Se utilizan tres bases de datos (CPS, HSBS y encuesta de
agencias de empleo temporal); se busca responder si el uso de computadoras explica la mayor parte
del cambio en la estructura salarial en la decada de los 80; una de las especificaciones estimadas es una
regresion simple del logaritmo del salario por hora como variable dependiente y una variable dummy
de uso de computadoras. Falso: Intentan solucionar el problema de variables omitidas agregando a
una especificacion base un vector de covariantes como educacion, sexo, experiencia. A medida que
agregan controles, el diferencial de salarios por usar computadoras se mantiene estable.

28
7.4. The Returns to Computer Use Revisited: Have Pencils Changed the Wage
Structure Too? (DiNardo and Pischke)
Es una crtica al paper anterior; la pregunta es si los diferenciales en salarios son por un verdadero
retorno sobre las habilidades computacionales o solo reflejan que los trabajadores con salarios altos
usan computadoras en su trabajo. Si el uso de computadoras tiene un retorno sobre el salario, el uso
de otro tipo de herramientas no debera tenerlo en la misma magnitud.

Se usan encuestas en Alemania que ademas de computadoras preguntan por el uso de otro ti-
po de intrumentos como calculadoras o herramientas. Con esto se replica el analisis de Krueger.

El grupo de tratamiento fueron trabajadores que usan computadora y el de control trabajado-


res que usan otras herramientas.

Se encontro que hay unsesgo de seleccion sobre quienes usan computadoras, usualmente son
trabajadores con salarios mas altos.

Pregunta de control: Verdadero: Las bases de datos utilizadas son de corte transversal; se
senala que tanto en Estados Unidos como en Alemania las computadoras son utilizadas por los mas
educados, los trabajadores de cuello blanco, los trabajadores de tiempo completo, etc.; se senala
que tanto en Estados Unidos como en Alemania el diferencial de salarios asociado con el uso de
computadoras se ha incrementado con el tiempo. Falso: La variable dependiente utilizada son los
salarios brutos promedio por hora.

7.5. Evaluating the Econometric Evaluations of Trainging Programs with Experi-


mental Data (LaLonde)
Se busca saber si es posible replicar resultados experimentales mediante procedimientos eco-
nometricos.

Se uso el programa NSW, el cual tiene un diseno experimental para su evaluacion. Se hizo el
analisis del diseno y se calcularon los resultados. Posteriormente se elimino el grupo de control experi-
mental y se usaron datos poblacionales para construir uno mediante diversos metodos econometricos
que, en teora, deberan arrojar un resultado similar al experimental.

Los grupos de control no experimentales se construyeron con las encuestas PSID y CPS me-
diante criterios amplios y caractersticas similares a aplicantes al programa NSW.

Los metodos econometricos usados fueron: regresion simple, regresion con controles, diferencias
en diferencias, seleccion por variables latentes, kitchen sink y estimador de dos pasos de Heckman.

Se encontro que las estimaciones econometricas usualmente difieren de los resultados experimentales.
Incluso cuando pasan pruebas de especificacion, fallan en replicar los resultados experimentales. Las
evaluaciones no experimentales pueden contener sesgos amplios y desconocidos, producto de rrores de
especificacion. Sin embargo, los estimadores de dos pasos estan mas cercanos a los experimentales que
los de un paso.

Pregunta de control: Los estimadores no experimentales evaluados son: diferencias en dife-


rencias, regresion controlando por covariantes y estimador en dos etapas que controla por la
correlacion entre no observables.

29
7.6. Causal Effects in Nonexperimental Studies: Reevaluating the EValuation of
Training Programs (Dehejia and Wahba)
Los autores proponen el propensity score como procedimiento econometrico que se acerca a los
resultados experimentales.

Se siguio el mismo procedimiento que LaLonde, excepto que la construccion de su grupo de


control necesito de una reduccion de la muestra con la intencion de incluir mas covariantes para el
propensity score.

Se encontro que los estimadores de una base de datos no experimental estan mas cercanos a
los experimentales al usar el propensity score. Se menciona que el metodo no es relevante en todas las
situaciones, pues puede haber covariantes no observables importantes que no podran ser consideradas
por el propensity score.

7.7. Reconciling Conflicting Evidence on the Performance of Propensity-Score


Matching Methods (Smith and Todd)
El propensity score realmente se comporta bien para estimar resultados no experimentales
cercanos a los experimentales?

Los autores replican los resultados de LaLonde, y Dehejia y Wahna con estimadores de mat-
ching alternativos. Usan los mismo grupos de control, pero anaden uno mas.

Encuentran que la calidad de la informacion es un ingrediente crucial para la estrategia de es-


timacion, y los estimadores de matching de diferencias en diferencias usualmente tienen un mejor
desempeno.

La calidad de la informacion evita comparar peras con manzanas. Se recomienda que toda la
informacion usualmente provenga de las mismas fuentes.

7.8. Does matching overcome LaLondes critique of nonexperimental estimators?


(Smith and Todd)
Existe una estrategia de evaluacion no experimental optima que resuelva los problemas de
seleccion en cualquier contexto? El propensity score matching haba sido propuesto como uno de los
mejores metodos por Dehejia y Wahba, pero lo es?

En el paper se estiman los sesgos que diferentes formas de estimar el propensity score tienen
sobre diferentes maneras de construir el grupo de control. Se hizo uso del grupo de control
experimental de LaLonde, el de Dehejia y Wahba, el de Dehejia y Wahba sin restriccion de la alea-
torizacion previa a abril de 1976 con salario cero, y los no experimentales provenientes del PSID y CPS.

Se encontro que el propensity score no es una solucion para todo; no se pueden generalizar las
conclusiones de Dehejia y Wahba. Los estimadores del matching de diferencias en diferencias se
comportan mejor que etimadores de matching de seccion cruzada. Los detalles del procedimiento para
el matching no tienen gran efecto sobre los sesgos.

Lo importante no es buscar el metodo de estimacion optimo para todos los casos, sino saber

30
que supuestos de que modelo se aproximan mas a las fuentes de informacion que se tienen para
obtener el mejor estimador posible.

7.9. Estimating the effects of length of exposure to instruction in a training pro-


gram: The case of Job Corps (Flores, Flores-Lagunes, Gonzlez y Neumann)
Se quiere saber como diferentes niveles de instruccion academica y vocacional afectan al resultado
en el mercado laboral. Si los participantes en el programa de JobCorps acumulan capital humano, se
espera que los resultados en el mercado laboral varen segun esta acumulacion.

Se usan estimadores semiparametricos de la funcion dosis-respuesta (en dos etapas) basados en


resultados recientes para analizar tratamientos continuos. Se interpretan lasderivadas estimadas de la
DRF como lo retornos marginales primedio a acumulacion adicional de capital humando medida como
exposicion a la instruccion en Jobs Corp.

Se uso informacion del National Job Corps Study. La muestra fue de aplicantes primerizos al
programa en EU. Las solicitudes elegibles fueron asignadas aleatoriamente a grupos do control (12 %)
y tratamiento (7 %), y un grupo no experimental entre noviembre del 94 y febrero del 96. Al grupo de
control se le prohibio inscribirse de nuevo por tres anos.

La aleatorizacion se hizo a nivel nacional. La estrategia para identificar la relacion causal depende de
controlar con exito por todos los factores que afectan simultaneamente la longitud de exposicion al pro-
grama y los ingresos futuros. Se asume que los covariantes observables pretratamientotoman en cuenta
la confundibilidad. Una amenaza es que estos no tomen en cuenta los confundidores dinamicos, pero
se cree que no son una amenaza seria debido a las caractersticas del programa y la riqueza de los datos.

Se usaron estimadores de diferencias en diferencias (respecto a ingresos previos al tratamiento)


para controlar por confundidores no observanle invariantes en el tiempo.

Se usaron dos medidas de ingreso semanal: en el trimestre 16 despuees la aleatorizacion y un


ano despuees de terminar el programa. Estas son crecientes con el tiempo que se esta en el programa,
pero con rendimientos decrecientes. Se documentan importantes diferencias en las DRF estimadas
entre grupos demograficos, especialmente entre hombres y mujeres.

Los autores recomiendan tomar en cuenta los efectos de lock-in que tiene el programa, pues si
bien es cierto que mayor instruccion mejor los ingresos, hay un efecto de estar fuera de la fuerza
laboral por mucho tiempo.

Pregunta de control: Verdadero: Se estiman semiparametricamente los efectos causales pro-


medio de diferentes longitudes de exposicion a la instruccion academica y vocacional en el Job Corps;
el supuesto de identificacion al estimar la funcion de dosis-respuesta es que la seleccion en diferentes
longitudes de tratamiento es aleatoria, condicional en un conjunto rico de covariantes; la especificacion
preferida permite que factores no observables invariantes en el tiempo influyan en el proceso de
seleccion; los autores encuentran que los efectos estimados sobre las ganancias futuas aumentan en
la duracion de exposicion. Falso: Los autores encuentran que los efectos marginales de la instruccion
adicional aumentan con la duracion de la exposicion.

31