Sei sulla pagina 1di 58

TCNICAS DE EVALUACIN DE IMPACTO: PROPENSITY SCORE MATCHING Y APLICACIONES PRCTICAS CON STATA

Autora: Magdalena Rodrguez Coma Instituto de Estudios Fiscales DOC. n.o 2/2012

N. I. P. O.: 634-12-002-1

IF

INSTITUTO DE

ESTUDIOS
FISCALES

N.B.: Las opiniones expresadas en este documento son de la exclusiva responsabilidad de los autores, pudiendo no coincidir con las del Instituto de Estudios Fiscales.

Edita: Instituto de Estudios Fiscales


I.S.S.N.: 1578-0244
Depsito Legal: M-23771-2001

NDICE 11. INTRODUCCIN 12. EVALUACIN DE IMPACTO. ESPECIAL REFERENCIA A PROGRAMAS SOCIALES 13. IMPORTANCIA DE LOS DISEOS CUASI-EXPERIMENTALES EN LA EVALUACIN 14. EL PROBLEMA DEL SESGO DE SELECCIN AL MEDIR EFECTOS CAUSALES 15. EL PROBLEMA DE LA DIMENSIONALIDAD 16. FUENTES DE INFORMACIN PARA LA EVALUACIN 17. PROPENSITY SCORE MATCHING (PSM) 18. IMPORTANCIA DEL CUMPLIMIENTO DE LAS HIPTESIS DE CONDICIONADA Y SOPORTE COMN EN LA APLICACIN DEL PSM INDEPENDENCIA

19. MODELO DE PARTICIPACIN EN EL PROGRAMA. ECUACIN DE ASIGNACIN. CLCULO DEL PROPENSITY SCORE (PS) CON STATA 10. DIFERENTES ALGORITMOS DE MATCHING 11. ESTIMACIN DEL CONTRAFACTUAL , EVALUACIN DE RESULTADOS Y ESTIMACIN DE ERRORES CON STATA 11.1. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching basado en el mtodo del vecino mas cercano (Nearest Neighbor Matching) 11.2. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching con estratificacin (Becker & Ichino) 11.3. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching basado en Kernel 11.4. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Radius Matching 11.5. Comandos de STATA para realizar un anlisis de sensibilidad de los efectos medios del tratamiento 11.6. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando el PSMATH2 (autores Edwin Leuven y B) 12. IMPORTANCIA DE REALIZAR UN ANLISIS DE SENSIBILIDAD DE LOS RESULTADOS 12.1. Sensibilidad a los algoritmos de Matching 12.2. Sensibilidad a la especificacin del modelo de participacin 13. EVALUACIN DE TRATAMIENTOS MLTIPLES 14. EVALUACIN DE EFECTOS INDIRECTOS DE LOS PROGRAMAS 15. CONCLUSIONES ANEXOS Anexo 1. Software libre y alternativas comerciales a STATA para implementar mtodos de Matching y PS 3

Anexo 2. Direcciones tiles en Internet Anexo 3. Glosario Anexo 4. Documentacin adicional REFERENCIAS BIBLIOGRAFICAS

Instituto de Estudios Fiscales

1. INTRODUCCIN
El uso de tcnicas micro economtricas para estimar los efectos las polticas de desarrollo se ha con vertido en un enfoque comn, no slo para los estudiosos, sino tambin para los responsables polti cos involucrados en el diseo, implantacin y evaluacin de proyectos en diferentes campos. Desde el punto de vista acadmico, la mayor parte de los estudios de evaluacin publicados son cuasi experimentales y se basan en la aplicacin de estas tcnicas a la informacin proporcionada por im portantes fuentes de datos secundarias1. Entre estas tcnicas cuasi-experimentales, el Propensity Score Matching (PSM) se aplica cada vez ms en la comunidad de evaluacin de polticas. En este trabajo se proporciona una gua de los as pectos clave para utilizar la metodologa de PSM, con aplicaciones prcticas y ejemplos utilizando el programa STATA. Este documento ha sido elaborado con fines docentes. Dirigido a los alumnos asis tentes al III CURSO DE EVALUACIN DE POLTICAS PBLICAS Y PROGRAMAS PRESUPUESTARIOS celebrado en el Instituto de Estudios Fiscales, en Madrid del 3 al 28 de octubre de 2011, puede ser til a profesio nales interesados en la comprensin de la aplicacin de estas tcnicas a determinados problemas de evaluacin. La unidad didctica resume las condiciones bsicas para que el PSM se pueda utilizar para evaluar el impacto de un programa y tambin las fuentes de datos necesaria. Se explica de qu modo, en base al supuesto de independencia condicional junto con la hiptesis de soporte comn, puede reducirse el sesgo de seleccin cuando la participacin en un programa se determina a travs de un modelo de participacin especificado con variables que miden caractersticas observables. Se contemplan los principales aspectos tcnicos de forma sencilla, abordndolos desde una perspectiva conceptual, que permita la comprensin de la metodologa y su aplicacin al trabajo emprico. Tambin se describen diferentes algoritmos de matching y algunos test para evaluar la calidad de los resultados, ilustrando la importancia de realizar siempre un anlisis de sensibilidad de las estimacio nes que proporcione mayor credibilidad a las evaluaciones de impacto realizadas. La inclusin de ejemplos basados en estudios de casos, se refieren a investigaciones realizadas con registros admi nistrativos procedentes de un programa social (IMI) que proporciona rentas a los ms desfavorecidos, combinadas con programas de ayuda a la reinsercin laboral2 y pretende facilitar a los alumnos la aplicacin prctica con software y datos reales. Estos ejemplos, realizados con STATA3, abarcan evaluacin de efectos directos, indirectos y tambin evaluacin de una matriz de decisin en un con texto de tratamientos mltiples. Se dedica4 un apartado al software libre para tratar mtodos de matching y PSM y alternativas co merciales de otros programas economtricos a STATA, con objeto de presentar a los lectores una panormica ms completa de las posibilidades analticas que les permita adoptar las decisiones ade cuadas en cada caso. Tambin se presenta un glosario5 con una breve descripcin de los conceptos fundamentales de esta metodologa. El apartado de referencias bibliogrficas abarca referencias fun damentales6, manuales del Banco Mundial y Banco Inter-americano de Desarrollo7, referencias para aplicaciones con STATA8 y estudios empricos.
A estos efectos, es interesante consultar Social Experimentation, Program Evaluation, and Public Policy (2009), volumen que
contiene una coleccin de los mejores artculos de experimentos sociales y evaluacin de programas que han aparecido en
Journal of Policy Analysis and Management (JPAM).

2 3 1

Estudios realizados por Ayala y Rodrguez (2006, 2007, 2010a, 2010b, 2011).

En el III Curso de Evaluacin de Polticas Pblicas y Programas Presupuestarios se dedican varias sesiones a formacin en
STATA. En un excelente manual sobre evaluacin de impacto como es el de Shahidur R. Khandker, Gayatri B. Koolwal, Hus sain Samad (2009) se incluyen todos los ejemplos con STATA.
Vase Anexo 1.
Los trminos que aparecen en el texto en cursiva se incluyen en el glosario del Anexo 3

4 5 6

Caliendo, M. and Kopeinig, S. ( 2005); Dehejia, R. (2005); Dehejia, R.H. and Wahba, S. (2002); Heckman, J.;, Ichimura, H.
and Todd, P. (1998); Heckman, James J.; LaLonde, Robert and Smith, Jeffrey (1999).; Imbens, G.W. (2004); Jalan, J. and
Ravallion, M. (2003); Rosenbaum, P. and Rubin, D. (1983); Smith, J. and Todd, P. (2005).

7 8

Shahidur R.K. et al. (2009); Gertler, P.J. et al. (2011); Baker Judy L. (2000); Heinrich C. et al. (2010).
Abadie, A., D. et al. (2004); Becker, S.O. & Caliendo, M. (2007); Becker, S., &. Ichino, A. (2002); Nannicini, T. (2007).

2. EVALUACIN DE IMPACTO. ESPECIAL REFERENCIA A PROGRAMAS SOCIALES


En todas las actividades de evaluacin de programas es de inters fundamental conocer si una inter vencin concreta, tal y como ha sido diseada, es eficaz en el logro de sus objetivos principales. Una intervencin bien diseada (o "tratamiento") generalmente se basa en la teora y la evidencia empri ca, articulada en torno a los mecanismos de intervencin del colectivo implicado en el proyecto, que en la prctica suele ser complejo e interdisciplinar, para lograr sus objetivos y producir los resultados deseados. El principal reto de la evaluacin de impacto, para que sea creble, es la construccin de la hiptesis resultado, es decir, lo que habra sucedido a los participantes en ausencia de tratamiento. Este fen meno es inobservable por su propia definicin, es lo que se denomina resultado contrafactual, y tiene que ser estimado utilizando mtodos estadsticos dado que no se puede observar. La evaluacin experimental, en la que la asignacin al tratamiento (o la participacin en el programa) es aleatoria, se utiliza en la evaluacin de las intervenciones debido a sus ventajas estadsticas en la identificacin de los impactos del programa. Cuando existe una asignacin aleatoria de los participan tes a un programa, los grupos de participante y no participantes son comparables a efectos de resul tados medibles u objetivos definidos por indicadores. La aleatoriedad asegura que los grupos son comparables. Un tema muy relacionado como es el de la causalidad, que est en el fondo de todos los debates sobre evaluacin, tiene enfoques polidricos en la literatura y de gran complejidad9 . El tema de la causalidad es el ncleo de la evaluacin de programas. La pregunta relevante podra ser: Existe alguna actuacin deliberada, a veces llamada tratamiento o variable independiente que causa un cambio en determinados resultados o variables dependientes, con una vinculacin terica entre ellos? Desde una perspectiva de evaluacin de programas pblicos, los tratamientos incluyen pro gramas y polticas de gobierno, legislacin e innovaciones de la gestin pblica. La asignacin aleatoria al tratamiento se considera el estndar de oro (gold standard) en el trabajo de evaluacin simplemente porque10 las unidades asignadas a los grupos tratamiento y control deben ser estadsticamente equivalentes en ambas caractersticas: las observables y las no observables. Una asignacin aleatoria a los grupos de tratamiento y control permite asegurar que la participacin en la intervencin es el nico factor diferenciador entre las unidades que participan y quienes quedan ex cluidos del programa, por lo que el grupo de control se puede utilizar para evaluar lo que habra suce dido a los participantes en ausencia de la intervencin, sin necesidad de estimar un cortrafactual. Las unidades participantes pueden diferir en caractersticas medibles y no medibles. Desde una pers pectiva de evaluacin, las diferencias medibles (por ejemplo, edad, peso, altura, nmero de hijos, ingresos, nivel de estudios) no son problemticas, ya que pueden ser controladas en los anlisis es tadsticos, si bien puede suponer un esfuerzo considerable recopilar y disponer de los datos. Sin em bargo, las diferencias imposibles de medir (por ejemplo, la inteligencia, la motivacin, el altruismo) son mucho ms problemticas, porque si estn relacionadas con las medidas de resultado, pueden tener grandes efectos sobre las estimaciones de los impactos del programa. Hacer caso omiso de caractersticas pertinentes no medidas, normalmente sesga las estimaciones de los impactos del programa. Esta fuente de sesgo se llama sesgo de seleccin o sesgo de auto-seleccin si los partici pantes son voluntarios para el tratamiento. En relacin a la evaluacin de programas sociales, es interesante investigar la incorporacin de me didas activas de empleo en los programas de garanta de rentas. En Espaa el desarrollo relativa mente reciente de estas medidas y la dispersin de algunas de estas actuaciones, tanto en el plano territorial como funcional, impide contar con un conjunto de evaluaciones tan extendido como el de otros pases. Buena parte de estas iniciativas han surgido al hilo de la creciente asuncin de compe tencias por parte de los gobiernos autonmicos y locales, siendo compleja la sistematizacin de los logros y los lmites.
9

Sobre este tema y ms concretamente la inferencia causal en las ciencias sociales pueden resultar de inters los trabajos de M.E.Sobel (1995, 1996, 1998) y Holland(1986). Pearl (2009) presenta una revisin de los ms recientes avances en la inferen cia causal. Glymour (1986) desarrolla la importancia filosfica del tema.

10

Cteris pribus: mtodo en el que se mantienen constantes todas las variables de una situacin, excepto aquella cuya influencia se desea estudiar, permitiendo simplificar el anlisis en fenmenos complejos. Expresin que, en economa, facilita la aplicacin de modelos abstractos.

Instituto de Estudios Fiscales No existe en la actualidad una base de datos comn de las diferentes experiencias territoriales. Slo algunas Comunidades Autnomas cuentan con sistemas de registros adecuados para la evaluacin11. Como ejemplo de las posibilidades y lmites del uso de este tipo de informacin, pueden consultarse algunos resultados de las evaluaciones realizadas del programa (IMI) de renta mnima de insercin de la Comunidad Autnoma de Madrid (Ayala y Rodrguez, 2006, 2007, 2011), que utilizando tcnicas de evaluacin de impacto PSM con informacin procedente de registros administrativos y de encues tas realizadas a los beneficiarios que pasan por el programa IMI, estudian la movilidad general de los hogares participantes, identificando una serie de caractersticas socioeconmicas que determinan una mayor duracin en los programas y que deberan ser tenidas en cuenta a la hora de decidir incluir a los beneficiarios en las actividades orientadas al empleo. Las iniciativas que consigan aumentar la empleabilidad de los beneficiarios contribuirn a reducir los procesos de dependencia de las presta ciones. En este sentido conviene resaltar la importancia de evaluar efectos indirectos de los progra mas que mejoren la empleabilidad, tema en el que se volver a incidir ms adelante. Otra conclusin importante de las evaluaciones realizadas se refiere a que las actividades orientadas al mercado de trabajo reducen la probabilidad de que los hogares vuelvan a los programas o alargan, al menos, el tiempo pasado fuera de los programas en el caso de las reincorporaciones, es decir alargan el tiempo de independencia del programa. Tambin se han investigado los factores que influ yen en las reincorporaciones al programa, estudiando los efectos combinados de la longitud del pri mer episodio en el programa y el tipo de salida la primera vez12. Los ejemplos que se incluyen en estas pginas como estudios de caso, para realizar las estimaciones del PSM y evaluacin de efectos del tratamiento con STATA, proceden de un fichero de micro datos obtenido a partir de las bases de datos utilizadas en estos trabajos. El fichero no contiene la informa cin completa, es un subconjunto de registros y variables con fines docentes que permita realizar en clase ejercicios que ayuden a una mejor comprensin de los conceptos (Fichero PSMDATOS).

3. IMPORTANCIA DE LOS DISEOS CUASI EXPERIMENTALES EN LA EVALUACIN


A pesar de que la asignacin aleatoria al tratamiento, que se realiza en la evaluacin experimental, es una herramienta extraordinariamente til para la evaluacin, no siempre es factible ni a veces siquiera deseable su utilizacin. Adems de lo costosa que puede resultar obtener la cooperacin de los res ponsables y participantes en el proyecto en estudio que se trata de evaluar, un diseo de asignacin aleatoria exige que la planificacin, desarrollo e implementacin se realice antes del inicio de la inter vencin. Se trata en estos casos de evaluaciones ex ante. Pocos estudios de evaluacin han sido diseados antes de la ejecucin del programa, en estos casos se pueden realizar diseos cuasi- ex perimentales para evaluar los programas. En algunas situaciones existen consideraciones ticas que no deben ser menospreciadas. Tampoco es irrelevante la complejidad que supone establecer la aleatoriedad en sentido estricto, que en mu chas ocasiones resulta muy difcil aplicar en la prctica. . La cuestin est en disear un proceso de asignacin al azar que no pueda ser socavado por los tcnicos del programa, que tienen incentivos para demostrar la efectividad del programa, unidades que quieran poder optar por estar dentro o fue ra del tratamiento, o polticos que quieran garantizar que las unidades de tratamiento en sus distritos polticos (bien sean personas, escuelas, hospitales, plantas de tratamiento de agua etc.) son los pre feridos. A veces, la aplicacin de la aleatoriedad puede requerir la modificacin de complicados pa quetes de software para asegurar que los solicitantes seleccionados al azar se eligen solamente para formar parte del grupo de tratamiento o el de control. Algunos experimentos han incorporado explci tamente las presiones para socavar el proceso de asignacin aleatoria en su diseo inicial13. La evaluacin ex post tambin tiene ventajas, no exclusivamente de costes. En muchos casos per mite aprovechar una informacin que ya existe, procedente de la gestin y puesta en marcha del pro
11 Es el caso, entre otras, de Navarra, donde el sistema de registros del programa de Renta Bsica ha permitido evaluaciones sistemticas de los resultados de las estrategias de activacin.
12 Ayala, L. & Rodrguez, M. (2010) utilizan modelos de duracin paramtricos, incluyendo tres dimensiones: la duracin del
primer episodio, las condiciones macroeconmicas y caractersticas socio demogrficas.
13 Puede consultarse King et al. (2007).

grama que no se tiene a priori, con lo que elementos desconocidos del proceso que puedan producir disfunciones es factible que sean tenidos en cuenta introducindolos como informacin adicional que permita una evaluacin ms realista y certera. A menudo los mtodos no experimentales son necesa rios para abordar las evaluaciones de forma ms global y completa. A travs de la aplicacin de mtodos rigurosos de evaluacin no experimental, se puede avanzar de forma notable en la comprensin de la efectividad de las intervenciones sobre los resultados principa les de inters Adems de proporcionar estimaciones directas de los efectos del programa sobre los resultados relevantes, con estos mtodos tambin se pueden abordar una gran variedad de cuestio nes relacionadas y complementarias con los objetivos fundamentales de la intervencin, Por ejemplo, si algunas de las intervenciones son ms eficaces para determinados grupos particulares individuos con caractersticas especficas que para otros. Adems de permitir conocer los posibles factores que quedan fuera del control de los responsables y pueden influir en los resultados y cmo puede modifi carse la intervencin para tenerlos en cuenta. En estas pginas se describe el mtodo de evaluacin no experimental denominado propensity score matching (PSM), mtodo que se enmarca en el contexto de la estimacin no paramtrica. El PSM utiliza la informacin de un grupo de unidades que no participan en la intervencin y tienen caracters ticas observables similares a los que participan, para identificar lo que habra ocurrido a las unidades participantes en ausencia de la intervencin. La clave es buscar y construir un grupo de comparacin vlido (contrafactual) para calcular la diferencia de los resultados entre los participantes y los no parti cipantes que son similares desde el punto de vista observacional. De esta forma es posible estimar los efectos de la intervencin. En los ltimos aos debido a las facilidades proporcionadas por las mejoras en la capacidad de clcu lo, los algoritmos de asociacin y el desarrollo de software especfico, los mtodos que emparejan directamente a los participantes con los no participantes que tienen caractersticas similares han sus tituido a la regresin como uno de los mtodos preferidos para la estimacin del impacto de la inter vencin a partir de datos del grupo de comparacin construido con esta tcnica.

4. EL PROBLEMA DEL SESGO DE SELECCIN AL MEDIR EFECTOS CAUSALES


James Heckman introdujo el concepto de sesgo de seleccin en la econometra moderna. Recibi el Premio Nobel de Economa en 2000 por sus trabajos pioneros en abordar esta problemtica14 y abri un camino que ha producido una amplia y compleja literatura para corregirlo. Desde entonces, se han desarrollado una variedad de mtodos para corregir el sesgo de seleccin incluyendo el propensity score matching (PSM), el estimador de la doble diferencia (DD) los mtodos de variables instrumenta les (VI), los enfoques de modelos con efectos fijos (EF), cada uno de ellos con sus propias limitacio nes y aplicables slo en determinadas circunstancias. La idea general del procedimiento PSM es sencilla. En ausencia de un diseo experimental la asigna cin al tratamiento es con frecuencia no aleatoria, y por lo tanto, los participantes en el tratamiento y los excluidos pueden variar no slo en cuanto ser o no participantes, sino tambin en otras caracters ticas que afecten tanto a la participacin como al resultado de inters para la evaluacin. Para evitar los sesgos que esto puede generar, los mtodos de emparejamiento (matching) tratan de encontrar una unidad no tratada que sea similar" a una unidad participante, lo que permite una estimacin del impacto de la intervencin como la diferencia entre el resultado de un participante y el caso de com paracin emparejado. Calculando la media de todos los participantes y la de los no participantes em parejados, el mtodo proporciona, a travs de la diferencia de medias, una estimacin del impacto medio del programa para los participantes. El mayor reto en la evaluacin de cualquier intervencin o programa es obtener una estimacin fiable del denominado contrafactual es decir de la situacin contraria: Qu habra sido de las unidades participantes si no hubieran participado? Sin una respuesta creble a esta pregunta, no es posible determinar si la intervencin ha influido realmente en los resultados de los participantes o no. Sin
14

Vase Heckman, J.J. (2001). Artculo que adems de servir como excelente referencia de los avances de la econometra moderna, incluye una bibliografa muy extensa sobre trabajos de evaluacin de impacto con micro datos.

Instituto de Estudios Fiscales embargo, como su nombre indica, es imposible observar la situacin contraria que solamente puede ser estimada. La evaluacin del programa se enfrenta por tanto a un problema de falta de datos, ausencia de infor macin suficiente para el investigador, que el estadstico Paul Holland15 considera el problema fun damental de la inferencia causal: es imposible observar los resultados de la misma unidad en condiciones de tratamiento y al mismo tiempo en condiciones de no recibir el tratamiento (Holland 1986), no es factible observar al individuo que est en un programa y al mismo tiempo no est. En principio, una posible solucin a este problema consiste en calcular un resultado hipottico basado en un grupo de no participantes y calcular el impacto de la intervencin como la diferencia en el resul tado medio entre los grupos: diferencia de medias entre el grupo de tratados y no tratados. Sin em bargo, este planteamiento slo es vlido en una situacin muy precisa: el grupo de comparacin debe ser estadsticamente equivalente al grupo tratado. En otras palabras, los grupos deben ser idnticos, excepto por el hecho de que uno de ellos recibi el tratamiento. Por lo tanto, la principal preocupacin es cmo encontrar un grupo de comparacin adecuado. Sin tener un grupo de comparacin vlido, no es posible atribuir al programa la causa de los efectos que se tratan de evaluar. Cuando existe sesgo de seleccin porque no existe una asignacin aleatoria de los participantes a un programa, los grupos de participante y no participantes no son comparables a efectos de resultados medibles u objetivos definidos por indicadores. La ausencia de aleatoriedad genera sesgos dado que los grupos no son comparables. Para eliminar o corregir estos sesgos, es preciso construir un grupo de comparacin vlido acudiendo a tcnicas cuasi experimentales como el PSM. Con carcter general, los estudios cuasi-experimentales y no experimentales que tratan de corregir estadsticamente el sesgo de seleccin, suelen tener mayor credibilidad que los estudios en los que se ignora por completo el sesgo de seleccin.

5. EL PROBLEMA DE LA DIMENSIONALIDAD
Uno de los temas crticos en la aplicacin de tcnicas de matching es definir claramente y justificar lo que significa "similar". Aunque puede ser relativamente sencillo asignar una unidad de comparacin basada en una nica caracterstica observable, en la prctica, para que el proceso de matching logre eliminar el sesgo potencial, tiene que hacerse considerando una amplia gama de variables observa bles y observadas en las que las unidades de tratamiento y de comparacin pueden variar. Lo que introduce el denominado problema de la dimensionalidad. Con las tcnicas de matching se pretende emparejar cada unidad participante en el programa (trata da) con una o varias unidades similares, en trminos de variables observadas X, no participantes (sin tratamiento). Cuando X es una nica variable, p. ej. La edad, el concepto similar es claro: la misma edad o la ms prxima posible. Cuando hay dos variables p. ej. Edad y nivel educativo (NE) el con cepto ya no resulta tan obvio. Al comparar el Caso-1 (35 aos, NE4) con el Caso-2 (36 aos, NE1) y el Caso-3 (50 aos, NE4) Cul de ellos es similar al Caso-1? El Caso-2 es ms prximo al Caso-1 en edad, pero el Caso-3 lo es en nivel de estudios. Cuando se trabaja con mltiples variables X, no est definida con claridad la idea de proximidad. Ro sembaum y Rubin resolvieron este problema proponiendo el clculo de una medida nica el propensi ty score (PS), probabilidad estimada de participacin en el programa mediante un modelo probit o logit16 con variables explicativas X17. Los resultados de Rosembaum y Rubin forman la base terica del propensity score matching (PSM): la probabilidad de participacin en un programa estimada a travs del PS resume toda la informacin relevante contenida en las variables X. La idea de proximi dad en PS se define con claridad proporcionando una solucin excelente al problema, cuya mayor
15 16

Vase Holland (1986).


Modelos estadsticos que generalizan los modelos lineales clsicos, son modelos con heterocedasticidad, que estiman los
parmetros por el mtodo de mxima verosimilitud. Toda la formalizacin terica puede verse en Mc Cullach, P. & Nelder, J.A.
(1983).
17 Vase Rosenbaum, P.R. and Rubin, D.B. (1983).

ventaja consiste en la reduccin de la dimensionalidad, que permite emparejar por una nica variable (PS) en lugar de un conjunto completo de variables observadas X.

6. FUENTES DE INFORMACIN PARA LA EVALUACIN


Mientras que los experimentos aleatorios suelen exigir una recogida de datos original, la gran mayora de las evaluaciones cuasi-experimentales utilizan datos secundarios previamente recogidos en las estadsticas oficiales del pas de que se trate, censos y encuestas y tambin registros administrativos del estado, comunidad autnoma, provincia o ciudad, en funcin del mbito territorial de la evaluacin y otras fuentes similares. Al tratarse de evaluaciones ex post, permiten utilizar la propia informacin generada en la puesta en marcha del programa que se trata de evaluar y la de la gestin de las pres taciones que contempla el mismo. En este sentido, disminuye los costes de la evaluacin, y permite aprovechar la informacin disponible con otros fines, aunque debe tenerse en cuenta la gran cantidad de transformaciones necesarias para convertir registros administrativos en bases de datos utilizables en la evaluacin emprica18. Los datos necesarios para el PSM han de permitir que se cumpla el supuesto de independencia con dicional, es decir que una vez controladas todas las caractersticas observadas relevantes, las unida des de comparacin deberan tener, en promedio, el mismo resultado que las unidades de tratamiento hubieran tenido en ausencia de la intervencin. Esto exige trabajar con micro datos para estimar el modelo de participacin y no suele ser suficiente disponer de datos agregados. La mayora de los estudios de evaluacin publicados son cuasi-experimentales y se basan en importantes fuen tes de datos secundarias19. Dado que, en muchos casos, el investigador no sabe con precisin los criterios que determinan la participacin en el programa, es conveniente controlar todas las variables que se sospecha que influ yen en la seleccin para participar en el tratamiento, aunque debe tenerse en consideracin que el control de muchas variables puede generar problemas con el cumplimiento de la hiptesis de soporte comn y esta es tan fundamental como la anterior para caracterizar correctamente el PSM. Como resultado de ello, el investigador debe tener acceso a un gran nmero de variables con suficiente calidad para realizar las estimaciones. La investigacin emprica realizada en evaluacin de impacto ex post, ha mostrado que tambin es im portante que los datos de las unidades de tratamiento y los de las unidades de control procedan de las mismas fuentes, con los mismos instrumentos de recogida, mismas unidades de medida y mismas defi niciones. En los casos en que los datos sobre las unidades de tratamiento y las unidades de compara cin se derivan de diferentes fuentes, es fundamental tratar de evitar que las variables se construyan de la misma forma (por ejemplo, con los mismos sistemas de codificacin, si hay evidencia de lo contrario). Es muy importante dar un tratamiento similar a los valores missing para las unidades tratadas y no tratadas. A pesar de que los datos siempre tienen errores y esto es un problema potencial, el sesgo en las estimaciones de impacto puede ser relativamente pequeo si los datos de tratados y no trata dos tienen la misma estructura de error debido al uso del mismo sistema de imputaciones. Por el con trario, si existen diferencias sistemticas en la forma en que se trataron los errores, en particular las medidas de los indicadores de resultado, incluso pequeas diferencias pueden inducir importantes sesgos en las estimaciones de impacto. Es conveniente que los datos estn tomados en el mismo momento de tiempo en lugar de que exista un desfase temporal que provoque alteraciones importantes en los conceptos, definiciones, sistemas de codificacin etc., a efectos de validez de la comparacin. Todas estas consideraciones sobre las exigencias de los datos hacen que sean tan limitativos como la propia hiptesis de independencia condicional para poder llevar a cabo una evaluacin de calidad mediante PSM.
18

Vase Ayala L. y Rodrguez M. (2007 a). La publicacin que contiene este trabajo, referenciada en la bibliografa incluye mltiples estudios que contemplan esta problemtica desde distintos enfoques y mbitos temticos. 19 Por ejemplo, en EEUU el sitio web de NLSY (National Longitudinal Surveys) contiene ms de 4.000 artculos de revistas basados en el NSL, monografas, documentos de trabajo, y disertaciones http://www.bls.gov/nls/nlsbib.htm. El sitio web de PSID (Panel Study of Income Dynamics Institute for Social Research Bureau of Labor Statistics) incluye ms de 2.700 artculos de revistas, libros y captu los de libros y actas de congresos. http://psidonline.isr.umich.edu/Publications/Bibliography/default.aspx.

10

Instituto de Estudios Fiscales Los estudios de Ayala y Rodrguez, utilizados como ejemplos en este documento, que han sido reali zados utilizando tcnicas de evaluacin de impacto PSM, se basan en la informacin procedente de registros administrativos y de encuestas realizadas a los beneficiarios que pasan por el programa IMI. En programas con cierta trayectoria, la posibilidad de explotar estos registros permite disponer de bases de datos longitudinales, que, gracias a la existencia de un conjunto de mtodos de anlisis cada vez ms sofisticadas aplicables a micro datos, hacen posible abordar diferentes aspectos rela cionados tanto con el funcionamiento de los programas como con las caractersticas de los hogares beneficiarios. En el campo de las polticas sociales en Espaa, existe una experiencia limitada en el uso de regis tros administrativos para la investigacin. De ah deriva la menor tradicin en la utilizacin de datos administrativos para evaluar estas polticas, que en otros pases ha permitido contar con un importan te acervo de resultados. En Espaa no existe esta cultura y es muy reciente y reducida, todava, la importancia de los registros administrativos como fuente de datos, aunque la progresiva disminucin de los costes en el proceso automtico de la informacin permite acceder a ellos mediante herramientas analticas modernas y eficientes. En otros pases, como los nrdicos, el seguimiento y la evaluacin de las polticas sociales se han basado, tradicionalmente, en el uso de registros administrativos. Algunas Comunidades Autnomas, en nuestro pas, han realizado esfuerzos notables para convertir esos regis tros en bases de datos para el estudio de las polticas dirigidas a los hogares con menores ingresos. Las ventajas de la utilizacin de los datos administrativos sobre los programas de garanta de rentas son varias. La riqueza informativa contenida en los ficheros de beneficiarios representa un gran activo de conocimiento de la realidad social. Los sistemas administrativos en algunos servicios sociales son, adems, esencialmente dinmicos y pueden ayudar a evaluar los cambios producidos a lo largo del tiempo, ya que ofrecen la posibilidad de seguir a los mismos individuos a lo largo de un periodo am plio. Su gran tamao y, muy a menudo, la cobertura de universos completos permiten abordar tipos de anlisis imposibles de realizar con otras fuentes. Existe, adems, la posibilidad de enriquecer la base de micro datos creada a partir del proceso administrativo mediante el cruce con otras fuentes procedentes de encuestas, estadsticas oficiales u otros registros administrativos. No se debe olvidar, sin embargo, que existen tambin algunos problemas en la utilizacin de los da tos administrativos para el estudio de los hogares de baja renta y la evaluacin de los programas de garanta de rentas. Estos datos deben ser depurados antes de poder ser utilizados para la investiga cin, ya que existen numerosas fuentes potenciales de errores y los formatos no suelen ser adecua dos para el anlisis. Esta depuracin incluye el proceso completo de transformacin de los registros tal cual estn en el sistema de informacin para la gestin en un fichero analtico. La preferencia por ficheros longitudinales en la mayor parte de los proyectos de investigacin y evaluacin de estos pro gramas suele exigir tambin transformaciones importantes en la estructura de los ficheros de datos administrativos. Estos trabajos suelen verse ampliamente compensados cuando se consigue llevar a cabo las evaluaciones de impacto que permiten conocer mejor la realidad, el funcionamiento de los programas y las posibles mejoras que permitan utilizar los recursos pblicos con mayor utilidad social.

7. PROPENSITY SCORE MATCHING (PSM)


Existe una amplia y variada literatura sobre la aplicacin de la tcnica de PSM en la evaluacin de programas. Por ejemplo, Heckman, Ichimura y Todd (1998), Lechner (1999), Dehejia y Wahba (2002) y Smith y Todd (2005) utilizan las tcnicas de PSM para estimar el impacto del mercado de trabajo y programas de capacitacin sobre la renta; Jalan y Ravallion (2003) evalan los programas de empleo y lucha contra la pobreza. En el campo de la medicina los ejemplos son abundantes. Tiene gran inters la reciente controversia en el Stat. Med., iniciada con el trabajo de Peter C. Austin20 que realiza una evaluacin crtica del propensity score matching en la literatura mdica incluyendo 47 artculos que abarcan el perodo comprendido entre 1996 y 2003 y permite obtener una panormica muy completa en este mbito. Tambin el trabajo previo de Kurth et al. ((2005) en el que los autores comparan cinco mtodos de evaluacin, entre los que se incluyen varios algoritmos de PSM, para evaluar los efectos de un
20

Vase Austin: (2008), Hill (2008), Hansen (2008) y Stuart(2008).

11

frmaco en ms de 6000 pacientes con problemas de isquemia procedentes de un registro de acci dentes cerebro vasculares en Alemania. En cuanto a evaluaciones relacionadas con la asistencia sanitaria, Trujillo, Portillo y Vernon (2005) analizan el impacto de la participacin del seguro de salud en la atencin sanitaria, Galiani, Gertler y Schargrodsky (2005) estudian el efecto de suministro de agua en la mortalidad infantil. Otros mbitos de aplicacin como la educacin y la poltica permiten encontrar ejemplos como el trabajo de Almus y Czarnitzki (2003) y Moser (2005) que evalan el impacto de los subsidios de in vestigacin y desarrollo y las leyes de patentes en la innovacin; Lavy (2002) estima el efecto de los incentivos de desempeo docente en el rendimiento de los alumnos, y Persson, Tabellini y Trebbi (2003) analizan el impacto de la reforma electoral en materia de corrupcin. En Espaa, adems de los trabajos citados de Ayala y Rodrguez, la Agencia de Evaluacin de Cali dad (AEVAL), dependiente del Ministerio de Poltica Territorial y Administracin Pblica, realiz la evaluacin de la poltica de bonificaciones y reducciones de cuotas de la Seguridad Social destinada a las personas en situacin de discapacidad con esta metodologa21. El Propensity score matching (PSM), es un algoritmo que empareja participantes y no participantes en un programa en base a la probabilidad condicional de participar (PS), dada una serie de caractersti cas observables. Si los resultados son independientes de la participacin, condicionada en variables observables, utilizar el grupo de comparacin obtenido de esta forma, permite lograr un estimador no sesgado del impacto medio del programa. El PSM es una de las innovaciones ms importantes en el desarrollo aplicado de los mtodos de em parejamiento, resuelve el problema de la dimensionalidad sintetizando toda la informacin que pro porcionan mltiples variables en una variable nica, permitiendo realizar el matching con sola dimensin. El PSM se define como la probabilidad de que una unidad de la muestra combinada de participantes y no participantes reciba el tratamiento, a partir de un conjunto de variables observadas. Si toda la informacin relevante para la participacin y los resultados es observada por el investigador, el PSM (probabilidad estimada de participacin) produce emparejamientos vlidos para estimar el im pacto de una intervencin. Por lo tanto, en lugar de intentar que coincidan en todos los valores de las variables observadas, los casos pueden ser comparados sobre la base del PSM exclusivamente. Existen fundamentalmente dos tipos de algoritmos de matching: el nearest neighbor matchig (vecino ms prximo) que empareja una unidad participante con la unidad del grupo de comparacin que tenga el PS ms parecido y los mtodos basados en kernel que emparejan a cada participante con un resultado calculado como una media ponderada kernel de resultados de todos los no participantes.

8. IMPORTANCIA DEL CUMPLIMIENTO DE LAS HIPTESIS DE INDEPENDENCIA 8. CONDICIONADA Y SOPORTE COMN EN LA APLICACIN DEL PSM
Una respuesta individual es una funcin de participacin con caractersticas observables e inobserva bles. En general los que no participan difieren de los que participan en la situacin de la participacin. La heterogeneidad es debida tanto a caractersticas observables como no observables. En el contex to de los estudios observacionales, no experimentales, el PSM se enmarca en el contexto de la esti macin no paramtrica. Para obtener estimadores consistentes del impacto del programa, con este mtodo, hay que asumir lo que se denomina independencia condicional en su aplicacin. Tambin denominada seleccin en observables, supone una fuerte restriccin de ortogonalidad entre los posi bles resultados y el estado del tratamiento, dadas las variables observadas. Lo que conlleva asumir esta hiptesis es que la participacin, condicionada a las caractersticas obser vables, es independiente de los posibles resultados. Seleccin en observables implica que las carac tersticas inobservables no juegan ningn papel para determinar la participacin22 . A partir de aqu, para obtener un grupo de comparacin que permita evaluar los efectos de la participacin, se buscar para cada participante uno o varios no participantes que tengan las mismas caractersticas observables.
21 22

Vase Aeval (2009).


Vase Dehejia and Wahba (2002).

12

Instituto de Estudios Fiscales En la pr ctica, la sos specha de qu ue esta hipt tesis no se sostiene, es lo que condic ciona la valid dez de un ca. La credib bilidad de los resultados s precisa de otra hiptes sis adicio estudio realizado con esta tcnic erteza de qu ue existe un solapamient to en la distribucin r de observables entre el grup po de tra nal: la ce e comparacin, lo que se denomin na hiptesis de soporte e comn, que es tan tados y el grupo de va como la se eleccin en observables. . restrictiv La posib bilidad de ap plicar el PSM M en una eva aluacin de impacto suele exigir cier rtos equilibrio os en los oximndose todo lo posib ble al cumplimiento de am mbas hiptesis, con la co onsidera condicionantes, apro cional de qu ue los datos de que se dispone tengan la riqueza y calidad suficiente pa ara poder cin adic do con las co onsideracione es que se ex xponen en el apartado 6. abordarlo, de acuerd e el matching g resulte pos sible se precisa que exist tan unidades s en el grupo o de compara acin con Para que mos valores de PS que lo os que participan en el pr rograma de inters. Ello exige un sola apamien los mism S entre los do os grupos qu ue se van a comparar. En el caso to o interseccin de las distribuciones del PS ades en las que los valores r de las variables observadas que entran en la ecuacin de que existan unida macin del PS S dan como resultado qu ue no reciba an nunca el tratamiento o que siempr re lo reci de estim afactual para a ellos. Los que nunca re eciben tratam miento no tienen con quie en empa ban, no existe contra s, los que si iempre recib ben tratamiento no pued den emparejarse con rejarse en el grupo de tratados n el grupo de e controles. En el histog grama del ejemplo de la pgina 36 puede obser rvarse de nadie en rfico esta po osibilidad. En estos caso os lo que debe hacerse es restringir el matching y la esti modo gr el tratamiento o a la regin de soporte comn. macin del efecto de En la prctica lo que e implica es que debe restringirse el anlisis al grupo de no o participantes cuyos olapan con lo os de los qu ue participan. Si se asum me la selecci in en carac ctersticas valores del PS se so bles porque se acepta qu ue se cumple la hiptesis de soporte e comn, el matching deb be hacer observab ndo en cuen nta que del colectivo de no participan ntes se seleccione un gr rupo de com mparacin se tenien ucin de las caractersticas observad das sea lo ms parecida posible a la a distribu en el cual la distribu es. En el cas so de un ma atching exact to, la nica diferencia que existe cin en el grupo de participante n participante e y su pareja a es que el participante recibe el tratamiento y su contrafact tual no lo entre un n comparable es y que pueda aplicarse el mtodo PSM para recibe. De ah se deriva que los grupos sean l programa. estimas el efecto del En el dia agrama que se incluye ms abajo, se presentan n de modo esquemtico los rangos de casos ados en func cin del PS estimado (co olor naranja) ) y los excluidos por ambos extremo os del PS empareja erde). Estos ltimos no se incluiran n en el anlisis por que edar fuera de e la zona de e soporte (color ve comn.

13

A continuacin se incluye la funcin de densidad, estimada mediante una funcin kernel normal, para el PS de participantes y no participantes donde puede apreciarse una zona de soporte comn entre 0.3 y 0.9 aproximadamente. El grfico est realizado con datos reales procedentes del trabajo de Ayala L. and Rodrguez, M. (2011).

Es importante destacar que la utilizacin del PS como nica medida de todas las caractersticas observables que intervienen en su estimacin, simplificando de modo notable todo el proceso de evaluacin, es posible debido al hecho de que la hiptesis de independencia condicional se mantiene cuando se utiliza el PS en lugar de todas las variables (Rosembaun and Rubin 1983).

9. MODELO DE PARTICIPACIN EN EL PROGRAMA. ECUACIN DE ASIGNACIN. 9. CLCULO DEL PROPENSITY SCORE (PS) CON STATA
En el marco de la evaluacin de impacto, el propensity score , introducido por Rosembaum y Rubin (1993) es un mtodo alternativo al diseo experimental y a otros enfoques cuasi-experimentales para estimar efectos del tratamiento cuando la asignacin al mismo no es aleatoria, siempre que se pueda asumir seleccin en observables o lo que es lo mismo independencia condicional. Se utiliza un modelo logit o probit23, con variable dependiente binaria que indica el tratamiento y variables explicativas X, define la ecuacin de asignacin al programa. El valor del PS calculado mediante esta esta ecuacin es una probabilidad estimada de participar en el tratamiento, condicionada a las variables X, que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad. El comando STATA que permite estimar el propensity score, es decir la probabilidad de que una uni dad en la muestra combinada de los participantes y los no participantes reciba el tratamiento, dado un conjunto de variables observadas, es el pscore. Comando: Instalar el comando en el PC: Buscar informacin sobre el comando: pscore ssc install pscore, replace help pscore

Con una estructura similar a cualquier comando de STATA, las pginas de informacin sobre pscore que se obtienen a travs de help, incluyen la sintaxis, es decir la forma en que debe ser escrito en el editor de STATA la sentencia completa del comando pscore.
23

El marco terico de estos modelos puede verse en McCullagh, P. and Nelder, J.A. (1983).

14

Instituto de Estudios Fiscales A continuacin hay una descripcin detallada de todas las utilidades del comando: estima la probabili dad de recibir el tratamiento (PS) mediante un modelo probit o logit, a partir de un conjunto de variables y agrupa los individuos en bloques en funcin del valor estimado por el modelo para el PS, muestra una estadstica resumiendo la distribucin del PS estimado en los bloques y aplica un test de comprobacin de la hiptesis de equilibrio de cada una de las variables que intervienen en el modelo. En el caso de que no se verifique esta hiptesis, se especifica un modelo menos parsimonioso para el PS.

Por ltimo se almacena en una variable el valor del PS para cada registro y opcionalmente el nmero de bloque al que pertenece. El PS estimado de esta forma puede ser utilizado conjuntamente con otros comandos de STATA como attr, attk, attnw, attnd, para obtener estimaciones del efecto medio del tratamiento en los tratados, utilizando diferentes frmulas de matching: radio, kernel, vecino ms prximo en una de las dos versiones (con pesos iguales con recorrido aleatorio), con estratifica cin De ellos se hablar ms adelante en este documento. La informacin contina con una descripcin detallada de todas las posibles opciones que admite el comando, incluyen unas notas sobre aspectos relevantes como la consideracin de los valores mis sing, como debe ser la variable que describe el tratamiento, la conveniencia de actualizar STATA antes de proceder a realizar el anlisis y algunas otras. A continuacin se incluyen algunos ejemplos de cmo se utiliza el comando y la referencia de los autores, en este caso Sascha O. Becker Center for Economic Studies, University of Munich y Andrea Ichino Department of Economics, European University Institute, Florence. Por ltimo, la referencia a comandos relacionados con pscore y la direccin de internet donde pueden encontrarse referencias a las frmulas y algortmos utilizados en los programas que conforman el comando. A ttulo de ejemplo del funcionamiento, utilizando un fichero ficticio de datos transformados (PSMDATOS), procedente de los estudios realizados por Ayala y Rodriguez con los registros administrativos del IMI de la CAM, se estima el PS con STATA, para conocer la probabilidad de 15

participar en proyectos de insercin entre el colectivo de los perceptores de un subsidio de rentas mnimas. La probabilidad se estima en funcin de las variables observadas a la entrada en el programa IMI: tamao del hogar, nivel de educacun, nivel de empleabilidad, nmero de problemas sociales, edad y sexo de los participantes. PSMDATOS es el fichero que contiene los microdatos. Las variable eval1 es una variable dicotmica que toma valor 1 cunado un beneficiario del IMI participa en proyectos de insercin, y valor 0 en caso contrario. Las varibles observadas que se incluyen el el modelo, en este fichero de datos se denominan gtotal, pesola, sexo, ed, estu, emplea y problemas. El valor del ps estimado por el modelo se almacenar en la variable psclase. Se incluye comsup como opcin, en cumplimiento de la hiptesis de soporte comn, para restringir el anlisis a todos los tratados y todos los controles que cumplen la propiedad de equilibrio de todas las variables que intervienen en la estimacin. Esta opcin genera automticamente una variable dicotmica adicional denominada comsup que identifica cuando toma valor 1 los registros que estn en la zona de soporte comn. Las siguientes sentencias de STATA: use "C:\psmdatos", clear pscore eval1 gtotal pesola sexo ed estu emplea problemas, pscore (psclase) blockid (bkclase) comsup Producen los resultados que se incluyen a continuacin:
**************************************************** Algorithm to estimate the propensity score **************************************************** The treatment is eval1 eval1 0 1 Total Freq. 811 1,038 1,849 Percent 43.86 56.14 100.00 Cum. 43.86 100.00

Estimation of the propensity score Iteration 0: Iteration 1: Iteration 2: log likelihood = -979.86622 log likelihood = -953.25484 log likelihood = -953.23828 Std. Err. .076101 .1279056 .0719277 .0315764 .0357807 .0368797 .0397731 .3087687 z -0.53 0.95 1.47 -6.21 0.47 1.76 1.76 1.55 Number of obs LR chi2(7) Prob > chi2 Pseudo R2 P>|z| 0.596 0.345 0.142 0.000 0.635 0.079 0.078 0.120 = = = = 1446 53.26 0.0000 0.0272

Probit regression

Log likelihood = -953.23828 eval1 gtotal pesola sexo ed estu emplea problemas _cons Coef. -.040304 .1208904 .1056909 -.1959597 .0169852 .0648292 .0700118 .4796768

[95% Conf. Interval] -.1894592 -.1298001 -.0352847 -.2578484 -.0531437 -.0074536 -.007942 -.1254986 .1088512 .3715808 .2466665 -.1340711 .0871141 .137112 .1479656 1.084852

Note: the common support option has been selected


The region of common support is [.35529761, .83070789]

Description of the estimated propensity score


in region of common support
Estimated propensity score 1% 5% 10% 25% 50% 75% 90% 95% 99% Percentiles .375231 .4271826 .4585166 .5228032 .5954652 .6597818 .7077516 .7305123 .7688693 Largest .7930194 .8124483 .8149598 .8307079 Smallest
.3552976
.3597025
.3616426 .3622831

Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Kurtosis

1444 1444 .5876926 .0931448 .008676 -.2024601 2.394718

16

Instituto de Estudios Fiscales El fichero o tiene 1849 9 casos de lo os cuales un 56,14 % par rticipan en pr royectos de i insercin. El mode elo que estim ma el PS es un modelo probit, qu ue estima lo os parmetro os por el m todo de -verosimilitud d, eliminand do los valores missing y con dos iteraciones. . Las variab bles mas mximativas son ed dad, empleab bilidad y nm mero de prob blemas y la regin de so oporte com n abarca significat e 0 y 1. A co ontinuacin se presenta la distribuci n del PS desde 0.35 a 0.83, de un rango terico entre o en la regin de soporte e comn: estimado
Descr ription of the estimated propen nsity score in re egion of common support Est timated propensi ity score 1% 5% 10% 25% 50% 75% 90% 95% 99% Percentiles .375231 .4271826 .4585166 .5228032 .5954652 .6597818 .7077516 .7305123 .7688693 Largest .7930194 .8124483 .8149598 .8307079 Smallest .3552976 .3597025 .3616426 .3622831

Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Kurtosis

1444 1444 .5876926 .0931448 .008676 -.2024601 2.394718

Por ltim mo se incluyen en los re esultados el nmero de bloques (7) que logra eq quilibrar la media del PS, el grupo de tratados con la a media, el grupo de co ontroles en cada uno de e los 7 estratos y el resultado o satisfactor rio del test de equilibrio que aade una tabla co on la distribucin del n mero de tratados y controles en cada uno o de los estra atos de la reg gin de sopo orte comn.

Se aad den dos nue evas variable es al fichero o original ps sclase y bkc clase. En la variable ps sclase se almacen nen los valore es estimados s del propen nsity score. En la variable e bkclase se almacena el nmero del bloqu ue a que per rtenece cada a uno de los valores del PS estimado o. Puede aa adirse la opc cin detail para obt tener una do ocumentaci n mas detallada de los pasos realiz zados hasta a llegar a ob btener los resultado os finales. 17

10. DIFERENTES ALGORITMOS DE MATCHING


Cuando hay que elegir entre los diferentes algoritmos mediante los que se trata de emparejar, en base al PS, unidades tratadas con unidades del grupo de control hay determinadas cuestiones que deben ser tenidas en cuenta. En primer lugar si se realiza el matching con o sin reemplazamiento, adems de establecer una medida de proximidad, establecer un sistema de ponderacin y decidir cuantas unidades de comparacin se emparejan con cada unidad de tratamiento. Historicamente, el matching uno a uno es el primero que se ha utilizado. Se realiza mediante un muestreo sin reemplazamiento en el grupo de comparacin, es decir cada unidad del grupo de comparacin unicamente se empareja una vez y cada unidad participante tiene un enlace en el grupo de control. Los problemas en este caso se presentan cuando la hiptesis de soporte comun deja amplias zonas de la distribucin del PS sin solapar, y tambin cuando el grupo de comparacin es 24 muy reducido. En estos casos las unidades tratadas se emparejan con otras que no son similiares . Por ello muchas veces se utiliza el muestreo con reemplazamiento, y una misma unidad del grupo de comparacin se utiliza como pareja de varios casos. Las especificaciones alternativas al mathing uno a uno son mas recientes. Si en lugar de un elemento del grupo de comparacin se utilizan todos los que tienen un PS prximo, las estimaciones utilizan mejor la informacin disponible y son mas estables. La contrapartida es que si un mismo elemento del grupo de comparacin se utiliza muchas veces podra aumentar el error de muestreo. Entre los algoritmos de matching mas utilizados en la prctica y uno de los que produce mejores resultados es el denominado nearest neighbor matching (vecino mas prximo). Consiste sencillamente en elegir del grupo de comparacin el elemento con el PS mas proximo. El sistema puede utilizarse con o sin reemplazamiento. En el ltimo caso hay un matching uno a uno, en el primero un elemento del grupo de control es utilizado mas de una vez. El radius matchig debe emplearse cuando existe riesgo de un matching muy pobre por alguna de las razones ya aludidas. Consiste en especificar una distancia mxima del PS (caliper) dentro de cuyo radio se busca el enlace. La idea es que no solamente se utiliza el mas proximo dentro del radio sin todos los que existan en el grupo de comparacin que estn dentro del radio, sin limitacin de nmero, con lo que se asegura que son tan similares como se quiera establecer al definir el caliper. El kernel matching es un estimador de matching no paramtrico que compara el resultado de cada unidad tratada con una media ponderada de los resultados de todas las unidades del grupo de comparacin, utilizando las mayores ponderaciones para las unidades con PS mas parecido al que se compara. Este enfoque tiene como ventaja una varianza menor, la contrapartida es que algunos emparejamientos pueden producirse con unidades que no son similares. Cuando se aplica este enfoque, hay que asegurarse que el grado de cumplimiento de la hiptesis de soporte comn es elevado. La aplicacin de este sistema necesita decidir sobre el tipo de kernel, generalmente Gaussiano y Epanechnikov, y el intervalo. Todos estos algoritmos de matching implican una eleccin entre sesgo y precisin, sin que exista una regla clara de cual es el mas indicado en cada contexto. Es evidente que el nearest neighbor uno a uno garantiza que se est utilizando la unidad mas similar para construir el contrafactual minimizando el sesgo, pero al no tener en cuenta una gran cantidad de informacin del grupo de comparacin aumenta la varianza, lo que implica una prdida de precisin. Cuando se utiliza muestreo con reemplazamiento, el aumento de precisin se realiza a costa de un contrafactual menos similar

11. ESTIMACIN DEL CONTRAFACTUAL, EVALUACIN DE RESULTADOS Y 11. ESTIMACIN DE ERRORES CON STATA
Una vez estimado el PS, se debe estimar el contrafactual para evaluar los efectos del tratamiento. En este momento existe una gran cantidad de software disponible para realizar estas estimaciones que
24

Vase Dehejia, R.H. and Wahba, S. (2002).

18

Instituto de Estudios Fiscales permiten elegir cualquiera de los algoritmos de matching descritos25. STATA es uno de los productos comerciales que cuenta con varios programas que surgen principalmente de tres grupos de desarrolladores. En primer lugar Becker and Ichino (2002) programan comandos para nearest neighbor, kernel, radius, and matching con estratificacin. Becker and Caliendo 200326 proponen el comando mhbounds para realizar anlisis de sensibilidad. En segundo lugar, Leuven and Sianesi (2003) desarrollan el software PSMATH2 que incluye estimaciones de nearest neighbor, caliper matching (con y sin reemplazamiento), radius, kernel, locallinear matching y matching con mtrica de Mahalanobis, adems de comandos para comprobar el cumplimiento de la hiptesis de soporte comn psgraph, y el test de equilibrio de las variables que se incluyen en la estimacin del PS pstest. El comando nnmatch implementado por Abadie, A., D. Drukker, J.L. Herr, and G. Imbens en 2004, permite estimar los efectos medios del tratamiento para todas las unidades y no nicamente para tratados y grupo de comparacin, especificar la mtrica de la distancia, el nmero de emparejamien tos y tambin incluye estimadores de la varianza robustos a la heterocedasticidad27. Debe tenerse en cuenta que los modelos logit y probit son modelos con heterocedasticidad que se estiman por el mtodo de mxima verosimilitud. Con posterioridad Ichino, A., F. Mealli, and T. Nannicini 2006, implementan el comando sensatt para realizar anlisis de sensibilidad de los efectos medios del tratamiento. El comando cem, debido a Blackwell, M.; Iacus, S.; King,G,; Porro, G. 2009 introduce un nuevo mtodo de estimacin de efectos. El algoritmo se describe en Iacus, King and Porro 200828 Es interesante destacar que tambin est disponible para R (software libre) y para SPSS como se indica en el Anexo 1. En el apartado siguiente se describe el funcionamiento de algunos de estos programas y se proponen algunos ejemplos para realizar con STATA. 11.1. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.1. Matching basado en el mtodo del vecino mas cercano (nearest neighbor matching) Este mtodo realiza una ordenacin previa de todos los registros del fichero por el valor del PS calculado con el comando pscore. Una vez en orden, para cada caso busca el control mas prximo en el valor del PS recorriendo el conjunto de datos del grupo de comparacin hacia arriba y hacia abajo. Si una unidad tratada empareja igual de bien hacia arriba y hacia abajo con dos unidades no tratadas, el programa da la misma ponderacin a ambos grupos de emparejamiento. Hay otra forma de buscar los controles por este mtodo, utilizando la aleatoriedad para el recorrido en el conjunto de datos hacia arriba y hacia abajo. En la prctica no suele ser muy frecuente encontrar varios vecinos mas prximos, en particular cuando las variables utilizadas para la estimacin del PS son continuas. En estos casos los resultados para ambos sistemas coinciden. Los comandos de STATA, diseados por Becker and Ichino para relizar el matching son attnw, en el caso de ponderacin igual hacia arriba y hacia abajo y attnd cuando se trata del recorrido aleatorio (random draw) en el conjunto del grupo de comparacin. Comando: Instalar el comando en el PC: Buscar informacin sobre el comando: attnw ssc install attnw, replace help attnw

25 En el Anexo 1 se incluyen referencias de software libre y alternativas comerciales a STATA para implementar mtodos de
PSM.
26 27 28

Puede consultarse la descripcin en Becker & Caliendo (2007).


Vase Abadie, A., D. & others. (2004), Abadie & Imbens (2006, 2008, 2011) para conocer el marco terico de este software.
Informacin disponible en http://gking.harvard.edu/files/cem.pdf

19

Las pginas de informacin sobre attnw que se obtienen a partir de help:

En el caso del comando attnd Comando: Instalar el comando en el PC: Buscar informacin sobre el comando: attnd ssc install attnd, replace help attnd

Las pginas de informacin muestran la descripcin,opciones, notas, ejemplos, autores (Becker & Ichino) y direcciones para obtener mas informacin. Casi todos los comandos que permiten estimar el efecto medio del tratamiento con STATA, incluyen opciones que permiten calcular los errores mediante bootstrap, mtodo propuesto por Bradley Efron en 1979, que permite aproximar la distribucin de un estadstico en el muestreo mediante la generacin de varias muestras por ordenador29. Ponerlo en prctica exige gran capacidad de clculo, y es por esta razn por la que los fuertes avances tecnlogicos en la potencia de los ordenadores actuales, facilita el clculo del sesgo, varianza, intervalos de confianza y contraste de hiptesis estadsticas mediante bootstrapping . Debido a esta facilidad es normal encontrar la posibilidad de utilizar este mtodo en el software destinado a aplicar PSM.
29

Sobre este tema puede consultarse Efron, B. & Tibshirani, R.J. (1993). En Abadie, A. & Imbens, G. (2006) se proponen unas modificaciones para lograr que los estimadores de los efectos medios del tratamiento sean consistentes y asintticamente normales. El software para calcular estos estimadores est disponible en el comando de STATA nnmatch.

20

Instituto de Estudios Fiscales

El prximo ejemplo consiste en utilizar el fichero PSMDATOS para realizar la estimacin del efecto medio del tratamiento en los tratados, por ambos sistemas de emparejamiento, con el mtodo nearest neighbor matching. El planteamiento es anlogo al que se realiza en el apartado 11.2. La comparacin de los resultados con los obtenidos con diferentes algoritmos de matching presenta un anlisis de sensibilidad que aumenta, en su caso, la robustez y por tanto la credibilidad de las estimaciones. Tngase en cuenta que todos los ejemplos de este documento se realizan con el mismo fichero PSMDATOS y con los resultados de estimar el PS obtenidos en el apartado 10 a travs del comando pscore, con la exigencia de soporte comn, utilizando 7 variables observadas (edad, empleabilidad, nmero de problemas, sexo,nivel de estudios, nmero de miembros del hogar, hogar monoparental) para los hogares participantes y no participantes en proyectos de insercin sociolaboral, dentro de los beneficiarios de un programa de rentas mnimas de la Comunidad Autnoma de Madrid. 21

Por tanto, al mantener en todos los ejemplos el mismo PS que est almacenado en la variable psclase, para realizar las estimaciones del efecto medio del tratamiento en los tratados (ATT) a travs de los diferentes mtodos de matching, no es necesario expliciar de nuevo las variables de la ecuacin de asignacin. Adems, se utiliza la posible variabilidad de los resultados como anlisis de sensibilidad a los distintos mtodos de emparejamiento. Tal y como se indica mas adelante, en el apartado 12, tambin es interesante realizar un anlisis de sensibilidad de los resultados a diferentes especificaciones de la ecuacin de participacin. Las siguientes sentencias de STATA: use "C:\psmdatos", clear attnd psalud0 eval1, pscore (psclase) boot attnw psalud0 eval1, pscore (psclase) boot Producen los siguientes resultados:
n. treat. 1038 n. contr. 645 ATT -0.014 Std. Err. 0.030 t -0.469

Note: the numbers of treated and controls refer to actual


nearest neighbour matches

ATT estimation with Nearest Neighbor Matching method


(equal weights version)
Analytical standard errors
n. treat. 1038 n. contr. 645 ATT -0.004 Std. Err. 0.032 t -0.131

Note: the numbers of treated and controls refer to actual


nearest neighbour matches

Aunque se mantiene el signo negativo del efecto, la magnitud es mucho menor y se pierde la significacin estadstica. El anlisis de sensibilidad de los resultados a los algoritmos de matching realizados con los comandos attr, attk, attnw, attnd, pueden efectuarse tambin con el comando sensatt, que implementa el anlisis de sensibilidad propuesto por Ichino, Mealli, and Nannicini (2006). Su funcionamiento se describe en la ayuda del comando (help). 11.2. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.2. Matching con estratificacin (Becker & Ichino) El comando STATA que pesrmite realizar el matching con estratificacin, es decir un emparejamiento entre casos y controles basado en una variable que contiene el nmero de bloque (estrato) al que pertenece el registro de la zona de soporte comn, adems de la variable que contiene el valor del PS previamente estimado, es atts. Comando: Instalar el comando en el PC: Buscar informacin sobre el comando: atts ssc install atts, replace help atts

Las pginas de informacin sobre atts que se obtienen a travs de help, de modo similar al caso de otros comandos incluyen la sintaxis, descripcin detallada de todas las utilidades del comando, op ciones posibles, notas sobre aspectos relevantes, ejemplos, referencias de los autores de los pro gramas, direccin de internet donde se puede obtener mayor informacin sobre los algoritmos de clculo y comandos relacionados con el que se describe. 22

Instituto de Estudios Fiscales

En este caso, atts, permite haber realizado previamente la estimacin del PS y del nmero de bloque al que pertenece cada registro del fichero, a travs del comando pscore descrito anteriormente, utili zando esta informacin para realizar el matching, ya que por construccin, el clculo del PS y del nmero de estratos que permite verificar la hiptesis de equilibrio del PS en cada uno de ellos hace que la asignacin al grupo de tratamiento y de control pueda considerarse aleatoria. Debe ejecutarse pscore con la opcin comsup, para obtener unos resultados correctos sobre el nmero de tratados y controles estimados con anterioridad. Se describe en el apartado 9. Para calcular el ATT (efecto medio del tratamiento en los tratados), se utiliza una media ponderada por el nmero de tratados de los efectos del tratamiento en cada uno de los bloques. Se calcula como la diferencia de resultados medios entre tratados y controles dentro del mismo bloque para el cual pscore ha logrado equilibrar todas las variables que intervienen en el clculo del PS. Entre las posibles opciones del comando, que se incluyen a continuacin, figura bootstrap, que permi te calcular los errores de la estimacin del efecto del tratamiento, mediante esta tcnica. Otras opcio nes descritas, que tienen relacin con este clculo de errores, son reps, noisily y dots, referidas al nmero de rplicas de muestras que se solicitan (por defecto son 50), a la informacin en los resulta dos del efecto producido en cada una de las muestras, y al requerimiento de que figure un punto en la pantalla cada vez que comienzan los clculos con una nueva rplica de muestra. Se describen adems las opciones obligatorias pscore que indica el nombre de la variable que con tiene la informacin del propensity score previamente calculado, blockid que indica el nombre de la variable que contiene el nmero de bloque al que pertenece el propensity score. Por ltimo las opcio nes detail para obtener una informacin ms detallada de todos los procesos de clculo hasta llegar a los resultados finales y comsup que restringe los valores utilizados para el clculo del ATT a la zona d soporte comn. 23

En las notas se hace una referencia al clculo de los errores por bootstrapping, con las especificida des de la estimacin por estratos, y una explicacin de los casos en que en alguno de los estratos no haya ningn caso y/o control o exista solamente un caso y/o un control. A continuacin unas referencias al almacenamiento de los resultados en el fichero de anlisis: ATT, errores, valor del test de la t y en su caso errores y test calculados por bootstrapping. Tras los ejem plos de cmo se utiliza el comando, la referencia de los autores (Becker & Ichino), la referencia a comandos relacionados con atts y la direccin de internet donde pueden encontrarse referencias a las frmulas y algortmos utilizados en los programas que conforman el comando. Utilizando el fichero PSMDATOS, a ttulo de ejemplo, se estima con STATA el efecto medio del tratamiento en los tratados (ATT) mediante un matching con estratificacin. Se trata de ver si los participantes en proyectos de insercin laboral, dentro del colectivo de los perceptores de un subsidio de rentas mnimas, tienen mejores resultados, en trminos de salud, que los que participan en proyectos de capacitacin general. Es un ejemplo en el que se miden efectos indirectos de un programa. El programa no va dirigido a mejorar la salud de los beneficiarios, pero hay un crculo virtuoso empleo-salud, y mejorar la salud puede mejorar la empleabilidad. Conocer rasultados en trminos de salud puede ayudar a definir mejor el programa. La variable eval1 toma valor 1 cuando el beneficiario participa en proyectos de insercin sociolaboral y valor 0 en caso contrario. El propensity score que se almacena en la variable psclase, se ha calculado previamente con STATA en el ejercicio anterior cumpliendo con la propiedad de equilibrio de todas las variables que intervenan en la ecuacin de asignacin, en la zona de soporte comn en todos los estratos. La variable que contiene el PS previamente estimado en el ejercicio anterior es psclase. El estrato a que pertenece cada PS se refleja en la variable bkclase como se haba indicado en el ejercicio anterior. Las siguientes sentencias de STATA: use "C:\psmdatos", clear atts psalud0 eval1, pscore (psclase) blockid (bkclase) boot Producen los siguientes resultados
ATT estimation with the Stratification method Analytical standard errors n. treat. 847 n. contr. 597 ATT -0.034 Std. Err. 0.027 t -1.263

Bootstrapping of standard errors


command: statistic: (obs=1849)
atts psalud0 eval1 r(atts)
, pscore(psclase) blockid(bkclase)

Bootstrap statistics
Variable bs1 Reps 50 Observed -.0338797 Bias .0002055 Std. Err. .0242477 [95% Conf. Interval] -.0826073 -.078116 -.078116 .0148479 (N) .0048754 (P) .0048754 (BC)

N = normal, P = percentile, BC = bias-corrected

ATT estimation with the Stratification method Bootstrapped standard errors n. treat. 847 n. contr. 597 ATT -0.034 Std. Err. 0.024 t -1.397

Indicando un resultado negativo en trminos de problemas de salud, o lo que es lo mismo los partici pantes en proyectos de insercin laboral tienen menos problemas de salud que los que no participan. El error de la estimacin obtenido por bootstrapping con 50 rplicas de muestra mantiene el efecto 24

Instituto de Estudios Fiscales negativo dentro del intervalo. Aadiendo la opcin detail, se muestran los pasos intermedios previos al resultado final que se presentan a continuacin.
*****************************************************
Estimation of the ATT with the stratification method
*****************************************************
The outcome is psalud0 Variable psalud0 Obs 1833 Mean .3840698 Std. Dev. .4865073 Min 0 Max 1

The treatment is eval1 eval1 0 1 Total Freq. 811 1,038 1,849 Percent 43.86 56.14 100.00 Cum. 43.86 100.00

The distribution of the pscore is Estimated propensity score 1% 5% 10% 25% 50% 75% 90% 95% 99% Percentiles .3750936 .4252926 .4564608 .5228032 .5953571 .6597818 .7077516 .7305123 .7688693 Largest .7930194 .8124483 .8149598 .8307079 Smallest .3341996 .3357525 .3552976 .3597025

Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Kurtosis

1446 1446 .5873431 .0935533 .0087522 -.215623 2.420353

The structure of blocks is Key

frequency column percentage


Number of block 2 3 4 5 6 7 . Total eval1 0 21 2.59 64 7.89 87 10.73 193 23.80 229 28.24 0 0.00 217 26.76 811 100.00

1 12 1.16 30 2.89 64 6.17 289 27.84 452 43.55 3 0.29 188 18.11 1,038 100.00

Total 33 1.78 94 5.08 151 8.17 482 26.07 681 36.83 3 0.16 405 21.90 1,849 100.00

-> bkclase = 2 Variable psclase -> bkclase = 3 Variable psclase -> bkclase = 4 Variable psclase -> bkclase = 5 Variable psclase -> bkclase = 6 Variable psclase -> bkclase = 7 Variable psclase -> bkclase = . Variable psclase Obs 2 Mean .334976 Std. Dev. .0010981 Min .3341996 Max .3357525 Obs 3 Mean .819372 Std. Dev. .0098972 Min .8124483 Max .8307079 Obs 681 Mean .6671768 Std. Dev. .0448057 Min .600662 Max .7930194 Obs 482 Mean .5541624 Std. Dev. .0290837 Min .500069 Max .5999239 Obs 151 Mean .4764241 Std. Dev. .0138859 Min .4501263 Max .4996543 Obs 94 Mean .4282963 Std. Dev. .0134487 Min .4019199 Max .4490555 Obs 33 Mean .3792881 Std. Dev. .0126809 Min .3552976 Max .3999165

Computation of treatment effect block by block Block 1 does not have observations Move to next block Block 7 does not have controls The effect of treatment is set to 0

25

11.3 Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.3 Matching basado en Kernel El comando STATA que pesrmite realizar el matching basado en una funcin kernel, es decir un em parejamiento en el cual la unidad de control que se empareja con una observacin tratada se obtiene como una funcin kernel ponderada media de los resultados de los controles, es attk. Comando: Instalar el comando en el PC: Buscar informacin sobre el comando: attk ssc install attk, replace help attk

Analogamente al caso de otros comandos STATA, a travs de help se obtiene la sintaxis, descripcin detallada de todas las utilidades y posibles opciones, ejemplos, referencias de los autores de los pro gramas (Backer & Ichino), direccin de internet donde se puede obtener mayor informacin sobre los algoritmos de clculo y comandos relacionados.

Entre las opciones posibles, epan permite elegir el kernel Epanechnicov en lugar del Gaussiano que se calcula por defecto, en cuyo caso a travs de la opcin bwidth se define el intervalo para aplicar la frmula Epanechnicov, que si no se especifica STATA utiliza por defecto 0.06. Tambin es posible calcular los errores por bootstrapping con este mtodo y especificar el nmero de rplicas muestrales, establecidas por defecto en 50. Analogamente al caso de otros comandos, attk permite haber realizado previamante la estimacin del valor del PS a travs del comando ya descrito pscore, que debe ejecutarse con la opcin comsup para obtener resultados para la zona de soporte comn. 26

Instituto de Estudios Fiscales Tambin existe la posiblidad de almacenar. en escalares los resultados: media de tratados, media de controles, nmero de tratados, nmero de controles, errores, valor del test de la t en el fichero de anlisis etc, de forma similar al caso de otros comandos con otros algoritmos de matching. El ejemplo siguiente utiliza el fichero PSMDATOS para estimar el efecto medio del tratamiento en los tratados mediante kernel matching, repitiendo el ejercicio del apartado 12.1, lo que permitir apreciar la sensibilidad de los resultados al cambio de algoritmo de matching. Las siguientes sentencias de STATA: use "C:\psmdatos", clear attk psalud0 eval1, pscore (psclase) blockid (bkclase) boot producen los siguientes resultados:
ATT estimation with the Kernel Matching method n. treat. 1038 n. contr. 811 ATT -0.042 Std. Err. . t
.

Note: Analytical standard errors cannot be computed. Use


the bootstrap option to get bootstrapped standard errors.

Bootstrapping of standard errors command: statistic: (obs=1849)


attk psalud0 eval1 r(attk)
, pscore(psclase) bwidth(.06)

El ATT estimado con este algoritmo, emparejamiento basado el el clculo del PS previamente realizado con el comando pscore para la zona de soporte comn da un resultado de -0.042, utilizando el mtodo kernel Gaussiano. El clculo de errores por bootstrapping, con 50 reposiciones de muestra y un intervalo por defecto establecido en 0.06 genera los resultados que aparecen a continuacin:
Bootstrap statistics Variable bs1 Reps 50 Observed -.0417316 Bias .0046144 Std. Err. .0261087 [95% Conf. Interval] -.0941989 .0107357 (N) -.0845923 .0008328 (P) -.0976464 -.0021065 (BC)

N = normal, P = percentile, BC = bias-corrected

ATT estimation with the Kernel Matching method


Bootstrapped standard errors
n. treat. 1038 n. contr. 811 ATT -0.042 Std. Err. 0.026 t -1.598

El error calculado es 0.026. Estos resultados comparados con los del ejercicio 12.2, son bastante parecidos (ATT= -0.034. Std. Error=0.024). Se mantiene el resultado negativo en trminos de problemas de salud de magnitud parecida, con un error similar que mantiene el efecto negativo dentro del intervalo. Parece que est avalado por dos algoritmos de matching diferentes, que los participantes en proyectos de insercin laboral tienen menos problemas de salud que los que no participan. Con la sentencia: attk psalud0 eval1, pscore(psclase) boot epan bwidth(0.01) Se realizan las estimaciones de nuevo con el mtodo de matching kernel Epanechnicov y un intervalo de 0.01 que produce resultados parecidos, tal como se indica a continuacin: 27

ATT estimation with the Kernel Matching method


Bootstrapped standard errors
n. treat. 1038 n. contr. 811 ATT -0.039 Std. Err. 0.029 t -1.349

11.4. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.4. Radius Matching En este caso el emparejamiento entre casos y controles se realiza con un algoritmo que, a partir del PS calculado, busca cada control en un radio establecido por el usuario. STATA mediante el coman do attr establece por defecto el radio en 0.1.

28

Instituto de Estudios Fiscales Por medio de la opcin radius, el usuario puede cambiar este valor. El comando attr debe utilizarse una vez estimado correctamente el PS, lo que puede realizarse mediante pscore. Tambin puede estimarse en el propio proceso del comando attr, especificando la lista de todas las variables utiliza das en la ecuacin de participacin, pero en este caso no se realiza el test de equilibrio. Se establecen opciones para calcular los errores por bootstrapping, adems de las opciones asocia das habitualmente con este procedimiento de estimacin. Tambin se contemplan ejemplos y notas. Los autores (Becker & Ichino), facilitan su pgina y la direccin de internet donde pueden encontrarse referencias a las frmulas y algortmos utilizados en los programas que conforman el comando30. Se puede repetir el ejercicio del apartado anterior con este comando, para apreciar la sensibilidad de los resultados al cambio en el algoritmo de matching. Este proceso es muy lento, por lo que no es aconsejable hacerlo en clase En este caso las sentencias que deben utilizarse son las siguientes: use "C:\psmdatos", clear attr psalud0 eval1, pscore (psclase) boot 11.5. Comandos de STATA para realizar un anlisis de sensibilidad de los efectos medios del 11.5. tratamiento Los comandos para implementar el anlisis de sensibilidad son: sensatt que utiliza una simulacin de variable binaria, mhbounds que utiliza los lmites de Mantel-Haenszel. Puede consultarse su funcionamiento en la ayuda de STATA.

11.6. Estimacin del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.6. el comando psmath2 (autores Edwin Leuven y Barbara Sianesi) Con el comando psmath2 se pueden implementar una variedad de mtodos de propensity score matching vecino mas prximo, kernel (Gaussiano, Uniforma, Epanechnicov), caliper, radio, as como la mtrica completa de Mahalanobis. El mismo comando puede utilizarse tambin para estimar unicamente el PS.
30

Vase Anexo 2.

29

Comando: Instalar el comando en el PC:

psmatch2 ssc install psmatch2, replace help psmatch2

Buscar informacin sobre el comando:

En el prximo ejemplo utilizando el fichero PSMDATOS , estimaremos el PS a partir de las variables observadas que incluiremos en el modelo de asignacin al tratamiento eval1. El ejercicio es el mismo que el realizado con el comando pscore.en la pgina 17. La siguiente sentencia: psmatch2 eval1 gtotal pesola sexo ed estu emplea problemas, common Produce los resultados que aparecen a continuacin:
Probit regression Log likelihood = -953.23828 eval1 gtotal pesola sexo ed estu emplea problemas _cons Coef. -.040304 .1208904 .1056909 -.1959597 .0169852 .0648292 .0700118 .4796768 Std. Err. .076101 .1279056 .0719277 .0315764 .0357807 .0368797 .0397731 .3087687 z -0.53 0.95 1.47 -6.21 0.47 1.76 1.76 1.55 Number of obs LR chi2(7) Prob > chi2 Pseudo R2 P>|z| 0.596 0.345 0.142 0.000 0.635 0.079 0.078 0.120 = = = = 1446
53.26
0.0000
0.0272

[95% Conf. Interval] -.1894592 -.1298001 -.0352847 -.2578484 -.0531437 -.0074536 -.007942 -.1254986 .1088512 .3715808 .2466665 -.1340711 .0871141 .137112 .1479656 1.084852

There are observations with identical propensity score values.


The sort order of the data could affect your results.
Make sure that the sort order is random before calling psmatch2.

30

Instituto de Estudios Fiscales Como puede comprobarse son idnticos a los obtenidos con los mismos datos y el comando pscore. Una vez calculado el PS con el comando psmatch2, se puede hacer un test de equilibrio de las variables que intervienen en el modelo mediante el comando pstest. Tambin, con posterioridad al clculo del PS, el comando psgraph presenta un grfico del histograma del PS para casos y controles lo que permite visualizar el grado de cumplimiento de la hiptesis de soporte comn. El comando graph, en este ejemplo, realiza el grfico que aparece a continuacin:

.3

.4

.5

.6 Propensity Score

.7 Treated: On support

.8

Untreated Treated: Off support

Este histograma representa que existe un cumplimiento aceptable de la hiptesis y permite adems reflejar casos de tratados fuera del soporte comn (color verde) a los que se aluda en el apartado 9 de este documento. Para estimar el efecto medio del tratamiento en los tratados con el mtodo kernel normal con psmath2, puede utilizarse la siguiente sentencia: psmatch2 eval1 gtotal pesola sexo ed estu emplea problemas, kernel k(normal) common ate out(psalud0). Que produce los siguientes resultados:
Probit regression Log likelihood = -940.82995 eval1 gtotal pesola sexo ed estu emplea problemas _cons Variable psalud0 Coef. -.0405308 .1462446 .1185782 -.1998551 .0162992 .0705424 .0860166 .4477802 Sample Unmatched ATT ATU ATE Std. Err. .0763826 .1287075 .0724062 .0317371 .0359886 .0371416 .0403248 .309747 z -0.53 1.14 1.64 -6.30 0.45 1.90 2.13 1.45 Number of obs LR chi2(7) Prob > chi2 Pseudo R2 P>|z| 0.596 0.256 0.101 0.000 0.651 0.058 0.033 0.148 Controls .414675768 .402419743 .359784355 = = = = 1432
56.04
0.0000
0.0289

[95% Conf. Interval] -.1902379 -.1060175 -.0233354 -.2620587 -.0542372 -.0022537 .0069815 -.1593127 Difference -.054155673 -.04374991 -.056311535 -.048894362 .1091764 .3985067 .2604918 -.1376515 .0868356 .1433386 .1650516 1.054873 S.E. .026101272 .027281345 . . T-stat -2.07 -1.60 . .

Treated .360520095 .358669834 .41609589

Note: S.E. does not take into account that the propensity score is estimated. psmatch2: Treatment assignment Untreated Treated Total psmatch2: Common support Off suppo On suppor 2 4 6 584 842 1,426

Total 586 846 1,432

31

Resultados muy similares a los obtenidos en el ejemplo del apartado 11. Los participantes en proyectos de insercin laboral tienen menos problemas de salud que los no participantes.

12. IMPORTANCIA DE REALIZAR UN ANLISIS DE SENSIBILIDAD DE LOS 12. RESULTADOS


El objetivo del anlisis de sensibilidad es explorar si las estimaciones coincidentes son robustas a la seleccin en variables no observables (Caliendo y Kopeinig, 2008). Tal y como se describa en el apartado 10, todos los algoritmos de matching implican una eleccin entre sesgo y precisin, sin que exista una regla clara de cual es el mas indicado en cada contexto. Las consideraciones en torno al tamao del grupo de comparacin a la hora de elegir uno en concreto no resultan suficientes para garantizar el resultado con ninguno de los mtodos. Por ello, lo mas conveniente, es comprobar de forma emprica la robustez de los estimadores, lo cual es factible realizando las estimaciones del efecto del tratamiento utilizando distintos algoritmos de matching y comprobando la importancia de las variaciones a estos cambios. La sensibilidad de los resultados debe medirse tambin en relacin a la especificacin del modelo de participacin (Dehejia 2005). 12.1. Sensibilidad a los algoritmos de Matching

32

Instituto de Estudios Fiscales Los resultados que se presentan en esta tabla proceden del trabajo de Ayala, L. y Rodrguez, M. (2011). Muestran todas las variables resultado, para las que se han estimado los efectos medios del tratamiento, mediante cuatro algoritmos de matching diferentes. Se trata de evaluar si la participacin en programas de reinsercin laboral, produce mejores resultados en trminos de salud y comporta mientos saludables medidos por los 6 indicadores presentados en la tabla, que participar en progra mas dirigidos a mejorar capacidades en la vida cotidiana. Los resultados en cuanto a salud fsica, son relativamente robustos, mantenimiento de efectos negativos en los problemas de salud fsica. No sucede lo mismo en trminos de salud mental. El signo negativo del efecto y la magnitud aproximada que resulta con todos los algoritmos aplicados en hbitos como la adiccin al juego y al alcohol, pone de manifiesto que los resultados son estables. 12.2. Sensibilidad a la especificacin del modelo de participacin En el trabajo de Rajeev Dehejia (2005) pueden encontrarse algunas sugerencias para la seleccin de variables del modelo de asignacin, as como la recomendacin de ampliar el anlisis de sensibilidad de los resultados a pequeos cambios en la especificacin de PS, incluyendo y excluyendo trminos de orden ms elevado en la ecuacin y contemplando interacciones entre variables. Se presenta a continuacin una tabla resumen del estudio de Ayala y Rodrguez citado en el apartado anterior a ttulo de ejemplo.

33

13. EVALUACIN DE TRATAMIENTOS MLTIPLES


Las estrategias orientadas a la reinsercin rpida de los beneficiarios de programas de welfare en el mercado de trabajo combinan, con frecuencia, programas a mas largo plazo con objetivos de formacin y capacitacin de los beneficiarios31. Cuando se evalan estos programas es habitual que existan difentes tratamientos simultneos orientados a la reinsercin laboral coexistiendo con tratamientos orientados al desarrollo de capital humano, es decir heterogeneidad de programas o tratamientos mltiples. En estos casos tiene inters evaluar la efectividad de un programa frente a otro contemplando medidas alternativas de xito para estudiar el impacto de cada uno de ellos en funcin de indicadores diversos, o lo que es lo mismo diferentes variables resultado como pueden ser distintas formas de empleo ms o menos estable, indicadores de bienestar material, bienestar subjetivo indicadores del estado de salud y muchas otras. La situacin de partida para la evaluacin, en estos casos, es de heterogeneidad de programas y medidas alternativas de resultados. Desde el punto de vista analtico, la estimacin del PS, puede enfocarse como un modelo logit multinomial , en el que la variable explicada es una variable categrica que toma tantos valores como tratamientos excluyentes se trata de evaluar, pasando de 32 un modelo de dos estados a uno de mltiples estados .Tambin es posible abordarlo estimando tantos modelos logit o probit como contrafactuales sean necesarios, para evaluar programas heterogneos. La exigencia de que los tratamientos sean excluyentes, es decir que los beneficiarios que participan en uno no lo hacen simultaneamente en otro, est conticionada por el marco terico, por lo que en la prctica puede ser necesario realizar una nueva definicin de los tratamientos que cumpla con esta necesidad.
Evaluation Treatment A Treatment B

1 2 3 4 5 6

Participation in a work-related scheme Participation in general work-related schemes Participation in intensive work-related schemes Participation in mixed work-related schemes Participation in intensive work-related schemes Participation in mixed work-related schemes

Non-participation in a work-related scheme Non-participation in a work-related scheme Non-participation in a work-related scheme Non-participation in a work-related scheme Participation in a general work-related scheme Participation in a general work-related scheme

En el trabajo de Ayala, L. y Rodrguez, M. 2006b, relizado con datos del IMI, se agrega toda una casustica de diferentes tratamientos en cuatro mutuamente excluyentes: actividades intensivas de empleo (1), actividades generales orientadas al empleo(2), actividades orientadas a mejorar habitos de vida(3), actividades orientadas al empleo generales e intensivas(1+2). A partir de estas definiciones se realiazan varias evaluaciones (tratamientos mltiples) de unos tratamientos frente a otros para observar los resultados desde el punto de vista del empleo, pobreza subjetiva, situacin econmica comparada con 10 aos antes, bienestar material y problemas de vivienda (medidas alternativas de xito). En la tabla anterior se incluyen 6 de las evaluaciones realizadas. Cada grupo de tratados exige un grupo de comparacin estimado mediante PSM. Las estimaciones de la funcin de densidad, median te una funcin kernel normal, para el PS de participantes y no participantes en cada evaluacin permi ten apreciar el grado cumplimiento de la hiptesis de soporte comn para cada evaluacin.

31 32

Vase Cancian and Meyer (2004), Moffitt (2001).


Vase Imbens (2000), Lechner (2001, 2002), Sianesi (2008), Imbens and Wooldridge (2009).

34

Instituto de Estudios Fiscales

Con el comando graph de STATA en combinacin con el comando psmath2, se obtienen los histo gramas del PS para los 6 tratamientos tal como se indicaba en el apartado 11.6. A continuacin se incluye una tabla resumen de los efectos de cada evaluacin en trminos del ATT para 7 variables resultado.

35

Los programas orientados al empleo tienen ms xito para independizar a las familias que dependen del IMI, aunque no parece suficiente para mejorar el bienestar material. De los subprogramas orienta dos al empleo, los programas intensivos dan mejor resultado que los generales tanto en trminos de empleo como de bienestar material.

14. EVALUACIN DE EFECTOS INDIRECTOS DE LOS PROGRAMAS


Hay un inters creciente entre los investigadores y tambin en la sociedad en evaluar los efectos de la prevalencia de enfermedades fsicas, mentales y problemas de comportamiento entre los perceptores de prestaciones de welfare. Interesantes trabajos publicados en EEUU33 lo muestran. Se han estudiado las interferencias de los problemas de salud fsica y mental para lograr los objetivos de estos programas y tambin hay evidencias de que estas situaciones de salud precaria pueden ser concurrentes con problemas de capital humano34. En los aos 80 en Inglaterra se realizaron una gran cantidad de investigaciones sobre las consecuencias del desempleo sobre la salud35. La Organizacin Mundial de la Salud tiene en marcha Health Impact Assessment (HIA) una campaa para promover la salud en todas las polticas que enmarca con rotundidad esta lnea de investigacin: identificar los impactos indirectos sobre la salud de polticas, planes y proyectos en sectores y reas que no son salud36. Desde un punto de vista de evaluacin de programas, este planteamiento se corresponde con lo que podra definirse como efectos indirectos, dado que mejorar la salud no entra dentro de los objetivos que se persiguen con un programa de reinsercin sociolaboral, o en un programa que trata de proporcionar rentas a ciudadanos necesitados. El enfoque analtico descrito en este documento, es totalmente vlido en estos casos y vara unica mente en que en el momento de definir los indicadores de resultados para medir el xito del progra ma, se incluyen adems de las variables que representan los objetivos del mismo, otras que contemplan situaciones de salud de los beneficiarios de los programas sociales. El trabajo de Ayala y Rodrguez (2011), puede servir como ejemplo de evaluacin de efectos indirectos con tcnicas de propensiy score matching37. En concreto, en los ejemplos propuestos en los apartados anteriores, la variable resultado (Psalud0) es precisamente una de las que mide efectos indirectos de la participacin de los beneficiarios del programa IMI en proyectos destinados a la reinsercin laboral. A continuacin se incluyen los principales resultados obtenidos en trminos de salud fsica y mental, y problemas ligados a adicciones como alcoholismo y dependencias del juego y drogas, que aunque no son concluyentes presentan efectos positivos. De hecho la reduccin de problemas de salud fsica, aumenta la empleabilidad y puede tener un efecto empleo positivo en el futuro. Adems se reducira el gasto de hacer frente a los problemas de salud.

33 Vase Bjorklund (1985), Kovess et al. (1999), Danziger et al. (2000), Coiro (2008), Cawley and Danziger (2005), Meara and
Frank (2006).
34 35 36 37

Son interesantes los trabajos de Danziger, Kalil and Anderson ( 2000), Jayakody et al. (2000).
Una buena sntesis de estos trabajos se presenta en Fagin & Little (1984).
A estos efectos puede consultarse http://www.who.int/hia/en/.
Las tablas que se incluyen aqu proceden de una versin posterior del trabajo que est en evaluacin.

36

Instituto de Estudios Fiscales

Sirvan estas lneas para dar una idea de la gran cantidad de posibilidades que las tcnicas cuasi experimentales proporcionan a los investigadores, si bien la disponibilidad de los datos necesarios no siempre se produce. En este caso, una encuesta realizada a beneficiarios del programa IMI, ha permitido recabar una gran cantidad de informacin que no suele ser fcil de obtener.

15. CONCLUSIONES
El tema de la causalidad es la esencia de la evaluacin de programas: Hay alguna actuacin delibe rada que causa un cambio en determinados resultados existiendo una vinculacin terica entre ellos? Desde una perspectiva de evaluacin de programas pblicos, los tratamientos estn en gran parte compuestos de los programas de gobierno, polticas, legislacin e innovaciones de la gestin pblica. En cambio, en el campo de la medicina, pionero en este tema y del que se ha incorporado una gran 37

parte de la terminologa, los tratamientos pueden incluir, entre otros, la utilizacin de nuevos sistemas de medicamentos, procedimientos quirrgicos, y el uso de nuevos recursos mdicos. Comparar sin ms los resultados del grupo de tratados con el de no tratados para atribuir la causa al tratamiento implica resultados sesgados. El PSM es una de las tcnicas ms utilizadas para hacer frente a los sesgos asociados con factores observables al evaluar el impacto de un programa. El pro cedimiento se basa en la estimacin de un contrafactual, y en la definicin de grupos comparables de tratados y no tratados. El objetivo principal de este documento que es facilitar una gua para la aplica cin del estimador PSM, ha contado con ejemplos que ilustran los conceptos importantes en la eva luacin de impacto y el PSM, ayudando a plantear las preguntas que con frecuencia son de inters en las evaluaciones y explicando por qu, a menudo, son necesarios los mtodos no experimentales para abordar evaluaciones de impacto de forma complementaria. La utilizacin de STATA en los ejemplos prcticos, pretende aprovechar las enseanzas impartidas en otros mdulos del Curso, evitando la dispersin de la atencin por desconocimiento del software utilizado. La inclusin de referencias de software libre y otras alternativas comerciales en el Anexo 1, pretende ampliar el campo de referencia de las herramientas analticas que los alumnos puedan utili zar en el futuro, en consonancia con su situacin laboral especfica. Se ha tratado, por tanto, de proporcionar informacin sobre cuestiones de evaluacin de programas con la idea de relacionar las tcnicas, describiendo el contexto en el que el PSM es una metodologa vlida teniendo en cuenta los supuestos tericos y las hiptesis que es necesario verificar para su aplicacin, pero con un enfoque eminentemente prctico. Toda la formalizacin terica necesaria est disponible en la bibliografa recomendada y materiales complementarios facilitados a los alumnos. Al tratarse de una metodologa de evaluacin cuantitativa, se ha abordado la necesidad de contar con fuentes de informacin adecuadas y la problemtica que puede existir con los datos disponibles para que se respeten las condiciones que garanticen que el PSM sea una tcnica apropiada para estimar el efecto del programa que se trata de evaluar. Tambin se ha explicado la mecnica bsica de esta tcnica, los principales condicionantes y cues tiones a tener en cuenta en la implementacin del estimador PSM. Con posterioridad a la estimacin del PS, debe realizarse la eleccin de un algoritmo de emparejamiento, para estimar el efecto del tratamiento y por ltimo algunos test para evaluar la validez de las hiptesis y la calidad del PSM. Se han contemplado cuestiones como el clculo de errores estndar del estimador con tcnicas de bo otstrapping, algunos problemas que pueden surgir en la aplicacin de las tcnicas de PSM y la con veniencia de realizar un anlisis de sensibilidad que incluya tanto la especificacin del modelo de participacin como los algoritmos de matching. A modo de sntesis, tras haber descrito las principales cuestiones a considerar en la aplicacin de esta metodologa, se incluye a continuacin la secuencia que debe respetarse al abordar una evalua cin de impacto mediante PSM. Lo que exige realizar, de forma ordenada, las siguientes tareas: Dado que se trata de una tcnica cuantitativa, lo esencial para iniciarla es disponer de la informacin que permita abordarla, en concreto micro datos que se utilizaran para definir el modelo de participa cin a partir de caractersticas observables de las unidades en estudio, tanto participantes como no participantes. Esta informacin deber utilizarse tambin para la definicin de los indicadores de re sultados que se consideren convenientes y que servirn de medida del xito del programa o poltica que se trate de evaluar y que en definitiva permiten medir el grado de cumplimiento de los objetivos que se persiguen con el programa, es decir los efectos directos. En determinados casos la informa cin disponible permite adems detectar efectos indirectos, positivos o negativos, que pueden haber se producido sin que se hayan planteado inicialmente al poner en marcha la poltica o el programa. Debe tenerse presente que la calidad de la investigacin depende en gran medida de la calidad de los datos utilizados. A partir de los datos disponibles, en primer lugar es necesario especificar el modelo de participacin, es decir la ecuacin de asignacin al programa que se pretende evaluar, y es necesario predecir la probabilidad de participacin a partir del modelo. Un objetivo clave de este momento es incluir todas las variables que puedan afectar tanto a la participacin en el programa como al resultado de inters. Con ello se logra que, condicionado a estas variables observadas y medidas, no haya factores no 38

Instituto de Estudios Fiscales medidos que afecten tanto a la participacin como a los resultados de la falta de participacin. Estas variables observadas se utilizan para calcular el propensity score (probabilidad estimada de participa cin en el programa: PS) mediante un modelo probit o logit, que es una estimacin paramtrica de un modelo con variable dependiente binaria que, calcula los parmetros por el mtodo de mxima vero similitud, en el marco de los modelos lineales generalizados (P. McCullach and J.A. Nelder, 1983). En economa son los denominados modelos de eleccin discreta. A continuacin, las unidades participantes en el programa (tratadas) se emparejan (matching) con unidades similares no participantes (sin tratamiento) basndose en la proximidad del valor de su PS. En este punto, se debe elegir un algoritmo de matching entre las diferentes alternativas posibles (ve cino ms cercano, radio, kernel, etc) teniendo en cuenta las caractersticas y posibles problemas de los datos: tamao de la muestra y trade-off entre el sesgo y la varianza de los estimadores. El softwa 38 re disponible y en concreto STATA, permite aplicar cualquiera de estos algoritmos, basados en la distancia de Mahalanobis. Una vez logrado que cada unidad de tratamiento haya sido emparejada con una o varias unidades no tratadas (matching), se puede evaluar el impacto del programa calculando sencillamente una diferen cia de medias del valor de la variable elegida para medir los resultados del programa entre tratados y no tratados. Debe tenerse en cuenta que despus del matching, se dispone de un grupo de tratados y un grupo de no tratados que ya son comparables, porque la metodologa PSM ha corregido el sesgo de seleccin. Estos resultados deben complementarse con un test de equilibrio de las variables utili zadas en el modelo de participacin entre los grupos y con un test de robustez de los estimadores. Quizs la cuestin ms importante en la aplicacin de PSM es comprender en que contextos tiene mayor probabilidad de funcionar siempre que se disponga de datos que permitan aplicarlo. Como ya se ha mencionado, el PSM requiere de dos condiciones fundamentales para la correcta estimacin del impacto de un programa. La primera, es el supuesto de independencia condicional (condicin de seleccin en caractersticas observables), se mantiene cuando la asignacin al trata miento es determinada nicamente por las caractersticas observables. Si es probable que la partici pacin en el programa se derive de factores que no son observables para el investigador, el estimador de emparejamiento (matching) puede ser sesgado. Sin embargo, en presencia de informa cin pre-tratamiento, se puede aplicar una versin modificada, el estimador matching de doble dife rencia para corregir algunos de estos sesgos, siempre y cuando el efecto de factores no observados sea fijo en el tiempo. La segunda condicin, conocida como supuesto de soporte comn, requiere la existencia de un sola pamiento importante entre los valores del PS de los tratados y el de los no tratados. Si esta hiptesis no se sostiene, es imposible construir un contrafactual para estimar el impacto del programa. Es cru cial, por tanto, evaluar cuidadosamente si estas dos condiciones se cumplen antes de la aplicacin del enfoque del PSM que se ha descrito en estas pginas. La comprensin slida del programa que se trata de evaluar y una fuerte base terica y conceptual son esenciales para definir si la metodologa del PSM es una tcnica apropiada para estimar el im pacto del programa. Por ello los equipos de evaluacin deben contar con profesionales de las diferen tes disciplinas que integran el proceso, la evaluacin es un trabajo de equipo que precisa personas bien formadas en tcnicas cuantitativas que colaboren con los expertos del programa y contribuyan a generar evaluaciones de calidad, crebles y respetadas.

38

Vase Anexo 1.

39

Instituto de Estudios Fiscales

ANEXOS
ANEXO 1. Software libre y alternativas comerciales a STATA para implementar mtodos de ANMatching PSAgraphics Es una coleccin de funciones que realizan grficos para el anlisis propensity score. Desarrollado en R, es software libre. Descrito en profundidad en James E. Helmreich, Robert M. Pruzek (2009). PSAgraphics: An R Package to Support Propensity Score Analysis. Journal of Statistical Software 29(6), 1-23. http://cran.r-project.org/ cem Stefano Iacus, Gary King, and Giuseppe Porro son los autores de cem (Coarsened Exact Matching), progama desarrollado para R, y tambin para STATA y para SPSS para estimar efectos causales mediante mtodos de matching. http://gking.harvard.edu/cem/ Matching Pgina web para la distribucin de Matching, software desarrollado en R para estimar efectos causa les mediante propensity score matching. Contiene una gran cantidad de documentacin de inters. http://sekhon.berkeley.edu/matching Matchit Daniel Ho, Kosuke Imai, Gary King, Elizabeth Stuart son los autores de MatchIt, procesos no param tricos previos a estimaciones paramtricas. http://gking.harvard.edu/matchit Zelig Kosuke Imai, Gary King, Olivia Lau son los autores de Zelig desarrollado en R. Matchit est integrado en R que incluye una coleccin de anlisis estadstico mucho ms completa que las tcnicas de mat ching. Tambin puede descargarse de esta pgina la documentacin e instrucciones de instalacin de Zelig y un documento con los avances ms recientes del producto. http://gking.harvard.edu/zelig rbounds Diseado por Luke J. Keele con el software Matching desarrollado en R, est orientado al anlisis de sensibilidad con el mtodo de Rosenbaum (2002). Puede descargarse de la pgina de CRAN. http://cran.r-project.org/ SAS Nota tcnica. http://support.sas.com/kb/30/971.html Algoritmo Greedy matching Matching 1:1 vecino mas prximo (nearest neighbor). Documentado en el SUGI: Parsons, L. S. (2001). Reducing bias in a propensity score matched-pair sample using greedy match ing techniques.SAS SUGI 26, Paper 214-26 http://www2.sas.com/proceedings/sugi26/p214-26.pdf Parsons, L.S. (2005). Using SAS software to perform a case-control match on propensity score in an observational study.SAS SUGI 30, Paper 225-25. http://www2.sas.com/proceedings/sugi25/25/po/25p225.pdf 41

Macro Gmatch Emparejamiento de uno o ms controles utilizando la macro GREEDY. Programada por Kosanke, J., and Bergstralh, E. (2004). Disponible en: http://mayoresearch.mayo.edu/mayo/research/biostat/upload/gmatch.sas Macro Vmatch Emparejamiento de casos con controles utilizando un algoritmo de matching ptimo. Programada por Kosanke, J., and Bergstralh, E. (2004). Disponible en: http://mayoresearch.mayo.edu/mayo/research/biostat/upload/vmatch.sas Macro Mahalanobis Emparejamiento uno a uno, basado en PS y distancia de Mahalanobis. Programada por Feng, W.W., Jun, Y., and Xu, R. (2005). A method/macro based on propensity score and Mahalanobis distance to reduce bias in treatment comparison in observational study. Disponible en: www.lexjansen.com/pharmasug/2006/publichealthresearch/pr05.pdf Modelo de seleccin ponderado en PS Descrito en Leslie, S. and Thiebaud, P. (2006).Using propensity scores to adjust for treatment selec tion bias. Disponible en: http://www.lexjansen.com/wuss/2006/Analytics/ANL-Leslie.pdf Procedimientos SAS PROC SURVEYSELECT Descrito en Robby Diseker (2004) SUGI 29 209-29 http://www2.sas.com/proceedings/sugi29/209-29.pdf PROC QLIM Descrito en R. Scott Leslie y Hassan Ghomrawi (2008) SAS Global FORUM 366-2008 http://www2.sas.com/proceedings/forum2008/366-2008.pdf PROC DISTANCE / PROC CANDISC / PROC DISCRIM http://support.sas.com/documentation/onlinedoc/91pdf/sasdoc_91/stat_ug_7313.pdf SPSS Matching 1:1 vecino mas prximo (nearest neighbor PS matching). Programado por Painter, John. (2004), desarrollado y probado en SPSS 11.5. Disponible en: http://www.unc.edu/~painter/SPSSsyntax/propen.txt EXCEL Aplicacin de anlisis de sensibilidad realizada por Thomas E. Love, Center for Health Care Research & Policy. http://www.chrp.org/propensity/ Documentado en Thomas E. Love (2008) Simple Sensitivity Analyses for Matched Samples. http://www.chrp.org/propensity/sensitivitydocumentation.pdf Disponible en. http://www.chrp.org/propensity/sensitivityspreadsheet.xls

42

Instituto de Estudios Fiscales ANEXO 2. Direcciones tiles en internet Pgina de Edwin Leuven http://leuven.economists.nl/ Tiene un documento muy interesante de Introduccin a STATA. Adems de toda la documentacin sobre el comando psmath2 y muchas referencias de software libre para anlisis economtrico.

Pgina de Guido Imbens http://www.economics.harvard.edu/faculty/imbens Tiene software disponible para implementar estimadores matching y regresin en discontinuidad con STATA y MATLAB.

43

Pgina de Sascha O. Becker http://sobecker.de/ Contiene software disponible para implementar estimadores matching con STATA pscore y anlisis de sensibilidad nhbounds.

Pgina de Barbara Sianesi http://www.ifs.org.uk/people/profile/id/67/show/alll Contiene varios trabajos muy interesantes sobre evaluacin de impacto aplicando propensity score matching y evaluacin con mltiples tratamientos. Coautora del comando de STATA psmatch2.

44

Instituto de Estudios Fiscales Pgina de Andrea Ichino http://www2.dse.unibo.it/ichino/ Contiene software disponible para implementar estimadores matching con STATA pscore y anlisis de sensibilidad nhbounds. Coautor de los comandos con Becker.

Pgina de Jasjeet S. Sekhon http://sekhon.berkeley.edu/ Contiene la direccin de una pgina especial de software para matching multivariante y propensity score matching a travs de la que se que distribuye Matching producto desarrollado en R que se in cluye en el apartado de software libre de este documento. Puede descargarse una gran cantidad de informacin sobre Linux y R y muy interesantes trabajos sobre mtodos cuantitativos.

45

Pgina de Thomas Ezra Love http://www.chrp.org/love/ Contiene materiales muy interesantes sobre propensity score matching. Tambin muchos enlaces.

Pgina del Banco Mundial http://www.worldbank.org/ De donde se pueden descargar los mejores manuales de evaluacin de impacto y muchos otros re cursos. Conviene consultarla a menudo.

46

Instituto de Estudios Fiscales Pgina de STATA http://www.stata.com/gsearch.php?q=propensity+score+matching&site=stata&client=stata&proxystyle sheet=stata&output=xml_no_dtd/ Resultado de la bsqueda de documentacin para propensity score matching con STATA.

Pgina de The Stata Journal http://www.stata-journal.com/ Publicacin trimestral que incluye artculos sobre la utilizacin del software STATA y tambin sobre tcnicas analticas de datos. Se necesita suscripcin para poder descargarlos. Trabajos de inters sobre propensity score matching Vol2 N4 y 8, Vol4 N3, Vol7 N1 3 y 4, Vol8 N3 y 4, Vol9 N4.

47

Pgina de R http://www.r-project.org/ Permite descargar el software R y toda la documentacin necesaria. Entorno de software libre, dispo nible para Linux, Windows y MacOS X, orientado al anlisis estadstico y grfico, en el que estn desarrolladas gran cantidad de aplicaciones para anlisis propensity score Una de las ms interesan tes es el paquete PSAgraphics, que puede descargarse desde la misma pgina.

Pgina de CRAN http://www.cran.r-project.org/ Red mundial de ftp y servidores web, que contiene versiones idnticas de cdigo y documentacin de R totalmente actualizadas.

48

Instituto de Estudios Fiscales Pgina de SCILAB http://www.scilab.org/ Software libre para clculo numrico. Muy parecido a Matlab. Puede descargarse el software y toda la documentacin necesaria.

Otras direcciones:
psmatch2 http://ideas.repec.org/c/boc/bocode/s432001.html pscore http://www.lrz-muenchen.de/~sobecker/pscore.html cem http://gking.harvard.edu/cem/

49

ANEXO 3. Glosario Anlisis de sensibilidad El objetivo del anlisis de sensibilidad es explorar si las estimaciones coincidentes son robustas a la seleccin en variables no observables (Caliendo y Kopeinig, 2008). Todos los algoritmos de matching implican una eleccin entre sesgo y precisin, sin que exista una regla clara de cual es el mas indicado en cada contexto. Las consideraciones en torno al tamao del grupo de comparacin a la hora de elegir un algoritmo no resultan suficientes para garantizar el resultado con ninguno de los mtodos. Por ello, lo mas conveniente, es comprobar de forma emprica la robustez de los estimadores, los cual es factible realizando las estimaciones del efecto del tratamiento utilizando distintos algoritmos de matching y comprobando la importancia de las variaciones a estos cambios. La sensibilidad de los resultados debe medirse tambin en relacin a la especificacin del modelo de participacin (Dehejia 2005). Balancing Tests En el marco de la evaluacin de impacto mediante PSM, la bsqueda de un equilibrio de todas las variables observables que intervienen en el clculo del propensity score, entre participantes y grupo de comparacin, exige realizar un test, en el momento de la estimacin para garantizar el cumplimiento de la hiptesis de soporte comn, que es una de las que sustenta la garanta de una aplicacin rigu rosa de esta metodologa. Bootstrapping Mtodo propuesto por Bradley Efron en 1979, que permite aproximar la distribucin de un estadstico en el muestreo mediante la generacin de varias muestras por ordenador. Ponerlo en prctica exige gran capacidad de clculo, y es por esta razn por la que los fuertes avances tecnlogicos en la potencia de los ordenadores actuales, facilita su uso. Debido a esta facilidad, actualmente es normal encontrar este mtodo implementado en el software destinado a aplicar PSM. Contrafactual El principal reto de la evaluacin de impacto, para que sea creble, es la construccin de la hiptesis resultado, es decir, lo que habra sucedido a los participantes en ausencia de tratamiento. Este fen meno es inobservable por su propia definicin, es lo que se denomina resultado contrafactual. Tiene que ser estimado utilizando mtodos estadsticos. Distancia de Mahalanobis Es una medida de distancia introducida por Mahalanobis que permite determinar la similitud entre dos variables aleatorias multidimensionales teniendo en cuenta la correlacin que existe entre ellas. Este concepto de distancia est en la base de todas las mtricas del matching. Kernel Matching Es un estimador de matching no paramtrico que compara el resultado de cada unidad tratada con una media ponderada de los resultados de todas las unidades del grupo de comparacin, utilizando las mayores ponderaciones para las unidades con PS mas parecido al que se compara. Este enfoque tiene como ventaja una varianza menor, la contrapartida es que algunos emparejamientos pueden producirse con unidades que no son similares. Cuando se aplica este enfoque, hay que asegurarse que el grado de cumplimiento de la hiptesis de soporte comn es elevado. Modelo de participacin Un modelo logit o probit, con variable dependiente binaria que indica el tratamiento y variables explicativas X, define la ecuacin de asignacin al programa. El valor del PS calculado mediante esta ecuacin es una probabilidad estimada de participar en el tratamiento, condicionada a las variables X, que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad. Esta ecuacin de 50

Instituto de Estudios Fiscales asignacin al programa es el modelo de participacin Debe tenerse en cuenta que los modelos logit y probit son modelos con heterocedasticidad que se estiman por el mtodo de mxima verosimilitud. Nearest-neighbor Matching (Vecino mas prximo). Es uno de los algoritmos de matching mas utilizados en la prctica y uno de los que produce mejores resultados. Consiste sencillamente en elegir del grupo de comparacin el elemento con el PS mas proximo. El sistema puede utilizarse con o sin reemplazamiento. En el ltimo caso hay un matching uno a uno, en el primero un elemento del grupo de control es utilizado mas de unoa vez, matching 1 a n. Problema de la dimensionalidad Con las tcnicas de matching se pretende emparejar cada unidad participante en el programa (trata da) con una o varias unidades similares, en trminos de variables observadas X, no participantes (sin tratamiento). Cuando X es una nica variable, p. ej. La edad, el concepto similar es claro: la misma edad o la ms prxima posible. Cuando hay dos variables p. ej. Edad y nivel educativo (NE) el con cepto ya no resulta tan obvio. Al comparar el Caso-1 (35 aos, NE4) con el Caso-2 (36 aos, NE1) y el Caso-3 (50 aos, NE4) Cul de ellos es similar al Caso-1? El Caso-2 es ms prximo al Caso-1 en edad, pero el Caso-3 lo es en nivel de estudios. Cuando se trabaja con mltiples variables X, no est definida con claridad la idea de proximidad. Rosembaum y Rubin (1983) resolvieron este problema proponiendo el clculo de una medida nica el propensity score (PS), probabilidad estimada de participacin en el programa mediante un modelo probit o logit con variables explicativas X. Los resultados de Rosembaum y Rubin forman la base terica del propensity score matching (PSM): la probabilidad de participacin en un programa estima da a travs del PS resume toda la informacin relevante contenida en las variables X. La idea de proximidad en PS se define con claridad proporcionando una solucin excelente al problema de la dimensionalidad, cuya mayor ventaja consiste en la reduccin de la dimensionalidad, que permite emparejar por una nica variable (PS) en lugar de un conjunto completo de variables observadas X. Propensity Score (PS) En el contexto de la evaluacin de impacto, el propensity score , introducido por Rosembaum y Rubin (1993) es un mtodo alternativo para estimar efectos del tratamiento cuando la asignacin al mismo no es aleatoria, siempre que se pueda asumir seleccin en observables o lo que es lo mismo independencia condicional . Un modelo logit o probit, con variable dependiente binaria que indica el tratamiento y variables explicativas X, define la ecuacin de asignacin al programa. El valor del PS calculado mediante esta esta ecuacin es una probabilidad estimada de participar en el tratamiento, condicionada a las variables X, que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad. Propensity Score Matching (PSM) Mtodo de estimacin no paramtrica, en el mbito de la evaluacin de impacto es un algoritmo que empareja participantes y no participantes en un programa en base a la probabilidad condicional de participar (PS), dada una serie de caractersticas observables. Si los resultados son independientes de la participacin, utilizar el grupo de comparacin as obtenido, permite obtener un estimador no sesgado del impacto medio del programa. El PSM utiliza la informacin de un grupo de unidades que no participan en la intervencin y tienen caractersticas observables similares a los que participan, para identificar lo que habra ocurrido a las unidades que participan en ausencia de la intervencin. La clave es buscar y construir un grupo de comparacin vlido (contrafactual) para ver la diferencia de los resultados entre los participantes y los no participantes similares en las caractersticas observa bles. De esta forma es posible estimar los efectos de la intervencin. Radius Matching Consiste en especificar una distancia mxima del PS, denominada caliper, dentro de cuyo radio buscar el enlace. La idea es que no solamente se utiliza el mas prximo dentro del radio sin todos los que existan en el grupo de comparacin que estn dentro del radio, sin limitacin de nmero, con 51

lo que se asegura que son tan similares como se quiera establecer al definir el caliper El radius matchig debe emplearse cuando exixte riesgo de un matching muy pobre porque el cumplimiento de la hiptesis de soporte comun deja amplias zonas de la distribucin del PS sin solapar, y tambin cuando el grupo de comparacin es muy reducido. Regin de soporte comn En el contexto de la evaluacin de impacto mediante PSM, para que el matching resulte factible se precisa que existan unidades en el grupo de comparacin con los mismos valores de PS que los que participan en el programa de inters. Ello exige un solapamiento o interseccin de las distribuciones del PS entre los dos grupos que se van a comparar. Seleccin en observables En el contexto de evaluacin de impacto con la metodologa PSM, supone una fuerte restriccin de ortogonalidad entre los posibles resultados y el estado del tratamiento, dadas las variables observa das. Asumir esta hiptesis implica que la participacin, condicionada a las caractersticas observa bles, es independiente de los posibles resultados. Seleccin en observables implica que las caractersticas inobservables no juegan ningn papel para determinar la participacin. A partir de aqu, para obtener un grupo de comparacin que permita evaluar los efectos cada participante puede ser comparado con un no participante que tenga las mismas caractersticas observables. Tambin se denomina independencia condicional. Sesgo de seleccin Concepto introducido por James Heckman en la Econometra moderna. En el contexto de la evalua cin de impacto, las unidades participantes pueden diferir en caractersticas medibles y no medibles. Desde una perspectiva de evaluacin, las diferencias medibles (por ejemplo, edad, peso, altura, nmero de hijos, ingresos, nivel de estudios) no son problemticas, ya que pueden ser controladas en los anlisis estadsticos. Sin embargo, las diferencias imposibles de medir (por ejemplo, la inteligen cia, la motivacin, el altruismo) son mucho ms problemticas, porque cuando estn relacionadas con las medidas de resultado, pueden tener grandes efectos sobre las estimaciones de los impactos del programa. Hacer caso omiso de caractersticas pertinentes no medidas, normalmente sesga las esti maciones de los impactos del programa. Esta fuente de sesgo se llama sesgo de seleccin. Sesgo de auto-seleccin Consecuencia de una seleccin no aleatoria, se denomina as al sesgo de seleccin en el caso parti cular de que los participantes se prestan voluntarios para el tratamiento. Sesgos ocultos (Hidden Bias Rosembaum 2002) En estudios de observacin o experimentos aleatorios, los grupos de tratamiento y de control pueden diferir en sus resultados, incluso si el tratamiento no tiene ningn efecto, lo que puede ocurrir cuando los grupos no eran comparables antes del inicio del tratamiento. Los grupos pueden no ser compara bles de dos maneras diferentes: podran variar con respecto a las caractersticas que se han medido, en cuyo caso existe un sesgo evidente, o pueden diferir respecto a caractersticas que no se han medido, en este caso habra un sesgo oculto. Los sesgos evidentes pueden ser controlados a travs de ajustes, como las tcnicas de matching. Los sesgos ocultos son ms difciles de tratar porque las medidas relevantes no estn disponibles. Un anlisis de sensibilidad pregunta acerca de cunto ses go oculto tendra que estar presente para explicar los diferentes resultados en los grupos tratados y controles. Un anlisis de sensibilidad proporciona un marco tangible y especfico para la discusin de los sesgos ocultos, Rosenbaum (2002). Tratamiento En general, en el contexto de la evaluacin de impacto, es una actuacin deliberada tambin denomi nada variable independiente en la metodologa PSM. Desde una perspectiva de evaluacin de pro gramas pblicos, los tratamientos incluyen programas y polticas de gobierno, legislacin e 52

Instituto de Estudios Fiscales innovaciones de la gestin pblica. En el campo de la medicina, pionero en este tema y del que se ha incorporado una gran parte de la terminologa, los tratamientos pueden incluir, entre otros, la utiliza cin de nuevos sistemas de medicamentos, procedimientos quirrgicos, y el uso de nuevos recursos mdicos.

ANEXO 4. Documentacin adicional Fichero de datos para ejemplos PSMDATOS. Contiene la informacin de microdatos en formato STATA para realizar todos los ejemplos en el aula. Comandos de STATA: PSCORE, GRAPH, ATTS, ATTR, ATTK, ATTNW, ATTND,SENSATT, MHBOUNDS, PSMATCH2, PSGRAPH, PSTEST. Son los comandos que permiten realizar los ejercicios con STATA.

53

REFERENCIAS BIBLIOGRFICAS ABADIE, A.; DRUKKER, D.; HERR, J. L. and IMBENS, G. (2004): Implementing Matching Estimators for Average Treatment effects in Stata. The Stata Journal 4(3), pp. 290-311. ABADIE, A. and IMBENS, G. (2006): Large Sample Properties of Matching Estimators for Average Treatment Effects. Econometrica 74(1), pp. 235-267. (2008): On the Failure of the Bootstrap for Matching Estimators. Econometrica 76(6), pp. 1537-1557. (2011): Bias-Corrected Matching Estimators for Average Treatment Effects Journal of Business & Economic Statistic 29(1), pp. 1-11. AUSTIN, PETER C. (2008): A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003 Statist. Med. 2008; 27, pp. 2037-2049. (2008): REJOINDER. Discussion of A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003 Statist. Med. 2008; 27, pp. 2066-2069. AYALA, L. and RODRGUEZ, M. (2006a): The Latin Model of Welfare: Do Insertion Contracts Reduce Long-Term Dependence?, Labour Economics, 13, pp. 799-822. (2006b): Evaluating welfare reform under program heterogeneity and alternative outcomes, Con ference Improving Work and Income for low-income households: drawing lessons from UE and U.S. reforms, Instituto de Estudios Fiscales, Madrid, 1-2 de junio de 2006. (2007a): La utilizacin de registros administrativos como base para la investigacin de polticas sociales. In Marcos, C. (dir.): El papel de los registros administrativos en el anlisis social y econmico y el desarrollo del sistema estadstico. Madrid: Instituto de Estudios Fiscales. (2007b): Barriers to employment and welfare duration, Journal of Policy Modeling 29, pp. 237-257. (2010): Explaining welfare recidivism: what role do unemployment and initial spells have? Jour nal of Population Economics, 23, 2010, pp. 373-392. (2011): Health-related Effects of Welfare-to-Work Policies: Evidence from Spain. XVIII Encuentro de Economa Pblica. Mlaga 3-4 febrero de 2011. ALMUS, M. and CZARNITZKI, D. (2003): The Effects of Public R&D Subsidies on Firms' Innovation Activi ties: The Case of Eastern Germany. Journal of Business & Economic Statistics 21(2), pp. 226-236. BAKER JUDY L. (2000): Evaluating the Impact of Development Projects on Poverty. A Handbook for Practitioners. The World Bank. Washington D.C. BECKER, S. O. & CALIENDO, M. (2007): Sensitivity Analysis for Average Treatment Effects. The Stata Journal, 7 (1), pp. 71-83. BECKER, S. and ICHINO, A. (2002): Estimation of Average Treatment Effects Based on Propensity Score. The Stata Journal 2(4), pp. 358-377. BLACK, D. and SMITH, J. (2004): How Robust is the Evidence on the Effects of the College Quality? Evidence from Matching. Journal of Econometrics 121(1), pp. 99-124. BLACKWELL, M.; IACUS, S.; KING, G. and PORRO, G. (2009): cem: Coarsened exact matching in Stata. The Stata Journal 9(4), pp. 524-546. 55

BJORKLUND, A. (1985): Unemployment and Mental Health: Some Evidence from Panel Data, Journal of Human Resources 20, pp. 469-483. CALIENDO, M. and KOPEINIG, S. (2005): Some Practical Guidance for the Implementation of Propensi ty-score matching. Iza Discussion Paper 1588. Institute for the Study of Labor (IZA). CANCIAN, M. and MEYER, D. R. (2004): Alternative Measures of Economic Success among TANF Participants: Avoiding Poverty, Hardship, and Dependence on Public Assistance. Journal of Poli cy Analysis and Management 23, pp. 531-548. CAWLEY, J. and DANZIGER, S. (2005): Morbid Obesity and the Transition from Welfare to Work Jour nal of Policy Analysis and Management 24, pp. 727-43. COIRO, M. J. (2008): Depressive Symptoms Among Women Receiving Welfare, Women & Health 32, pp. 1-23. DANZIGER, S.; KALIL, A. and ANDERSON, N. J. (2000): Human Capital, Physical Health and Mental Health of Welfare Recipients: Co-occurrence and Correlates, Journal of Social Issues 56, pp. 635-654. DEHEJIA, R. (2005): Practical propensity score matching: a reply to Smith and Todd, Journal of Eco nometrics 125, pp. 355-364. DEHEJIA, R. H. and WAHBA, S. (1999): Causal Effects in Nonexperimental Studies: Reeevaluating the Evaluation of Training Programs. Journal of the American Statistical Association 94, pp. 1053-1062. (2002): "Propensity Score-Matching Methods For Nonexperimental Causal Studies". The Review of Economics and Statistics 84, pp. 151-161. EFRON, B. and TIBSHIRANI, R. J. (1993): An Introduction to the Bootstrap. London: Chapman & Hall. Evaluacin de la poltica de bonificaciones y reducciones de cuotas de la Seguridad Social destinada a las personas en situacin de discapacidad. FAGIN, LEONARD and LITTLE MARTIN (1984): The Forsaken Families: Effects of Unemployment on Family Life, London, Pelican. FLORES-LAGUNES, A.; GONZALEZ, A. and NEUMANN, T. (2007): Estimating the Effects of Length of Ex posure to a Training Program: The Case of Job Corps. IZA Discussion Papers 2846, Institute for the Study of Labor (IZA). GALIANI, S.; GERTLER, P. and SCHARGRODSKY, E. (2005): Water for Life: The Impact of the Privatiza tion of Water Services on Child Mortality. Journal of Political Economy 113(1), pp. 83-120. GERTLER, P. J.; MARTINEZ, S.; PREMAND, P.; RAWLINGS, L.; CHRISTEL, M. and VERMEERSCH, J. (2011): Impact Evaluation in Practice. The International Bank for Reconstruction and Development / The World Bank. GLYMOUR, C. (1986): Statistics and causal inference: comment: statistics and metaphysics Journal of the American Statistical Association, Vol. 81, n. 396, pp. 964-966. HANSEN, B. B. (2008): The esssential role of balance test in propensity-matched observational studies: Comments on A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003 by Peter Austin, Statistics in Medicine Statist. Med. 2008; 27, pp. 2050-2054. HANSEN, B. B. and KLOPFER, S. O. (2006): Optimal full matching and related designs via network flows. JCGS 15, pp. 609-627. HECKMAN JAMES J. (2001): Micro Data, Heterogeneity, and the Evaluation of Public Policy: Nobel Lec ture. Journal of Political Economy Vol. 109, n. 4, pp. 673-748. HECKMAN, J.; ICHIMURA, H. and TODD, P. (1998): Matching as an Econometric Evaluation Estimator. The Review of Economic Studies 65(2), pp. 261-294. HECKMAN, JAMES J.; ROBERT LALONDE, and JEFFREY SMITH. (1999): The Economics and Econometrics of Active Labor Market Programs. In Handbook of Labor Economics, vol. 3, ed. Orley Ashenfelter and David Card, 1865-2097. Amsterdam: North-Holland. 56

HEINRICH C.; MAFFIOLI, A. and VAZQUEZ, G. (2010): A Primer for Applying Propensity-Score Matching. Impact-Evaluation Guidelines Inter-American Development Bank. HILL, JENNIFER (2008): Discussion of research using propensity-score matching: Comments on A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003 by Peter Austin, Statistics in Medicine Statist. Med. 2008; 27, pp. 2055-2061. HIRANO, K. and IMBENS, G. (2004): The Propensity Score with Continuous Treatments. Mimeographic document. HOLLAND, P. (1986): Statistics and Causal Inference. Journal of the American Statistical Associa tion 81(396), pp. 945-960. ICHINO, A.; MEALLI, F. and NANNICINI, T. (2006): From temporary help jobs to permanent employment: What can we learn from matching estimators and their sensitivity? IZA DP n. 2149. IMAI, K. and VAN DIJK, D. (2004): Causal Inference with General Treatment Regimes: Generalizing the Propensity Score. Journal of the American Statistical Association 99(467), pp. 854-866. IMBENS, G. W. (2000): The Role of Propensity Score in Estimating Dose-Response Functions. Bio metrika 87, 706710. (2004): Nonparametric Estimation of Average Treatment Effects Under Exogeneity: A Review. The Review of Economics and Statistics 86, pp. 4-29. (2008): Estimating Variances for Estimators of Average Treatment Effects. Mimeographic document. IMBENS, G. W. and WOOLDRIDGE, J. M. (2009): Recent Developments in the Econometrics of Program Evaluation, Journal of Economic Literature 47, pp. 5-86. JALAN, J. and RAVALLION, M. (2003): Estimating the Benefit Incidence of an Antipoverty Program by Propensity-Score Matching. Journal of Business & Economic Statistics 21(1), pp. 19-30. JAYAKODY, R.; DANZIGER, S. and POLLACK, H. (2000): Welfare Reform, Substance Use, and Mental Health, Journal of Health Politics, Policy and Law 25, pp. 623-651. KING, G.; GAKIDOU, E.; RAVISHANKAR, N.; MOORE, R. T.; LAKIN, J.; VARGAS, M.; TLLEZ-ROJO, M. M.; VI LA, J. E. H.; VILA, M. H.; & LLAMAS H. H. (2007): A "politically robust" experimental design for pub lic policy evaluation with application to the Mexican universal health insurance program. Journal of Policy Analysis and Management, 26(3), pp. 479-506. KOVESS, V.; GYSENS, S.; POINSARD, R.; CHANOIT, P. F. and LABARTE, S. (1999): Mental health and use of care in people receiving a French social benefit, Social psychiatry and psychiatric epidemiology 34, pp. 588-594. KURTH, T.; WALKER, A. M.; GLYNN, R. J.; CHAN, K. A.; L GAZIANO, J. M.; BERGER, K. and ROBINS, J. M. (2005): Results of Multivariable Logistic Regression, Propensity Matching, Propensity Adjust ment, and Propensity-based Weighting under Conditions of Nonuniform Effect American Journal of Epidemiology Vol. 163, No.3. LAVY, V. (2002): Evaluating the Effect of Teachers' Group Performance Incentives on Pupil Achieve ment. The Journal of Political Economy 110(6), pp. 1286-1317. LECHNER, M. (1999): The Effects of Enterprise-Related Training in East Germany on Individual Em ployment and Earnings. Annales d'conomie et de Statistique 55/56, pp. 97-128. (2001): Some Practical Issues in the Evaluation of Heterogeneous Labor Market Programs by Matching Methods. In Lechner, M., and F. Pfeiffer (eds.), Econometric Evaluations of Active La bor Market Policies in Europe. Heidelberg: Physica/Springer. (2002): Program Heterogeneity and Propensity-score matching: An Application to the Evaluation of Active Labor Market Policies. The Review of Economics and Statistics 84(2), pp. 205-220. LEUVEN, E. and SIANESI, B. (2003): "PSMATCH2: Stata Module to Perform Full Mahalanobis and Pro pensity-Score Matching, Common Support Graphing, and Covariate Imbalance Testing. Statis 57

tical Software Components S432001 (revised May 2009). Newton, MA, United States: Boston College Department of Economics. Disponible en http://ideas.repec.org/c/boc/bocode/s432001.html. MAFFIOLI, A.; VALDIVIA, M. and VZQUEZ, G. (2009): Impact of a Technology Transfer Program on Small Farmers: The Case of Ecuadors PROMSA. Mimeographic document. MEARA, E. and FRANK, R. G. (2006): Welfare Reform, Work Requirements, and Employment Barriers. N.B.E.R. Working Paper 12480. MINISTERIO DE LA PRESIDENCIA. AGENCIA ESTATAL DE EVALUACIN DE LAS POLTICAS PBLICAS Y LA CALI DAD DE LOS SERVICIOS (2009): Evaluacin de la poltica de bonificaciones y reducciones de cuo tas de la Seguridad Social destinada a las personas en situacin de discapacidad. Disponible en http://www.aeval.es/es/difusion_y_comunicacion/Publicaciones_AEVAL/Informes/Evaluaciones_2009/ E19.html MCCULLAGH, P. and NELDER, J. A. (1983): Generalized Linear Models. Chapman & Hall/CRC Mono graphs on Statistics & Applied Probability. MOSER, P. (2005): How Do Patent Laws Influence Innovation? Evidence from Nineteenth-Century World's Fairs. The American Economic Review 95(4), pp. 1214-1236. MOFFITT, R. (2001): From Welfare to Work: What the Evidence Shows? The Brookings Institution, Policy Brief 13/2002. NANNICINI, T. (2007): Simulation-based Sensitivity Analysis for Matching Estimators. The Stata Jour nal, 7 (3), pp. 334-350. PEARL, J. (2009): Understanding propensity scores. In Causality: Models, Reasoning, and Inference, Cambridge University Press, Second Edition. (2009b): Letter to the editor: Remarks on the method of propensity scores. Statistics in Medicine 28, pp. 1415-1416. PERSSON, T.; TABELLINI, G. and TREBBI, F. (2003): Electoral Rules and Corruption. Journal of the Eu ropean Economic Association 1(4), pp. 958-989. ROSENBAUM, P. R. (2002): Observational Studies, Second Edition. New York, NY: Springer. ROSENBAUM, P. and D. RUBIN. (1983): The Central Role of the Propensity Score in Observational Stu dies for Causal Effects. Biometrika 70(1), pp. 41-55. (1985): Constructing a Control Group Using Multivariate Matched Sampling Methods that Incor porate the Propensity Score. The American Statistican 39, pp. 33-38. SIANESI, B. (2008): Differential effects of active labor market programs for the unemployed. Labor Economics 15, pp. 370-399. SMITH, J. and TODD, P. (2005): Does matching overcome Lalondes critique of nonexperimental esti mators?. Journal of Econometrics 125(1-2), pp. 305-353. SHAHIDUR R. KHANDKER; GAYATRI B. KOOLWAL; and HUSSAIN SAMAD (2009): Handbook On Impact Evaluation: Quantitative Methods And Practices World Bank Publications. Social Experimentation, Program Evaluation, and Public Policy(2009): Maureen Pirog (Editor). WileyBlackwell. STUART, E. A. (2008): Developing practical recommendations for the use of propensity scores: Dis cussion of A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003 by Peter Austin, Statistics in Medicine Statist. Med. 2008; 27, pp. 2062-2065. TRUJILLO, A.; PORTILLO, J. and VERNON, J. (2005): The Impact of Subsidized Health Insurance for the Poor: Evaluating the Colombian Experience Using Propensity-score matching. International Journal of Health Care Finance and Economics 5(3), pp. 211-239. 58

Potrebbero piacerti anche