Capitulo 2 y 3

2.
Los Asuntos Básicos de Evaluación

Resumen
Se pueden usar varios enfoques para evaluar los programas. El seguimiento rastrea
indicadores clave de progreso en el transcurso de un programa como base para evaluar
los resultados de la intervención. La evaluación operativa examina cuán efectivamente
fueron los programas implementado y si hay brechas entre los resultados planificados y
los realizados. La evaluación de impacto estudia si los cambios en el bienestar se deben
realmente a la intervención del programa y no a otros factores.
Estos enfoques de evaluación pueden llevarse a cabo utilizando métodos cuantitativos

(que, es decir, recopilación de datos de encuestas o simulaciones) antes o después de la
introducción de un programa. Ex la evaluación ante predice los impactos del programa
utilizando datos antes de la intervención del programa, mientras que la evaluación ex post
examina los resultados después de la implementación de los programas. Las
comparaciones reflexivas son un tipo de evaluación ex post; examinan los impactos del
programa a través de la diferencia en los resultados de los participantes antes y después
de la implementación del programa (o entre los participantes y no participantes). Los
capítulos posteriores de este manual proporcionan varios ejemplos de estas
comparaciones.
El principal desafío para los diferentes tipos de evaluación de impacto es encontrar un

buen contrafactual, es decir, la situación que un sujeto participante habría experimentado
si él o ella no hubiera estado expuesto al programa. Las variantes de evaluación de
impacto discutidas en los siguientes capítulos incluyen evaluaciones aleatorias, puntaje
de propensión emparejamiento, métodos de doble diferencia, uso de variables
instrumentales y regresión discontinuidad y enfoques de tubería. Cada uno de estos
métodos implica un conjunto diferente de supuestos en la contabilización del posible
sesgo de selección en la participación que podría afectar la construcción de los efectos
del tratamiento del programa.
Aprendiendo objetivos
Después de completar este capítulo, el lector podrá intercambiar opiniones y comprender

 Los acercamientos diferentes para programar la evaluación.
 Las diferencias entre los acercamientos cuantitativos y cualitativos para la
evaluación, así como también la apuesta ex ante versus ex post.
 El prejuicio de selección de formas en la participación puede confundir el efecto
de tratamiento.
 Las metodologías diferentes de adentro afectan evaluación, incluyendo
randomización, la puntuación de propensión correspondiendo, duplican
diferencias, métodos variables instrumentales, y discontinuidad de regresión y la
tubería se acerca.
Introducción: El Monitoreo Versus la Evaluación
Estableciendo metas, señalizadores, y blancos para programas están en el corazón de un

sistema monitor. La información resultante y los datos pueden usarse para evaluar la
función de intervenciones de programa. Por ejemplo, el Grupo Mundial de Evaluación
del Banco Independent pesa el progreso del Banco Mundial – International Monetary
Fund Poverty Reduction Strategy iniciativo en contra de sus objetivos a través de
monitorear (PRS); Muchos países también han estado desarrollando sistemas monitores
para rastrear implementación de la iniciativa PRS y su impacto en la pobreza. Por los
resultados de programa de comparación con blancos específicos, el monitoreo remedio
puede mejorar diseño de política e implementación, así como también puede promover
responsabilidad y puede dialogar entre fabricantes de política y tenedores de apuestas.
En el contraste, la evaluación es una valoración sistemática y objetiva de los resultados

logrados por el programa. En otras palabras, la evaluación trata de probar que los cambios
en blancos están a cobro sólo para las políticas específicas emprendidas. El monitoreo y
la evaluación juntos han sido llamado M&E. Para el ejemplo, M&E puede incluir
evaluación de proceso, lo cual examina cómo funcionan los programas y enfoca la
atención en problemas de entrega de servicio; el análisis costo-beneficio, que pesa costos
de programa contra los beneficios que efectúan la entrega; y las evaluaciones de impacto,
cuál cuantifican los efectos de programas en individuos, grupos familiares, y las
comunidades. Todos estos aspectos son de un sistema de una buena M&E y son
usualmente llevados fueras por ahí la agencia que implementa.
El monitoreo
Los retos en monitorear progreso de una intervención deben
 Identificar las metas que el programa o la estrategia es diseñada para lograr, como
reducir pobreza o mejorar instruir enrolamiento de chicas. Por ejemplo, los sets
iniciativos Goals Development Milenarios ocho metas amplias a través de los
temas como el hambre, las desigualdades de género, la educación, y la pobreza
para monitorear la función de países y los donantes adentro lograr resultados en
esas areas.
 Identificar señalizadores cruciales que pueden usarse para monitorear progreso en
contra de estas metas. En el contexto de pobreza, por ejemplo, un señalizador
podría ser la proporción de individuos consumiendo menos que 2,100 calorías por
el día o la proporción de grupos familiares viviendo de menos de un dólar un día.
 Colocar blancos, cuál cuantifica el nivel de los señalizadores que deben ser
logrados por una fecha dada. Por ejemplo, un blanco podría dividir en dos el
número de grupos familiares viviendo de menos de un dólar el día en 2015.
 Establecer un sistema monitor para rastrear progreso hacia lograr blancos
específicos y para informarle fabricantes de política. Tal sistema alentará a la
mejor gerencia de y responsabilidad para los proyectos y los programas.
Configuración de indicadores dentro de un marco de M&E
Los señalizadores están típicamente clasificados en dos grupos principales. Los primeros,
señalizadores finales miden los resultados de programas de reducción de pobreza (como
el consumo superior per cápita) y el impacto en dimensiones de bienestar (como la
reducción de pobreza de consumo). Los segundos, señalizadores intermedios miden
aportes en un programa (como un reembarque efectivo condicional o subsidio del salario
elabora planes secretos) y las salidas del programa (como las carreteras construidas, los
hombres desempleados, y las mujeres contratadas). Los señalizadores del blanco pueden
ser representados en cuatro grupos, tan presentados en figura 2.1. Este llamado marco
lógico explica las entradas, salidas, resultados e impactos en el sistema de M&E.
Evaluación de impacto, que este es el enfoque de este manual, abarca las últimas etapas
del marco de M&E.
Mirado en este armazón, el monitoreo cubre la implementación y monitoreo de función

(o basado en resultados). Los señalizadores intermedios típicamente varían más
rápidamente que señalizadores finales, se originan más rápidamente de intervenciones
públicas, y pueden estar medidos más fácilmente y adentro una moda más oportuna.
Seleccionar señalizadores para monitorear en contra de metas y los blancos pueden estar
sujetos a las restricciones del recurso afrontando la autoridad de la gerencia de proyecto.
Sin embargo, se aconseja para seleccionar sólo algunos señalizadores que pueden ser
monitoreados correctamente en vez de un gran número de señalizadores que no pueden
ser medidos sanos.
Un ejemplo de un sistema de monitoreo proviene de PROGRESA (Programa de

Educación, Salud y Alimentación, o Programa de Educación, Salud y Nutrición) en
México (discutido con más detalle en el recuadro 2.1). PROGRESA (ahora llamado
Oportunidades) es uno de las mayores intervenciones aleatorias implementadas por un
solo país.
Figure 2.1 Marco de Monitoreo y Evaluación
Fuente: Representación de los autores

Recuadro 2.1 Estudio de caso: PROGRESA (Oportunidades) en México
El monitoreo fue un componente clave del programa aleatorizado PROGRESA (ahora llamado
Oportunidades) en México, para programa previó asegurar que las transferencias de efectivo
se dirigieran con precisión. Oficiales del varios riesgos potenciales en la implementación del
programa. Estos riesgos incluyen la capacidad de asegurar que las transferencias fueron
dirigidas con precisión; La limitada flexibilidad de los fondos, que hogares en lugar de
comunidades, así como la naturaleza no discrecional de las transferencias; y posibles
conflictos dentro del hogar que podrían resultar porque las transferencias se hicieron solo a
mujeres.
Por lo tanto, un monitoreo efectivo requería que los objetivos principales y los indicadores
intermedios ser especificado claramente. Oportunidades tiene un sistema de información
institucional para la operación del programa, conocido como SIIOP (Sistema Integral de
Información para la Operación de Oportunidades, o Sistema de Información Completo para la
Operación de Oportunidades), así como un sistema de auditoría que comprueba las
irregularidades en las diferentes etapas de la implementación del programa. Estos sistemas
involucrados varios estudios y encuestas para evaluar cómo deben evaluarse los objetivos del
programa de mejorar la salud, la escolarización y la nutrición. Por ejemplo, para determinar
los objetivos de escolarización, los sistemas realizaron estudios de diagnóstico en áreas
potencialmente específicas para ver qué tan grandes son las subvenciones educativas. debe ser,
qué requisitos de elegibilidad deben establecerse en términos de calificaciones y género, y
cuántas escuelas secundarias estaban disponibles a nivel local, municipal y federal. Por salud
y resultados nutricionales, documentando la variación de comportamiento en la higiene y
preparación del hogar de alimentos en áreas rurales y urbanas ayudó a determinar las fórmulas
de suplementos alimenticios más adecuadas para muestras específicas.
Estos sistemas también evaluaron la capacidad del programa para lograr sus objetivos a través
de un diseño eso incluía controles aleatorios de los puntos de entrega (porque la provisión de
suplementos alimenticios, por ejemplo, podría variar sustancialmente entre proveedores y
autoridades gubernamentales); entrenar y comunicación regular con los interesados en el
programa; estructuración de recursos de campo y requisitos para mejorar la productividad en
la administración de encuestas; y anuncios coordinados de familias que serían beneficiarias.
Los enfoques utilizados para abordar estos problemas incluyeron instrumentos de encuesta
detallados para monitorear resultados, en asociación con las autoridades del gobierno local y
central. Estos instrumentos ayudaron evaluar el impacto del programa en los hogares y dar a
los funcionarios del programa una idea de cómo efectivamente el programa se estaba
implementando. Las encuestas incluyeron, por ejemplo, un estudio piloto para comprender
mejor las necesidades de los hogares en comunidades específicas y para ayudar a guiar el
programa diseño. También se realizaron encuestas formales de participantes y no participantes
en el transcurso del programa, así como también de líderes locales y miembros del personal
de escuelas y centros de salud en todas las localidades. También se recopilaron datos
administrativos sobre pagos a hogares.
Su objetivo era apuntarle a un número de salud y los resultados educativos incluyendo
desnutrición, mortalidad infantil alta, fertilidad alta, y asistencia de la escuela. El
programa, que le apuntó a los cascos urbanos rurales y marginales, comenzó en mid-1997
siguiendo la crisis macroeconómica de 1994 y 1995. A las 2004, alrededor de 5 millones
de familias estaba cubierto, con un presupuesto de acerca del billón del US$2.5, o 0.3 por
ciento del producto doméstico bruto de México. El empuje principal de Oportunidades
fue proveerles los reembarques efectivos condicionales a los grupos familiares (las
madres especificar las calles), dependiente de sus niños asiste a los centros médicos de
salud de escuela y de visiteo regularmente. El soporte financiero estaba también previsto
directamente para estas instituciones. El beneficio común recibió por grupos familiares
participantes fueron aproximadamente 20 por ciento del valor de su gasto de consumo
antes del programa, con pesos apenas iguales en la salud y los requisitos de educación.
Parcial
La participación fue posible; Es decir, con relación a la iniciativa del subsidio de la

escuela, un grupo familiar podría recibir un beneficio parcial si enviase sólo una
proporción de sus niños a instruir y visitando centros médicos de salud regularmente. El
soporte financiero estaba también previsto directamente para estas instituciones. El
beneficio promedio recibido por grupos familiares participantes fue aproximadamente 20
por ciento del valor de su gasto de consumo antes del programa, con pesos apenas iguales
en la salud y los requisitos de educación. La participación parcial fue posible; Es decir,
con relación a la iniciativa del subsidio de la escuela, un grupo familiar podría recibir un
beneficio parcial si enviase sólo una proporción de sus niños a instruir.
El Monitoreo Basado En Resultados
La ejecución real de un sistema monitor es a menudo llamado monitoreo basado en

resultados. Kusek y Rist (2004) esbozan 10 pasos para el monitoreo basado en resultados
como parte de un Marco de M&E.
Primera, una valoración de presteza debería ser transmitida. La valoración implica

comprender las necesidades y las características del área o la región para ser dirigida a
sectores específicos, así como también las jugadoras de la llave (por ejemplo, los
gobierno nacional o local y donantes) que serán responsables de implementación de
programa. Cómo responderá el esfuerzo para negar ejerce presión y la información
generada de la M y el proceso E es también importante.
Los segundos, evaluadores de programa tan anteriormente citados, deberían convenir en

resultados específicos para el monitor y deberían evaluar, como sano como señalizadores
cruciales de función para monitorear resultados. El proceder implica colaboración con
comunidades y gobiernos receptores arribar a un set mutuamente convenido de metas y
objetivos para el programa. La tercera parte, los evaluadores la necesidad a decidir cómo
serán las tendencias en estos resultados medidas. ¿Por ejemplo, si la educación de los
niños fuera un resultado importante para un programa, lo haría instruir logro esté medido
por la proporción de niños alistado en escuela, puntuaciones experimentales, asistencia
de la escuela, u otro métrico? Las valoraciones cualitativas y cuantitativas pueden ser
transmitidas para ocuparse de este asunto, como se discutirán más tarde en este capítulo.
Los costos de medida también guiarán este proceso.
El cuarto, los instrumentos para coléctale la necesidad de información a ser determinadas.

La línea de fondo o los datos de preprograma puede ser muy útil en evaluar el impacto
del programa, ya sea usando los datos para predecir resultados que podrían resultar del
programa (como en evaluaciones ex de apuesta inicial) o haciendo antes y después de las
comparaciones (también las comparaciones reflexivas designadas). Los Administradores
de Programas también pueden involucrarse en debates frecuentes con miembros de la
administración y las comunidades dirigidas a sectores específicos.
La quinta parte, los blancos la necesidad a ser establecidos; Estos blancos también pueden
usarse para monitorear resultados. Este esfuerzo incluye a colocar blancos periódicos con
el paso del tiempo (por ejemplo, anualmente o cada dos años). Visto que la duración de
los efectos probables del programa, así como también otros factores que pudiese hacer
mella programa implementación (como también consideraciones políticas), es
importante. Monitoreando estos blancos, en particular, encarna el sexto paso en este
armazón basado en resultados y requiere la colección de datos de buena calidad.
El séptimo paso guarda relación con la oportunidad del momento de monitorear,

reconocer eso de una perspectiva administrativa la oportunidad del momento y la
organización de evaluaciones y también de paseo en coche la extensión para la cual las
evaluaciones pueden ayudar a pilotear póliza. Si se encuentra que señalizadores reales se
bifurcan rápidamente de metas iniciales, las evaluaciones, por ejemplo, transmitieron por
esos días puede ayudar programa que los gerentes deciden rápidamente ya sea puede
programar implementación u otros factores relacionados necesitan estar ajustados.
El octavo paso implica consideración ponderada de la manera de reportar, incluir a la

audiencia para quien los resultados se replantearán. El noveno paso implica usar los
resultados para crear avenidas para la información retroactiva (como el aporte de agencias
independientes, las autoridades locales, y las comunidades dirigidas a sectores
específicos y poco dirigidas a sectores específicos). De tal información retroactiva puede
ayudar a los evaluadores a aprender y actualizar reglas de programa y métodos para
mejorar resultados.
Finalmente, el M&E exitoso basado en resultados implica mantener el sistema de M&E

dentro de la organización (el décimo paso). Los sistemas eficaces de M&E perdurarán y
se basan en, entre otras cosas, la demanda continua (una función de incentivos para
continuar el programa, así como el valor de la información creíble); transparencia y
responsabilidad en procedimientos de evaluación; gestión efectiva de presupuestos; y
responsabilidades bien definidas entre los miembros del personal del programa.
Un ejemplo de monitoreo basado en resultados proviene de un estudio en curso de

proyectos del microhydropower en Nepal bajo el Programa de Desarrollo de
Electrificación (REDP) Rural administrado por el Centro Alternativo (AEPC) de
Promoción de Energía. AEPC es un instituto de gobierno bajo el Ministerio de Ambiente,
Ciencia, y Tecnología. Los proyectos del microhydropower comenzaron en 1996 a través
de cinco distritos con financiación del United Nations Development Programme; El
Banco Mundial se unió al REDP durante la segunda fase en 2003. El programa está
actualmente en su tercera fase y se ha incrementado a 25 distritos más. A partir de
diciembre del 2008, hay alrededor de 235 instalaciones microhydropower (3.6 la aptitud
megawatt) y 30,000 grupos familiares del beneficiario. Caja 2.2 describe el armazón
monitor en el mayor detalle.
Desafíos en la configuración de un sistema de monitoreo
Los retos primarios para el monitoreo efectivo incluyen variación potencial en la

implementación de programa por los déficits en la aptitud entre oficiales de programa,
así como también la ambigüedad en los señalizadores últimos a ser evaluados. Para los
proyectos del microhydropower en Nepal, por ejemplo, algunos retos encarados por
oficiales REDP en cargar fuera la M y el armazón E incluyeron lo siguiente:
 Los señalizadores cruciales de función no estaban bien definidos y por lo tanto no

capturado comprensivamente.
 Los recursos humanos limitados estaban disponibles para información colectora
y de la grabación.
 El personal MyE tuvieron habilidades y aptitud limitadas, y sus papeles y sus
responsabilidades no estaban bien definidos en el campo y niveles principales de
la oficina.
 A AEPC le faltaron el software y herramientas sofisticadas para analiza la
información cobrada.
Las debilidades en estas áreas tienen que ser ocupado de acercamientos diferentes
directos. Los señalizadores de función, por ejemplo, pueden estar definidos que más
precisamente por ahí (uno) mejoran comprender los aportes y las salidas en la etapa de
proyecto, (b) especificando el nivel y la unidad de medida para señalizadores, (c) la
comunidad frecuentemente colectora y los datos del nivel del beneficiario para proveer
actualizaciones periódicas en qué tan intermedio los resultados evolucionan y si los
señalizadores necesitan estar revisados, y (d) claramente identificando a las personas y
entidades responsables para monitorear. Para colección de datos en particular, la
oportunidad del momento de encuesta (de una línea de fondo de preproyecto, por
ejemplo, hasta el período actual); La frecuencia (mensualmente o semestralmente, por
ejemplo); Los instrumentos (como las entrevistas o cuentas); y otras como la necesidad
de la colección (el grupo familiar individual, la comunidad, o una unidad administrativa
y más ancha como distrito) para set definido y arriba de explícitamente dentro del
armazón M&E. Con tal que el personal con entrenamiento y las herramientas para
colección de datos y análisis, así como también Para la verificación de datos en niveles
diferentes de la estructura monitora (vea 2.A de la figura de la caja 2.2 para un ejemplo),
es también crucial.
Recuadro 2.2 Estudio de caso: evaluación del impacto social de los servicios de energía
rural en Nepal
Los proyectos de microhidroeléctricas de REDP incluyen seis principios de desarrollo
comunitario: organizacional desarrollo, mejora de habilidades, formación de capital,
promoción de tecnología, empoderamiento de comunidades vulnerables y gestión ambiental.
Implementación de la microhidroeléctrica REDP Los proyectos en Nepal comienzan con la
movilización comunitaria. Las organizaciones comunitarias (CO) son las primeras formado
por beneficiarios individuales a nivel local. Dos o más CO forman entidades legales llamadas
grupos funcionales. Un comité de gestión, representado por todos los CO, toma decisiones
sobre la electricidad. distribución, tarifas, operación, gestión y mantenimiento de proyectos de
microhidroeléctrica.
Recientemente, un estudio sobre el impacto social de los servicios de energía rural en Nepal
ha sido financiado por Programa de Asistencia para la Gestión del Sector Energético y es
administrado por el Departamento de Energía del Sur de Asia del Banco Mundial. Al
implementar el marco de M&E para los proyectos de microhidroeléctrica, Este estudio busca
(a) mejorar la gestión del programa (mejor planificación y presentación de informes); (si)
rastrear el progreso o la medición sistemática de los beneficios; (c) garantizar la rendición de
cuentas y los resultados sobre inversiones de partes interesadas como el gobierno de Nepal,
así como de donantes; y (d) brinde oportunidades para actualizar la forma en que se
implementa el programa de manera continua retroalimentación sobre cómo los resultados se
superponen con los indicadores clave de rendimiento.
El recuadro figura 2.A describe el marco de monitoreo inicial establecido para difundir
información sobre cómo se midieron y asignaron los insumos, productos y resultados. La
información se recopila en cada uno de los niveles de la comunidad, el distrito y la oficina
central (AEPC). Los movilizadores comunitarios transmiten información a nivel de campo a
los coordinadores a nivel de distrito, donde también se recopila información adicional. En el
distrito nivel, la información se verifica y se envía a AEPC, donde se preparan los informes y
luego se envían a varias partes interesadas. Las partes interesadas, en particular, pueden incluir
al gobierno de Nepal, así como a los donantes.
Recuadro 2.2 Estudio de caso: evaluación del impacto social de los servicios de energía
rural en Nepal (continuación)
El recuadro figura 2.B describe cómo se han establecido los indicadores clave de rendimiento
para los proyectos. Comenzando con insumos como capital humano y físico, productos como
programas de capacitación. y se generan implementaciones de sistemas. Los resultados a corto
plazo e intermedios son esbozado, incluida la mejora de la productividad y la eficiencia del
trabajo doméstico derivado de mayor acceso a la electricidad, lo que lleva a impactos
potenciales más amplios en salud, educación, el bienestar de las mujeres y el medio ambiente.
Los fabricantes de política también podrían necesitar establecer cómo los impactos de
programa del microlevel (en el nivel comunal o regional) serían afectados por tendencias
niveladas en país como el comercio aumentado, inflación, y otras políticas
macroeconómicas. Un asunto relacionado es heterogeneidad en el programa impacta a
través de un grupo dirigido a sectores específicos. Los efectos de un programa, por
ejemplo, pueden diferir sobre su duración de una vida esperada. Los aportes pertinentes
afectando resultados también pueden cambiar sobre este horizonte; Así, los monitores
resultados de largo plazo, así como también de corto plazo pueden ser de interés para
fabricantes de política. También, aunque los resultados de programa son a menudo
distinguidos simplemente a través de áreas dirigidas a sectores específicos y poco
dirigidas a sectores específicos, la variación monitora en la implementación del programa
(las medidas sumamente de calidad, por ejemplo) puede ser útil comprendiendo los
efectos del programa. Con todas estas preocupaciones, el monitoreo cuidadoso de áreas
dirigidas a sectores específicos y poco dirigidas a sectores específicos (grandemente si
en el nivel regional, de toda la casa, o individual) coadyuvará en medir efectos de
programa. Presentando un ejemplo de Indonesia, caja 2.3 describe algunas técnicas
usadas para poner la dirección en retos de la M&E.
Recuadro 2.3 Estudio de caso: el proyecto de desarrollo de Kecamatan en Indonesia
El Programa de Desarrollo de Kecamatan (KDP) en Indonesia, un programa de US $ 1.3 mil
millones dirigido por La Oficina de Desarrollo Comunitario del Ministerio del Interior, tiene
como objetivo aliviar la pobreza mediante fortaleciendo el gobierno local y las instituciones
comunitarias, así como mejorando la gobernanza local. El programa comenzó en 1998 después
de la crisis financiera que plagó la región, y funciona con pueblos para definir sus necesidades
de desarrollo local. Los proyectos se centraron en el crédito y la expansión de la
infraestructura. Este programa no se asignó finalmente al azar.
Una parte de los fondos del PDK se destinó a actividades de monitoreo. Tales actividades
incluyen, por ejemplo, capacitación y desarrollo de capacidades propuestos por las
comunidades y el proyecto local grupos de monitoreo. El soporte técnico también fue
proporcionado por consultores, quienes fueron asignados a conjuntos de aldeas. Desde
consultores técnicos con experiencia en ingeniería hasta consultores de capacitación para
apoyar la comunicación dentro de las aldeas.
Los gobiernos y las organizaciones no gubernamentales también ayudaron en el monitoreo, y
se alentó a las aldeas a participar en el autocontrol a través del parlamento piloto del pueblo-
distrito consejos y visitas entre pueblos. Contratos con bancos privados para proporcionar
servicios bancarios a nivel de aldea. También se consideraron los servicios. Como parte de
este esfuerzo, la supervisión y capacitación financiera fueron proporcionado a las
comunidades, y se desarrolló un manual financiero simple y una lista de verificación para
utilizar en el campo como parte de la iniciativa de monitoreo. Las reformas de adquisiciones
a nivel de distrito también fueron introducidas para ayudar a las aldeas y áreas locales a
comprar servicios técnicos para proyectos demasiado grandes para ser manejado por la
gerencia del pueblo.
El seguimiento del proyecto combina enfoques cuantitativos y cualitativos. En lo cuantitativo
Además, las encuestas de muestra representativas ayudaron a evaluar el impacto de la pobreza
del proyecto en diferentes áreas. En el aspecto cualitativo, los consultores prepararon estudios
de casos para resaltar las lecciones aprendidas del programa, así como para evaluar
continuamente el progreso del KDP. Algunos problemas de este caso los estudios incluyen la
participación relativa de las mujeres y los pobres extremos, la resolución de conflictos y el
papel de los facilitadores de las aldeas en la difusión de información y conocimiento.
Dado el amplio alcance del programa, se han sugerido algunas áreas de mejora para monitoreo
de KDP. Las discusiones o sesiones realizadas con todos los consultores al final de cada ciclo
de evaluación pueden fomentar la retroalimentación y el diálogo a lo largo del programa, por
ejemplo. Los grupos focales de consultores de diferentes orígenes (mujeres, por ejemplo)
también podrían generar diferentes perspectivas valiosas para dirigirse a una población
diversa. Las sugerencias también han sido hechas para desarrollar temas en torno a estas
reuniones, como cuestiones técnicas, transparencia y gobernanza e infraestructura. También
se encontró a menudo que los consultores no informaban problemas regularmente encontraron
en el campo, a menudo temiendo que su propia actuación fuera criticada. Incentivos a alentar
a los consultores a informar con precisión los desarrollos en sus áreas también se han discutido
como parte de las mejoras necesarias en el monitoreo.
La Evaluación Operacional
Una evaluación operacional trata de entender si la implementación de un programa se

desarrolló de acuerdo al plan. Específicamente, la evaluación operacional es una
valoración retrospectiva basada en objetivos iniciales de proyecto, señalizadores, y
blancos de la M&E. La evaluación de operación puede basarse en entrevistas con
beneficiarios de programa y con oficiales responsables para la implementación. La meta
está comparar lo que estaba planificado con cuál fue realmente redimido, determinar ya
sea hay aberturas entre salidas planificadas y realizadas, y para identificar las lecciones
para ser aprendidos para diseño futuro de proyecto e implementación.
Los Retos en la Evaluación Operacional
Porque la evaluación operacional tiene relación para cómo son los programas finalmente
implementado, las medidas apropiadas de diseño de calidad de implementación tienen
mucha importancia. Este esfuerzo incluye a monitorear cómo fue gastado el dinero de
proyecto finalmente o ubicó a través de sectores (como comparado para lo que fue
dirigido a sectores específicos), así como también los spillovers potenciales del programa
en áreas poco dirigidas a sectores específicos. Coleccionar datos precisos en estos
factores puede ser difícil, pero como descrito en subsiguientes capítulos, es esencial
determinando prejuicios potenciales en los impactos medidores de programa. Caja 2.4,
que examina FONCODES (Fondo de Cooperación para el Desarrollo Social, o
Cooperación Financia para la Tertulia El desarrollo), un programa de alivio de pobreza
en Perú, sale a la vista qué tan operacional la evaluación también a menudo implica
supervisión directa de etapas diferentes de implementación de programa. FONCODES
tiene ambos objetivos educativos y nutritivos. El componente nutritivo implica distribuir
comida precocinada de nutrición, alta, lo cual es actualmente consumido por ahí acerca
de 50,000 niños en el país. Dado la escala de la iniciativa de distribución de comida, un
número de pasos fuera tomado para asegurar eso aportes intermedios y los resultados
podrían ser monitoreados eficazmente.
Recuadro 2.4 Estudio de caso: Monitoreo de los objetivos nutricionales de la Proyecto
FONCODES en Perú
Dentro de la iniciativa de nutrición FONCODES en Perú, se tomaron una serie de enfoques
para garantizar la calidad del suplemento nutricional y la implementación eficiente del
programa. En el nivel del programa, la calidad de los alimentos se evaluó periódicamente a
través de auditorías independientes de muestras de comunidades. Este trabajo incluyó la
obtención y análisis de muestras aleatorias de alimentos. preparado por hogares seleccionados.
Cada dos meses, los funcionarios del proyecto visitarían puntos de distribución al azar para
monitorear la calidad de la distribución, incluido el almacenamiento. Estas visitas también
proporcionaron una oportunidad de verificar el número de beneficiarios y subrayar la
importancia del programa a las comunidades locales.
Las visitas domiciliarias también se utilizaron para evaluar el conocimiento del proyecto por
parte de los beneficiarios y sus preparaciones de comida. Por ejemplo, las madres (que eran
las principales responsables de cocinar) eran pidió mostrar el producto en su bolsa, describir
cómo se almacenó y detallar cuánto había consumido desde la última distribución. También
fueron invitados a preparar una ración para que él se pudo observar el proceso o se tomaron
muestras de las sobras para su posterior análisis.
Los resultados de estas visitas se documentaron regularmente. Encuestas regulares también
documentadas los resultados. Estos datos permitieron a los funcionarios del programa
comprender cómo se desarrollaba el proyecto y si alguna estrategia necesitaba ser ajustada o
reforzada para asegurar la calidad del programa. En el A nivel económico, se hicieron intentos
para crear incentivos dentro de la industria agroalimentaria para asegurar un posicionamiento
sostenible del suplemento en el mercado; las empresas fueron seleccionadas de un proceso de
licitación pública para distribuir el producto.
Sin embargo, los esfuerzos operativos destinados a reducir la pobreza en estas áreas finalmente
lo hicieron. variar de las estimaciones de impacto resultantes. FONCODES no se asignó al
azar, por ejemplo, y Schady (1999) descubrió que la flexibilidad de la asignación de fondos
dentro de FONCODES, así como en el el momento y la constitución de los gastos hicieron
que el programa fuera muy vulnerable a la interferencia política. Paxson y Schady (2002)
también utilizaron datos a nivel de distrito sobre los gastos de la educación. componente del
programa para encontrar que, aunque el programa llegó a los distritos más pobres, lo hizo no
necesariamente llega a los hogares más pobres de esos distritos. Sin embargo, sí encontraron
que el programa aumentó la asistencia a la escuela, particularmente la de los niños más
pequeños. Programa exitoso, Por lo tanto, la implementación requiere aprovechar todos los
objetivos del programa, incluida la aplicación efectiva de la focalización del programa.
La Evaluación Operacional Versus la Evaluación de Impacto
La justificación razonada de un programa en dibujar recursos públicos es mejorar un

resultado seleccionado sobre lo que habría estado sin el programa. El problema principal
de un evaluador es medir el impacto o los efectos de una intervención a fin de que los
fabricantes de política pueden decidirse si la intervención de programa es digna de
soportar y si el programa debería ser continuado, expandido, o se desbanda.
La evaluación operacional se trata de asegurar implementación efectiva de un programa

de conformidad con los objetivos iniciales del programa. La evaluación de impacto es un
esfuerzo para comprender si los cambios en el bienestar están ciertamente supuestos a
proyectar o programar intervención. Específicamente, la evaluación de impacto intenta
determinar si cabe identificar el efecto de programa y hasta qué punto el efecto medido
puede ser atribuido al programa y no para algunas otras causas. Como propuesto de
adentro resuelve 2.1, la evaluación de impacto enfoca la atención en las etapas más
recientes del marco del leño de M y E, lo cual enfoca la atención en resultados e impactos.
La evaluación operacional y de impacto son complementarias en vez de substitutos, sin

embargo. Una evaluación operacional debería ser de método normal dentro de la agencia
que implementa. Pero la plantilla acostumbró para una evaluación operacional puede ser
muy útil para más valoración rigurosa de impacto. Uno realmente necesita saber el
contexto dentro del cual los datos fueron generados y dónde la política el esfuerzo fue
dirigido. También, la información generada a través de oficinas de implementación de
proyecto, cuál es la condición para una evaluación operacional, es también menester para
interpretación de resultados de impacto.
Sin embargo, aunque la evaluación operacional y el general practican de M y E son partes

integrales de evaluación de proyecto de implementación, de impacto no son imperativas
para cada uno y cada proyecto. La evaluación de impacto es hora y recurso intensivo y
por consiguiente debería ser aplicado selectivamente. La política que los fabricantes
pueden decidir ya sea llevar a cabo una evaluación de impacto con base en los siguientes
criterios:
 La intervención de programa es innovadora y de importancia estratégica.

 El ejercicio de evaluación de impacto contribuye para el conocimiento que la
abertura de lo que trabaja y que lo que no hace. (La disponibilidad de datos y la
calidad son requisitos fundamentales para este ejercicio.)
El programa Oportunidades de México es un ejemplo en el cual el gobierno inició una

evaluación rigurosa de impacto en la fase piloto a determinar ya sea finalmente
desenrollar el programa de mano para cubrir el país entero.
Cuantitativo Versus las Valoraciones Cualitativas de Impacto
Los Gobiernos, donantes, y otros practicantes en la comunidad de desarrollo son agudos

para determinar la efectividad de programas con metas de gran alcance como aminorar
pobreza o el empleo creciente. Estas búsquedas de política son a menudo posibles sólo a
través del impacto que las evaluaciones basaron en evidencia sólida de datos de encuesta
o a través de relataron acercamientos cuantitativos. Este manual enfoca la atención en
métodos cuantitativos de impacto en vez de en las valoraciones cualitativas de impacto.
La información cualitativa como comprender el sociocultural local y contexto
institucional, así como también el programa y el participante detallan, son, sin embargo,
esenciales para una valoración cuantitativa cuerda. Por ejemplo, la información
cualitativa que el remedio puede identificar mecanismos hasta el final que programa
podrían tener un impacto; Tales encuestas también pueden identificar fabricantes locales
de política o individuos que serían una personalidad determinando el curso de cómo son
los programas implementados, por consiguiente, auxiliar evaluación operacional. Pero
una valoración cualitativa en el suyo no puede evaluar resultados en contra de alternativas
pertinentes o los resultados contraobjetivos. Es decir, realmente no puede indicar qué
podría ocurrir a falta del programa. Como discutido después de los capítulos, el análisis
cuantitativo es también importante ocupándose de prejuicio estadístico potencial en los
impactos de programa. Una mezcla de métodos cualitativos y cuantitativos (un
acercamiento de métodos mixtos) por consiguiente podría ser útil ganando una visión
global de efectividad del programa.
La caja 2.5 describe un acercamiento de métodos mixtos para examinar resultados de la

Jamaica Social Investment Fund (JSIF). Al igual que con el Kecamatan Development
Program en Indonesia (vea caja 2.3), JSIF implicó iniciativas conducidas por comunidad,
con comunidades haciendo al contado o contribuciones en especie para proyectar costos
de desarrollo (como construcción). Los esquemas cualitativos y cuantitativos de
evaluación a través de que ambos implicaron comparaciones de resultados
correspondieron a los pares tratados y no tratados de comunidades, pero con
acercamientos diferentes para corresponder a comunidades participando y no
participando en JSIF.
Recuadro 2.5 Estudio de caso: métodos mixtos en cuantitativo y cualitativo Enfoques
Rao e Ibáñez (2005) aplicaron instrumentos de encuestas cuantitativas y cualitativas para

estudiar el impacto del Fondo de Inversión Social de Jamaica. Los evaluadores del programa
realizaron entrevistas cualitativas semiestructuradas en profundidad con los coordinadores de
proyectos de JSIF, el gobierno local y los líderes de la comunidad, y miembros del comité
JSIF que ayudó a implementar el proyecto en cada comunidad. Esta información reveló
detalles importantes sobre las normas sociales, motivados por influencias históricas y
culturales que guiaron la toma de decisiones de las comunidades y, por lo tanto, la forma en
que el programa finalmente jugado en áreas específicas. Estas entrevistas también ayudaron a
emparejar comunidades, porque Se pidió a los grupos focales que identificaran comunidades
cercanas que fueran más similares a ellas.
Sin embargo, las entrevistas cualitativas no se realizaron al azar. Como resultado, la cualitativa
las entrevistas podrían haber involucrado a personas que tenían más probabilidades de
participar en el programa, por lo tanto, conduciendo a un sesgo en la comprensión del impacto
del programa. Un componente cuantitativo del estudio. fue por lo tanto también incluido.
Específicamente, en el componente cuantitativo, 500 hogares (y, en a su vez, se encuestó a
casi 700 personas), divididas en partes iguales entre las comunidades participantes y no
participando en el fondo. Los cuestionarios cubrieron una variedad de variables, incluidas las
socioeconómicas características, detalles de participación en el fondo y otros programas
locales, prioridades percibidas para el desarrollo comunitario y las redes sociales, así como las
formas en que varios de sus resultados tuvieron cambiado en relación a hace cinco años (antes
de que JSIF comenzara). Coincidencia de puntaje de propensión, discutido en se utilizó un
mayor detalle en el capítulo 4 para comparar los resultados de los participantes y los no
participantes hogares La correspondencia se realizó sobre la base de un puntaje de pobreza
calculado a partir de los datos del censo nacional. También se realizó un trabajo de campo
separado para atraer una comunidad adicional no medida características sobre las cuales
conducir el partido; esta información incluía datos sobre geografía local, mercados laborales
y la presencia de otras organizaciones comunitarias. Emparejar de esta manera permitido mejor
comparación de áreas específicas y no específicas, evitando así sesgos en el tratamiento
impactos basados en diferencias significativas observadas y no observadas entre estos grupos.
Por lo tanto, los datos cualitativos revelaron información valiosa sobre el contexto institucional
y las normas que guían el comportamiento en la muestra, mientras que los datos cuantitativos
detallan las tendencias en la reducción de la pobreza y otros indicadores relacionados. En
general, al comparar las estimaciones del programa de los modelos cualitativos (medidos por
las tabulaciones cruzadas de diferencias en diferencias de la encuesta respuestas a través de
pares coincidentes JSIF y no JSIF (consulte el capítulo 5 para una discusión de los métodos de
diferencia en diferencias) con el impacto cuantitativo estimado a partir de la correspondencia
del vecino más cercano, Rao e Ibáñez encontraron que el patrón de efectos era similar. Dichos
efectos incluyeron un mayor nivel de confianza y una capacidad mejorada de personas de
diferentes orígenes para trabajar juntas. Para el último resultado, por ejemplo,
aproximadamente el 21 por ciento de la muestra JSIF dijo que era "muy difícil" o "difícil" para
las personas de diferentes orígenes trabajar juntas en el módulo cualitativo, en comparación
con aproximadamente el 32 por ciento de la muestra no JSIF. Del mismo modo, las
estimaciones del vecino más cercano revelaron un beneficio medio positivo significativo para
este resultado en las áreas JSIF (aproximadamente 0,33).
Los impactos cuantitativos también se desglosaron por características socioeconómicas de los
hogares. Sin embargo, tendían a mostrar que JSIF pudo haber creado mejores resultados en
términos de mayor acción colectiva para los participantes más ricos y mejor educados;
evidencia cualitativa También reveló que estos grupos tendían a dominar el proceso de toma
de decisiones.
La Valoración Cuantitativa de Impacto: Las Evaluaciones Ex ante versus la Ex post
Hay dos tipos de evaluaciones cuantitativas de impacto: La apuesta inicial de ex post y

de la ex ante. Una evaluación ex de impacto de apuesta inicial trata de medir los impactos
pretendidos de políticas y programas futuros, dado la situación actual de un área
potencialmente dirigido a sectores específicos, y puede implicar simulaciones basadas en
suposiciones de aproximadamente cómo las obras de economía (vea, por ejemplo,
Bourguignon y Ferreira 2003; Todd y Wolpin 2006). Muchas veces, las evaluaciones ex
de apuesta inicial se basan en modelos estructurales de los participantes potenciales (vea
capítulo 9 para más debate en el modelado estructural) que miran hacia ambiente
económico. Las suposiciones subyacentes de modelos estructurales, por ejemplo,
implican identificar
Los agentes económicos principales en el desarrollo del programa (los individuos, las
comunidades, local o los gobiernos de concentración), así como también los enlaces entre
los agentes y los mercados diferentes en determinar resultados del programa. Estos
modelos predicen impactos de programa.
Las evaluaciones ex post, en el contraste, miden impactos reales acopiados por los
beneficiarios que son atribuibles para programar intervención. Una forma de este tipo de
evaluación es el tratamiento que los efectos modelan (Heckman y Vytlacil, 2005). Las
evaluaciones ex del poste tienen beneficios inmediatos y reflejan realidad. Estas
evaluaciones, sin embargo, algunas veces mecanismos del missthe estando bajo del
impacto del programa en lo demográfico, que la meta estructural de modelos a capturar
y que puede tener mucha importancia en la efectividad comprensiva (en particular en
trasfondos futuros) de programa. Las evaluaciones ex del poste también pueden ser
bastante más costoso que evaluaciones ex de apuesta inicial porque requieren datos
colectores en los resultados reales para participante y los grupos no participantes, así
como también en otros acompañantes factores sociales y económicos que pudieron haber
determinado el curso de la intervención. Un costo añadido en el poste ex sedimentándose
es el fracaso de la intervención, cuál podría haber sido predicho análisis ex directo de
apuesta inicial.
Un acercamiento es combinar ambos analizan y compara estimaciones ex del poste con

predicciones ex (vea a Ravallion 2008) de apuesta inicial. Este acercamiento remedio
puede explicar cómo emergen los beneficios de programa, especialmente si el programa
está siendo transmitido en fases diferentes y tiene la flexibilidad para berefined de
conocimiento añadido ganado de la comparación. Caja 2.6 provee un ejemplo de este
acercamiento, usando un estudio por Todd y Wolpin (2006) de un subsidio de la escuela
iniciativo bajo PROGRESA.
Los estudios de caso discutidos en los siguientes capítulos primordialmente enfocan la

atención en evaluaciones ex del poste. Sin embargo, un ejercicio ex de impacto del poste
es más fácil de llevar fuera de si los investigadores tienen un diseño ex de apuesta inicial
de evaluación de impacto. Es decir, uno puede tener previsto un diseño para una
evaluación de impacto antes de implementar la intervención. Capítulo 9 provee más
estudios de casos de evaluaciones ex de apuesta inicial.
Recuadro 2.6 Estudio de caso: un ejemplo de evaluación ex ante
Todd y Wolpin (2006) aplicaron un enfoque ex ante a la evaluación, utilizando datos del
PROGRESA (ahora Oportunidades) experimento de subsidio escolar en México. Utilizando
un modelo económico de comportamiento del hogar, predijeron los impactos del programa de
subsidios en la proporción de niños que asisten a la escuela. Las predicciones se basaron solo
en los niños del grupo de control y calcularon el efecto del tratamiento de los niños del grupo
de control correspondiente de hogares con un salario dado e ingresos con hijos de hogares
donde los salarios e ingresos se verían afectados por el subsidio. Vea el capítulo 4 para una
discusión detallada sobre los métodos de correspondencia; el capítulo 9 también trata sobre
Todd y El modelo de Wolpin con mayor detalle.
Las predicciones de este modelo se compararon con los impactos experimentales ex post
(sobre el período 1997–98) medido bajo el programa. Todd y Wolpin (2006) encontraron que
las estimaciones pronosticadas para niños de 12 a 15 años eran similares a las estimaciones
experimentales en el mismo grupo de edad. Para las niñas entre 12 y 15 años, encontraron que
el aumento previsto en la escolaridad era del 8,9 por ciento. puntos, en comparación con el
aumento real de 11,3 puntos porcentuales; para los niños, el predicho y las estimaciones
experimentales fueron 2.8 y 2.1 puntos porcentuales, respectivamente.
La evaluación ex ante que realizaron también les permitió evaluar cómo los resultados podrían
cambiar si se modificaron ciertos parámetros. Una evaluación ex ante también podría describir
el rango potencial de impactos del programa, lo que podría ayudar en la focalización final ex
post.
El problema del Counterfactual
El reto principal de una evaluación de impacto es determinar qué habría ocurrido para los
beneficiarios si el programa no hubiese existido. Es decir, uno tiene que determinar lo
por el ingreso del grupo familiar del capita de beneficiarios a falta de la intervención. El
resultado de un beneficiario a falta de la intervención sería su contraobjetivo.
Una intervención de programa o de política trata de alterar cambios en el bienestar de

beneficiarios pretendidos. El poste ex, uno observa resultados de esta intervención en
beneficiarios pretendidos, como el empleo o el gasto. ¿Guarda relación este cambio
directamente con la intervención? ¿Ha causado esta intervención que gasto o empleo
aumente? No necesariamente. De hecho, con sólo una observación del punto después del
tratamiento, es imposible alcanzar una conclusión acerca del impacto. En el mejor de los
casos uno puede decir si el objetivo de la intervención fue encontrado. Pero el resultado
después de la intervención no puede ser atribuido al programa mismo.
El problema de evaluación es ese mientras el impacto del programa (independiente de
otros factores) verdaderamente puede ser evaluado sólo comparando resultados reales y
contraobjetivos, lo contraobjetivo no es observado. Así es que el reto de una valoración
de impacto es crear un grupo convincente y razonable de comparación para beneficiarios
a consecuencia de esta información perdida. Idealmente, uno le gustaría asemejarse cómo
habría viajado el mismo grupo familiar o el individuo con y sin una intervención o “ el
tratamiento.” Pero uno no puede hacer eso porque en un punto dado con el tiempo un
grupo familiar o un individuo no puede tener dos existencias simultáneas — un grupo
familiar o un individuo no puede estar en lo tratado y los grupos testigos al mismo tiempo.
Encontrando uno apropiado contraobjetivo constituye el reto principal de una evaluación
de impacto.
¿Cómo negoció acerca de una de comparación en medio y poco trató grupos cuando
ambos son elegibles ser tratado? ¿Cómo acerca de una comparación de resultados de
grupos tratados antes y después son tratados? Estos grupos potenciales de comparación
pueden ser counterfactuals “falsificados”, como será discutido en los ejemplos que
entienden.
Buscando a un Counterfactual: Con y sin Comparaciones
Considere el caso del benefi ciaries de Grameen Bank en Bangladesh. Las ofertas
Grameen Bank le acreditan a las mujeres pobres para mejorar su consumo de comida.
Los datos, sin embargo, salen a la vista que lo por el consumo del capita entre
participantes de programa está más abajo de eso de poco participantes antes de programar
intervención. ¿Es esto un caso de fracaso de Grameen Bank? No necesariamente.
Grameen Bank le apuntó a las familias pobres porque tuvieron más bajo por el consumo
de comida del capita con el que comenzar, así también juzgando el impacto del programa
comparando el consumo de comida de participantes de programa con que de poco
participantes es incorrecto. Lo que es necesario debe comparar lo que le habría ocurrido
el consumo de comida de las mujeres participantes no tuvo el programa existido. Un
grupo correcto de comparación que es un final contraobjetivo de programa los
beneficiarios son necesarios.
Figura 2.2 Evaluación utilizando una comparación con y sin comparación
Figura 2.2 provee una ilustración. Considere el ingreso de participantes Grameen Bank
después de la intervención de programa como 𝑌4 y el ingreso de poco participantes o los
grupos familiares de control como 𝑌3 . Esto con y sin comparación en coro mide el efecto
del programa como 𝑌4 − 𝑌3 ¿Esta medida uno estimación correcta son de efecto de
programa? Sin saber por qué algunos grupos familiares participaron mientras los otros no
hicieron cuando un programa como Grameen Bank hizo disponible su programa de
crédito en un pueblo, tal comparación podría ser engañosa. Sin tal información, uno no
sabe si 𝑌3 es el resultado directamente contraobjetivo para evaluar el efecto del programa.
Por ejemplo, los ingresos son diferentes a través del participante y los grupos testigos
antes del programa; este diferencial podría estar supuesto a estar bajo de diferencias que
pueden influenciar la comparación a través de los dos grupos. Si uno supiese los
resultados contraobjetivos (𝑌0 , 𝑌2 ), la estimación verdadera de efecto de programa es 𝑌4 −
𝑌2 , como figura 2.2 indica, y no 𝑌4 − 𝑌3 . En este ejemplo, los rendimientos
contraobjetivos falsificados una infravaloración de efecto del programa. Nota, sin
embargo, que a merced de las situaciones de preintervención de grupos testigos tratados
y, la comparación falsificada podría producir uno sobre-o subestimación de efecto del
programa.
Buscando a un Counterfactual: Antes y Después de las Comparaciones
Otro falseamiento contraobjetivo podría ser una comparación entre los pre los𝑌2 − 𝑌0
resultados de postprograma de participantes. Uno podría comparar resultados ex del poste
para beneficiarios con datos en sus resultados antes de la intervención, ya sea con datos
comparables de encuesta antes de que el programa fuese introducido o, a falta de un
diseño correcto de evaluación, con información retrospectiva. Como se muestra en figura
2.3, uno luego tiene dos puntos de observaciones para los beneficiarios de una
intervención: El ingreso de preintervención (𝑌2 ) de ingreso (𝑌0 ) y de postintervención.
Consecuentemente, el efecto del programa podría ser estimado como (𝑌2 − 𝑌0 ) la
literatura. Se refiere a este acercamiento como el método reflexivo de impacto, donde los
resultados de los participantes resultantes antes de la intervención funcionan como la
comparación o controlan resultados. ¿Ofrece este método una estimación realista de
efecto del programa? Probablemente no. La serie de tiempo hace alcanzar mejores
conclusiones más fácil, pero es de ningún modo conclusiva acerca del impacto de un
programa. Mirando a figura 2.3, uno ve, por ejemplo, que el impacto podría ser (𝑌2 − 𝑌1 ).
Ciertamente, un método de diferencia tan simple lo haría
No sea una valoración precisa porque muchos otros factores (fuera del programa)
pudieron haber cambiado sobre el período. No controlando para esos otros factores quiere
decir que uno falsamente atribuiría el resultado del participante en la ausencia del
programa como 𝑌0 , cuándo podría haber sido 𝑌2 .
Por ejemplo, los participantes en un programa de entrenamiento pudieron haber

mejorado prospectos de empleo después del programa. Aunque esta mejora puede ser
debida al programa, también puede ser porque la economía se recobra de una crisis pasada
y el empleo aumenta otra vez. A menos que sean cuidadosamente hechos, las
comparaciones reflexivas no pueden distinguir entre los efectos del programa y otros
efectos externos, así comprometiendo la fiabilidad de resultados.
Las comparaciones reflexivas pueden ser útiles en evaluaciones de intervenciones de
cobertura completa como los programas y políticas en escala nacional en los cuales toda
la población participa y no hay alcance para un grupo testigo. Aun cuando el programa
no es tan lejano alcanzando, si los resultados para participantes son obedecidos sobre
varios años, luego los cambios estructurales en los resultados podrían ser probados para
(Ravallion 2008).
En este contexto, por consiguiente, unas características amplias de preprograma de

múltiplo del revestimiento de estudio de la línea de fondo de grupos familiares serían
muy útiles a fin de que uno podría controlar.
Figura 2.3 Evaluación utilizando una comparación de antes y después
Teoría básica de la evaluación de impacto: el problema del sesgo de selección
Una evaluación de impacto es esencialmente un problema de falta de datos, porque uno

no puede observar los resultados de los participantes del programa si no hubieran sido
beneficiarios. Sin información sobre el contrafactual, la siguiente mejor alternativa es
comparar los resultados de individuos u hogares tratados con los de un grupo de
comparación que no ha sido tratado Al hacerlo, uno intenta elegir un grupo de
comparación que sea muy similar al grupo tratado, de modo que aquellos que recibieron
tratamiento hubieran tenido resultados similar a los del grupo de comparación en ausencia
de tratamiento.
Las evaluaciones de impacto exitosas dependen de encontrar un buen grupo de

comparación. Ahí Hay dos enfoques generales a los que recurren los investigadores para
imitar el contrafactual de un grupo tratado: (a) crear un grupo de comparación a través de
un diseño estadístico, o (b) modifique la estrategia de focalización del programa en sí
para eliminar las diferencias eso habría existido entre los grupos tratados y no tratados
antes de comparar resultados en los dos grupos.
La ecuación 2.1 presenta el problema de evaluación básica que compara los resultados Y
a través de individuos tratados y no tratados 𝑖:
𝑌𝑖 = 𝛼𝑋𝑖 + 𝛽𝑇𝑖 + 𝜀𝑖 (2.1)
Aquí, T es un igual falso para 1 para esas que participan y que 0 pues esos que hacen no
participa. La x es determinada de otras características obedecidas del individuo y quizá
de su ambiente de toda la casa y local. Finalmente, e es un término de error reflejándose
Las características desapercibidas que también afectan Y. La ecuación 2.1 refleja un
acercamiento comúnmente usado en evaluaciones de impacto, lo cual debe medir el
efecto directo del programa la T en Y de resultados. Los efectos indirectos del programa
(es decir, esos no directamente con los que se guardó relación la participación) también
puede ser de interés, como los cambios en los precios dentro de áreas de programa. Los
efectos indirectos de programa son discutidos que más extensamente adentro dividen en
capítulos 9.
El problema con la estimación de la ecuación 2.1 es que la asignación del tratamiento no

es a menudo al azar debido a los siguientes factores: (a) colocación intencional del
programa y (b) autoselección en el programa. Es decir, los programas se colocan de
acuerdo con la necesidad de las comunidades y los individuos, quienes a su vez
seleccionan el programa dado diseño y colocación. La autoselección podría basarse en
las características observadas (ver capítulo 4), factores no observados, o ambos. En el
caso de factores no observados, el error el término en la ecuación de estimación contendrá
variables que también están correlacionadas con el tratamiento ficticio 𝑇. Uno no puede
medir, y por lo tanto explicar, estas características no observadas en la ecuación 2.1, que
conduce a un sesgo de selección no observado. Es decir, cov (𝑇, 𝜀) ≠ 0 implica la
violación de uno de los supuestos clave de ordinario mínimos cuadrados en la obtención
de estimaciones imparciales: independencia de los regresores de la término de
perturbación 𝜀. La correlación entre 𝑇 𝑦 𝜀 sesga naturalmente las otras estimaciones de
la ecuación, incluida la estimación del efecto del programa 𝛽.
Este problema también se puede representar en un marco más conceptual. Suponer uno
está evaluando un programa contra la pobreza, como una intervención crediticia,
destinado a aumentar los ingresos del hogar. Deja 𝑌𝑖 representar el ingreso per cápita para
el hogar 𝑖. por participantes, 𝑇𝑖 = 1, y el valor de 𝑌𝑖 bajo tratamiento se representa como
𝑌𝑖 (1) por no participantes, 𝑇𝑖 = 0, y 𝑌𝑖 puede ser representado como 𝑌𝑖 (0) Si 𝑌𝑖 (0) se
utiliza en hogares no participantes como resultado de comparación para los resultados de
los participantes 𝑌𝑖 (1), el efecto promedio del programa podría representarse de la
siguiente manera:
𝐷 = 𝐸(𝑌𝑖 (1)|𝑇𝑖 = 1) − 𝐸(𝑌𝑖 (0)|𝑇𝑖 = 0) (2.2)
El problema es que los grupos tratados y no tratados pueden no ser los mismos antes de
la intervención, por lo que la diferencia esperada entre esos grupos puede no ser debida
por completo para programar la intervención. Si, en la ecuación 2.2, uno suma y resta el
esperado resultado para los no participantes si hubieran participado en el programa: (𝑌𝑖
(0) / 𝑇𝑖 = 1), Otra forma de especificar el contrafactual: se obtiene
𝐷 = 𝐸(𝑌𝑖 (1)|𝑇𝑖 = 1) − 𝐸(𝑌𝑖 (0)|𝑇𝑖 = 0) + [𝐸(𝑌𝑖 (0)|𝑇𝑖 = 1) − 𝐸(𝑌𝑖 (0)|𝑇𝑖 = 1)] (2.3)
𝐷 = 𝐴𝑇𝐸 + [𝐸(𝑌𝑖 (0)|𝑇𝑖 = 1) − 𝐸(𝑌𝑖 (0)|𝑇𝑖 = 1)] (2.4)
𝐷 = 𝐴𝑇𝐸 + 𝐵 (2.5)
En estas ecuaciones, ATE es el efecto promedio del tratamiento [E (𝑌𝑖 (1) | 𝑇𝑖 = 1) - E (𝑌𝑖
(0) | 𝑇𝑖 = 1)], a saber, la ganancia promedio en los resultados de los participantes en
relación con los no participantes, como si los hogares no participantes también fueran
tratados. El ATE corresponde a una situación en la que se asigna un hogar elegido al azar
de la población a participar en el programa, por lo que los hogares participantes y no
participantes tienen una igual probabilidad de recibir el tratamiento T.
El término B, [E (𝑌𝑖 (1) | 𝑇𝑖 = 1) - E (𝑌𝑖 (0) | 𝑇𝑖 = 0)],)], es el grado de sesgo de selección

que surge en el uso de D como una estimación de la ATE. Porque uno no sabe E (𝑌𝑖 (0) |
𝑇𝑖 = 1), uno no puede calcular la magnitud del sesgo de selección. Como resultado, si uno
lo hace si no se sabe en qué medida el sesgo de selección constituye D, uno nunca puede
saber el diferencial exacto en los resultados entre los grupos tratados y de control.
El objetivo básico de una evaluación de impacto sólida es encontrar formas de deshacerse

de sesgo de selección (B = 0) o para encontrar formas de explicarlo. Un enfoque,
discutido en el capítulo 3 es asignar aleatoriamente el programa. También se ha
argumentado que la selección el sesgo desaparecería si se pudiera suponer que si los
hogares o individuos reciben tratamiento (condicional en un conjunto de covariables, X)
son independientes de los resultados que tienen Esta suposición se denomina suposición
de falta de fundamento, también conocida como suposición de independencia condicional
(véase Lechner 1999; Rosenbaum y Rubin 1983):
(𝑌𝑖 (1), 𝑌𝑖 (0)) ⊥ 𝑇𝑖 |𝑋𝑖 (2.6)
También se puede hacer una suposición más débil de la exogeneidad condicional de la

colocación del programa. Estos diferentes enfoques y suposiciones se discutirán a
continuación. capítulos La solidez de las estimaciones de impacto depende de cuán
justificables sean los supuestos sobre la comparabilidad de los participantes y los grupos
de comparación, así como la exogeneidad de la focalización del programa en áreas
tratadas y no tratadas. Sin embargo, sin ningún enfoques o suposiciones, uno no podrá
evaluar el alcance del sesgo B.
Diferentes enfoques de evaluación para la evaluación de impacto ex post
Como se discute en los siguientes capítulos, se pueden usar varios métodos diferentes en
teoría de la evaluación de impacto para abordar la cuestión fundamental del contrafactual
faltante. Cada uno de estos métodos conlleva sus propios supuestos sobre la naturaleza
del potencial. sesgo de selección en la focalización y participación del programa, y los
supuestos son cruciales para desarrollar el modelo apropiado para determinar los
impactos del programa. Estos métodos, cada uno de los cuales se discutirá en detalle en
los siguientes capítulos, incluye
1. Evaluaciones aleatorias
2. Métodos de emparejamiento, emparejamiento de puntaje de propensión
específico (PSM)
3. Métodos de doble diferencia (DD)
4. Métodos de variables instrumentales (IV)
5. Diseño de regresión discontinua (RD) y métodos de tubería
6. Impactos distributivos
7. Enfoques estructurales y otros modelos.
Estos métodos varían según sus supuestos subyacentes con respecto a cómo resolver el
sesgo de selección mediante la estimación del efecto del tratamiento del programa. Las
evaluaciones aleatorias implican una iniciativa aleatorizada en una muestra de sujetos
(comunidades o individuos, por ejemplo); El progreso de los sujetos de tratamiento y
control que exhiben características similares de preprograma se realiza un seguimiento a
lo largo del tiempo. Los experimentos aleatorizados tienen la ventaja de evitar el sesgo
de selección a nivel de aleatorización. En ausencia de un experimento, los métodos de
PSM comparan los efectos del tratamiento entre los participantes y las emparejadas
unidades no participantes, con el emparejamiento realizado en un rango de características
observadas. Por lo tanto, los métodos PSM suponen que el sesgo de selección se basa
solo en la observación las características no pueden explicar los factores no observados
que afectan la participación.
Los métodos DD suponen que la selección no observada está presente y que es hora
invariante: el efecto del tratamiento se determina tomando la diferencia en los resultados
a través de las unidades de tratamiento y control antes y después de la intervención del
programa. DD Los métodos se pueden utilizar tanto en entornos experimentales como no
experimentales. Modelos IV se puede usar con datos de sección transversal o panel y, en
este último caso, permitir la selección sesga en las características no observadas para
variar con el tiempo. En el enfoque IV, selección el sesgo en las características no
observadas se corrige encontrando una variable (o instrumento) eso se correlaciona con
la participación, pero no con las características no observadas que afectan el resultado;
Este instrumento se utiliza para predecir la participación. RD y los métodos de tubería
son extensiones de métodos IV y experimentales; explotan las reglas exógenas del
programa (como los requisitos de elegibilidad) para comparar participantes y No
participantes en un vecindario cercano alrededor del límite de elegibilidad. Los métodos
de canalización, en particular, construyen un grupo de comparación a partir de sujetos
que son elegibles para el programa, pero aún no lo he recibido.
Finalmente, el manual cubre métodos para examinar los impactos distributivos de los
programas, así como enfoques de modelado que pueden resaltar mecanismos (como las
fuerzas intermedias del mercado) por los cuales los programas tienen un impacto. Estos
enfoques cubren una mezcla de diferentes métodos cuantitativos discutidos en los
capítulos 3 a 7, así como ex ante y métodos ex post.
El manual también extrae ejemplos y ejercicios de datos sobre la participación de

microfinanzas en Bangladesh durante dos períodos (1991/92 y 1998/99) para demostrar
cómo se realizan evaluaciones de impacto ex post.
Descripción general: diseño e implementación de evaluaciones de impacto
En resumen, se deben tomar varios pasos para garantizar que las evaluaciones de impacto
sean efectivas y generen comentarios útiles. Durante la identificación y preparación del
proyecto, para, Por ejemplo, la importancia y los objetivos de la evaluación necesitan ser
delineados claramente. Las preocupaciones adicionales incluyen la naturaleza y el
momento de las evaluaciones. Para aislar el efecto del programa sobre los resultados,
independientemente de otros factores, uno debe medir el tiempo y estructurar
evaluaciones de impacto de antemano para ayudar a los funcionarios del programa a
evaluar y actualizar la orientación, así como otras pautas para la implementación, durante
el curso de la intervención.
La disponibilidad y la calidad de los datos también son esenciales para evaluar los efectos
del programa; datos los requisitos dependerán de si los evaluadores están aplicando un
enfoque cuantitativo o cualitativo, o ambos, y de si el marco es ex ante, ex post o ambos.
Si se recopilan nuevos datos, es necesario abordar una serie de preocupaciones
adicionales, incluyendo tiempos, diseño y selección de muestras, y selección de encuesta
apropiada instrumentos, Además, se deberán realizar encuestas piloto en el campo para
que las preguntas de la entrevista puedan revisarse y refinarse. Recopilación de datos
sobre aspectos socioeconómicos relevantes las características tanto a nivel beneficiario
como a nivel comunitario también pueden ayudar a comprender mejor el comportamiento
de los encuestados dentro de su contexto económico y social ambientes. Ravallion (2003)
también sugiere una serie de pautas para mejorar recopilación de datos en encuestas.
Estas pautas incluyen la comprensión de diferentes facetas y hechos estilizados del
programa y del entorno económico de los participantes. y no participantes para mejorar
el diseño de muestreo y completar los módulos de encuesta para obtener información
adicional (sobre la naturaleza de la participación o la focalización del programa, para
ejemplo) para comprender y abordar el sesgo de selección más adelante.
Contratación y capacitación de personal de campo, así como la implementación de un

trabajo consistente. El enfoque para gestionar y proporcionar acceso a los datos también
es esencial. Durante la implementación del proyecto, desde una perspectiva de gestión,
el equipo de evaluación debe ser formado cuidadosamente para incluir suficiente
experiencia técnica y gerencial para garantizar informes precisos de datos y resultados,
así como transparencia en la implementación para que los datos pueden ser interpretados
con precisión. La recopilación continua de datos es importante para mantener
actualizados a los funcionarios del programa sobre el progreso del programa, así como,
por ejemplo, parámetros del programa que deben adaptarse a las circunstancias o
tendencias cambiantes acompañando la iniciativa. Los datos deben analizarse
cuidadosamente y presentarse a los responsables políticos y otras partes interesadas
importantes en el programa para permitir potencialmente valiosa realimentación. Esta
entrada, además de los resultados de la evaluación en sí misma, puede ayudar a guiar
diseño de políticas futuras también.
Preguntas
1. El propósito de la evaluación de impacto (IE) es
A. determinar si un proyecto beneficia a los beneficiarios previstos y, en caso
afirmativo, cuánto.
B. ayudar a los responsables políticos a decidir si vale la pena apoyar un proyecto.
C. determinar la asignación de recursos en diferentes etapas del proyecto.
a) Todo lo anterior
b) A y B
c) A y C
d) A solamente
2. En el ciclo de proyecto de M&E, ¿qué etapa (s) está (n) cubierta por IE?
A. Entradas
B. Salidas
C. Resultados
D. Impactos.
a) Todo lo anterior
b) A y B
c) A, B y C
d) C y D
3. ¿Cuál de las siguientes afirmaciones es verdadera para IE ex post?
A. Ex post IE se realiza unos meses antes de que un proyecto comience a
funcionar.
B. El IE ex post no se puede hacer con los datos del panel.
C. Ex post IE es más común que la evaluación ex ante.
a) Todo lo anterior
b) A y B
c) B y C
d) C solamente
4. ¿Cuál de las siguientes afirmaciones es verdadera sobre contrafactual?
A. Contrafactual es una situación hipotética que dice lo que le habría pasado a
B. los participantes no habían participado en un programa.
C. Cuidar contrafactual es clave para IE.
D. Las diferentes metodologías de IE manejan los hechos contrafactuales de
manera diferente.
a) Todo lo anterior
b) A y B
c) B y C
d) C solamente
5. ¿Qué afirmación es verdadera sobre el diseño de una evaluación ex post?
A. Los evaluadores son parte de la gestión del programa.
B. Los evaluadores participan en la etapa inicial.
C. Un diseño ex ante es mejor que un diseño ex post de evaluación del programa.
a) Todo lo anterior
b) A y B solamente
c) B y C solamente
d) C solamente
6. ¿Qué metodología de IE generalmente supone que las diferencias en los resultados
entre participantes y no participantes provienen de diferencias en la decisión de
participación?
a) Doble diferencia (DD)
b) Coincidencia de puntaje de propensión (PSM)
c) Aleatorización
d) Variable instrumental (IV)
Referencias
Banerjee, Sudeshna, Avjeet Singh, and Hussain Samad. 2009. “Developing Monitoring
and Evaluation Frameworks for Rural Electrifi cation Projects: A Case Study from
Nepal.” Draft, World Bank, Washington, DC.
Bourguignon, François, and Francisco H. G. Ferreira. 2003. “Ex Ante Evaluation of
Policy Reforms Using Behavioral Models.” In The Impact of Economic Policies on
Poverty and Income Distribution: Evaluation Techniques and Tools, ed. François
Bourguignon and Luiz A. Pereira da Silva, 123–41. Washington, DC: World Bank
and Oxford University Press.
Heckman, James J., and Edward Vytlacil. 2005. “Structural Equations, Treatment
Effects, and Econometric Policy Evaluation.” Econometrica 73 (3): 669–738.
Kusek, Jody Zall, and Ray C. Rist. 2004. A Handbook for Development Practitioners:
Ten Steps to a Results-Based Monitoring and Evaluation System. Washington, DC:
World Bank.
Lechner, Michael. 1999. “Earnings and Employment Effects of Continuous Off-the-Job
Training in East Germany after Unifi cation.” Journal of Business Economic
Statistics 17 (1): 74–90.
Paxson, Christina, and Norbert Schady. 2002. “The Allocation and Impact of Social
Funds: Spending on School Infrastructure in Peru.” World Bank Economic Review
16 (2): 297–319.
Rao, Vjayendra, and Ana María Ibáñez. 2005. “The Social Impact of Social Funds in
Jamaica: A ‘Participatory Econometric’ Analysis of Targeting, Collective Action,
and Participation in Community-Driven Development.” Journal of Development
Studies 41 (5): 788–838.
Ravallion, Martin. 2003. “Assessing the Poverty Impact of an Assigned Program.” In The
Impact of Economic Policies on Poverty and Income Distribution: Evaluation
Techniques and Tools, ed. François Bourguignon and Luiz A. Pereira da Silva, 103–
22. Washington, DC: World Bank and Oxford University Press.
———. 2008. “Evaluating Anti-Poverty Programs.” In Handbook of Development
Economics, vol. 4, ed. T. Paul Schultz and John Strauss, 3787–846. Amsterdam:
North-Holland.
Rosenbaum, Paul R., and Donald B. Rubin. 1983. “The Central Role of the Propensity
Score in Observational Studies for Causal Effects.” Biometrika 70 (1): 41–55.
Schady, Norbert. 1999. “Seeking Votes: The Political Economy of Expenditures by the
Peruvian Social Fund (FONCODES), 1991–95.” Policy Research Working Paper
2166, World Bank, Washington, DC.
Todd, Petra, and Kenneth Wolpin. 2006. “Ex Ante Evaluation of Social Programs.” PIER
Working Paper 06-122, Penn Institute for Economic Research, University of
Pennsylvania, Philadelphia.
3. Aleatorización
Resumen
Asignar un programa o intervención al azar a través de una muestra de observaciones es

uno solución para evitar el sesgo de selección, siempre que los impactos del programa se
examinen en el nivel de aleatorización. Selección cuidadosa de áreas de control (o el
contra factual) .También es importante para garantizar la comparabilidad con las área
participantes y, en última instancia, calcular el efecto del tratamiento (o la diferencia en
los resultados) entre los dos grupos. Los efecto del tratamiento se puede distinguir como
el efecto del tratamiento promedio (ATE) entre participantes y unidades de control, o el
efecto del tratamiento sobre el tratado (TOT), un estrecho Medida que compara las
unidades de participantes y de control, condicional a los participantes estar en un área
tratada. La aleatorización se puede realizar de forma puramente aleatoria (donde se trate
y controle las unidades tienen el mismo resultado esperado en ausencia del programa);
este método requiere asegurando la validez externa e interna del diseño de focalización.
En realidad, sin embargo,
Los investigadores han trabajado en entornos de aleatorización parcial, donde las

muestras de tratamiento y control se eligen al azar, condicional a algunas características
observables (para ejemplo, tenencia de la tierra o ingresos). Si estos programas se colocan
de manera exógena, condicional a estas características observadas, se puede hacer una
estimación imparcial del programa. A pesar de la claridad de un enfoque aleatorio, aún
es necesario tener en cuenta una serie de factores abordado en la práctica. Incluyen la
resolución de problemas éticos al excluir áreas que comparten características similares
con la muestra objetivo, teniendo en cuenta los efectos indirectos en áreas no focalizadas,
así como el desgaste selectivo, y asegurando la heterogeneidad en la participación y
resultados finales, incluso si el programa es aleatorio
Objetivos de aprendizaje
Después de completar este capítulo, el lector podrá discutir
■ Cómo construir un contra factual apropiado
■ Cómo diseñar un experimento aleatorio, incluida la validez externa e interna

■ Cómo distinguir el ATE del TOT
■ Cómo abordar problemas prácticos en la evaluación de intervenciones aleatorias,

incluida la contabilización de efectos indirectos, desgaste selectivo, problemas éticos y
heterogeneidad selectiva en los impactos del programa entre la muestra tratada.
Establecer el contra factual
Como se argumentó en el capítulo 2, encontrar un contra factual apropiado para el

tratamiento es el principal desafío de la evaluación de impacto. El contra factual indica
lo que le habría pasado a participantes de un programa si no hubieran participado. Sin
embargo, la misma persona no puede ser observado en dos situaciones distintas: ser
tratado y no tratado al mismo tiempo.
El enigma principal, por lo tanto, es cómo los investigadores formulan estados contra
factuales del mundo en la práctica. En algunas disciplinas, como la ciencia médica, la
evidencia sobre los contra factuales se genera a través de ensayos aleatorios, que aseguran
que los resultados en el grupo de control realmente captura el contra factual para un grupo
de tratamiento.
La figura 3.1 ilustra el caso de la aleatorización gráficamente. Considere una distribución

aleatoria de dos grupos "similares" de hogares o individuos: un grupo es tratado y el otro
grupo no recibe tratamiento. Son similares o "equivalentes" en que ambos grupos
anteriores a una intervención del proyecto se observa que tienen el mismo nivel de
ingresos (en este caso, Y0) después de que se lleva a cabo el tratamiento, se descubre que
los ingresos observados del grupo tratado ser Y2 mientras que el nivel de ingresos del
grupo de control es Y1 . Por lo tanto, el efecto del programa la intervención puede
describirse como (Y2 -Y1), como se indica en la figura 3.1. Como se discutió en el
capítulo 2, se debe tener extremo cuidado al seleccionar el grupo de control para asegurar
la comparabilidad
Diseño estadístico de aleatorización
En la práctica, sin embargo, puede ser muy difícil garantizar que un grupo de control
sea muy similar a las áreas del proyecto, que los efectos del tratamiento observados en
la muestra sean generalizables, y que los efectos en sí mismos son función del programa
en sí.
Los estadísticos han propuesto un enfoque de aleatorización en dos etapas que describe
estas prioridades en la primera etapa, se selecciona aleatoriamente una muestra de
posibles participantes.
Figura 3.1 El experimento ideal con un grupo de control equivalente
De la población relevante. Esta muestra debe ser representativa de la población, dentro

de un cierto error de muestreo. Esta etapa asegura la validez externa del experimento. En
la segunda etapa, los individuos en esta muestra son asignados aleatoriamente al
tratamiento y grupos de comparación, asegurando la validez interna en los cambios
posteriores en el exterior Las medidas se deben al programa en lugar de otros factores.
Condiciones para asegurar La validez externa e interna del diseño aleatorizado se analiza
más adelante. Cálculo de los efectos del tratamiento la aleatorización puede corregir el
sesgo de selección B, discutido en el capítulo 2, por asignación individual de individuos
o grupos a grupos de tratamiento y control. Volviendo para la configuración en el capítulo
2, considere el clásico problema de medir los efectos del tratamiento (ver Ítems 1994):
dejemos que el tratamiento, 𝑇𝑖 , sea igual a 1 si el sujeto i es tratado y 0 si no. Sea 𝑌𝑖 (1)
el resultado bajo tratamiento e 𝑌𝑖 (0) si hay efectos sin tratamiento.
Calculo de los efectos del tratamiento
La aleatorización puede corregir el sesgo de selección B, discutido en el capítulo 2, por

asignación individual de individuos o grupos a grupos de tratamiento y
control. Volviendo
Para la configuración en el capítulo 2, considere el clásico problema de medir los efectos

del tratamiento (ver Imens y Angrist 1994): dejemos que el tratamiento, 𝑇𝑖 sea igual a 1
si el sujeto i es tratado y 0 si no. Sea 𝑌𝑖 (1) el resultado bajo tratamiento e Y i (0) si hay
sin tratamiento.Observese 𝑌𝑖 y𝑇 𝑖, donde 𝑦 = Yi y (𝑇𝑖 . 𝑌𝑖 (1) +
(1 − 𝑇𝑖 ). 𝑆 𝑖 (0 ) − 𝑇𝑖 ). 𝑆 𝑖 (0)]. 1 Hablando estrictamente, el efecto del tratamiento
para la unidad i es 𝑌𝑖 (1) − 𝑌𝑖 (0), y el ATE es ATE = 𝐸 [ 𝑌𝑖 (1) − 𝑌𝑖 (0)], o el
diferencia en los resultados de estar en un proyecto en relación con el área de control para
una persona o Unidad I extraída al azar de la población. Esta formulación supone, por
ejemplo, que todos en la población tienen la misma probabilidad de ser atacados.
En general, sin embargo, solo 𝐸 [ 𝑌𝑖 (1) | 𝑇𝑖 = 1], los resultados promedio de los
tratados,
Condicional a estar en un área tratada, y 𝐸 [ 𝑌 𝑖 (0) | 𝑇𝑖 = 0], los resultados promedio
de
se observan los no tratados, condicionados a no estar en un área tratada. Con no
Selección aleatoria y observaciones solo en una submuestra de la población, 𝐸 [ 𝑌 𝑖 (1)]
no es necesariamente igual a 𝐸 [ 𝑌 𝑖 (1) | 𝑇𝑖 = 1] 𝑦 𝐸 [ 𝑌 𝑖 (0)] no es necesariamente
igual a 𝐸 [ 𝑆 𝑖 (0) | 𝑇𝑖 = 0]. Por lo general, por lo tanto, se observan efectos de
tratamiento alternativos en forma de TOT: 𝑇𝑂𝑇 = 𝐸 [ 𝑌𝑖 (1) − 𝑌𝑖 (0) | 𝑇𝑖 = 1], o la
diferencia en los resultados de recibir el programa en comparación con estar en un área
de control para una persona o sujeto i al azar extraído de la muestra tratada. Es decir, el
TOT refleja las ganancias promedio, condicionados a que estos participantes reciban el
programa. Supongamos que el área de interés es el 𝑇𝑂𝑇, 𝐸 [ 𝑌𝑖 (1) − 𝑌𝑖 (0) | 𝑇𝑖 =
1]. Si T i no es aleatoria, una simple diferencia entre las áreas tratadas y de
control, 𝐷 = 𝐸 [ 𝑌𝑖 (1) | 𝑇 𝑖 = 1] − 𝐸 [ 𝑌 𝑖 (0) |𝑇𝑖 = 0] (consulte el capítulo 2), no
será igual al TOT. La discrepancia entre el TOT y este D será 𝐸 [ 𝑆 𝑖 (0) | 𝑇𝑖 =
1] − 𝐸 [ 𝑌 𝑖 (0) | 𝑇𝑖 = 0], que es igual al sesgo B en la estimación del tratamiento
efecto (capítulo 2)
TOT = E [ 𝑌𝑖 (1) − 𝑌𝑖 (0)| 𝑇𝑖 = 1] (3.1)

z = [E [ 𝑌𝑖 (1) | 𝑇𝑖 = 1] − E [ 𝑌𝑖 (0) | 𝑇𝑖 = 1] (3.2)
=𝐷 = 𝐸 [ 𝑌𝑖 (1) | 𝑇𝑖 = 1] − 𝐸 [ 𝑌𝑖 (0) | 𝑇𝑖 = 0] 𝑠𝑖 𝐸 [ 𝑌𝑖 (0) | 𝑇𝑖 =
0] = 𝐸 [ 𝑌𝑖 (0)| 𝑇𝑖 = 1] (3.3)
⇒ 𝑇𝑂𝑇 = 𝐷 𝑠𝑖 𝐵 = 0 (3.4)
Aunque en principio el resultado hipotético E [ Y i (0) | T i = 1] en la ecuación 3.2no se

puede observar directamente para comprender el alcance del sesgo, todavía hay algo de
intuiciónal respecto podría existir. Duflo, Glennerster y Kremer (2008), por ejemplo,
discuten este problema en el contexto de un programa que introduce libros de texto en las
escuelas. Supongamos uno estaban interesados en el efecto de este programa en el
aprendizaje de los estudiantes, pero el programa fue aleatorio en que las escuelas que
recibieron libros de texto ya estaban poniendo un valor más alto en educación. La muestra
objetivo ya tendría un mayor rendimiento escolarmente que las áreas de control, y
𝐸 [ 𝑌 𝑖 (0) | 𝑇 𝑖 = 1] sería mayor que 𝐸 [ 𝑌 𝑖 (0) | 𝑇 𝑖 = 0], para que 𝐵 > 0 y un
sesgo hacia arriba exista en el efecto del programa. Si los grupos son aleatorios dirigido,
sin embargo, 𝐸 [ 𝑌 𝑖 (0) | 𝑇 𝑖 = 1] 𝑦 𝐸 [ 𝑌 𝑖 (0) | 𝑇 𝑖 = 0] son iguales y no hay
selecciónsesgo en la participación ( 𝐵 = 0) un esfuerzo por unificar la literatura sobre
los efectos del tratamiento, Heckman y Vytlacil(2005) también describen un parámetro
llamado efecto de tratamiento marginal (MTE), desde los cuales se pueden derivar ATE
y TOT. Introducido en la literatura de evaluación por Björklund y Moffitt (1987), el MTE
es el cambio promedio en los resultados 𝑌 𝑖 paran dividuos que están al margen de
participar en el programa, dado un conjunto decaracterísticas observadas 𝑋 𝑖 y
condicionamiento en un conjunto de características no observadas en la ecuación de
participación: 𝑀𝑇𝐸 = 𝐸 ( 𝑌 𝑖 (1) − 𝑌 𝑖 (0) | 𝑋 𝑖 = 𝑥 , 𝑈 𝑖 = 𝑢 ). Es decir, el
MTEes el efecto promedio del programa para individuos que simplemente son
indiferentes entre participando y no participando. El Capítulo 6 discute el MTE y sus
ventajas .Con más detalle
Efecto del tratamiento con aleatorización pura
La aleatorización se puede configurar de dos maneras: aleatorización pura y aleatoria

parcialización Si el tratamiento se realizó de forma puramente aleatoria siguiendo el
procedimiento en dos etapas durante el esbozo anterior, los hogares tratados y no tratados
tendrían lo mismo resultado esperado en ausencia del programa. Entonces, E [ Y i (0)
| T i = 1] es igual a E [ S i (0) | T i = 0]. Porque el tratamiento sería aleatorio y no una
función de no observada
Características (como la personalidad u otros gustos) entre individuos, los resultados no

se espera que haya variado para los dos grupos si la intervención no hubiera existido. Por
lo tanto, el sesgo de selección se convierte en cero en el caso de la aleatorización.
Considere el caso de la aleatorización pura, donde una muestra de individuos o hogares
se extrae al azar de la población de interés. La muestra experimental es luego se divide
al azar en dos grupos: (a) el grupo de tratamiento que está expuesto a la intervención del
programa y (b) el grupo de control que no recibe el programa. En Términos de una
regresión, este ejercicio se puede expresar como
𝑌𝑖 = 𝛼 + 𝛽𝑇𝑖 + 𝜀 (3.5)
Donde 𝑇 𝑖 i es el tratamiento ficticio igual a 1 si la unidad i se trata al azar y 0 otro

sabio. Como arriba, Y i se define como 𝑌 𝑖
𝑌 𝑖 ≡ [𝑌 𝑖 (1). 𝑇 𝑖 ] + [ 𝑌 𝑖 (0). (1 − 𝑇 𝑖 )] (3.6)
Si el tratamiento es aleatorio (entonces T y ε son independientes), la ecuación 3.5 puede

ser estimada apareado mediante el uso de mínimos cuadrados ordinarios (MCO) y el
efecto del tratamiento estimada β MCO estimados La diferencia en los resultados del
grupo tratado y el grupo control. Si un aleatorizado la evaluación está diseñada e
implementada correctamente, una estimación imparcial del impacto de un programa se
puede encontrar
Efecto del tratamiento con aleatorización parcial sin embargo, una aleatorización pura
es extremadamente rara de realizar. Más bien, al azar parcial se utilización, donde las
muestras de tratamiento y control se eligen aleatoriamente, condicional sobre algunas
características observables X (por ejemplo, tenencia de la tierra o ingresos). Si uno
puede hacer una suposición llamada exogenidad condicional de la colocación del
programa, uno puede encontrar una estimación imparcial de la estimación del
programa. Aquí, este modelo sigue a Ravallion (2008). Denotando por simplicidad 𝑌 𝑖
(1) como 𝑌 𝑖 i𝑇 𝑖 y𝑇 𝑖 (0) como 𝑌 𝑖 C , la ecuación 3.5 podría aplicarse a una submuestra
de participantes y no participantes .participantes de la siguiente manera
𝑦𝑦𝑜 𝑟 =∝𝑟 + 𝑥𝛽 𝑟 𝜇 𝑟 𝑦𝑜 𝑠𝑖 𝑡𝑦 ≡ 𝑡1 𝑛𝑜𝑟𝑡𝑒 (3.7)
𝑦𝑦𝑜 𝑐 =∝𝑐 + 𝑥𝛽 𝑐 𝜇 𝑐 𝑦𝑜 𝑠𝑖 𝑡𝑦 ≡ 𝑡1 𝑛𝑜𝑟𝑡𝑒 (3.8)
Es una práctica común estimar lo anterior como una regresión única al agrupar eldatos
para los grupos de control y tratamiento. Uno puede multiplicar la ecuación 3.7 por T i
y multiplique la ecuación 3.8 por (1 - T i ), y use la identidad en la ecuación 3.6 para
obtener
𝑌 𝑖 = 𝛼 𝐶 + (𝛼 𝑇 − 𝛼 𝐶 ) 𝑥 𝑖 + 𝑋 𝑖 𝛽 𝐶 + 𝑥 𝑖 (𝛽 𝑇 − 𝛽 𝐶 ) 𝑇 𝑖 + 𝜀 (3.9)
Donde 𝜀 𝑖 = 𝑇 𝑦𝑜 + (𝜇 𝑐 𝑦𝑜 + 𝜇 𝑡 𝑦𝑜 ) + 𝜇 𝑐 𝑦𝑜
El efecto del tratamiento de la ecuación 3.9 se puede escribir como A 𝑇𝑇 =

𝐸 ( 𝑌 𝑖 | 𝑇 𝑖 = 1, 𝑋 ) = 𝐸 [𝛼 𝑇 − 𝛼 𝐶 + 𝑋 𝑖 (𝛽 𝑇 − 𝛽 𝐶 )]. Aquí, un TT es solo el
efecto del tratamiento enel tratado, TOT, discutido anteriormente
Para la ecuación 3.9, se puede obtener una estimación consistente del efecto del programa
con OLS si uno puede asumir EXT t EXT (𝜇 𝑡 𝑦𝑜 𝐸𝑋𝑇 𝐸 =) (𝜇 𝑐 𝑦𝑜 𝐸𝑋𝑇 𝐸 =) (0.1)Es
decir, no haysesgo de selección debido a la aleatorización. En la práctica, un modelo de

impacto común es a menudousado que asume 𝛽 𝑇 = 𝛽 𝐶 . El ATE es entonces
simplemente 𝛼 𝑇 – 𝛼 𝐶
Manual sobre evaluación de impacto
Aleatorización en el diseño de la evaluación: diferentes aleatorización Si la

aleatorización fuera posible, habría que tomar una decisión sobre qué tipo de
aleatorización (suscripción excesiva, aleatorización gradual, aleatorización dentro del
grupo)se utilizaría el diseño de estímulo). Estos enfoques, detallados en Duflo,
Glennerster y Kremer (2008) se analizan a continuación a continuación.
Sobre suscripción. Si los recursos limitados son una carga para el programa, la
implementación puede ser asignados aleatoriamente a un subconjunto de participantes
elegibles, y el resto los sujetos elegibles que no reciben el programa pueden considerarse
controles .Se debe hacer un examen del presupuesto, evaluando cuántas materias podría
ser encuestado versus aquellos realmente dirigidos, para obtener un control lo
suficientemente grande grupo para la muestra de beneficiarios potenciales
.■Introducción gradual aleatorizada. Este enfoque se incorpora gradualmente en el

programa a través de un conjunto de áreas elegibles, de modo que los controles
representan áreas elegibles que aún esperan recibir el programa. Este método ayuda a
aliviar los problemas de equidad y aumenta la probabilidad las áreas que programan y
controlan son similares en las características observadas.
■Aleatorización dentro del grupo. En un enfoque de introducción gradual aleatorizado,

sin embargo, si el retraso entre la génesis del programa y la recepción real de los
beneficios es grande, mayor puede surgir controversia sobre qué área o áreas deben
recibir primero el programa .En ese caso, todavía se puede introducir un elemento de
aleatorización proporcionando el programa a algunos subgrupos en cada área objetivo.
Este enfoque es por lo tanto similar a la aleatorización gradual en una escala más pequeña.
Un problema es que el derrame las superposiciones pueden ser más probables en este
contexto.
■Diseño de aliento. En lugar de aleatoriarizar el tratamiento, los investigadores corrieron

asigne a los sujetos un anuncio o incentivo para participar en el programa. Algún aviso
del programa se da por adelantado (ya sea durante el tiempo decline a de base para
conservar recursos o generalmente antes de que se implemente el programa)a un
subconjunto aleatorio de beneficiarios elegibles. Este aviso puede usarse como un
instrumento para su incorporación al programa. Los derrames también se pueden medir
muy bien en este contexto, si también se recopilan datos en las redes sociales de hogares
quiere recibir el aviso, para ver cómo la aceptación puede diferir entre los hogares que
están conectado o no conectado a él. Tal experimento requeriría más intención .Sin
embargo, la recopilación de datos sirve Preocupaciones con la aleatorización varias
preocupaciones justifican la consideración con un diseño de aleatorización, incluyendo
ética problemas, validez externa, incumplimiento parcial o incumplimiento, desgaste
selectivo y efectos indirectos. Retener un tratamiento particular de un grupo aleatorio de
personas y proporciona.
El acceso a otro grupo aleatorio de personas puede ser simplemente poco ético. Llevar a
cabo-el diseño dominado a menudo es políticamente inviable porque justifica dicho
diseño para las personas quién podría beneficiarse es difícil. En consecuencia, convencer
a posibles socios para llevar diseños aleatorizados es difícil .La validez externa es otra
preocupación. Un proyecto de capacitación laboral a pequeña escala puede no afectar las
tasas salariales generales, mientras que un proyecto a gran escala podría. Es decir,
impacto medido por el proyecto piloto puede no ser una guía precisa del impacto del
proyecto en unos países dada. El problema es cómo generalizar y replicar los resultados
obtenidos a través devaluaciones dominadas El cumplimiento también puede ser un
problema con la aleatorización, que surge cuando un fraccionamiento no se toma el
tratamiento de las personas a las que se les ofrece el tratamiento. Por el contrario, algunos
los miembros del grupo de comparación pueden recibir el tratamiento. Esta situación es
referida como cumplimiento parcial (o imperfecto). Para ser válido y evitar el sesgo de
selección, un el análisis debe centrarse en los grupos creados por la aleatorización inicial.
El análisis no puede excluir sujetos o cortar la muestra de acuerdo con el comportamiento
que pudo haber sido afectado por la asignación aleatoria. En términos más generales, el
interés a menudo radica en el efecto de un tratamiento dado, pero la aleatorización afecta
solo la probabilidad de que el individuo está expuesto al tratamiento, en lugar del
tratamiento en sí. Además, los posibles efectos indirectos surgen cuando el tratamiento
también ayuda al grupo de control como participantes de la muestra, confundiendo así
las estimaciones del impacto del programa. Por ejemplo, las personas fuera de la muestra
pueden mudarse a una aldea donde las clínicas de salud tienen establecido al azar,
contaminando así los efectos del programa. El capítulo ahora examen-De qué manera se
ha abordado en la práctica tales preocupaciones sobre la aleatorización. Evaluación
aleatoria de impacto en la práctica la aleatorización ha ido creciendo en popularidad en
algunas partes del mundo, en parte porque si se puede implementar correctamente, la
aleatorización puede dar una indicación solidad el impacto del programa. Además, una
vez que la encuesta ha sido diseñada y los datos recopilados, los ejercicios empíricos para
inferir los impactos de los experimentos aleatorios son bastante directos .adelante. Por lo
general, justificar o iniciar un experimento aleatorio es más fácil en el inicio de un
programa, durante la fase piloto. Esta fase ofrece una oportunidad natural para introducir
la aleatorización antes de que el programa se amplíe. Presenta una ocasión para que el
socio de implementación evalúe rigurosamente la efectividad del programa. Eso también
puede brindar la oportunidad de mejorar el diseño del programa. También se puede
introducir un elemento de aleatorización en programas existentes de muchas maneras
diferentes con un mínimo ruptura. Mientras que las secciones anteriores de este capítulo
han discutido en teoría las preocupaciones con la aleatorización, las siguientes secciones
discuten varios temas prácticos y estudios de caso en la implementación de estudios
aleatorizados
Cuestiones éticas
La implementación de experimentos aleatorios en los países en desarrollo a menudo

plantea problemas éticos cuestiones. Por ejemplo, convencer a los funcionarios del
gobierno para que retengan un programa en particular de un contingente seleccionado al
azar que comparte el mismo estado de pobreza y límites en ganar oportunidades como un
grupo al azar puede ser difícil. Llevar a cabo los diseños aleatorios a menudo son
políticamente inviables debido a la dificultad de justificar tal diseño para las personas que
podrían beneficiarse de él. Un contraargumento es que la aleatorización es una forma
científica de determinar el impacto del programa Por lo tanto, en última instancia,
ayudaría a decidir, entre un conjunto de diferentes programas o caminos disponibles para
los formuladores de políticas, cuáles funcionan realmente y, por lo tanto, merecen
inversión. Por lo tanto, a largo plazo, la aleatorización puede ayudar a un mayor número
de personas. Además de aquellos que fueron inicialmente atacados. Un diseño escalonado
al azar como el utilizado por el PROGRESA de México, Programa de Educación, Salud
y Alimentación, o Programa de Educación, Salud y Nutrición; ver recuadro 3.1) también
puede permitir áreas con características similares en última instancia para beneficiarse
del programa, así como proporcionar un buena muestra de comparación.
Recuadro 3.1 Estudio de caso: PROGRESA (Oportunidades)
PROGRESA (ahora llamada Oportunidades), descrita en el recuadro 2.1 del capítulo 2,
combinada regional y focalización a nivel de aldea con focalización a nivel de hogar
dentro de estas áreas. Solo los pobres extremos fueron seleccionados, utilizando una
estrategia de selección aleatoria que se introdujo gradualmente en el programa a lo largo
del tiempo localidades específicas Un tercio de las comunidades elegibles elegidas
aleatoriamente se retrasó la entrada en el programa a los 18 meses, y los dos tercios
restantes recibieron el programa al inicio. Dentro de las localidades, los hogares fueron
elegidos en base a un análisis discriminante que utilizó su características socioeconómicas
(obtenidas de los datos del censo de hogares) para clasificar los hogares como pobre o no
pobre. En promedio, aproximadamente el 78 por ciento de los hogares en localidades
seleccionadas fueron considerada serán elegibles y alrededor del 93 por ciento de los
hogares elegibles se inscribieron en el programa .Con respecto a las posibles
consideraciones éticas en la focalización del programa al azar, la introducción gradual el
enfoque de tratamiento permitió que todas las muestras elegibles fueran dirigidas
eventualmente, así como la flexibilidad posibilidad de ajustar el programa si la
implementación real fue más difícil de lo esperado inicialmente .El monitoreo y la
evaluación operativa del programa, como se discutió en el capítulo 2, también fueron
clave componentes de la iniciativa, como fue un análisis detallado de costo-beneficio
.Varias evaluaciones diferentes han examinado el impacto de Oportunidades en la salud
y resultados educativos entre la muestra tratada. Incluyen exámenes de los beneficios del
programa. efectos a la salud (Gertler 2004); resultados del mercado laboral para adultos
y jóvenes (Behrman, Parker yTodd 2009; Skoufias y di Maro 2007); escolarización (de
Janvry y otros 2006; Schultz 2004; Toddy Wolpin 2006); y nutrición (Behrman y
Hoddinott 2005; Hoddinott y Skoufias 2004). Enterrar-Este en el diseño y los resultados
de Oportunidades ha fomentado la transferencia de efectivo condicional similar
programas en América del Sur y América Central, así como en Bangladesh y Turquía
Además, en presencia de recursos limitados, no todas las personas pueden ser objetivo de
un programa, ya sea experimental o no experimental. En ese caso, la taraleatoriageting no
es poco ético. La conclusión es que, en la práctica, potencial convincente socios para
llevar a cabo diseños aleatorios a menudo es difícil; así, el primer desafío es para encontrar
socios adecuados para llevar a cabo tal diseño. Gobiernos no gubernamentales
organizaciones y, a veces, empresas del sector privado pueden ser socios potenciales.
.
Validez interna versus externa
Los diferentes enfoques en la implementación de estudios aleatorios reflejan la necesidad

de adaptar el programa de intervención y encuesta adecuadamente dentro de la muestra
objetivo. Estos con-Las preguntas están integradas en un proceso más amplio de dos
etapas que guía la calidad de la experiencia. Tal diseño. En la primera etapa, los
responsables políticos deberían definir claramente no solo lo aleatorio muestra que será
seleccionada para el análisis pero también la población de la cual esa muestra será
dibujado Específicamente, el experimento tendría validez externa, lo que significa que
los resultados obtenidos podrían generalizarse a otros grupos o entornos (quizás a través
de otras intervenciones del programa, por ejemplo).
Usando la notación discutida anteriormente, esto el enfoque correspondería a las

condiciones 𝐸 [ 𝑌 𝑖 (0) | 𝑇 𝑖 = 1] = 𝐸 [ 𝑌 𝑖 (0) | 𝑇 𝑖 = 0] 𝑦𝐸 [ 𝑌 𝑖 (1) | 𝑇 𝑖 = 1] =
𝐸 [ 𝑌 𝑖 (1) | 𝑇 𝑖 = 0].En segundo lugar, se deben tomar medidas al asignar
aleatoriamente esta muestra a través del tratamiento. y controlar las condiciones para
asegurar que el efecto del tratamiento sea una función de la intervención solo y no
causado por otros elementos de confusión. Este criterio se conoce como interno validez
y refleja la capacidad de controlar los problemas que afectarían la interpretación del
impacto del tratamiento. Sesgo sistemático (asociado con la selección de grupos que no
son equivalentes, desgaste selectivo de la muestra, contaminación de áreas seleccionadas
por el muestra de control y cambios en los instrumentos utilizados para medir el progreso
y los resultados durante el curso del experimento), así como el efecto de enfocarse en las
elecciones relacionadas y los resultados de los participantes dentro de la muestra objetivo,
proporciona un ejemplo de cuestiones. Variación aleatoria en otros eventos que ocurren
mientras el experimento está en progreso, aunque no representa una amenaza directa a la
validez interna, también debe ser monitoreada dentro de recopilación de datos porque una
variación aleatoria muy grande puede representar una amenaza para la previsibilidad de
medición de datos. La siguiente sección analiza algunos enfoques que, junto con una
metodología aleatorizada puede ayudar a explicar estos factores potencialmente
confusos. Aunque seguir el enfoque de dos etapas conducirá a una medida consistente de
la ATE (Kish 1987), los investigadores de las ciencias sociales y del comportamiento casi
nunca implementado este enfoque en la práctica. Más específicamente, la única
suposición que puede hacerse, dada la aleatorización, es que 𝐸 [ 𝑌 𝑖 (0) | 𝑇 𝑖 = 1] =
𝐸 [ 𝑌 𝑖 (0) | 𝑇 𝑖 = 0]. Incluso mantener el criterio de validez interna en un entorno
económico es muy difícil, como lo será descrito. En el mejor de los casos, por lo tanto,
los formuladores de políticas examinan el efecto de las intervenciones de gramo pueden
estimar consistentemente el TOT o el efecto en una subpoblación dada: 𝑇𝑂𝑇 =
𝐸 [ 𝑌 𝑖 (1) − 𝑌 𝑖 (0) | 𝑇 𝑖 = 1], 𝑒𝑛 𝑜𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑎 𝐴𝑇𝐸 = 𝐸 [ 𝑌 𝑖 (1) − 𝑌 𝑖 (0)
Estimaciones por intención de tratar y derrames de medición asegurar que las áreas de
control y las áreas de tratamiento no se mezclen es crucial para medir un impacto
imparcial del programa. En el diseño experimental, varios enfoques pueden ayudar a
reducir la probabilidad de contaminación de las áreas del proyecto. Áreas de proyecto y
control que se encuentran lo suficientemente separados, por ejemplo, se pueden
seleccionar para que la migración a través de las dos áreas es poco probable. Como
resultado, la contaminación de las áreas de tratamiento es más probablemente con
proyectos realizados a mayor escala. Sin embargo, a pesar de los esfuerzos por aleatorizar
la intervención del programa ex ante, la participación en el programa puede no ser
completamente al azar. Individuos u hogares en con-las áreas de control pueden moverse
a las áreas del proyecto, afectando en última instancia sus resultados de la exposición
seguro para el programa. Del mismo modo, las personas seleccionadas en las áreas del
proyecto pueden no serlo participar pero también puede verse afectado indirectamente
por el programa. Si un programa para apuntar al tratado también ayuda al grupo de
control, confundiría las estimaciones de impacto del programa En algunos casos, los
proyectos no se pueden ampliar sin crear gen-efectos de equilibrio eral. Por ejemplo, un
proyecto de capacitación laboral a pequeña escala puede no afectar las tasas salariales
generales, mientras que un proyecto a gran escala podría. En este último caso, impacto
medido por el proyecto piloto sería una guía inexacta del impacto del proyecto a escala
nacional. A menudo, el efecto Hawthorne podría afectar los resultados de un azar
experimento izado, donde el simple hecho de ser incluido en un experimento puede
alterar comportamiento no aleatorio.
Estos efectos parciales del tratamiento pueden ser de interés separado para el
investigador, en parte especialmente porque es probable que sean importantes si la
política se implementará en un gran escala. Se pueden abordar midiendo los impactos de
intención de tratar (ITT)(recuadro 3.2) o al instrumentar la participación real en el
programa mediante la asignación aleatoria estrategia mental (recuadro
3.3).Específicamente, en casos donde el tratamiento real es distinto de la variable que se
manipula aleatoriamente, llame a Z la variable que se asigna aleatoriamente (por ejemplo
,la carta invitando a los empleados universitarios a una feria y ofreciéndoles US $ 20 para
asistir),mientras T sigue siendo el tratamiento de interés (por ejemplo, asistir a la feria).
Utilizando la misma notación que antes, uno sabe por asignación aleatoria que
𝐸 [ 𝑆 𝑖 (0) | 𝑍 𝑖 = 1] − 𝐸 [ 𝑌 𝑖 (0) | 𝑍 𝑖 =
0] 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑐𝑒𝑟𝑜 𝑦 𝑞𝑢𝑒 𝑙𝑎 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝐸 [ 𝑌 𝑖 (1) | 𝑍 𝑖 = 1] − 𝐸 [ 𝑆 𝑖 (0) | 𝑍 𝑖 =
0] es igual al efecto causal de Z. Sin embargo, no es igual al efecto del tratamiento ,
porque Z no es igual a T . Porque Z ha sido elegido para al menos influir en el tratamiento,
esta diferencia es el impacto de ITT .Debido a que el ITT es en principio aleatorio,
también puede actuar como una variedad instrumental válida capaz de identificar el
impacto del tratamiento, dado que las personas que fueron asignadas inicialmente para
en general, es más probable que el tratamiento haya participado en el programa. De
estimación de ITT sería el coeficiente estimado en la variable que describe la inicia
El impacto en aquellos cuyo estado de tratamiento es cambiado por el instrumento
también se conoce como el efecto de tratamiento promedio local (Abadie, Angrist e
Imbens 2002).El desgaste selectivo también es un problema potencial: las personas
abandonan un programa. Recuadro 3.4describe un ejemplo de un programa de
escolarización en India, donde el desgaste potencial delos estudiantes más débiles podrían
sesgar el efecto del programa hacia arriba. Si la medición de la extensión de los efectos
indirectos es de interés para los responsables políticos, la aleatorización puede permitir
que este fenómeno se mida con mayor precisión.
Recuadro 3. 2Estudio de caso: uso de loterías para medir el impacto del intento de
tratamiento
Los PACES (Plan de Ampliación de Cobertura de la Educación Secundaria, o Plan para
Incrementos) Ing. Cobertura de Educación Secundaria) programa de vales escolares,
establecido por el gobierno colombiano El gobierno a fines de 1991, otorgó vales de
escuela secundaria privada a 125,000 niños de escasos recursos barrios que se
matricularon en escuelas primarias públicas. Estos cupones cubrieron aproximadamente
la mitad de ingresando a los gastos de escolarización de los estudiantes y eran renovables
dependiendo del desempeño del estudiante. Sin embargo, el programa se enfrentó a una
suscripción excesiva debido a la cantidad de hogares elegibles (que viven en barrios que
caen en los dos estratos socioeconómicos más bajos que abarcan la población) excedió el
número de cupones disponibles.
Por lo tanto, muchos cupones se asignaron a través de una lotería al azar. Para medir el
impacto de este programa de cupones escolares, Angrist y otros (2002) encuestaron
ganadores y perdedores de la lotería de tres grupos de solicitantes. Administraron una
prueba académica para ambos grupos, inicialmente encontrando diferencias limitadas en
el rendimiento de los destinatarios del cupón. Una razón para este resultado, sugieren, es
que alrededor del 10 por ciento de los ganadores de lotería no terminaron usan cupón u
otra beca, mientras que alrededor del 25 por ciento de los no receptores obtuvieron otros
estudios naves o financiación. Angrist y otros (2002) utilizaron el recibo de la lotería
como instrumento. Para la participación, calcular una estimación por intención de tratar
que reveló mucho más grande (50 por ciento mayor) efectos del programa en la
finalización de la calificación y repeticiones reducidas para los ganadores de lotería que
en una simple comparación de ganadores y perdedores.
La precisión, por supuesto, depende del nivel de derrames. Si se producen efectos

. indirectos en la economía global o global, por ejemplo, cualquier metodología, ya sea
aleatorización o un enfoque no experimental tendrá dificultades para capturar el impacto
del programa. Sin embargo, las repercusiones locales pueden ser medido con una
metodología aleatoria (Miguel y Kremer 2004; ver recuadro 3.5).Seleccionar el nivel de
aleatorización sobre la base del nivel en el cual los efectos indirectos se espera que ocurra
(es decir, ya sea sobre individuos, comunidades o unidades más grandes) Por lo tanto, es
crucial para comprender el impacto del programa. Una cantidad sustancial de factores de
medición de datos que pueden conducir a contaminación y efectos secundarios
(migración, por ejemplo) también necesitaría ser examinado durante el curso de la
evaluación para ser capaz de estimar el impacto del programa con precisión.
Recuadro 3.3 Estudio de caso: Instrumentación en el caso de cumplimiento parcial

Abadie, Angrist e Imbens (2002) discutieron un enfoque que introduce variables
instrumental es para estimar el impacto de un programa que tiene una intención aleatoria
pero para la que se utiliza es voluntario El programa que examinaron implica la
capacitación bajo el socio de capacitación laboral de Estados Unidos. Ley de buques de
1982.
Los solicitantes fueron asignados aleatoriamente a grupos de tratamiento y control; los de
la muestra tratada se le ofrecieron capacitación de forma inmediata, mientras que los
programas de capacitación para el controla muestra se retrasó 18 meses. Solo el 60 por
ciento de la muestra tratada realmente recibió capacitación. Ing., y la asignación de
tratamiento aleatorio se utilizó como una variable instrumental. El estudio examinó una
muestra de aproximadamente 6,100 mujeres y 5,100 hombres, con datos de ganancias
para cada individuo que abarca 30 meses. Usando las estimaciones de variables
instrumentales, Abadie, Angrist,e Imbens descubrió que el aumento promedio de las
ganancias de los hombres era de aproximadamente US $ 1,600 (un 9 por ciento aumento),
aproximadamente la mitad del tamaño estimado por OLS. Para las mujeres, el aumento
promedio fue de aproximadamente US $ 1,800 (crecimiento de alrededor del 15 por
ciento) y no fue muy diferente de los MCO correspondiente se estimada).
.
.
Recuadro 3.4 Estudio de caso: minimizar el sesgo estadístico resultante de
Desgaste selectivo
Banerjee y otros (2007) examinaron el impacto de dos programas educativos
aleatorizados (un programa de educación correctiva y aprendizaje asistido por
computadora) en una muestra de escuelas urbanas en India. Estos programas estaban
dirigidos a estudiantes que, en relación con estudiantes de otras escuelas, no estaban
funcionando bien en alfabetización básica y otras habilidades. Escuelas primarias del
gobierno fueron atacados en dos áreas urbanas, con 98 escuelas en la primera área
(Vadodara) y 77 escuelas en La segunda área (Mumbai).Con respecto al programa de
recuperación en particular, la mitad de las escuelas en cada área de muestra fueron
seleccionado al azar para que se introduzca el programa de recuperación en el tercer
grado, y la otra mitad recibió el programa en el grado 4. Por lo tanto, cada grupo de
estudiantes tratados se comparó con los no tratados estudiantes del mismo grado dentro
de la misma muestra de área urbana. Las pruebas fueron administradas a estudiantes
tratados y no tratados para evaluar su desempeño. Sin embargo, en el proceso de
administración del programa, los funcionarios del programa descubrieron que los
estudiantes estaban abandonando la escuela. Si la deserción fue sistemáticamente
mayor entre los estudiantes con debilidad rendimiento, el impacto del programa sufriría
un sesgo al alza. Como resultado, la prueba
El equipo se esforzó por visitar a los estudiantes en todas las escuelas de la muestra
varias veces, rastreando niños que abandonaron la escuela para hacer que tomen el
examen. Aunque la tasa de deserción entre los estudiantes se mantuvo relativamente
altos, en última instancia fue similar en todos los tratados y no tratados muestras, lo
que reduce la posibilidad de sesgo en las comparaciones directas de los puntajes de las
pruebas en dos grupos. Finalmente, Banerjee y otros (2007) encontraron que el
programa de educación correctiva planteó puntajes promedio de las pruebas de todos
los niños en las escuelas de tratamiento en 0.14 desviaciones estándar en el primer año
y 0.28 desviaciones estándar en el segundo año, principalmente debido a mejoras en la
parte inferior final de la distribución de puntajes de las pruebas (cuyas ganancias fueron
aproximadamente 0.40 desviaciones estándar relativas.
.
Recuadro 3.5 Estudio de caso: selección del nivel de aleatorización para cuenta
para efectos indirectos
Miguel y Kremer (2004) proporcionaron una evaluación de un programa de
desparasitación en una muestra de75 escuelas en el oeste de Kenia, que representan las
externalidades de tratamiento que de otro modo habrían enmascarado el impacto del
programa. El programa, llamado Proyecto de desparasitación de la escuela primaria,
involucró introducción gradual aleatorizada de la intervención de salud a nivel escolar
durante los años 1998 a 2000.Examinar el impacto a nivel individual (niño) podría ser
de interés, porque los niños eran destinatarios finales de la intervención. Sin embargo,
Miguel y Kremer (2004) encontraron que des delas infecciones se propagaron
fácilmente entre los niños, existieron fuertes externalidades del tratamiento entre los
niños tratado al azar como parte del programa y niños en el grupo de comparación. No
contabilizan dotales externalidades por lo tanto sesgarían el impacto del programa y
aleatorizarían el programa dentro de por lo tanto, las escuelas no eran posibles.
Por lo tanto, Miguel y Kremer (2004) examinaron los impactos a nivel escolar, porque
el programa de desparasitación se asignó al azar en todas las escuelas, y las escuelas
de tratamiento y comparación fueron ubicado lo suficientemente lejos como para que
la probabilidad de contagio entre las escuelas fuera mucho menor. Ellos midió el
tamaño de la externalidad comparando estudiantes no tratados en escuelas tratadas con
grupo de comparación Su estudio encontró que las escuelas tratadas exhibieron
significativamente (alrededor del 25 por ciento)tasas de absentismo más bajas, aunque
los puntajes de las pruebas académicas no mejoraron en comparación con la
comparación escuelas. Su análisis también encontró externalidades sustanciales del
tratamiento, en que los niños no tratados en las escuelas de tratamiento exhibieron tasas
de salud y participación escolar significativamente mejoradas en comparación con
niños en escuelas no tratadas. Incluyendo los beneficios de externalidad, Miguel y
Kremer encontraron el costo por año adicional de participación escolar fue de solo US
$ 3.50, lo que hace que la desparasitación sea más rentable que los subsidios para
reducir el absentismo
.
Heterogeneidad en los impactos: estimación de los impactos del tratamiento en la
muestra tratada
El nivel al que se produce la intervención aleatoria (por ejemplo, el nacional, regional o

comunitario), por lo tanto, afecta de múltiples maneras los efectos del tratamiento eso
puede ser estimado. La aleatorización a nivel agregado (digamos, regional) no puede y
tener en cuenta la heterogeneidad individual en la participación y los resultados
resultantes del programa una implicación de este problema es que el programa final o el
impacto del tratamiento en el nivel individual no necesariamente se puede medir con
precisión como una variable binaria (que es decir, T = 1 para un participante individual
y T = 0 para un individuo en un área de control).Aunque cierto programa puede ser
aleatorizado a un nivel más amplio, la selección individual es posible que exista todavía
una respuesta al tratamiento. Se puede usar una mezcla de métodos, incluyendo variables
instrumentales, para tener en cuenta la selección no observada en el individuo nivel. Las
interacciones entre los criterios de focalización y el indicador de tratamiento también
pueden ser introducidos en la regresión.
Los efectos del tratamiento cuantil también se pueden estimar para medir los impactos
distributivos de programas aleatorizados sobre resultados como el consumo y gasto per
capital (Abadie, Angrist e Imbens 2002). El Capítulo 8 discute este enfoque con más
detalle. Dammert (2007), por ejemplo, estima los impactos distributivos en los gastos de
un programa de transferencias monetarias condicionadas en zonas rurales de Nicaragua.
Este programa, Red de protección Social (o Red de Protección Social), fue un programa
de transferencia de efectivo condicional gramo creado en 2000. Fue similar a
PROGRESA en que los hogares elegibles recibieron transferencias de efectivo
supeditadas a algunas condiciones, incluidos los miembros adultos del hogar(a menudo
madres) asistieron a talleres educativos y enviaron a sus hijos menores de 5 años de edad
para vacunas y otras citas de salud y envió a sus hijos entre las edades de 7 y 13
regularmente a la escuela. Algunos aspectos de la evaluación se discuten en recuadro 3.6.
Djebbari y Smith (2008) también proporcionan una discusión similar utilizando datos de
PROGRESA (Oportunidades).
Recuadro3.6 Estudio de caso: medición de la heterogeneidad del impacto de un
programa aleatorizado
Dammert (2007) examinó los impactos distributivos del programa de red de seguridad
social nicaragüense red de protección social, donde el 50 por ciento de 42 localidades
identificadas como suficientemente pobres para el programa (de acuerdo con un índice
de marginalidad) fueron seleccionados al azar para la focalización. La evaluación de
encuesta abarcó 1.359 hogares de proyectos y control a través de una línea de base, así
como dos seguimientos encuestas realizadas un año y dos años después de la
intervención del programa. Debido a que las transferencias de efectivo dependían de la
asistencia regular a la escuela y las visitas de salud, cómo: nunca, si un hogar en una
localidad seleccionada ya cumplía con estos requisitos antes la intervención (que se
correlacionó fuertemente con los ingresos y la educación preexistentes del hogar
niveles) podrían resultar en diferentes impactos del programa entre los hogares con
diferentes niveles socioeconómicos antecedentes. Para hogares cuyos hijos ya estaban
matriculados en la escuela y enviados regularmente para los chequeos de salud, la
transferencia de efectivo proporcionaría un efecto de ingreso puro, mientras que para
los hogares no cumpliendo con los criterios, la transferencia de efectivo induciría tanto
un efecto de ingreso como de sustitución .Como un enfoque, Dammert (2007), por lo
tanto, interactuó la variable del programa con la casa. Mantener características en las
que se basó la focalización, como la educación del jefe del hogar, gastos de los hogares
y el índice de marginalidad utilizado para la focalización. Niños en localidades más
pobres.se encontró que tenían mayores mejoras en la escolaridad, por ejemplo.
Además, para examinar la variación en los impactos del programa no impulsados por
características observables, Dammert calculó el tratamiento cuantil efectos por
separado para 2001 y 2002. Los resultados muestran que el crecimiento en el total per
capital gastos, así como los gastos de comida per cápita fueron menores para los
hogares en la parte inferior de
La distribución del gasto. Específicamente, en 2001, el impacto del programa en el
aumento total por los gastos por habitante oscilaron entre US $ 54 y US $ 237; en 2002,
este rango fue de US $ 20 a US $ 99, con hogares en la parte superior de la distribución
que reciben más de cinco veces el impacto que los hogares se mantiene con gastos más
bajos. Por lo tanto, simplemente confiar en los impactos promedio del tratamiento
puede no revelar áreas importantes de preocupación, tal como, tal vez, que los hogares
en el extremo inferior de la experiencia de distribución del gasto mayores costos (y,
por lo tanto, menores beneficios) de participa.
Una desviación relacionada de la aleatorización perfecta es cuando la aleatorización es
una función de algún conjunto de observables (clima, densidad de población y
similares) que afectan la probabilidades de que ciertas áreas sean seleccionadas. Por lo
tanto, el estado del tratamiento es aleatorio. Condicionado a un conjunto de
características observadas. Dentro de cada área tratada, sin embargo, el tratamiento es
aleatorio entre individuos o comunidades. Tratamiento y comparado Por lo tanto, se
pueden hacer observaciones hijo dentro de cada área, y se puede hacer un promedio
ponderado tomado en todas las áreas para dar el efecto promedio del programa en las
muestras tratadas.
Valor de un estudio de referencia
La realización de encuestas de referencia en un entorno aleatorio conlleva varias ventajas.

Primero, las encuestas de línea de base permiten examinar las interacciones entre las
condiciones iniciales y el impacto del programa. En muchos casos, esta comparación será
de considerable importancia para evaluar la validez externa. Los datos de referencia
también son útiles al realizar experimentos de política, porque las áreas tratadas podrían
haber tenido acceso a programas similares o iniciativas antes de la implementación de la
nueva iniciativa. Comparación de la captación de los participantes de actividades, como
el crédito antes y después de la intervención aleatoria, también pueden ser útil para
evaluar las respuestas al experimento. Otros valores de un estudio de línea de base
incluyen la oportunidad de verificar que la dominación se realizó de manera adecuada.
Los gobiernos que participan en aleatorizados los esquemas pueden sentir la necesidad,
por ejemplo, de compensar las áreas de control por no recibir el programa mediante la
introducción de otros esquemas al mismo tiempo. Datos recopilados en pro-Las
intervenciones de gramo en las áreas de control antes y durante el curso de la encuesta
ayudarán en la contabilidad de estas fuentes adicionales de efectos indirectos.
Recopilación de datos de referencia también ofrece la oportunidad de probar y refinar los
procedimientos de recopilación de datos. Sin embargo, las encuestas de referencia pueden
ser costosas y deben realizarse con cuidado. Uno el problema con la realización de una
línea de base es que puede conducir a un sesgo en los impactos del programa al alterarn
el contra factual. La decisión de realizar una encuesta de referencia se reduce para
comparar el costo de la intervención, el costo de la recopilación de datos y el impacto que
las variables para las cuales se pueden recolectar datos en una encuesta de línea base
pueden tener resultado (recuadro 3.7).
Dificultades con la aleatorización
Debido a que minimizan el sesgo de selección en los impactos del programa, las
evaluaciones aleatorias puede ser muy atractivo en los países en desarrollo.
Desafortunadamente, los factores contextuales en tales configuraciones están plagadas
de situaciones que pueden confundir la implementación aleatoria y de ahí la calidad de
los efectos del programa. Recopilación de datos detallada sobre estos factores de
confusión factores y el uso de una combinación de métodos, además de examinar los
ATE, por lo tanto, puede ayudar a explicar la heterogeneidad individual resultante en el
tratamiento impactos (recuadro 3.8).
Recuadro3.7 Estudio de caso: efectos de realizar una línea de base
Giné, Karlan y Zinman (2008), en un estudio sobre un programa de seguro de

hospitalización rural ofrecido por el Banco Verde en Filipinas, examinó el impacto de
llevar a cabo una asignación aleatoria línea de base en un subconjunto de individuos a
quienes finalmente se les ofreció el programa. La línea de base (que encuestó una
muestra aleatoria del 80 por ciento de los aproximadamente 2.000 prestatarios de
responsabilidad individual del Banco Verde) provocó indicadores tales como ingresos,
estado de salud y conductas de riesgo. Para evitare velando información sobre el
próximo programa de seguro, la línea de base no cubrió las preguntas no se discutió
ninguna conexión entre la encuesta y el banco. Sin embargo, después de que se
introdujo la iniciativa de seguro, se descubrió que la adopción era significativamente
mayor (alrededor de 3,4 puntos porcentuales) entre los encuestados que los que no.
Por lo tanto, el estudio señala los beneficios de capturar las características de las
personas encuestadas en la línea de base que podría revelar posibles patrones de
comportamiento en la toma de decisiones posteriores, incluyendo su influencia en la
toma de decisiones sobre dichos temas antes de la implementación del programa. La
variación aleatoria en el momento de la implementación del programa después de la
línea de base también podría serse usa para probar cómo estos efectos persisten en el
tiempo.
Recuadro3.8 Estudio de caso: persistencia de heterogeneidad no observada en un
programa aleatorizado
Behrman y Hoddinott (2005) examinaron los efectos nutricionales en niños de
PROGRESA, que también implicó la distribución de complementos alimenticios a los
niños. Aunque el programa fue aleatorio en todas las localidades, se produjo una escasez
en un suplemento nutricional proporcionado a niños en edad preescolar administradores
locales para ejercer discreción sobre cómo asignaron este suplemento, favoreciendo a los
niños con peor estado nutricional. Como resultado, cuando los resultados promedio entre
el tratamiento y el control se compararon grupos, el efecto del programa disminuyó.
Behrman y Hoddinott examinaron una muestra de aproximadamente 320 niños en hogares
de proyecto y control (para una muestra total de aproximadamente 640).La introducción
de regresiones de efectos fijos específicas para niños reveló un impacto positivo del
programa en la salud resultados para niños; la altura de los niños receptores aumentó en
aproximadamente 1.2 por ciento. Behrman y Hoddinott predijo que este efecto solo podría
aumentar las ganancias de por vida para estos niños en aproximadamente un 3 por ciento.
Las estimaciones de efectos fijos controladas por heterogeneidad no observada que
también se correlacionaron con el acceso al suplemento nutricional. Incluso en el contexto
de los países industrializados, Moffitt (2003) analiza cómo aleatoriamente las pruebas de
campo de los programas de asistencia social en efectivo en los Estados Unidos han tenido
limitaciones externas validez en términos de poder arrojar luz sobre cómo podrían
desarrollarse políticas similares a nivel nacional. Aunque los estudios no experimentales
también enfrentan problemas similares con validez externa, Moffitt argumenta a favor de
un enfoque integral que compara la experiencia tal con estudios no experimentales de
políticas y programas; tales comparaciones pueden revelar posibles mecanismos que
afectan la participación, los resultados y otros participantes.
Comportamiento, ayudando así a los evaluadores a comprender las posibles implicaciones
de tal pro-gramos cuando se aplica a diferentes contextos. En los estudios no
experimentales discutidos en los siguientes capítulos, este librointenta dar cuenta del
problema de sesgo de selección de diferentes maneras. Básicamente, nonex-estudios
perimetrales intentan replicar un experimento natural o aleatorización tanto como sea
posible. A diferencia de la aleatorización, donde el sesgo de selección se puede corregir
directamente (aunque también existen problemas en esta área), en las evaluaciones no
experimentales, una evaluación diferente se necesita un enfoque, que generalmente
implica suposiciones sobre la forma del sesgo. Un enfoque es hacer el caso para asumir
la falta de fundamento, o de coldi-La exogeneidad nacional de la colocación del programa,
que es una versión más débil de desconfianza. La técnica de correspondencia de puntaje
de propensión y los métodos de doble diferencia caen bajo esta categoría El enfoque de
la variable instrumental no necesita hacer estos uposición. Intenta encontrar instrumentos
que estén correlacionados con la participación decisión pero no correlacionada con la
variable de resultado condicional a la participación finalmente, otros métodos, como el
diseño de regresión discontinua (también un instrumental método variable), explotar las
características del diseño del programa para evaluar el impacto.
Preguntas
1. La siguiente ecuación representa una ecuación de resultado en caso de puro

aleatorización:
𝑌 = 𝛼 + 𝛽𝑇 + 𝜀
Donde Y es el ingreso mensual del hogar, T es una intervención de micro finanzas ( T =

1 si el hogar recibe la intervención y T = 0 si el hogar no recibe la intervención), y ε es
el término de error. Bajo pura aleatorización diseñada e implementada adecuadamente,
el impacto del programa de micro finanzas en los ingresos del hogar viene dado por
(𝑎) 𝛼 + 𝛽
(𝑏) 𝛽
(𝑐) 𝛼 + 𝛽 − 𝜀
(𝑑) 𝛼 – 𝜀
2. Las siguientes ecuaciones representan las mismas ecuaciones de resultado que en la

pregunta 1pero en este caso para aleatorización parcial; donde están las unidades de
tratamiento y control elegido al azar pero condicional a algunas características
observadas X:
𝑌 𝑇 = 𝛼 𝑇 + 𝛽 𝑇 𝑋 + 𝜀 𝑇 (1)
𝑌𝐶 = 𝛼𝐶 + 𝛽𝐶𝑋 + 𝜀𝐶 (2)
Donde la ecuación 1 es para aquellos que reciben la intervención y la ecuación 2 es para

aquellos no recibe intervención. Bajo el modelo de impacto común, el impacto de la
micro-El programa de financiación de los ingresos del hogar está dado por
(𝑎) 𝛼 𝑇 + 𝛼 𝐶
(𝑏) 𝛽 𝑇 + 𝛽 𝐶
(𝑐) 𝛼 𝑇 − 𝛼 𝐶
(𝑑) 𝛽 𝑇 – 𝛽𝐶
3. ¿Cuál de las siguientes afirmaciones es verdadera sobre la técnica de aleatorización?
A. El ATE solo requiere validez externa.
B. El TOT requiere validez tanto interna como externa.
C. El ATE requiere validez tanto interna como externa
(a) A y B
(b) B y C
(c) C solamente
4. En la aleatorización por exceso de suscripción, la intervención se administra solo a

un subconjunto de elegibles participantes porque
A. este enfoque garantiza que esté presente un grupo de control válido.
B. Es de conocimiento común que no todos toman la intervención incluso cuando se

ofrece.
C. Los programas generalmente no tienen suficientes recursos para proporcionar

intervención a todos participantes elegibles
(a) Todo lo anterior
(b) A y B
(c) B y C
(d) C solamente5.
5. ¿Cuáles son las principales preocupaciones de la aleatorización?
A. Cuestiones éticas
B. validez externa
C. Cumplimiento y derrame
(b) A y B
(c) B y C
(d) C solamente
6. ¿Cuál de las siguientes afirmaciones es verdadera?
A. La realización de una encuesta de línea de base es muy útil para entornos aleatorios.
B. En un entorno no aleatorizado, la técnica de coincidencia de puntaje de propensión

puede ser una opción atractiva.
C. La aleatorización no es muy útil para encuestas de panel.
(b) A y B
(c) B y C
(d) C solamente
Notas1.
1. Como se menciona en Heckman y Vytlacil (2000), esta caracterización de Y se

identifica bajo foques diferentes. Es conocido, por ejemplo, como el modelo de
potencial Neyman-Fisher-Cox-Rubín resultados; también se conoce como el modelo de
regresión de conmutación de Quandt (Quandt 1972) y el Modelo Roy de distribución
del ingreso (Roy 1951).
2. Específicamente, el efecto Hawthorne se relaciona con beneficiarios que se sienten
de manera diferente porque saben son tratados esta simple realización puede cambiar
sus elecciones y comportamiento. Factores distintos a por lo tanto, el funcionamiento
real del programa puede cambiar los resultados de los participantes.
Referencias
Abadie, Alberto, Joshua D. Angrist y Guido W. Imbens. 2002. "Estimaciones de

variables instrumentales del efecto de la capacitación subsidiada en los cuantiles
de las ganancias de los aprendices ". Econometrica 70 (1):91-117.
Angrist, Joshua, Eric Bettinger, Erik Bloom, Elizabeth King y Michael Kremer. 2002.
"Vales para la escolarización privada en Colombia: Evidencia de un experimento
natural aleatorio “. América
Economic Review 92 (5): 1535–58.Banerjee, Abhijit, Shawn Cole, Esther Duflo y Leigh
Linden. 2007. "Remediar la educación: Evi-dence de dos experimentos aleatorizados
en India”. Quarterly Journal of Economics 122 (3):1235–64.
Behrman, Jere y John Hoddinott. 2005. "Evaluación del programa con heterogeneidad no
observada e implementación selectiva: el impacto mexicano 'PROGRESA' en la
nutrición infantil”. OxfordBoletín de Economía y Estadística 67 (4): 547–69.
Behrman, Jere, Susan Parker y Petra Todd. 2009. “Impactos a largo plazo de
la Oportunidades Con-Programa adicional de transferencia de efectivo para jóvenes
rurales en México”. En Pobreza, Desigualdad y Política en América Latina,
ed. Stephan Klasen y Felicitas Nowak-Lehmann, 219–70. Cambridge, MA: MIT
Press.
Björklund, Anders y Robert Moffitt. 1987. "La estimación de ganancias salariales y

ganancias de bienestar en Modelos de auto selección.” Review of Economics and
Statistics 69 (1): 42–49.
Dammert, Ana. 2007. “Impactos heterogéneos de las transferencias monetarias

condicionadas: evidencia de Nicaragua”. Documento de trabajo, Universidad Mc
Master, Hamilton, ON, Canadá. De Janvry, Alain, Federico Finan, Elisabeth
Sadoulet y Renos Vakis. 2006. "Puede efectivo condicional
Los programas de transferencia sirven como redes de seguridad para mantener a los niños
en la escuela y para trabajar cuando¿Expuesto a los choques? ” Journal of
Development Economics 79 (2): 349–73.
Djebbari, Habiba y Jeffrey Smith. 2008. "Impactos heterogéneos en PROGRESA".

Discusión de IZA Documento 3362, Instituto para el Estudio del Trabajo, Bonn,
Alemania.
Duflo, Esther, Rachel Glennerster y Michael Kremer. 2008. "Uso de la aleatorización en

el desarrolloment Economics Research: A Toolkit ”. En Handbook of Development
Economics, vol. 4, ed. T. PaulSchultz y John Strauss, 3895–962. Amsterdam:
Holanda del Norte. Gertler, Paul. 2004. “
¿Las transferencias monetarias condicionadas mejoran la salud infantil? Evidencia de

PRO-Experimento aleatorizado de control de GRESA”. Revisión económica
estadounidense, documentos y procedimientos94 (2): 336–41.
Giné, Xavier, Dean Karlan y Jonathan Zinman. 2008. “El riesgo de preguntar: efectos de
mediciónde una encuesta de referencia en un experimento de adquisición de seguros
". Documento de trabajo, Universidad de Yale,New Haven, CT.Heckman, James J.
y Edward J. Vytlacil. 2000. "Variables instrumentales locales". NBER Technical

Capitulo 2 y 3

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Capitulo 2 y 3

Caricato da

Copyright:

Formati disponibili

2.

Los Asuntos Básicos de Evaluación

Estos enfoques de evaluación pueden llevarse a cabo utilizando métodos cuantitativos

El principal desafío para los diferentes tipos de evaluación de impacto es encontrar un

Después de completar este capítulo, el lector podrá intercambiar opiniones y comprender

Introducción: El Monitoreo Versus la Evaluación

Estableciendo metas, señalizadores, y blancos para programas están en el corazón de un

En el contraste, la evaluación es una valoración sistemática y objetiva de los resultados

Los retos en monitorear progreso de una intervención deben

Configuración de indicadores dentro de un marco de M&E

Mirado en este armazón, el monitoreo cubre la implementación y monitoreo de función

Un ejemplo de un sistema de monitoreo proviene de PROGRESA (Programa de

Figure 2.1 Marco de Monitoreo y Evaluación

Fuente: Representación de los autores

La participación fue posible; Es decir, con relación a la iniciativa del subsidio de la

El Monitoreo Basado En Resultados

La ejecución real de un sistema monitor es a menudo llamado monitoreo basado en

Primera, una valoración de presteza debería ser transmitida. La valoración implica

Los segundos, evaluadores de programa tan anteriormente citados, deberían convenir en

El cuarto, los instrumentos para coléctale la necesidad de información a ser determinadas.

El séptimo paso guarda relación con la oportunidad del momento de monitorear,

El octavo paso implica consideración ponderada de la manera de reportar, incluir a la

Finalmente, el M&E exitoso basado en resultados implica mantener el sistema de M&E

Un ejemplo de monitoreo basado en resultados proviene de un estudio en curso de

Los retos primarios para el monitoreo efectivo incluyen variación potencial en la

 Los señalizadores cruciales de función no estaban bien definidos y por lo tanto no

Una evaluación operacional trata de entender si la implementación de un programa se

Los Retos en la Evaluación Operacional

La justificación razonada de un programa en dibujar recursos públicos es mejorar un

La evaluación operacional se trata de asegurar implementación efectiva de un programa

La evaluación operacional y de impacto son complementarias en vez de substitutos, sin

Sin embargo, aunque la evaluación operacional y el general practican de M y E son partes

 La intervención de programa es innovadora y de importancia estratégica.

El programa Oportunidades de México es un ejemplo en el cual el gobierno inició una

Cuantitativo Versus las Valoraciones Cualitativas de Impacto

Los Gobiernos, donantes, y otros practicantes en la comunidad de desarrollo son agudos

La caja 2.5 describe un acercamiento de métodos mixtos para examinar resultados de la

Recuadro 2.5 Estudio de caso: métodos mixtos en cuantitativo y cualitativo Enfoques

Rao e Ibáñez (2005) aplicaron instrumentos de encuestas cuantitativas y cualitativas para

La Valoración Cuantitativa de Impacto: Las Evaluaciones Ex ante versus la Ex post

Hay dos tipos de evaluaciones cuantitativas de impacto: La apuesta inicial de ex post y

Un acercamiento es combinar ambos analizan y compara estimaciones ex del poste con

Los estudios de caso discutidos en los siguientes capítulos primordialmente enfocan la

El problema del Counterfactual

Una intervención de programa o de política trata de alterar cambios en el bienestar de

Buscando a un Counterfactual: Con y sin Comparaciones

Fuente: Representación de los autores

Buscando a un Counterfactual: Antes y Después de las Comparaciones

Por ejemplo, los participantes en un programa de entrenamiento pudieron haber

En este contexto, por consiguiente, unas características amplias de preprograma de

Figura 2.3 Evaluación utilizando una comparación de antes y después

Fuente: Representación de los autores

Teoría básica de la evaluación de impacto: el problema del sesgo de selección

Una evaluación de impacto es esencialmente un problema de falta de datos, porque uno

Las evaluaciones de impacto exitosas dependen de encontrar un buen grupo de

𝑌𝑖 = 𝛼𝑋𝑖 + 𝛽𝑇𝑖 + 𝜀𝑖 (2.1)

El problema con la estimación de la ecuación 2.1 es que la asignación del tratamiento no

𝐷 = 𝐸(𝑌𝑖 (1)|𝑇𝑖 = 1) − 𝐸(𝑌𝑖 (0)|𝑇𝑖 = 0) (2.2)

𝐷 = 𝐴𝑇𝐸 + [𝐸(𝑌𝑖 (0)|𝑇𝑖 = 1) − 𝐸(𝑌𝑖 (0)|𝑇𝑖 = 1)] (2.4)

El término B, [E (𝑌𝑖 (1) | 𝑇𝑖 = 1) - E (𝑌𝑖 (0) | 𝑇𝑖 = 0)],)], es el grado de sesgo de selección

El objetivo básico de una evaluación de impacto sólida es encontrar formas de deshacerse

(𝑌𝑖 (1), 𝑌𝑖 (0)) ⊥ 𝑇𝑖 |𝑋𝑖 (2.6)

También se puede hacer una suposición más débil de la exogeneidad condicional de la