Sei sulla pagina 1di 64

Cules son los pasos prcticos para planificar una evaluacin que sea

adecuada para el programa y la organizacin?


Impulsar la participacin de los interesados. Los interesados incluyen a las
personas que tienen un inters legtimo en el programa de prevencin, entre
ellos el personal, los organismos de financiacin, los miembros de la junta
directiva, los encargados de la formulacin de polticas, los miembros de la
comunidad, las organizaciones asociadas, los guardianes de las diferentes
fuentes de informacin o los beneficiarios o participantes. Los interesados
pueden asistir en el establecimiento de prioridades sobre las preguntas que se
realizarn, la elaboracin de un modelo lgico, la seleccin de los mtodos que
se utilizarn y la informacin que se recabar, la interpretacin de los
resultados y la garanta de que la evaluacin tenga en cuenta las cuestiones
culturales y sea aceptada por la comunidad (Valle y otros, 2007).
Describir el programa. Ponerse de acuerdo sobre una descripcin clara del
programa contribuir a determinar las preguntas y las actividades apropiadas
para la evaluacin. Mediante la elaboracin de un modelo lgico, pueden
determinarse los elementos fundamentales del programa y las actividades de
evaluacin. (Para una descripcin clara de cmo elaborar un modelo lgico,
consulte Valle y otros, 2007.)
Centrarse en el diseo de la evaluacin. Al elaborar el diseo de la evaluacin
deben tenerse en cuenta los siguientes elementos (CDC, 1999):
i.

Finalidad: Para qu se realiza esta evaluacin? Para formarse una


idea de cmo disear un programa? Para mejorar las prcticas o los

ii.
iii.
iv.

servicios?
Beneficiarios: A quin est dirigida o a quin beneficiar la evaluacin?
Usos: Cmo se utilizarn los resultados de la evaluacin?
Preguntas: Cules son las preguntas ms importantes que debe

v.

responder la evaluacin?
Mtodos: Cules son los mtodos para proporcionar informacin a fin

vi.

de responder a las preguntas?


Otros elementos: Cmo se ejecutar el plan de evaluacin con los
recursos disponibles? Qu medidas de proteccin existen para que se

cumplan todas las normas ticas y se presenten todas las inquietudes


ticas?
Reunir datos confiables. A partir de los datos de referencia y el plan de
evaluacin elaborado durante la etapa de diseo del programa, debe
determinarse qu datos se reunirn, quines los suministrarn, cundo se
realizarn las actividades de evaluacin, dnde se recopilarn los datos y qu
mtodos de recopilacin de datos se utilizarn.
Analizar los resultados. Determinar con antelacin de qu modo se analizarn
los resultados permitir garantizar que el plan de recaudacin de datos
proporcione la informacin necesaria y, adems, contribuya a establecer qu
conocimientos tcnicos y recursos se requieren para analizar los datos.
Garantizar el uso y compartir la experiencia adquirida. Debe establecerse un
plan para determinar quines son los destinatarios de la informacin (por
ejemplo, responsables de la formulacin de polticas pblicas, organizaciones),
cmo se informarn los resultados y qu formatos de presentacin de informes
sern los ms apropiados para los diferentes destinatarios (por ejemplo, la
televisin, la radio, Internet, los medios grficos, testimonios).
Qu factores deben determinar la eleccin del tipo de evaluacin?
El tipo de evaluacin que se necesitar depender de diversos factores, entre
ellos:
El perodo que abarca el programa;
i.
ii.
iii.
iv.
v.

La duracin de la intervencin del proyecto (resultados razonables


previstos);
Las metas de la evaluacin;
Los recursos humanos y financieros disponibles;
El tiempo disponible para la evaluacin;
La existencia o inexistencia de datos de referencia.

Qu grado de evaluacin se requiere?*


Si los recursos son limitados:

i.
ii.
iii.

Cierta investigacin formativa;


Indicadores de proceso;
Grupos de debate slo despus de la intervencin.

Si los recursos disponibles para la evaluacin son mdicos:


i.
ii.

Investigacin formativa;
Indicadores de proceso;

Reunin simple de datos cuantitativos antes y despus de la intervencin sin


grupo de control.
Si los recursos son vastos:
i.

Investigacin formativa exhaustiva;

Reunin de datos de varias fuentes, incluido un grupo de control (o un grupo de


intervencin tarda);
i.
ii.

Triangulacin con parejas/mujeres;


Recopilacin de datos cuantitativos y cualitativos durante todo el
proceso.

Cules son las opciones disponibles para los diseos de evaluacin de


resultados?

Diseo

Reunir datos

Ejecutar el

Reunir datos

antes del

programa o la

despus del

programa

estrategia

programa

No

Tal vez

Tal vez

Reunir datos de
seguimiento

Slo pruebas
posteriores a la
intervencin

Pruebas

anteriores y
posteriores a la
intervencin

Pruebas
anteriores y
posteriores a la

S (grupo del
S (ambos

programa)

S (ambos

Tal vez (ambos

grupos)

No (grupo de

grupos)

grupos)

intervencin
con grupo de

control)

control

Pruebas

S (grupo del

posteriores a la
No

intervencin
con grupo de

Ensayo

grupos)

S (ambos

programa)

S (ambos

Tal vez (ambos

grupos)

No (grupo de

grupos)

grupos)

S, varias veces

control

cronolgica

Tal vez (ambos

S (grupo del

grupo de

Serie

No (grupo de

control)

control

aleatorio con

programa)

comparacin)

S, varias veces

Fuente: Valle y otros, 2007

REALICE PRUEBAS EN EL CAMPO Y EVALE NUEVOS RECURSOS E


INTERVENCIONES
Es indispensable supervisar y evaluar cada uno de los nuevos recursos o
intervenciones. Aun cuando las intervenciones hayan sido satisfactorias en
otros entornos, esto no garantiza su xito en un nuevo pas, regin o idioma.

REALICE

PRUEBAS

ANTERIORES

LA

UTILIZACIN

DE

LOS

MATERIALES NUEVOS O ADAPTADOS


Este tipo de pruebas aumenta la probabilidad de que los mensajes propuestos
se reciban conforme a lo previsto en el programa. Los destinatarios deben estar
en condiciones de comprender los materiales de prevencin y de responder a
ellos de manera positiva. Los siguientes enfoques pueden utilizarse en las
pruebas anteriores a la utilizacin:

i.

Estudios de prueba. Este mtodo permite que en el programa se pongan


a prueba secciones del enfoque propuesto o el enfoque completo en una
escala menor con un grupo similar al que se aplicar el enfoque. De esta
forma, se determina si la estrategia de prevencin seleccionada
transmite el mensaje previsto y se evala si algn aspecto del programa

ii.

resulta ofensivo, perjudicial o ineficaz (Valle y otros, 2007).


Pruebas de inteligibilidad. Las revisiones y los aportes de personas de
caractersticas similares a los destinatarios del programa permitirn que
los materiales elaborados para el programa resulten comprensibles y
puedan utilizarse con personas de diferentes niveles de educacin.
Diversos programas de procesamiento de texto, como WordPerfect o
MicrosoftWord, proporcionan clculos aproximados de inteligibilidad o
de edad o grado escolar para los que deben estar concebidos los
materiales. El ndice de Gunning es otro instrumento que cumple la
misma funcin (Valle y otros, 2007). Para ms informacin sobre dicho
ndice y cmo calcularlo, consulte el sitio web.

SELECCIONE

RESULTADOS

REALISTAS

AL

PLANIFICAR

LA

EVALUACIN
Si bien los programas de prevencin de la violencia procuran, en definitiva, el
logro de cambios de comportamiento asociados con la violencia, a menudo se
requiere mucho tiempo para lograr tales cambios, y es preciso que los
programas recopilen datos sobre los resultados durante un perodo prolongado.
Por lo tanto, algunos resultados ms realistas de muchos programas de

prevencin podran consistir en modificar los factores cercanos que propician la


violencia con la meta final de prevenir los comportamientos violentos.
CULES SON ALGUNOS DE LOS RESULTADOS CERCANOS QUE
PODRAN

UTILIZARSE

EN

LUGAR

DE

BUSCAR

CAMBIOS

DE

COMPORTAMIENTO A LARGO PLAZO?


A nivel individual, en el marco ecolgico podra incluirse la documentacin de
los cambios de conocimientos, actitudes, aptitudes e intenciones de
comportamiento. Sin embargo, cabe recordar que la relacin entre estos
resultados y los comportamientos reales vara (Valle y otros, 2007).
i.

Los conocimientos se refieren al grado de comprensin de las personas


o a sus conocimientos objetivos sobre un concepto. Si bien constituye
una medida importante, cabe sealar que el solo hecho de cambiar los
conocimientos sobre la violencia contra la mujer o los comportamientos
apropiados probablemente no prevendr la violencia, de la misma
manera que cambiar los conocimientos sobre las consecuencias
negativas del cigarrillo no modifica necesariamente el comportamiento

ii.

relacionado con el hbito de fumar (Valle y otros, 2007).


Las actitudes hacen referencia a cmo piensan, sienten o creen las
personas de manera subjetiva, por ejemplo, si los hombres creen que la
violencia es aceptable. Aunque las actitudes aparentemente estn
relacionadas con el comportamiento, no queda claro si los cambios de

iii.

actitud conducen a cambios de comportamiento (Valle y otros, 2007).


Las aptitudes se refieren a la capacidad de las personas para
comportarse o actuar de una manera determinada. La enseanza de
aptitudes puede aumentar la probabilidad de que las personas se
comporten de una manera determinada, pero no garantiza que

iv.

realmente lo hagan (Valle y otros, 2007).


Las intenciones de comportamiento hacen referencia a la evaluacin
subjetiva de una persona sobre si se comportar de una manera
establecida en una situacin futura determinada; por ejemplo, las
estrategias de prevencin que alientan a los observadores a intervenir a
fin de prevenir la violencia contra la mujer o desalientan las
conversaciones que menosprecian a las mujeres (Valle y otros, 2007).

TENGA EN CUENTA QUE LA EVALUACIN DE PROGRAMAS DE


PREVENCIN DE UNA SESIN O DE ANUNCIOS MEDITICOS UNITARIOS
PUEDE RESULTAR INFRUCTUOSA
Si bien estos enfoques concisos pueden ser un complemento importante en los
programas amplios, es improbable que generen una prevencin duradera sobre
la violencia sexual y de pareja por s solas (a menos que formen parte de una
labor multidimensional). Adems, su evaluacin puede resultar compleja,
debido a que las personas reciben innumerables mensajes todos los das y un
nico mensaje probablemente tendr un impacto mnimo (Valle y otros, 2007).
RECONOZCA TANTO LA COMPLEJIDAD COMO LA IMPORTANCIA DE
EVALUAR LOS CAMBIOS DE COMPORTAMIENTO
La evaluacin de programas en el mbito de la prevencin de la violencia
contra la mujer presenta dificultades por diversos motivos, entre ellos:
i.

La prevencin de la violencia requiere estrategias y sectores mltiples, lo

ii.

que dificulta la asignacin de resultados a una nica intervencin;


La definicin y la medicin de los niveles de violencia contra la mujer

iii.
iv.

resultan una empresa difcil desde una perspectiva metodolgica;


El cambio de normas puede requerir inversiones a largo plazo;
Algunos cambios pueden traer aparejados resultados contrarios a los
esperados; por ejemplo, es posible que una intervencin d origen a una
mayor cantidad de informes sobre violencia y, en consecuencia, a un
mayor nivel de violencia medida conforme a la cantidad de casos
denunciados.

TENGA EN CUENTA QUE LAS EVALUACIONES CUALITATIVAS NO SON


NECESARIAMENTE MENOS COMPLEJAS O COSTOSAS
Si bien la recopilacin de datos cualitativos con fines de evaluacin puede
parecer una opcin menos costosa que una encuesta basada en la comunidad,
cabe sealar que la reunin y el anlisis de datos cualitativos (por ejemplo, la
informacin recabada en los grupos de debate) resultan complejos y requieren
evaluadores con experiencia y aptitudes profesionales especficas. Por lo tanto,
no es una opcin necesariamente ms sencilla o menos costosa. Algunas

organizaciones cuentan con la competencia tcnica para reunir datos


cuantitativos, y no datos cualitativos (y viceversa). Por ejemplo, el mtodo de
evaluacin menos costoso o complejo para las intervenciones con la modalidad
de talleres son los cuestionarios de pruebas anteriores y posteriores a las
intervenciones destinadas a hombres y nios que participan en ellas, aunque
esta tcnica tiene limitaciones, como la imposibilidad de evaluar si los cambios
se mantienen con el tiempo o la posibilidad de que el xito" del programa se
deba, en realidad, a la concienciacin fomentada antes de las pruebas y a la
comprensin de cmo responder las preguntas correctamente.
DOCUMENTE EL CMO Y EL CMO NO
En la mayora de los programas se suelen documentar los cambios logrados,
pero no el proceso mediante el cual se alcanzaron. Es preciso examinar en
profundidad el proceso de cmo" un programa logr cambiar actitudes y
comportamientos. Por otro lado, podra ser muy beneficioso para todos los que
trabajan en el tema aprender de las experiencias tanto satisfactorias" como
insatisfactorias", aunque pocos estn dispuestos a documentar estas ltimas.
EJEMPLOS DE INICIATIVAS DESTINADAS A HOMBRES Y NIOS QUE
INCORPORARON EVALUACIONES SLIDAS EN SUS PROGRAMAS
1. Soul City (Sudfrica). Soul City, un proyecto en multimedia de promocin
de la salud y el cambio social que comenz en Sudfrica y que en la
actualidad se desarrolla en varios pases, abord varios aspectos de la
violencia contra las mujeres en su serie 4. La evaluacin de esta serie
proporciona uno de los diseos de evaluacin ms completos en la
esfera del trabajo con hombres en el contexto de la violencia contra las
mujeres. Vea la evaluacin.
2. Paso a Paso (Sudfrica). Paso a Paso es un juego de capacitacin sobre
gnero, el VIH, tcnicas de comunicacin y relaciones. La segunda
versin de la adaptacin sudafricana fue objeto de una rigurosa
evaluacin por medio de una prueba de control aleatoria por grupos que
demostr que Paso a Paso mejor considerablemente algunos
comportamientos de riesgo reconocidos por los hombres, y una
proporcin menor de hombres comunicaron haber perpetrado actos de

violencia dentro de la pareja durante dos aos de seguimiento, y menos


relaciones sexuales a cambio de favores y problemas de bebida al cabo
de 12 meses. En el caso de las mujeres, se notific un aumento de
relaciones sexuales a cambio de favores tambin al cabo de 12 meses.
Para ms informacin, vea la evaluacin.
3. Programa H (Brasil). El Programa H constituye un conjunto de
metodologas destinadas a estimular a hombres jvenes para que
reflexionen de manera crtica sobre las normas rgidas relacionadas con
la hombra y cmo pueden influir en la vida en diferentes mbitos: la
salud, las relaciones personales, la salud sexual y reproductiva y la
paternidad. El Programa H ejecut una evaluacin rigurosa de su
iniciativa en el Brasil, donde pudo demostrarse una mejora en las
actitudes hacia la violencia contra la mujer y otros problemas entre los
hombres jvenes, destinatarios de talleres educativos semanales y una
campaa de comercializacin social. Para ms informacin, vea la
evaluacin.
4. Yaari Dosti (India). Yaari Dosti es la adaptacin del Programa H
(elaborado en el Brasil) realizada por el Programa Horizons, CORO for
Literacy, MAMTA y el Instituto Promundo. El grupo llev

a cabo

investigaciones sobre las operaciones para evaluar la eficacia de las


intervenciones, a fin de mejorar las actitudes de los hombres jvenes
hacia las funciones de gnero y las relaciones sexuales, y reducir los
comportamientos de riesgo respecto del VIH y de la violencia en la
pareja. En la India, los datos de evaluacin del impacto revelaron una
disminucin de los casos reconocidos por hombres de violencia contra la
mujer gracias a las intervenciones del programa. Vea el ppt de Julie
Pulerwitz. Para ms informacin visite el sitio web.
RECURSOS TILES PARA EL SEGUIMIENTO Y LA EVALUACIN DE
PROGRAMAS DESTINADOS A HOMBRES Y NIOS
1. Cmo evaluar el trabajo con nios y hombres (Instituto Promundo). Esta
presentacin en PowerPoint elaborada por Gary Barker proporciona una
resea general de por qu y cmo evaluar las iniciativas
transformadoras en materia de gnero destinadas a hombres y nios
(pulse aqu).

2. Cmo medir el impacto de las intervenciones centradas en el gnero


(Julie Pulerwitz). En esta presentacin en PowerPoint se examina la
elaboracin de escalas para medir la dinmica relacionada con el gnero
y se describe su aplicacin para evaluar el impacto de tres iniciativas
diferentes: Paso a Paso, Programa H y Sexto Sentido. Disponible en
ingls. Vea el ppt.
3. La Escala de Equidad de Gnero para Hombres (Instituto Promundo,
Consejo de Poblacin). La Escala de Equidad de Gnero para Hombres
se emplea para evaluar los cambios de actitud, dado que resulta un paso
importante hacia el logro (y posteriormente la medicin) del cambio de
comportamiento. La Escala, que ha demostrado su validez desde una
perspectiva psicomtrica, se ha utilizado como un recurso de evaluacin
en intervenciones con hombres en un elevado nmero de pases, como
el Brasil, Etiopa e India. El propsito de la Escala es evaluar el grado de
adhesin de un determinado grupo de adultos o varones jvenes a una
versin rgida, no equitativa y violenta de la masculinidad y la creencia
en ella. La manera en que responden los hombres a la Escala se asocia
en gran medida con los casos de violencia contra la mujer reconocidos
por los hombres. Por ejemplo, en el Brasil, la probabilidad de que los
hombres jvenes clasificados en el tercio menos equitativo de la
poblacin hayan reconocido el uso de violencia contra una pareja era
cuatro veces mayor que la de los hombres cuya clasificacin los ubicaba
en un nivel ms equitativo (Pulerwitz y otros, 2006). Vea la encuesta en
Ingls, espaol y portugus. Puede consultar un resumen conciso de la
Escala en ingls.
4. Arizona Rape Prevention and Education Project (Proyecto de educacin
y prevencin de la violacin de Arizona) (Universidad de Arizona,
Estados Unidos). La pgina web de medidas de evaluacin ofrece
referencias e informacin sobre las medidas utilizadas para estudiar
comportamientos y actitudes relacionadas con la violacin que tambin
se emplean para evaluar programas de educacin y prevencin de la
violacin. Para ms informacin (en ingls), consulte el sitio web.

5. Sexual and Intimate Partner Violence Prevention Programmes Evaluation


Guide (Gua de evaluacin de los programas de prevencin de la
violencia sexual y de pareja) (Centros para el Control y la Prevencin de
Enfermedades (CDC), Estados Unidos) elaborada por Valle y otros,
2007. Esta publicacin contiene una sinopsis de la importancia de la
evaluacin y proporciona mtodos y estrategias de evaluacin que
pueden aplicarse a los programas sobre la violencia sexual y la violencia
de pareja. En los distintos captulos se brindan pautas prcticas para la
planificacin y realizacin de evaluaciones; informacin sobre cmo
relacionar metas, objetivos, actividades, resultados y estrategias de
evaluacin de los programas; fuentes y tcnicas para la recopilacin de
datos; y consejos tiles para el anlisis y la interpretacin de los datos
recopilados y la divulgacin de los resultados. En la gua se analizan las
evaluaciones econmica, formativa, de procesos y de resultados.
Pueden solicitarse copias en formato impreso de estas publicaciones
estn disponible en ingls.
6. Measuring Violence-Related Attitudes, Behaviours, and Influences
Among Youths: A Compendium of Assessment Tools (Medicin de la
actitudes, comportamientos e influencias relativas a la violencia entre los
jvenes: recopilacin de instrumentos de evaluacin) (2 edicin), CDC
(Estados Unidos). Esta recopilacin ofrece a los investigadores y a los
especialistas en prevencin un conjunto de instrumentos para determinar
las creencias, conductas e influencias relativas a la violencia y evaluar
los programas de prevencin de la violencia juvenil. Puede ser
especialmente til para los que acaban de iniciarse en este mbito, en
tanto que para quienes tienen ms experiencia puede servir como
recurso para obtener mediciones complementarias para evaluar los
factores asociados con la

violencia entre

los jvenes. Puede

descargarse en ingls.
7. Measuring Intimate Partner Violence Victimization and Perpetration: A
Compendium of Assessment Tools (Cmo medir la victimizacin y el
maltrato en la violencia de pareja) elaborada por CDC (Estados Unidos).
Esta publicacin proporciona a los investigadores y a los especialistas
en prevencin una recopilacin de los recursos concebidos para medir la

victimizacin y el la violencia en la pareja. Incluye ms de 20 escalas.


Puede descargarse en ingls.
8. Violence against Women and Girls: a Compendium of Monitoring and
Evaluation Indicators (La violencia contra las mujeres y nias: un
compendio de indicadores de monitoreo y evaluacin) (MEASURE
Evaluation, USAID), de Shelah Bloom (2008). Esta publicacin
proporciona diversos indicadores para supervisar y evaluar los
programas sobre la violencia contra la mujer. En la seccin 7.3 que
comienza en la pgina 228, se detallan distintos indicadores utilizados
para supervisar y evaluar los programas destinados a nios y hombres.
Est disponible en ingls.
9. Measures for the assessment of dimensions of violence against women.
A compendium (Recopilacin de medidas para la evaluacin de las
dimensiones de la violencia contra la mujer), Flood, M., 2008, indito,
Melbourne: Australian Research Centre in Sex, Health & Society, La
Trobe University. Se trata de una recopilacin de las medidas adoptadas
para evaluar las dimensiones de la violencia contra la mujer. Tambin
incluye medidas sobre las normas sexuales y de gnero, aunque no
abarca las medidas sobre maltrato, abuso o acoso sexual infantil. Puede
consultarse en ingls.
10. Putting Women First: Ethical and Safety Recommendations for Research
on

Domestic

Violence

Against

Women

(La

mujer

primero:

recomendaciones de tica y seguridad para la investigacin sobre la


violencia domstica contra la mujer) (OMS). Estas recomendaciones
provienen de los debates entablados sobre las recomendaciones
elaboradas para el Estudio multipas de la OMS sobre salud de la mujer
y violencia domstica contra la mujer. Se centran especialmente en las
consideraciones relativas a la tica y la seguridad asociadas con la
realizacin de encuestas de poblacin sobre la violencia domstica
contra la mujer. Sin embargo, muchos de los principios establecidos se
aplican tambin a otras modalidades de investigacin cuantitativa y
cualitativa sobre esta cuestin. Est disponible en ingls, francs y
espaol.
11. WHO Ethical
Documenting

and
and

Safety
Monitoring

Recommendations
Sexual

Violence

for

Researching,

in

Emergencies

(Recomendaciones de tica y seguridad de la OMS para la

investigacin, la documentacin y el monitoreo de la violencia sexual en


situaciones de emergencia) (2007). Este documento se aplica a todas
las modalidades de investigacin sobre la violencia sexual en
situaciones de emergencia. En total, se formulan ocho recomendaciones
(consulte la parte III). En conjunto, estas recomendaciones tienen por
objeto velar por que se adopten las salvaguardias de tica y de
seguridad necesarias antes del comienzo de toda actividad de
recopilacin de informacin relativa a la violencia sexual en situaciones
de emergencia. A continuacin de cada recomendacin, se describen
las cuestiones clave de tica y seguridad que deben abordarse y las
preguntas que deben formularse antes de planificar cualquier actividad
de recopilacin de informacin relacionada con la violencia sexual. Estas
recomendaciones tambin deben servir de base al decidir si debe
emprenderse una actividad de esta naturaleza. En los casos en que fue
posible, la explicacin se respald con ejemplos de buenas prcticas
extradas de experiencias en el campo tanto en situaciones de
emergencia como en otras. Para ms informacin sobre diversos temas,
se remite a los usuarios a una lista de otros recursos y lecturas
complementarias sugeridas que se adjunta como anexo a este
documento. Est disponible en ingls y francs.

Introduccin a las Evaluaciones


Una Evaluacin Aleatoria es un tipo de Evaluacin de Impacto que usa un
proceso aleatorio para asignar recursos, ejecutar programas, o para aplicar
polticas como parte del diseo del estudio. Como todas las evaluaciones de
impacto, el propsito principal de las evaluaciones aleatorias es el de
determinar si un programa tiene impacto, y ms especficamente, cuantificar la
magnitud del impacto. Las evaluaciones de impacto tpicamente miden la
efectividad de un programa al comparar los resultados de aquellos (individuos,
comunidades, escuelas, etc.) que recibieron el programa, frente a aquellos que
no. Hay varios mtodos para hacer esto, pero las evaluaciones aleatorias son
generalmente consideradas las ms rigurosas y, con todo lo dems constante,
producen los resultados ms precisos (es decir, sin sesgo).

Para guardar una copia del documento, descargue el archivo "Introduccin a


las Evaluaciones.pdf"
La seccin de Metodologa cubre el qu, por qu, quin, cundo y cmo de las
evaluaciones aleatorias.

Para ms informacin acerca de evaluaciones aleatorias, visite:

Evaluando Programas Sociales: Curso Ejecutivo del Poverty Action Lab

Una versin en lnea gratuita del curso

Using Randomization in Development Economics Research: A Toolkit. E.


Duflo, M. Kremer y R. Glennerster

Randomized Evaluations of Educational Programs in Developing


Countries: Some Lessons. M. Kremer

Field Experiments in Development Economics. E. Duflo, Enero de 2006

Use of Randomization in the Evaluation of Development Effectiveness. E.


Duflo y M. Kremer, Julio de 2003

Scaling Up and Evaluation. E. Duflo, Mayo de 2003

Nonexperimental Versus Experimental Estimates of Earnings Impacts


S. Glazerman, D. Levy y D. Myers, Mayo de 2003

Qu es una Evaluacin?
La palabra evaluacin puede ser interpretada de manera bastante amplia.
Significa cosas distintas para distintas personas y organizaciones. Los
ingenieros, por ejemplo, pueden evaluar o probar la calidad del diseo de un
producto, la durabilidad del material, la eficiencia de un proceso productivo o la
seguridad de un puente. Los crticos evalan o resean la calidad de un
restaurant, pelcula o libro. Un psiclogo de nios puede evaluar o valorar el
proceso de decisin de los nios.

Los investigadores en J-PAL evalan programas sociales y polticas pblicas


diseadas para mejorar el bienestar de las personas pobres del mundo. Esto se
conoce como evaluacin de programas.
En pocas palabras, la evaluacin de un programa esta destinada a responder la
pregunta: Cmo est funcionando nuestro programa o poltica?. Esto puede
tener distintas respuestas dependiendo de quin est preguntando, y a quin le
estn hablando. Por ejemplo, si un donante pregunta al Director de la ONG
Cmo est funcionando nuestro programa? esto puede implicar: Has
estado

malgastando

nuestro

dinero?

Eso

puede

sentirse

como

un

interrogatorio. Alternativamente, si un poltico pregunta a su electorado, Cmo


est funcionando nuestro programa?, podra estar simplemente preguntando:
Est nuestro programa alcanzando sus metas? Cmo podemos mejorarlo
para usted?. Por ende, la evaluacin de programas puede ser asociada con
sentimientos positivos o negativos, dependiendo si su objetivo es el de exigir
una rendicin de cuentas o si se trata de un deseo de aprender.
J-PAL trabaja con gobiernos, ONGs, donantes, y otros socios que estn ms
interesados en aprender las respuestas a preguntas como: Cun efectivo es
nuestro programa? Esta respuesta puede ser dada a travs de una evaluacin
de impacto. Hay varios mtodos para realizar evaluaciones de impacto, pero la
que usa J-PAL es la evaluacin aleatoria.
A un nivel muy bsico, las evaluaciones aleatorias pueden responder la
pregunta: Fue efectivo el programa? Pero si est bien pensado su diseo e
implementacin, tambin puede responder a las preguntas: Cun efectivo
fue? Hubo efectos involuntarios? Quin se beneficio ms? Quin sali
perjudicado? Por qu funcion o por qu no? Qu aprendizajes pueden ser
aplicados en otros contextos, o si el programa se lleva a mayor escala? Cun
costo-efectivo result el programa? Cmo se compara con otros programas
diseados para cumplir los mismos objetivos? Para responder estas (tan
interesantes, si no es que ms interesantes) preguntas, el programa de
evaluacin debera ser parte de un paquete ms grande de evaluaciones y
ejercicios. Siguiendo el marco de Comprehensive evaluations de Rossi,
Freeman y Lipsy, este paquete ser cubierto en las siguientes secciones:

1.

Evaluacin de Necesidades

2.

Evaluacin Terica del Programa

3.

Evaluacin de Procesos

4.

Evaluacin de Impacto

5.

Anlisis de Costo-beneficio, Costo-efectividad, y Costo-comparacin

6.

Objetivos, Resultados y Mediciones

Las primeras dos evaluaciones (Necesidades y Teora del Programa) se


refieren a las necesidades que busca cubrir este programa y cules son los
pasos mediante los cuales lograr estos objetivos. Idealmente estos pasos
deberan ser fijados por las personas que llevarn a cabo la implementacin,
antes de que se establezca la evaluacin de impacto.
Las evaluaciones de procesos son tiles para los administradores del programa
y para medir si los hitos y resultados se estn logrando a tiempo. Muchas
organizaciones han establecido sistemas de seguimiento del proceso a
menudo clasificados como Evaluacin y Monitoreo (E&M).
Las evaluaciones de impacto estn diseadas para medir si el programa o la
poltica estn teniendo xito en el logro de sus objetivos.
Finalmente, los anlisis costo-beneficio y costo-efectividad son tiles para las
implicancias polticas de un programa. El primero observa si los beneficios
alcanzados por el programa justifican su costo. El segundo compara los
beneficios de este programa frente a otros programas diseados para lograr
objetivos similares.
En la realizacin de cualquier anlisis o evaluacin es imperativo pensar acerca
de cmo se puede medir el progreso. Los indicadores de progreso
manteniendo las metas de los programas y los resultados esperados en mente
requieren una reflexin importante as como tambin un sistema de
recoleccin de datos. Esto se cubre en Objetivos, resultados y mediciones.

Evaluacin de Necesidades
Los programas y polticas se realizan para enfrentar necesidades especficas.
Por ejemplo, podramos observar que la incidencia de la diarrea en una
comunidad es particularmente alta. Esto puede deberse a comida o agua
contaminada, mala higiene o cualquier otra explicacin plausible. Una
evaluacin de necesidades puede ayudarnos a identificar la fuente del
problema y a aquellos ms perjudicados.
Por ejemplo, el problema podra deberse al escurrimiento de fertilizantes
orgnicos que estn contaminando el agua que beben ciertas comunidades.
La evaluacin de necesidades es un enfoque sistemtico para identificar la
naturaleza y el alcance de un problema social, definir la poblacin objetivo a ser
atendida, y determinar la atencin que necesitan para hacer frente al problema.
Una evaluacin de necesidades es esencial, porque los programas sern
inefectivos si el servicio no se disea adecuadamente para atender las
necesidades o si las necesidades realmente no existen. Por ejemplo, si las
fuentes que contaminan el agua potable estn relacionadas con la agricultura,
las inversiones en infraestructura de saneamiento, tales como baos y sistemas
de alcantarillado, podran no resolver el problema. La evaluacin de
necesidades puede ser conducida utilizando indicadores sociales, encuestas y
censos, entrevistas, etc.
Evaluacin Terica del Programa
Los programas y polticas se realizan para enfrentar necesidades especficas.
Encontrar esa necesidad, usualmente, requiere ms reflexin que el encontrar
y presionar un botn o tomar una pldora. Para los responsables de hacer
polticas pblicas, requiere la identificacin de las razones que causan esos
resultados indeseables (ver evaluacin de necesidades), y elegir estrategias de
una larga lista de opciones para lograr tratar de tener distintos resultados.
Por ejemplo, si las personas estn tomando agua contaminada, un programa
podra ser diseado para prevenir que el agua sea contaminada mejorando la
infraestructura de saneamiento mientras que otra podra ser diseada para

tratar el agua contaminada utilizando cloro. Una propuesta de intervencin


podra tener como objetivo a aquellos responsables de la contaminacin, otra
podra apuntar a los que toman el agua. Una estrategia podra descansar en el
supuesto de que las personas no saben que el agua est sucia, otra, que ellos
saben pero no tienen acceso a cloro, e incluso otra, sera que an sabiendo y
teniendo el acceso a cloro, no lo hacen porque tienen otras razones (por
ejemplo, falta de informacin, sabor, costo, etc.). Estos programas deben
analizar simultneamente las restricciones de capacidades (financieras,
humanas e institucionales) y las realidades polticas de sus contextos. Al
concebir una respuesta apropiada, los actores de polticas pblicas,
implcitamente, toman decisiones acerca de cul es la mejor intervencin y por
qu. Cuando este ejercicio mental es documentado explcitamente de forma
estructurada, los responsables de hacer poltica pblica estn conduciendo lo
que se conoce como evaluacin terica del programa, o evaluacin de diseo.
Una Evaluacin Terica del Programa modela la teora que est detrs del
programa, presentando un plan viable y factible para mejorar la condicin social
del objetivo. Si las metas y supuestos son irracionales, entonces hay pocas
posibilidades de que el programa sea efectivo. La evaluacin terica del
programa incluye primero, articular el programa terico y despus evaluar cun
bien la teora responde a las necesidades de la poblacin objetivo. Las
metodologas usadas en la evaluacin terica de programas incluyen el
Enfoque del Marco Lgico o Teora del Cambio.
La siguiente tabla es un ejemplo simple de un marco lgico: (Forthcoming)
Evaluacin de Procesos
Antes de ser lanzado, cualquier programa existe a nivel conceptual como un
diseo, descripcin o plan (vea Evaluacin Terica del Programa). Pero una vez
lanzando, el programa enfrenta realidades de terreno: La organizacin cuenta
con un buen y entrenado equipo de trabajo? Estn las responsabilidades bien
asignadas? Estn siendo completadas las tareas de los intermediarios a
tiempo? Si el programa fue diseado para proveer tabletas de cloro a los
hogares para tratar el agua contaminada, por ejemplo, Estn alcanzando a

entregar la cantidad apropiada de tabletas de cloro en los centros de


distribucin a tiempo?
La Evaluacin de procesos, tambin conocida como evaluacin de la
implementacin o evaluacin del proceso del programa, analiza la efectividad
de las operaciones del programa, la implementacin y la entrega de servicios.
Cuando la evaluacin de procesos est en curso se llama monitoreo del
programa (como en Evaluacin y Monitoreo: E&M). La evaluacin de procesos
nos ayuda a determinar, por ejemplo:

Si los servicios y metas estn alineados apropiadamente.

Si los servicios estn siendo entregados a los destinatarios, como se


pretenda.

Cun bien est organizado el servicio de entrega.

La efectividad de la gestin del programa.

Cun efectivamente se estn usando los recursos del programa.1

Las evaluaciones de procesos son usadas a menudo por los administradores


como puntos de referencia para medir el xito, por ejemplo: la distribucin de
tabletas de cloro est alcanzando el 80% de los beneficiarios que se pretendan
por semana. Estos puntos de referencia pueden ser fijados por administradores
del programa, y a veces por donantes. En muchas organizaciones grandes, la
supervisin del progreso es la responsabilidad de un departamento de
Evaluacin y Monitoreo (E&M). Con el fin de determinar si se estn alcanzando
los puntos de referencia, mecanismos de recoleccin de datos deben existir.
1 Rossi, Peter, et al. Evaluation. A Systematic Approach. Thousand Oaks: Sage
Publications, 1999.
Evaluacin de Impacto
Los programas y las polticas estn diseados para alcanzar una meta (o una
serie de metas). Por ejemplo, un programa para la distribucin de cloro puede
ser implementado especficamente para combatir la alta incidencia de

enfermedades transmitidas por el agua en una regin. Podramos preguntarnos


si el programa est resultando exitoso en lograr esta meta. Esto no es lo mismo
que preguntar El cloro mata la bacteria? o El consumo de cloro es
perjudicial?. Estas preguntas pueden responderse en un laboratorio real. Para
que nuestro programa alcance su meta de detener las enfermedades, se debe
asignar el dinero, se deben comprar las tabletas de cloro, se deben acomodar
los mecanismos de distribucin, los hogares deben recibir las tabletas, deben
usarlas, y no deben consumir agua no tratada. Una evaluacin de programa
nos ayuda a determinar si todos estos requisitos se estn cumpliendo, y si
nuestro objetivo se est logrando segn lo previsto.
Como parte normal de la operacin, ej. contabilidad bsica, cierta informacin
es producida, como cuantas cajas de tabletas de cloro han sido enviadas. Esto
puede ser usado para la evaluacin de procesos. Pero no nos puede decir si
hemos reducido exitosamente la incidencia de diarrea. Para medir el impacto,
debemos utilizar indicadores ms directos, tales como el nmero de personas
que declar sufrir de diarrea en los ltimos dos meses.
Las evaluaciones de impacto miden el xito de un programa donde el xito
puede ser una definicin amplia o estrecha. Nos ayuda a eliminar las
intervenciones menos eficaces de todas las intervenciones exitosas y mejorar
los programas existentes.
El principal propsito de una evaluacin de impacto es la determinar si un
programa tiene impacto (en unos cuantos resultados clave), y ms
especficamente, cuantificar cun grande es el impacto. Qu es impacto? En
nuestro ejemplo del cloro, impacto es cunto ms saludable estn las personas
gracias al programa de lo que podran haber estado sin el mismo. O ms
especficamente, cuanto ms disminuyo la incidencia de diarrea con el
programa que sin ste.
Conseguir esta cifra correcta es ms difcil de lo que parece. Es posible medir
la incidencia de la diarrea en una poblacin que recibe el programa, pero es
imposible medir directamente Cmo estaran si no hubiesen recibido el
programa? as como es imposible medir cmo estara la economa
Estadounidense hoy si los Nazis hubiesen ganado la Segunda Guerra Mundial,

o cual sera la enfermedad ms mortal hoy en da si no se hubiese descubierto


la penicilina en el sucio laboratorio de Alexander Fleming en 1928 en Londres.
Es posible que Alemania se hubiese convertido en la economa dominante del
mundo, o alternativamente, que los Nazis hubiesen cado unos aos despus.
Es posible que pequeas heridas siguieran siendo causantes de muchas
muertes, o alternativamente, algo parecido a la penicilina hubiese sido
descubierto en un laboratorio diferente en otra parte del mundo. En nuestro
ejemplo de las tabletas de cloro, es posible que sin el cloro, las personas se
hubiesen mantenido enfermas como lo estaban antes, o es posible que
hubiesen empezado a hervir el agua y que las tabletas de cloro slo iban a
servir como sustituto de una tecnologa por otra sugiriendo que las personas
no estn ms saludables gracias a las tabletas de cloro.
Las evaluaciones de impacto, usualmente, estiman la efectividad de un
programa al comparar los resultados de aquellos (individuos, comunidades,
escuelas, etc.) que participaron en el programa frente a los que no lo hicieron.
El desafo clave en una evaluacin de impacto es el encontrar un grupo de
personas que no participaron, pero que son lo suficientemente parecidas como
para medir cmo estaran los participantes si no hubiesen recibido el
programa. Hay varios mtodos para hacer esto y cada mtodo viene
acompaado de sus propios supuestos.
Una tabla comparando las diferentes metodologas se puede encontrar en la
seccin Por qu aleatorizar?
Anlisis de Costo-beneficio/Efectividad/Comparacin
Dos organizaciones pueden tener estrategias muy distintas para enfrentar el
mismo problema. Si el suministro de agua de una comunidad, por ejemplo,
fuera contaminado llevando a una gran epidemia de diarrea, una ONG puede
abogar por realizar inversiones en infraestructura moderna para sanear el agua,
incluyendo un sistema de alcantarillado, tuberas de agua, etc. Otra ONG
podra proponer un sistema de distribucin donde los hogares reciban,
gratuitamente, tabletas de cloro para tratar el agua en su propia casa. Si estos
dos mtodos fuesen igualmente efectivos cada uno reduciendo la diarrea en
80 porciento, Estaran los responsables de hacer polticas pblicas igual de

contentos implementando una u otra? Probablemente no; ya que necesitaran


considerar los costos de cada estrategia.
Es muy probable que la inversin en infraestructura moderna en un pueblo
lejano sea prohibitivamente cara. En este caso, la opcin sera clara. No
obstante, las opciones no son siempre tan blancas o negras. Una opcin ms
realista (pero an hipottica) sera entre una inversin en infraestructura que
reduce la diarrea en un 80 por ciento, frente a un programa de distribucin de
tabletas de cloro que cuesta 1/100 parte del precio, y reduce la diarrea en un
50 porciento.
Un anlisis costo-beneficio cuantifica los beneficios y costos de una actividad y
los pone en la misma medida mtrica (a menudo en una unidad monetaria). Se
trata de responder la pregunta: Est el programa produciendo suficientes
beneficios para compensar los costos? O en otras palabras, La sociedad ser
ms rica o ms pobre despus de realizar esta inversin? De todas formas,
tratar de cuantificar el beneficio de la salud de los nios en trminos monetarios
puede ser extremadamente difcil y subjetivo. Por lo tanto, cuando el valor
exacto del beneficio carece de un amplio consenso, este tipo de anlisis puede
producir resultados que son ms controversiales que esclarecedores. Este
enfoque es ms til cuando hay mltiples tipos de beneficios y se ha acordado
monetizarlos.
Un anlisis de costo-efectividad toma el impacto de un programa (por ejemplo,
porcentaje de reduccin en la incidencia de la diarrea), y lo divide por el costo
del programa, generado estadsticas tales como: el nmero de casos de diarrea
prevenidos por dlar invertido. Esto no crea ningn juicio respecto del valor de
la reduccin de la diarrea.
Finalmente, un anlisis de comparacin de costo tomar mltiples programas y
los comparar usando la misma unidad permitiendo a los encargados de
realizar polticas pblicas preguntar: Cunto cuesta, por dlares, la reduccin
de la diarrea de cada estrategia?
Objetivos, Resultados y Mediciones

Cuando se realiza una evaluacin de programa, a menudo a los gobiernos y las


ONGs se les piden destilar la misin de un programa a un puado de
resultados que, se entiende, se utilizarn para definir su xito. Adems de esta
dificultad, cada resultado debe ser simplificado an ms a un indicador como la
respuesta a una pregunta de la encuesta, o al resultado de una prueba.
Ms que ser una labor de grandes proporciones, esto puede parecer imposible
y la peticin absurda. En el proceso, los evaluadores pueden parecer
preocuparse slo acerca de los datos y las estadsticas no de la vida de las
personas afectadas por el programa.
Para algunos objetivos, los indicadores correspondientes resultan ser naturales.
Por ejemplo, si el objetivo de la distribucin de tabletas de cloro es el de reducir
las enfermedades transmitidas por el agua, el resultado relacionado puede ser
una reduccin de la diarrea. El indicador correspondiente, incidencia de la
diarrea, podra venir de una pregunta en una encuesta en el hogar donde a los
encuestados se les pregunta directamente, Alguno de los miembros de su
familia sufri de diarrea en la semana pasada?
Para otros objetivos, tales como empoderar a la mujer, o mejorar el civismo
los resultados no caen tan fcilmente en su lugar. Esto no significa que muchos
objetivos son inmensurables. Por el contrario, se requiere ms reflexin y
creatividad para disear el indicador correspondiente. Para tener ejemplos de
resultados difciles de medir, vea el artculo adjunto.
Qu es la Aleatorizacin?
En el sentido ms simple, la aleatorizacin es lo que sucede cuando se lanza
una moneda, un dado, o cuando se hace una lotera, que determina qu es lo
que pasa a continuacin. Tal vez el resultado de esa moneda determina quin
debe hacer alguna tarea; el dado determina quin recibe un monto de dinero; o
la lotera determina quin participa en una actividad, o una encuesta. Cuando
estas herramientas (la moneda, el dado o la lotera) se usan para tomar
decisiones, se puede decir que el resultado se dej en manos del azar, o que el
resultado es aleatorio.

Por qu la gente deja que el azar determine su destino? Algunas veces,


porque lo perciben como justo. Otras veces, porque la incertidumbre agrega un
elemento de excitacin. Los Estadsticos usan la aleatorizacin porque, cuando
una cantidad suficiente de personas son seleccionadas aleatoriamente para
participar en una encuesta, convenientemente, los atributos de esos individuos
elegidos son representativos del grupo entero del que fueron elegidos. En otras
palabras, lo que se descubra en ellos es probablemente cierto acerca del grupo
ms grande. Usar la lotera para obtener una muestra representativa es
conocido como muestreo aleatorio o seleccin aleatoria.
Cuando dos grupos son seleccionados aleatoriamente de la misma poblacin,
ambos representan el grupo grande. No son slo estadsticamente equivalentes
al grupo grande; sino que tambin son estadsticamente equivalentes uno del
otro. La misma lgica se lleva adelante si ms de dos grupos son
seleccionados aleatoriamente. Cuando dos o ms grupos son seleccionados de
esta forma, podemos decir que los individuos fueron asignados aleatoriamente
a los grupos; esto se llama asignacin aleatoria (asignacin aleatoria es
tambin el trmino apropiado cuando todos los individuos de un grupo grande
son divididos aleatoriamente en diferentes grupos. Tal como antes, todos los
grupos representan el grupo grande y son estadsticamente equivalentes el uno
del otro). La asignacin aleatoria es el elemento clave de la evaluacin
aleatoria.
Lo que sucede despus en una evaluacin aleatoria simple (con dos grupos) es
que un grupo recibe el programa que est siendo evaluado y el otro no. Si
estuviramos por evaluar un programa de purificacin de agua utilizando este
mtodo, asignaramos aleatoriamente individuos a los dos grupos. Al inicio, los
dos grupos seran estadsticamente equivalentes (y se espera que tengan
trayectorias equivalentes haca el futuro). Pero despus introducimos algo que
hace que sean diferentes; un grupo recibi el programa de purificacin de agua
y el otro no. Despus de un tiempo, podramos medir la salud relativa de los
individuos en los dos grupos. Debido a que ellos son estadsticamente
equivalentes al principio, las diferencias posteriores slo pueden atribuirse a la
entrega del servicio de purificacin de agua.

El por qu se usa este mtodo es un tema que ser cubierto en la seccin Por
qu Aleatorizar?.
Las Evaluaciones Aleatorias tienen varios nombres:

Pruebas de Evaluacin Aleatorias

Experimentos Sociales

Estudios de Asignacin Aleatoria

Pruebas de Campo Aleatorias

Experimentos Aleatorios Controlados

Las Evaluaciones Aleatorias son parte de un set ms grande de evaluaciones


llamadas Evaluaciones de Impacto. Las evaluaciones aleatorias a menudo se
consideran el estndar de oro de las evaluaciones de impacto, porque siempre
producen resultados ms precisos.
Como todas las evaluaciones de impacto, el propsito principal de la
aleatorizacin es la de determinar si un programa tiene impacto, y ms
especficamente, cuantificar cun grande es el impacto. Las evaluaciones de
impacto miden la efectividad del programa, tpicamente comparando los
resultados de aquellos (individuos, comunidades, escuelas, etc.) que
participaron en el programa frente a aquellos que no lo hicieron. Hay varios
mtodos para hacer esto.
Lo que distingue las evaluaciones aleatorias de las que no lo son es que la
participacin (y no participacin) es determinada aleatoriamente antes de que
el programa inicie. Esta asignacin aleatoria es el mtodo usado en las pruebas
mdicas para determinar quin recibe un medicamento y quin recibe un
placebo cuando se mide la efectividad (y efectos colaterales) de una nueva
medicina. De la misma forma que en las pruebas mdicas, aquellos en el
programa que fueron asignados aleatoriamente al grupo tratamiento son
elegibles para recibir el tratamiento (es decir, el programa); y son comparados
con aquellos que aleatoriamente fueron asignados al grupo control- aquellos
que no reciben el programa. Debido a que los miembros de los grupos

(tratamiento y control) no difieren sistemticamente desde el principio del


experimento, cualquier diferencia subsecuente que surja entre ellos se atribuye
al tratamiento ms que a cualquier otro factor. Frente a los resultados de
estudios no experimentales, los resultados de los estudios experimentales son:

Menos sujeto a debates metodolgicos

Ms fciles de transmitir

Ms probable de ser convincentes a personas que financian programas


y actores de polticas pblicas.

Ms all de cuantificar los resultados causados por un programa, las


evaluaciones aleatorias pueden cuantificar la incidencia de efectos secundarios
no deseados (buenos o malos). Y al igual que otros mtodos de evaluacin de
impacto, las evaluaciones aleatorias pueden dar una idea del por qu el
programa falla o ha fallado en tener el impacto deseado.
1. Aleatorizacin en el contexto de Evaluacin
Las evaluaciones aleatorias son un tipo de evaluacin de impacto que usa una
metodologa especfica para crear un grupo de comparacin en particular, la
metodologa de la asignacin aleatoria. Las evaluaciones de impacto son
evaluaciones de programas que se enfocan en medir los resultados finales de
un programa. Hay muchos tipos de evaluaciones que pueden ser relevantes a
los programas ms all de medir la efectividad. (Vea Qu es una
Evaluacin?)
2. Metodologa de Aleatorizacin
Para entender mejor cmo funciona la metodologa, vea Cmo realizar una
evaluacin aleatoria.
Por qu
El propsito de las evaluaciones no es siempre claro para aquellos que vieron
la realizacin de las encuestas, entraron la informacin, y que despus
entregaron reportes escritos que son rpidamente archivados para no ser

nuevamente vistos. Lo nico que se muestra a lo largo de todo el ejercicio es


que el dinero, que pudo haber sido usado para expandir el programa, ahora ha
desaparecido en esta evaluacin y ya no est disponible. Esta historia es ms
comn cuando las evaluaciones son impuestas por otros.
Si, por otro lado, aquellos responsables de tomar decisiones acerca de cmo
disear el programa o aquellos que deciden qu programas implementar,
tienen preguntas crticas, las evaluaciones pueden ayudarlos a encontrar las
respuestas. Una evaluacin es ms til cuando los encargados de un programa
o los responsables de hacer polticas pblicas estn conduciendo la discusin
acerca de qu debera ser evaluado. Se puede encontrar ms informacin en la
seccin Por qu Evaluar?
Tal vez, una evaluacin que hace las preguntas equivocadas es tan frustrante
como una que hace las preguntas correctas pero produce respuestas no
fiables. Montos significativos de dinero, tiempo, reflexin y esfuerzo se van en
la bsqueda de encontrar las preguntas adecuadas. No es mucho pedir por
respuestas precisas. En muchos casos, si se utiliza una metodologa
equivocada, incluso las tcnicas estadsticas ms elegantes no podrn corregir
esos errores. Un diseo aleatorio puede ayudar a asegurar que las respuestas
son fiables.
Por qu evaluar?
El propsito de las evaluaciones no es siempre claro, en particular para
aquellos que vieron la realizacin de las encuestas, entraron la informacin, y
que despus entregaron reportes escritos que son rpidamente archivados
para no ser nuevamente vistos. Esto es ms comn cuando las evaluaciones
son impuestas por otros.
Si, por otro lado, aquellos responsables de las operaciones del da a da de un
programa tienen preguntas crticas, las evaluaciones pueden ayudar a
encontrar las respuestas. Como ejemplo, la ONG responsable de la distribucin
de tabletas de cloro podra hablar con su equipo de trabajo local y escuchar
historias de hogares que usan diligentemente las tabletas, y ocasionalmente ver
mejoras en la salud. Pero cada vez que llueve fuerte, los hospitales se llenan
de personas que sufren de diarrea. La ONG podra preguntarse, si las

personas estn usando cloro para tratar el agua, Por qu estn enfermndose
cuando llueve?. An cuando el agua pueda estar ms contaminada, las
tabletas de cloro son efectivas para matar bacterias. La ONG podra
preguntarse si las pastillas de cloro son realmente efectivas para matar
bacterias. Estarn las personas utilizando la proporcin adecuada? Tal vez
nuestros empleados en terreno no nos estn diciendo la verdad. Tal vez los
beneficiaros no estn usando las tabletas. Tal vez ni siquiera estn recibiendo
las tabletas. Y al confrontar estos hechos, los empleados en terreno se quejan
de que durante las lluvias es difcil llegar a los hogares y distribuir tabletas. Los
hogares, por otro lado, van a responder que ellos usan las tabletas durante las
lluvias y que les ayudan bastante.
Hablar con individuos en distintos niveles de la organizacin as como con
grupos de inters puede permitirnos descubrir muchas historias acerca de qu
est pasando. Estas historias pueden ser la base de teoras. Pero explicaciones
plausibles no son lo mismo que respuestas. Las evaluaciones incluyen el
desarrollo de hiptesis acerca de qu est pasando, para despus probar estas
hiptesis.
Por qu aleatorizar?
Qu es impacto? En nuestro ejemplo del cloro, impacto es cunto ms
saludables estn las personas gracias al programa, de lo que estaran si no se
hubiese aplicado el mismo. O ms especficamente, en cunto disminuy la
incidencia de diarrea de lo que lo hubiese hecho si no se hubiera aplicado el
programa.
Obtener este nmero correctamente es ms difcil de lo que parece. Es posible
medir la incidencia de la diarrea en una poblacin que recibe el programa, pero
el Qu hubiese pasado sin ste? (denominado, el contrafactual) es imposible
de medir directamente, slo puede ser inferido.
Construyendo el grupo de Comparacin
Las evaluaciones de impacto estiman la efectividad del programa usualmente al
comparar los resultados de aquellos (individuos, comunidades, escuelas, etc.)
que participaron en el programa frente a aquellos que no lo hicieron. El desafo

clave en la evaluacin de impacto es encontrar un grupo de personas que no


participaran, pero con caractersticas lo suficientemente cercanas a la de los
participantes, y en particular, a los participantes si no hubiesen recibido el
programa. Medir los resultados en este grupo de comparacin es lo ms
cercano que podemos estar de medir cmo estaran los participantes si no
hubiesen recibido el programa. Es por esto, que nuestra estimacin del
impacto es tan buena como nuestro grupo de comparacin es equivalente.
Hay muchos mtodos para crear grupos de comparacin. Algunos mtodos
funcionan mejor que otros. Con todo lo dems igual, las evaluaciones aleatorias
son las que funcionan mejor. Generan grupos de comparacin estadsticamente
idnticos, y por ende producen los resultados ms precisos (sin sesgo). O
dicho de otra forma: otros mtodos, a menudo, producen resultados engaosos
resultados que llevaran a los responsables de la creacin de polticas
pblicas a tomar las decisiones opuestas a lo que la verdad les hubiese
mostrado.
Estos otro mtodos no siempre nos dan la respuesta errnea, pero descansan
sobre ms supuestos. Cuando los supuestos se mantienen, las respuestas no
tienen sesgo. Pero es normalmente imposible, y siempre difcil, asegurar que
los supuestos son verdaderos. De hecho, es probable que la mayora de los
debates acerca de la validez de una evaluacin giran en torno a los
desacuerdos sobre la racionalidad de los supuestos.
Ms all de evitar debates acerca de los supuestos, las evaluaciones aleatorias
producen resultados que son muy fciles de explicar. Aqu se muestra una tabla
de comparacin de los mtodos de evaluacin comnmente usados.
Quienes?
Cada evaluacin aleatoria (EA) se hace posible a travs de una asociacin
entre investigadores, organizaciones que ejecutan los programas a ser
evaluados (como gobiernos o ONG), donantes, quienes financian los
programas de investigacin, centros de investigacin, quienes emplean el
personal asociados con cada evaluacin y los sujetos de investigacin que
estn de acuerdo en participar. Los programas sociales que evalan las EA a
menudo son diseados para ser dirigidos a cierta poblacin, por ejemplo, los

pobres o los desamparados. Las poblaciones objetivo de estos programas


tambin son los sujetos de investigacin que participan en las EA.
Para una visin general de los principales actores que conducen EAs, haga clic
aqu.
Para mayor informacin sobre las personas que participan en las EAs como
sujetos de investigacin, por favor haga clic aqu.
Quin Conduce las Evaluaciones Aleatorizadas?
J-PAL se fund en 2003 como una red de profesores afiliados que conducen
evaluaciones de impacto usando la metodologa de evaluacin aleatoria (EA),
con el propsito de responder preguntas crticas relacionadas con el alivio de la
pobreza. Los afiliados de J-PAL tambin conducen investigaciones no
aleatorias, y muchas otras personas e instituciones conducen EAs. Para una
breve historia del camino recorrido por las EA desde ensayos clnicos a
experimentos agrcolas a programas sociales a alivio de la pobreza, haga clic
aqu. Para una breve historia de J-PAL, haga clic aqu.
Desde la fundacin de J-PAL, ms de 200 organizaciones se han unido a un
afiliado de J-PAL en alguna EA. Entre los actores claves para el alivio y
desarrollo de la pobreza, el concepto de EA hoy es bastante conocido.
De las diez principales fundaciones de los Estados Unidos,1 cuatro de las seis
que trabajan en desarrollo internacional han trabajado con un afiliado de J-PAL
en alguna EA. La Bill & Melinda Gates Foundation, la Ford Foundation, la
William and Flora Hewlett Foundation, y la John D. and Catherine T. MacArthur
Foundation2 se incluyen entre estas fundaciones.
De las diez principales organizaciones multilaterales,3 cuatro se han unido con
un afiliado de J-PAL en alguna EA (el World Bank, el Asian Development Bank,
Unicef, y el Banco Interamericano de Desarrollo), y seis de las diez han enviado
personal a los cursos ejecutivos de J-PAL.
De las Ocho Grandes organizaciones de beneficencia,4 Save the Children,
Catholic Relief Services, CARE, y Oxfam se han unido con un afiliado de J-

PAL en alguna EA. El International Rescue Committee se encuentra haciendo


EAs por su cuenta. Y seis de las ocho han enviado personal a los cursos
ejecutivos de J-PAL.
Gobiernos tambin se han unido a afiliados de J-PAL. Los principales socios de
pases donantes incluyen los Estados Unidos (USAID, MCC), Francia (Le
Ministre de la Jeunesse et des Solidarits Actives), Suecia y el Reino Unido
(DFID). Los socios de gobiernos de pases en desarrollo han sido tanto a nivel
nacional (Ej. Ministerio de la Educacin de Kenia y la Secretara de
Descentralizacin del Gobierno de Sierra Leona) como a nivel sub-nacional
(Ej. el Gobierno de Andhra Pradesh, el Pollution Control Board de Gujarat, y la
polica de Rajasthan).
Se han establecido varios centros con el apoyo o bajo la direccin de los
afiliados de J-PAL. Estos centros de investigacin a menudo ejecutan las EA de
los investigadores afiliados y emplean el personal relacionado con cada EA.
Estos centros de investigacin incluyen: Innovations for Poverty Action (IPA),
Centre for Microfinance, Center for International Development's MicroDevelopment Initiative, Center of Evaluation for Global Action, Ideas42, y el
Small Enterprise Finance Center.
Las empresas privadas tambin conducen evaluaciones aleatorias de
programas sociales. Dos ejemplos de ello son Mathematica Policy Research y
Abt Associates.
1 Cuando se mide por donacin.

2 Las otras dos que trabajan en desarrollo internacional, pero que no se han
unido con J-PAL son la Fundacin W.K. Kellogg y la Fundacin David and
Lucile Packard. Las cuatro que hemos considerado que tienen un foco local en
Estados Unidos son Getty Trust, Robert Wood Johnson Foundation, Lilly
Endowment Inc., y Andrew W. Mellon Foundation.
3 Cuando se mide por asistencia oficial al desarrollo otorgada, incluyendo
Banco Mundial, Grupo Banco Africano de Desarrollo, The Global Fund, Banco
Asitico de Desarrollo, Fondo Monetario Internacional, Unicef, UNRWA, Banco

Interamericano de Desarrollo, Programa de las Naciones Unidas para el


Desarrollo, y World Food Program.
4 Cuando se mide por presupuesto anual. Estas son World Vision, Save the
Children, Catholic Relief Services, CARE, Medecins Sans Frontieres, Oxfam,
International Rescue Committee, y Mercy Corps.
Quin Participa en las Evaluaciones Aleatorias?
La pregunta de quin participa en una evaluacin aleatoria involucra a algunos
de los asuntos ms delicados confrontados por un evaluador. Al responder esta
pregunta, el evaluador debe considerar qu es tico y justo. Sera poco tico,
por ejemplo, privar a un hogar de una solucin de tratamiento de agua por
motivos de un experimento cuando de otra forma ste s hubiera tenido acceso
al servicio.
1.

Asuntos ticos

Entonces, Cmo puede un evaluador conducir un experimento y tambin


llevar

estndares

de

tica

justicia?

Las evaluaciones aleatorias pueden ser apropiadas en situaciones en las


cuales existen recursos restringidos. Tpicamente, una organizacin no tiene
suficiente presupuesto como para aplicar un programa a toda una comunidad o
distrito o pas. Debido a restricciones presupuestarias, la organizacin debe
decidir quin recibe el programa y quin no. Incluso si determinan un subgrupo
de personas que necesitan ms el programa, o que se veran ms
beneficiados, probablemente no sean capaces de cubrir a todos aquellos
pertenecientes a estos subgrupos. Esto brinda al evaluador la oportunidad de
llevar a cabo una evaluacin aleatoria. Un evaluador puede decidir
aleatoriamente cmo asignar los recursos escasos dentro del sub grupo
objetivo.
Un evaluador no slo debe asegurarse de que el experimento sea tico, sino
adems que sea justo. Al asignar a los participantes a los grupos de control o
de tratamiento, un evaluador debera asegurarse que todos tengan iguales
probabilidades de estar en el grupo experimental y recibir el tratamiento. Dentro
de los mtodos justos para seleccionar participantes estn las loteras, las

introducciones graduales de programas, y la rotacin de participantes dentro


del programa para asegurar que todos reciban los beneficios. El proceso de
seleccin tambin debiera ser transparente y debe parecerle justo a la
comunidad.
Tpicamente los evaluadores se enfrentan con el problema de asignar
programas que son claramente beneficiosos, como la desparasitacin, o
soluciones de tratamiento de aguas. En otras palabras, el dilema tico surge
cuando se crea un grupo de individuos a los cuales se les negar el programa.
Algunas veces, sin embargo, los beneficios no han sido probados, lo que
significa que es posible que el programa pueda potencialmente empeorar la
situacin de los individuos. Por ejemplo, las compaas de medicamentos
suelen tener este problema cuando prueban nuevos tratamientos en sus
pacientes. En este caso, un evaluador debe poner mucha energa en asegurar
que los pacientes en el grupo de tratamiento no sern daados. De existir un
riesgo potencial para los participantes, entonces todos los involucrados deben
ser informados sobre los riesgos, y sus consentimientos son necesarios para
participar. Incluso si no pareciera haber riesgos, todo experimento debiera
requerir la informacin y el consentimiento de todos los participantes (tanto en
grupos de

comparacin

como

de

tratamiento). Diversas naciones y

organizaciones han desarrollado protocolos para los seres humanos, y stos


deben ser respetados. (Ver ms abajo)
2. Sujetos de Investigacin y la Comisin de Revisin Internacional
(Institutional Review Board)
Una Comisin de Revisin Internacional (IRB), tambin conocida como comit
de tica independiente o comisin de revisin de sujetos humanos, es un grupo
que ha sido designado formalmente por una institucin (como una universidad
u organizacin sin fines de lucro) con el propsito de aprobar, monitorear y
revisar la investigacin que involucra a humanos como participantes. El objetivo
de una IRB es garantizar, tanto antes de la implementacin y en revisiones
peridicas, que se toman los acciones correspondientes para proteger los
derechos y bienestar de los humanos que participan como sujetos en una
investigacin.

Debido a que los estudios de J-PAL involucran participantes humanos, los


asociados de J-PAL y su personal garantizan que sus estudios cumplan con las
pautas de los mtodos ticos de investigacin, los cuales incluyen:

Recepcin de las aprobaciones de la Comisin de Revisin Internacional


(IRB) para cada estudio antes de que ste comience,

Todo personal de estudio realiza curso de capacitacin de la IRB,

Seguimiento del protocolo y pautas de investigacin aprobados por la


IRB a lo largo del estudio.

Cundo?
Para una pequea resea sobre la historia de las evaluaciones aleatorias, ver
Cundo comenzaron las evaluaciones aleatorias?
Para leer cundo son apropiadas las evaluaciones aleatorias, ver : Cundo
conducir una evaluacin aleatoria? o Cundo (no) es apropiada la
aleatorizacin?
Cundo Comenzaron las Evaluaciones Aleatorias?
1. Ensayos Clnicos
El concepto de grupo experimental y de control fue introducido en 1747 por
James Lind cuando demostr los beneficios de los frutos ctricos para prevenir
el escorbuto a travs de un experimento cientfico.1 Por los resultados de su
trabajo, Lind es considerado como el padre de los ensayos clnicos. El mtodo
de asignacin aleatoria a grupos de control y tratamiento, sin embargo, no se
desarroll sino hasta la dcada de 1920.
2. Experimentos Agrcolas
La aleatorizacin se introdujo en la experimentacin cientfica en la dcada de
1920 cuando Neyman y Fisher condujeron las primeras pruebas aleatorias en
experimentos agrcolas. El experimento de campo de Fisher culmin con su

libro emblemtico, El Diseo de los Experimentos, que impuls en gran medida


el crecimiento de las evaluaciones aleatorias.2
3. Programas Sociales
Las pruebas aleatorias fueron introducidas para realizar experimentos sociales
patrocinados por los gobiernos entre 1960 y 1990. En vez de tratarse de
experimentos de pequea escala en animales y plantas, estos experimentos
eran de escala significativamente mayor, y enfocados en personas como objeto
de inters. La idea de conducir experimentos para programas sociales creci a
partir de un debate en la dcada de los 60 sobre los mritos del sistema de
bienestar social. El modelo de experimentacin social fue aplicado ms tarde
tanto en Europa como en los Estados Unidos para evaluar otros programas
tales como diseos de esquemas de precios de la electricidad, programas de
desempleo, y de subsidios de vivienda. Desde entonces, los experimentos
sociales son usados en diversas disciplinas y en una variedad de contextos
alrededor del mundo para guiar las decisiones de polticas pblicas.3
El Abdul Latif Jameel Poverty Action Lab (J-PAL) fue fundado en Junio de 2003
como una red de profesores afiliados de todo el mundo, a quienes los une el
uso de evaluaciones aleatorias para responder preguntas esenciales para la
reduccin de la pobreza
1. Thomas, Duncan P. Sailors, Scurvy y Science. Journal of the Royal
Society of Medicine. 90 (1997).
2. Levitt, Steven D. y List, John A.,Field Experiments in Economics: The
Past, the Present, and the Future (Septiembre de 2008). NBER Working
Paper

No.

W14356.

Disponible

en

SSRN:

http://ssrn.com/abstract=1271388
3. ibid
Cundo Conducir una Evaluacin?
El valor agregado de evaluar una poltica pblica rigurosamente depende del
momento en el ciclo de vida del programa en el que se lleva a cabo dicha

evaluacin. La evaluacin no debiera ser muy temprano: cuando el programa


an est tomando forma y sus aristas estn siendo perfeccionadas. Tampoco
debiera ser muy tarde: despus de que los fondos han sido asignados y que el
programa se ha desplegado, de manera que no hay ya espacio para un grupo
de control.
El tiempo ideal es durante la fase piloto de un programa, o antes de aumentar
la escala de ste. Durante estas etapas surgen preguntas importantes que a un
evaluador le gustara poder contestar: Qu tan efectivo es el programa?, Es
efectivo en distintas poblaciones?, Hay algunos factores que funcionan mejor
que otros?, y pueden los otros ser mejorados?, Es el programa efectivo
cuando se aplica a una poblacin ms grande?
Durante la fase piloto, los efectos de un programa sobre una poblacin
determinada son desconocidos. El programa incluso podra ser nuevo, o
podra ser uno antiguo que se aplica a una nueva poblacin. En ambos casos,
los jefes del programa y los diseadores de polticas pblicas quisieran
comprender mejor la efectividad del programa y cmo puede ser mejorado.
Casi por definicin, el programa piloto se aplica slo a una porcin de la
poblacin objetivo, lo que hace posible la realizacin de un experimento
aleatorio. Luego de la fase piloto, si el programa ha resultado ser efectivo,
conduciendo a un mayor apoyo y a una mayor asignacin de recursos,
entonces el programa puede ser replicado o expandido a todo el resto de la
poblacin objetivo.
Un ejemplo de una evaluacin aplicada en el momento adecuado es el de
PROGRESA, un programa de transferencias monetarias condicionadas,
aplicado en Mxico en 1997. El programa daba subsidios en efectivo a las
madres siempre y cuando stas se aseguraran de que sus hijos fueran
regularmente a la escuela y recibieran vacunas programadas. El partido poltico
que haba estado en el poder por 68 aos, Partido Revolucionario Institucional
(PRI), estaba enfrentando una derrota inminente en las elecciones venideras.
Un resultado probable de la derrota electoral era el desmantelamiento de
programas como PROGRESA. Para poder defender este programa, el PRI tuvo
que demostrar claramente la efectividad de la poltica pblica para mejorar la
salud y la educacin de los nios.

PROGRESA fue introducido primero como un programa piloto en reas rurales


en 7 estados. De las 506 comunidades escogidas por el gobierno mexicano
para el piloto, 320 fueron aleatoriamente asignadas al grupo de tratamiento y
186 al de control. Al comparar ambos grupos al cabo de un ao, se encontr
que los niveles de salud y educacin de los nios tratados eran mejores. Como
era de esperar, la popularidad del programa se expandi desde sus defensores
iniciales y beneficiarios directos hasta la totalidad de la nacin.
Luego de la esperada derrota del PRI en las elecciones de 2000, el nuevo
partido poltico (PAN) tom el poder y hered un programa de gran popularidad.
En vez de desmantelar PROGRESA, el PAN le cambi el nombre a
OPORTUNIDADES, y lo expandi a toda la nacin.
El programa se replic rpidamente en otros pases, como Nicaragua, Ecuador
y Honduras. Adems, siguiendo la pauta de Mxico, estos nuevos pases
condujeron estudios piloto para evaluar el impacto de otros programas como
PROGRESA antes de replicarlos a gran escala.
Cundo (no) es Apropiada la Aleatorizacin?
Las Evaluaciones Aleatorias pueden no ser apropiadas:
1. Cuando se evalan polticas macro.
Ningn evaluador tiene el poder poltico para conducir una evaluacin aleatoria
de distintas polticas monetarias. No se puede asignar aleatoriamente un tipo
de cambio flotante al Japn y otras naciones, y un tipo de cambio fijo a los
Estados Unidos y otro grupo de naciones.
2. Cuando es poco tico o polticamente imposible negarle el programa al
grupo de control.
No sera tico negar un medicamento con beneficios ya comprobados a un
grupo de pacientes si es que se tienen los recursos para darlo.
3. Si el programa cambia durante el curso del experimento.

Si a la mitad de un experimento el programa cambia de ofrecer solucin de


tratamiento de aguas a ofrecer tratamiento de aguas y una letrina, se vuelve
difcil interpretar qu parte del programa caus los resultados observados.
4. Cuando el programa en su fase experimental es significativamente
diferente a como se espera que sea el programa en condiciones
normales.
Durante un experimento es ms probable que los participantes usen la solucin
de tratamiento de agua si se les da incentivos. En condiciones normales, sin
incentivos ser menor el nmero de personas que realmente usen la solucin
de tratamiento de agua, incluso si ya la tienen y saben como usarla.
A modo de advertencia, este tipo de evaluacin puede servir como Prueba de
Concepto. Sencillamente tratara de responder la pregunta puede este
programa o poltica ser efectivo?. No se esperara que arroje resultados
generalizados.
5. Cuando una EA consume demasiado tiempo o es muy costosa, por lo
tanto no es costo-efectiva.
Por ejemplo, debido a una poltica de gobierno, una organizacin puede no
tener suficiente tiempo para hacer un programa piloto y evaluarlo antes de su
implementacin.
6. Cuando la atricin o el efecto de las externalidades son demasiado
difciles de controlar y esto daa la integridad del experimento.
Una organizacin puede decidir evaluar el impacto de un medicamento para
eliminar parsitos sobre la asistencia a clases en un colegio particular. Debido
a que los medicamentos de desparasitacin tienen un efecto de externalidad (la
salud de un estudiante afecta en la salud de otros), ser difcil medir
adecuadamente el impacto del medicamento. En este caso, una solucin
podra ser la aplicacin del programa a nivel de escuela y no a nivel de alumno.
7. Cuando el tamao de la muestra es muy pequeo.

Si hay demasiado pocos sujetos participando en el programa piloto, incluso si el


programa

fue

exitoso,

no

hay

suficientes

observaciones como

para

estadsticamente detectar un impacto.


Cmo Conducir una Evaluacin Aleatoria
Algunos se refieren a las evaluaciones aleatorias como el estndar de oro de
las evaluaciones de impacto, porque son irrevocablemente las ms rigurosas
queriendo decir que son las que requieren menos supuestos, o menos saltos
de fe, cuando se sacan conclusiones de los resultados. Ser la ms rigurosa no
significa sin embargo ser la que requiere ms trabajo o costo. De hecho,
asignar a los individuos a los grupos de forma aleatoria para asegurar que sean
equivalentes al principio (ver Qu es Aleatorizar? y Por qu Aleatorizar? )
puede reducir la cantidad de trabajo estadstico para sintetizar un grupo de
comparacin equivalente ms adelante en la fase de anlisis.
Existen algunos desafos al conducir una evaluacin aleatoria: convencer a los
ejecutores del programa de aleatorizar, pensar sobre el diseo ms apropiado
para el experimento, asegurar que la integridad del diseo de la evaluacin (la
asignacin aleatoria) se mantenga. Pero la mayor parte del trabajo y costo
viene de asegurarse una muestra de tamao suficiente como para detectar un
impacto (un requisito tambin para las evaluaciones no aleatorias) y descubrir
qu hace funcionar o fallar al programa.
Planeando una Evaluacin
Al planear una evaluacin es importante identificar las preguntas claves que la
organizacin quiere responder. De stas, podemos determinar cuntas pueden
ser respondidas revisando las evaluaciones de impacto previas o de un sistema
mejorado de evaluacin de procesos. Asumiendo que no podamos responder
todas nuestras preguntas, debemos entontes escoger algunas que tengan
mayor prioridad, que sern el principal objetivo de nuestra evaluacin de
impacto. Finalmente debemos elaborar planes para responder la mayor
cantidad posible de estas preguntas, teniendo siempre en cuenta que unos
pocos estudios de impacto de alta calidad son ms valiosos que muchos
estudios de baja calidad.

El primer paso en una evaluacin es revisar las metas del programa y cmo
esperamos alcanzarlas. Un marco lgico o un modelo de teora de cambios
son tiles en este proceso (ver Evaluacin Terica del Programa). Al evaluar el
propsito y estrategia de un programa, debemos identificar los resultados clave,
los caminos esperados para lograr aquellos resultados, y algunos hitos que nos
indiquen que vamos por buen camino. Como es de esperar en una evaluacin,
estos resultados e hitos necesitarn ser medidos, y por lo tanto transformados
en indicadores y, finalmente, en informacin (ver Objetivos, Resultados y
Mediciones).
Slo despus de tener una buena nocin de las vas y mbitos de influencia, y
de tener planificado cmo medir nuestros progresos, podemos pensar en el
diseo de la evaluacin.
Cmo Disear una Evaluacin
El diseo de una evaluacin requiere una cantidad considerable de
pensamiento. Primero viene la parte conceptual: Qu planeamos aprender de
esta evaluacin?, Cules son las preguntas relevantes? , Qu resultados se
esperan?,

Cmo

se

pueden

medir?

A continuacin, vienen las preguntas del diseo:

Cul es el nivel o la unidad de aleatorizacin adecuada?

Cul es el mtodo de aleatorizacin adecuado?

Adems de las restricciones polticas, administrativas y ticas, qu


aspectos tcnicos pueden comprometer la integridad de nuestro estudio,
y como podemos mitigar estas amenazas en el diseo?

Cmo haremos para implementar la aleatorizacin?

Cul es el tamao de muestra necesario para responder nuestras


preguntas? (cunta gente debemos incluir en nuestro estudio, no slo
como participantes sino tambin como contestadores de encuestas?)

1. Unidad de Aleatorizacin

Al disear nuestra evaluacin debemos decidir a qu nivel haremos la


aleatorizacin: cul ser la unidad sujeta a asignacin aleatoria? Sern
individuos o grupos de individuos, tales como hogares, pueblos, distritos,
escuelas, clnicas, grupos de iglesia, empresas y asociaciones de crdito?
(Cuando la unidad de aleatorizacin es un grupo de individuos incluso
cuando nos interesa la medicin de resultados individuales nos referimos a
evaluacin aleatoria por clster). Por ejemplo, si logramos dar pldoras de cloro
a mil hogares para tratar aguas contaminadas (de una muestra de, digamos,
diez mil hogares que sacan agua de la misma fuente contaminada),
asignaramos aleatoriamente a los hogares que sern tratados, dejando al
resto en el grupo de control? Esto significara que algunos hogares recibiran
pastillas de cloro, mientras que algunos de sus vecinos ms cercanos se
quedaran sin este beneficio. Es esto factible? tico?
Para este tipo de programa, probablemente tampoco sera posible hacer la
asignacin a menor nivel, por ejemplo a nivel individual. Implicara que algunos
nios dentro de un hogar reciban la pldora de cloro mientras que sus
hermanos no. Si todos los miembros de un hogar beben del mismo tanque
tratado de agua, la asignacin aleatoria individual sera fsicamente imposible,
aun sin tomar en cuenta las consideraciones ticas.
Tal vez una medida apropiada de asignacin aleatoria es la comunidad, segn
la cual algunas comunidades reciben cloro, otras no, pero dentro de una
comunidad en tratamiento todos los hogares (lo que implica a todos los
vecinos) son elegibles para recibir la pldora de cloro. Hay muchos aspectos a
considerar cuando se determina el nivel apropiado de aleatorizacin, de los
cuales la tica y la factibilidad son slo dos. Siete aspectos son mencionados a
continuacin.

Qu unidad de tratamiento es la meta del programa?

Cul es la unidad de anlisis?

Es el diseo de la evaluacin justo?

Es la evaluacin aleatoria polticamente factible?

Es la evaluacin aleatoria logsticamente factible?

Qu efectos de externalidad u otros efectos deben ser tomados en


cuenta?

Qu tamao de muestra y poder necesitamos para detectar los efectos


del programa?

1. Qu unidad de tratamiento es la meta del programa?: Si las tabletas de


cloro se disuelven en tanques de agua que, en nuestra regin, todos los
hogares suelen poseer, entonces es posible que algunos hogares reciban las
tabletas y otro no. En este caso, la unidad de asignacin aleatoria sera a nivel
de hogar. Sin embargo, si el tanque de agua suele estar ubicado fuera de las
casas y usado por un grupo de hogares, sera imposible asignar algunos
hogares de este grupo al grupo de control--todos beben la misma agua
(tratada) que beben los hogares en el grupo de tratamiento. Entonces, la
unidad ms natural de asignacin sera aquel grupo de hogares que
comparten un tanque de agua.
2. Cul es la unidad de anlisis?: Si la evaluacin tiene que ver con los
efectos a nivel de la comunidad, entonces el nivel ms natural de asignacin es
el comunitario. Por ejemplo, supongamos que medimos los resultados en
cantidad de hospitalizaciones debido a la diarrea, y esto es ms econmico
de medir usando los registros administrativos de las clnicas comunitarias que,
adems, son annimos. No podramos distinguir si las personas que se
hospitalizaron pertenecan a los hogares en el grupo de tratamiento o de
control. Sin embargo, si toda la comunidad est en el grupo de tratamiento,
podramos comparar los registros de las clnicas en comunidades tratadas
contra las clnicas en comunidades no tratadas.
3. Justicia en el diseo de la evaluacin: El programa debe ser percibido como
uno justo. Si se me han negado las pldoras de cloro, pero mis vecinos ms
cercanos las reciben, estar enojado con mis vecinos, estar enojado con la
ONG, y estar menos dispuesto a rellenar cualquier cuestionario sobre el uso
de cloro cuando los encuestadores vayan a mi casa a pedrmelo. Y a la ONG
no estar contenta de hacer enojar a los miembros de su comunidad. Por otro
lado, si nadie en mi comunidad sali beneficiado, pero la comunidad vecina s,

puede que nunca sepa nada al respecto y por lo tanto no tenga quejas, o
puede que piense que fue una decisin tomada a nivel de pueblo, y que la ma
decidi no invertir en pastillas de cloro. Por supuesto, las personas tambin
podran enojarse con una asignacin a nivel comunitario. Podramos tratar de
expandir la unidad de asignacin aleatoria, o pensar en otras estrategias para
mitigar el descontento de la gente que no sali beneficiada. El hecho de que no
todos son favorecidos puede ser injusto (ver asuntos ticos). Pero dado que no
podemos ayudar a todos (usualmente debido a restricciones de capacidad), y
nuestro deseo de mejorar y evaluar, podemos repartir los recursos de una
forma que nos ayude a crear un grupo de control y que al mismo tiempo sea
visto como justo por las personas que estamos tratando de ayudar.
4. Factibilidad Poltica: Puede que no sea factible hacer una asignacin
aleatoria a nivel de hogar. Por ejemplo, la comunidad puede exigir que toda
persona en necesidad debe recibir asistencia, lo que hace imposible escoger
aleatoriamente los hogares a los cuales darles las pldoras de cloro. En algunos
casos, el lder solicita que todos los miembros de su comunidad reciban
asistencia. O puede que se sienta ms tranquilo si la mitad obtiene el beneficio
al azar (con absoluta certeza, en el caso de asignacin individual), que si
afronta el riesgo de que nadie en su comunidad sea tratado (en el caso de que
la asignacin sea comunitaria y su pueblo no salga escogido). En algunos
casos, el lder puede colaborar con el estudio; en otros, no.
5. Factibilidad logstica: A veces es logsticamente imposible asegurarnos de
que algunos hogares permanezcan en el grupo de control. Por ejemplo, si la
entrega del cloro requiere que un distribuidor en cada pueblo monte un puesto
donde los vecinos pueden ir a buscar sus pldoras, puede ser ineficiente pedirle
que no considere a los hogares en el grupo de control. Esto puede aadir
burocracia, perder tiempo y distorsionar la idea original del programa. Incluso si
el distribuidor pudiera discriminar fcilmente, los hogares que reciben pldoras
podran compartirlas con sus vecinos que no fueron beneficiados. Entonces, el
grupo de control se vera tambin impactado por el programa y no servira
como grupo de comparacin. (Recordemos que el grupo de control
supuestamente representa cmo sera la vida sin el programa) (ver Qu es
una evaluacin de impacto?). En este caso, hara sentido asignar a nivel de

pueblo, y sencillamente contratar distribuidores para que visiten los pueblos


tratados y no los de control.
6. Controlar las externalidades y otros efectos: Incluso si es factible asignar a
nivel de hogar dar cloro en algunas casas y en otras no puede no ser
posible contener el impacto dentro del grupo de tratamiento. Si lo hogares del
grupo de control son afectados por el hecho de que se lleve a cabo el programa
si se benefician por que hay menos enfermos (efecto de externalidad), o
beben el agua de los hogares en tratamiento (no cumplen con la asignacin
aleatoria y se pasan al grupo de tratamiento), pues ya no son un buen grupo de
comparacin. (ver Qu es una evaluacin de impacto? ) (para ms detalles
sobre efectos de externalidad o efecto control-tratado, ver Amenazas al diseo.)
7. Tamao de muestra y poder: La habilidad de detectar efectos reales depende
del tamao de muestra. Cuanto mayor es el nmero de personas escogidas a
partir de una gran poblacin, estadsticamente, mejor representan a la a
aquella poblacin (ver Seleccin y tamao de la muestra). Por ejemplo, si
encuestamos a dos mil hogares, y aleatorizamos a nivel de hogar (mil hogares
reciben tratamiento, mil hogares son el control), efectivamente tendremos un
tamao de muestra de dos mil hogares. Pero si aleatorizamos a nivel de
pueblo, y cada pueblo tiene cien hogares, entonces tendremos 5 pueblos en el
grupo de tratamiento y 5 en el grupo de control. En este caso, estaramos
midiendo los casos de diarrea e nivel de hogar, pero debido a que
aleatorizamos a nivel de pueblo, puede ser que tengamos una muestra efectiva
de 10 hogares (aunque hayamos encuestado a dos mil hogares!). En realidad,
el tamao efectivo de la muestra puede ser cualquiera entre diez y dos mil,
dependiendo de qu tan parecidos sean los habitantes de un pueblo entre s
(Ver: tamao de muestra). Con un tamao de muestra efectivo de 10, no
seramos capaces de detectar efectos reales. Esto puede influenciar nuestra
decisin con respecto de qu nivel de asignacin usar.
Existen muchas consideraciones al determinar el nivel apropiado de asignacin
aleatoria. Los evaluadores no pueden simplemente sentarse frente a un
computador, presionar un botn, producir una lista e imponer un diseo de
evaluacin para una organizacin que est a miles de kilmetros de distancia.
Los evaluadores deben tener una comprensin profunda y completa de la

organizacin responsable, del programa, y del contexto y del trabajo del equipo
para determinar el nivel de asignacin apropiado para cada circunstancia en
particular.
2. Diferentes Mtodos de Aleatorizacin
Si mi organizacin puede dar mil pldoras de cloro cada da, entonces puedo
beneficiar a mil personas de un grupo de dos mil postulantes cada da, y puedo
escoger beneficiar siempre a los mismos. Alternativamente, puedo ir rotando
da por medio para que cada hogar pueda beber agua limpia da por medio.
Puede ser que la ltima opcin no me parezca razonable. Si todos beben agua
sucia la mitad de los das, no esperara ningn efecto sobre nadie. Entonces,
puedo escoger a la mitad de los postulantes que recibirn la pldora de cloro
perpetuamente. Para aleatorizar, puedo realizar una lotera simple para elegir
los mil hogares que recibirn las pldoras: escribir los nombres de las dos mil
personas en pequeos trozos de papel, pondr estos pedazos en una caja,
agitar la caja, cerrar mis ojos y sacar mil papeles. Intuitivamente, esto es lo
que se conoce como diseo usando lotera.
Alternativamente, si quiero rotar los hogares que reciben el tratamiento cada
ao en vez de cada da, y asignar aleatoriamente el orden en el cual sern
tratados, entonces en un ao algunos hogares sern considerados dentro del
grupo de tratamiento, y en el prximo sern parte del grupo de control. Si voy a
medir los resultados al final de cada ao, esto sera un diseo por rotacin.
Digamos que este ao puedo entregar quinientas pldoras de cloro cada da,
pero para el prximo ao espero poder entregar mil diarias, y el ao siguiente
dos mil diarias. Podra escoger aleatoriamente quinientos hogares para ser
tratados el primer ao, aadir otros quinientos que se sumen en el segundo
ao, y aadir a los mil hogares restantes el tercer ao. Esto es lo que
llamaramos diseo escalonado.
Existen siete posibles modos de diseo de aleatorizacin los diseos usando
lotera, diseo escalonado, diseo por rotacin, diseo por estmulos a
participacin, diseo con tratamientos con diferente intensidad, y la asignacin
aleatoria en dos etapas. Estos diseos no son necesariamente mutualmente
excluyentes. Sus ventajas y desventajas vienen resumidas en la siguiente tabla.

3. Amenazas al diseo
(a) Externalidades
Un efecto de externalidad ocurre cuando un programa, diseado para ayudar a
un grupo objetivo, afecta de modo no intencional al grupo de control (ya sea
positiva o negativamente). El grupo de control debera representar el resultado
si el programa no hubiera sido implementado (ver contrafactual). Si este grupo
de comparacin ha sido alterado por el programa, su rol de emulador del
contrafactual se ve comprometido, y la medicin del impacto puede estar
sesgada. Existen maneras de mitigar los efectos de externalidad, por ejemplo,
cambiando el nivel de aleatorizacin.
Por ejemplo, beber aguas contaminadas puede provocar enfermedades. Pero
jugar con los nios del vecindario que estn enfermos tambin las provoca. Si
estoy en el grupo de control y el programa beneficia a mis vecinos, esos
vecinos ya no estarn enfermos, lo que reduce mi posibilidad de enfermarme.
Entonces, incluso cuando estoy en el grupo de control, el tratamiento a mis
vecinos me afecta indirectamente. Ya no soy un buen grupo de comparacin.
Esto es conocido como el efecto de externalidad, en particular, se trata de una
externalidad positiva. Para mitigar esto, podramos aleatorizar a nivel de
comunidad. Hacer esto significara que si nuestra comunidad fue asignada al
grupo de control, yo y mis vecinos tendremos el mismo estatus. Tengo menos
probabilidades de jugar con nios de otros pueblos, y por lo tanto tengo menos
probabilidades de ser impactado indirectamente por el tratamiento. O, si
nuestra comunidad fuera asignada al grupo de tratamiento, no podramos
impactar positivamente a los dems.
(Por supuesto, podra interesarnos conocer cmo ocurren estas externalidades,
y hacer diseos acorde con esto. Ver mtodos de aleatorizacin).
b) Efecto Control-Tratado
Otra posibilidad es que mi hogar haya sido asignado al grupo de control, pero
mi vecino est en el grupo de tratamiento, y por tanto mi madre sabe que su
agua est limpia y me manda a su casa a beberla. De este modo, me infiltro en
el grupo de tratamiento, aun cuando yo fui asignado al grupo de control.

Cuando las personas deliberadamente desafan su designacin de tratamiento


(consciente o inconscientemente) los resultados son alterados, y se considera
un efecto control-tratado. Al igual que con las externalidades, al cruzarme, yo
ya no represento un buen grupo de comparacin ya que he sido afectado por
la presencia del programa. Al igual que antes, cambiar el nivel de la
aleatorizacin podra mitigar los efectos control-tratado.
4. Mecnica de la Aleatorizacin
Una vez que la unidad y el mtodo de aleatorizacin se hayan determinado, es
tiempo de asignar aleatoriamente a los individuos, hogares, comunidades o
cualquier otra unidad, al grupo de tratamiento o de control.
a) Lotera simple
Generalmente para comenzar, necesitamos una lista de nombres (de
individuos, jefes de hogares, o pueblos). Despus, hay varias maneras de
proseguir. Podramos escribir todos los nombres en un pedacito de papel,
ponerlo en una canasta, agitar la canasta, cerrar nuestros ojos y sacar mil
pedacitos de papel. Esos conformaran nuestro grupo de tratamiento y el resto
podra ser el grupo de control (o viceversa). Podramos hacer esto como parte
de una lotera pblica. Similarmente, podramos ir leyendo la lista, y uno a uno,
con la ayuda de una moneda, determinar su estatus de tratamiento. Sin
embargo, no siempre dividimos a la poblacin del estudio exactamente a la
mitad. Por ejemplo, quizs quisiramos incluir 30 por ciento en el grupo de
tratamiento y 70 en el grupo de control. O si tuviramos un mtodo escalonado
en tres periodos, podramos tratar de dividir la poblacin en tres grupos.
Tambin muy comn, es tratar de testear mltiples tratamientos al mismo
tiempo tambin requiriendo varios grupos. En estos diseos de evaluaciones
ms sofisticados, lanzar una moneda no va a ser suficiente.
Tpicamente, se escribe un programa de computadora para aleatoriamente
asignar nombres a los grupos.
b) Aleatorizacin instantnea

Algunas veces no tenemos una lista de nombres de antemano. Por ejemplo, si


individuos entra en una clnica con sntomas de malaria, la decisin de
administrar el tratamiento estndar de la Organizacin Mundial de la Salud
"DOTS" o una alternativa mejorada, debe hacerse en el momento. El
tratamiento podra ser determinado por la enfermera en la clnica tirando una
moneda. Pero podemos estar preocupados de que la enfermera haga caso
omiso de la asignacin al azar si ella tiene una opinin de cul tratamiento es
mejor y qu pacientes son ms "dignos" que otros. Las alternativas podran
incluir la aleatorizacin computarizada o por telfono celular.
c) Aleatorizacin estratificada
Con frecuencia, la poblacin objetivo se divide en subgrupos antes de
aleatorizar. Por ejemplo, un grupo de individuos se pueden dividir en grupos
ms pequeos por razn de sexo, origen tnico o edad. O pueblos se pueden
dividir en regiones geogrficas. Esta divisin en subgrupos antes de la
aleatorizacin se llama estratificacin. Despus, la aleatorizacin toma lugar
dentro de cada uno de los estratos (subgrupos). Esto se hace para garantizar
que los grupos de tratamiento y de control tienen proporciones equilibradas de
tratamiento y control dentro de cada grupo. Es posible que con una pequea
muestra, nos encontramos con que, sin estratificar, hayan ms mujeres en
nuestro grupo de tratamiento que hombres. El propsito principal de la
estratificacin es estadstica y se relaciona al tamao de la muestra. La
decisin de estratificar no influye en el tema de sesgo.
5. Seleccin y tamao de la muestra
Un experimento debe ser lo suficientemente sensible para detectar diferencias
de resultados entre el grupo de tratamiento y el de comparacin. La
sensibilidad de un diseo se mide por el poder estadstico, que, entre otros
factores, depende del tamao de la muestra - es decir, el nmero de unidades
asignados aleatoriamente y el nmero de unidades encuestadas.
Una vez ms, tomemos el ejemplo de las enfermedades transmitidas por el
agua en una comunidad. Supongamos que hemos elegido distribuir pastillas de
cloro a los hogares para comprobar su impacto en la incidencia de la diarrea.
Pero tambin supongamos que slo tenemos un presupuesto muy limitado para

nuestra fase de prueba, y lo que nos gustara es minimizar el nmero de


hogares que se incluyen en la encuesta, pero sin dejar de asegurarnos que
podemos saber si cualquier cambio en la incidencia se debe a las tabletas de
cloro y no por casualidad. Cuntos hogares deben recibir las tabletas y
cuntos deben ser encuestados? Son cinco hogares suficientes? 100?
200? Cuntos hogares deben estar en el grupo de control? Las pruebas de
poder estadstica nos ayudan a responder estas preguntas.
Para obtener ms informacin sobre cmo calcular el tamao de muestra, vea:

Duflo, Esther, Glennerster, Rachel, and Kremer, Michael, "Using


Randomization in Development Economics Research: A Toolkit" (2006).
MIT Department of Economics Working Paper No. 06-36.

Bloom, H.S. (1995): "Minimum Detectable Effects: A simple way to report


the statistical power of experimental designs," Evaluation Review 19,
547-56.

Como Implementar una Evaluacin


Una vez que se ha finalizado el diseo de la evaluacin, el evaluador debe
seguir participando en el monitoreo de la recoleccin de datos, as como en la
implementacin de la intervencin que se est evaluando. Si los encuestados
desaparecen durante la fase de recoleccin de datos, los resultados son
susceptibles a un sesgo de atricin, comprometiendo su validez. La atricin se
cubre en esta seccin. Otras amenazas durante la fase de recopilacin de
datos como: instrumentos de medicin pobres, sesgos de reporte, etc. son
igualmente importantes, pero no se cubren aqu. Para aprender sobre las
mejores prcticas en la recoleccin de datos, vea:

Deaton, A. (1997): The Analysis of Household Surveys. World Bank,


International Bank for Reconstruction and Development

En la ejecucin de la intervencin, la integridad de la aleatorizacin debe


permanecer intacta. A menos que sean deliberadamente incorporados en el
diseo del estudio, los efectos de externalidades y cruce, debe reducirse al

mnimo, o por lo menos, deberan ser documentados a fondo. (Ver como


antecedente "Las amenazas al diseo)
1. Amenazas a la recoleccin de datos
a) Atricin
La atricin se produce cuando los evaluadores no renen informacin sobre las
personas que fueron seleccionadas como parte de la muestra original. Ntese,
que el grupo tratamiento y el grupo control, a travs de la asignacin aleatoria,
se construyen para ser estadsticamente iguales al principio. El grupo de control
tiene la intencin de parecerse al contrafactual -lo que habra pasado al grupo
de tratamiento si el tratamiento no hubiera sido ofrecido. (Ver: Por qu
Aleatorizar?). Si las personas que abandonan el estudio son "idnticos" en
ambos grupos de tratamiento y de control, es decir, si el grupo de control con
menos personas an representa un contrafactual vlido para el grupo de
tratamiento con menos personas, esto reducira el tamao de nuestra muestra,
y podra truncar la poblacin objetivo a la que nuestros resultados se pueden
generalizar, pero no pondra en peligro la "verdad" de los resultados (al menos
tal como se aplica a la poblacin restringida).
Por ejemplo, supongamos que nuestra rea de estudio es rural, y que muchos
miembros del hogar pasan una parte significativa del ao trabajando en zonas
urbanas. Supongamos, adems, que hemos creado nuestra muestra y recogido
datos de lnea base cuando los miembros del hogar que migran estaban en
casa durante las cosechas e incidentalmente para nuestro estudio. Si
recogemos nuestros datos de medicin final durante la temporada baja, los
miembros de la familia que emigran habrn regresado a la ciudad y por tanto
no estarn disponibles para nuestro estudio. Asumiendo que estos son los
mismos individuos en los grupos de tratamiento y de control, nuestro estudio
ahora se limita nicamente a los no migrantes. Si la poblacin de no migrantes
en el grupo control representa un buen contrafactual de la poblacin no
migrante en el grupo de tratamiento, nuestras estimaciones de impacto ser
perfectamente vlidas, pero slo aplicables a la poblacin no migrante.
Sin embargo, si esa disminucin tiene una forma distinta en los dos grupos, y
los individuos restantes del grupo de control ya no sirven como un buen

contrafactual, esto podra influir en nuestros resultados. Utilizando el ejemplo


de las enfermedades transmitidas por el agua, supongamos que en el grupo de
control ms hijos y madres estn enfermos. Como resultado, los jvenes que
suelen emigrar a las ciudades durante la temporada baja, se quedan en casa
para ayudar a su familia. Los hogares que fueron asignados al grupo control
contienen ms inmigrantes en nuestra encuesta final. Los datos demogrficos
de los grupos de tratamiento y de control son ahora diferentes (mientras que en
un principio, estaban equilibrados). Es factible que estos migrantes jvenes
sean tpicamente ms saludables. Ahora, a pesar de que nuestro tratamiento
tuvo xito en mejorar la salud de los nios y las madres, en promedio, nuestro
grupo de control contiene a los trabajadores migrantes ms saludables. Cuando
se mide la incidencia de diarrea, los resultados de los inmigrantes sanos del
grupo control podran compensar por los resultados de sus familiares enfermos.
Luego, al comparar los grupos de tratamiento y de control, no veramos ningn
efecto en absoluto y podramos concluir que el tratamiento fue ineficaz. Este
resultado sera falso y engaoso.
En este ejemplo simplificado, podramos reintroducir el equilibrio mediante la
eliminacin de nuestra muestra de todos los migrantes. Con frecuencia, sin
embargo, las caractersticas que podran identificar de forma fiable a aquellos
individuos que desaparecen, tanto reales como futuros, no han sido medidas, o
son imposibles de observar. La prediccin de atricin puede ser tan difcil como
predecir la participacin en los experimentos no aleatorios. Similarmente, el
sesgo de atricin puede ser tan perjudicial como el sesgo de seleccin al hacer
inferencias causales.
2. Externalidades y Efecto Control-Tratado
Las externalidades ocurren cuando individuos en el grupo de control son de
alguna manera u otra afectados por el tratamiento. Por ejemplo, si ciertos nios
estn en el grupo de control de un estudio de entrega de pastillas de cloro, pero
juegan con nios que estn en el grupo de tratamiento, ahora tendrn amigos
que tienen menos probabilidades de estar enfermos y por tanto tienen menos
probabilidades de ellos mismos estar enfermos. En este caso, estn
indirectamente afectados por el programa, aunque hubieran sido asignados al
grupo de control. Los individuos que cruzan son aquellos controles que

encuentran la manera de ser directamente tratados. Por ejemplo, si la madre de


un nio del grupo control lo lleva a beber agua del tanque de abastecimiento de
un hogar en el grupo tratamiento, ella se est infiltrando en el grupo de
tratamiento. Cumplimiento imparcial es un trmino ms amplio, que comprende
a aquellos que cruzan y tambin aquellos individuos tratados que
deliberadamente deciden no participar (o poner cloro en el agua, en este
ejemplo).
Cuando un estudio sufre de externalidades y efecto control-tratado, en muchos
casos todava es posible usar tcnicas estadsticas para producir resultados
vlidos. Sin embargo, estos vienen con ciertos supuestos, muchos de los
cuales estbamos tratando de evitar cuando optamos por una aleatorizacin en
primer lugar. Por ejemplo, si las externalidades se pueden predecir con el uso
de variables observadas, pueden ser controladas. Con el cumplimiento
imparcial, si suponemos que los que no cumplieron no se vieron afectados por
la intervencin, y por la misma razn, las personas que cruzaron se vieron
afectadas en la misma forma que los miembros del grupo de tratamiento,
podemos inferir el impacto de nuestro programa. Pero como se explica en la
seccin Por qu Aleatorizar?, al hacer mas supuestos, el terreno en el que
nos encontramos es menos firme a la hora de declarar que la intervencin
causo los resultados medidos.
Cmo Obtener Resultados
Al final de una intervencin (o por lo menos el periodo de evaluacin de la
intervencin), los datos de la encuesta final deben ser recolectados para medir
resultados finales. Asumiendo que la integridad de la asignacin aleatoria se
mantuvo y que la recoleccin de datos se administr correctamente, es hora de
analizar los datos. El mtodo mas simple es medir el resultado promedio para
el grupo de tratamiento y compararlo con el resultado promedio del grupo de
control. La diferencia representa el impacto del programa. Para determinar si el
impacto es estadsticamente significativo, uno puede testear la igualdad de
promedios, usando un test-t simple. Uno de los muchos beneficios de las
evaluaciones aleatorias es que el impacto puede ser medido sin la necesidad
de tcnicas estadsticas avanzadas. Tambin se pueden realizar anlisis ms
complicados. Por ejemplo, regresiones agregando controles para otras

caractersticas para aumentar la precisin. Sin embargo, cuando se comienza a


aumentar la complejidad del anlisis, el nmero de potenciales errores tambin
incrementa. Por tanto, el evaluador debe tener el conocimiento necesario y ser
muy cauteloso al desempear este tipo de anlisis.
Es importante notar que cuando se obtiene un resultado, no hemos
encontrado la verdad con una certeza del 100 por ciento. Hemos producido
un resultado que est cercano a la verdad, con cierto grado de probabilidad.
Mientras ms grande sea el tamao de nuestra muestra (mas pequeos sern
nuestros errores estndar y) tendremos ms certeza. Sin embargo, nunca
podemos tener una certeza del 100%.
Este hecho conlleva a dos tropiezos muy comunes durante el anlisis:
i. Resultados Mltiples: La aleatorizacin no garantiza que el impacto
estimado es perfectamente preciso. El impacto estimado no tiene sesgo,
pero sigue siendo una estimacin. El azar genera un margen de error
alrededor de la verdad. Con bastante frecuencia, la estimacin estar muy
cerca de la verdad. Ocasionalmente, la estimacin se desviar un poco
ms. En raras ocasiones, se apartar significativamente. Si usamos una
medida de resultado, hay alguna posibilidad de que se haya desviado
significativamente de la verdad. Pero esto es muy poco probable. Si
estamos interesados en varios indicadores de resultados, muchos estarn
cerca, pero otros se desviarn. Mientras ms indicadores de resultado
usemos, es ms probable que uno o ms se desven significativamente.
Por ejemplo, supongamos que las pastillas de cloro que se distribuyen
para combatir aquellas enfermedades transmitidas por el agua, estaban
defectuosas o nunca se utilizaron. Si se comparan veinte diferentes
indicadores de resultados, es muy probable que para alguno de ellos
surgiera una mejora significativa en salud, y para otro una desmejora
significativa. Si es que usamos suficientes indicadores de impacto,
eventualmente vamos a encontrar uno que es significativamente distinto
entre los grupos de tratamiento y control. Esto no es un problema en s. El
problema surge cuando el evaluador hace data mining, buscando todos
los indicadores de resultados, hasta que encuentra un impacto

significativo, reporta este nico resultado, y no presenta los otros


resultados insignificantes que fueron descubiertos durante la bsqueda.
ii. Anlisis de sub-grupos: De modo similar, as como un evaluador puede
hacer data mining al mirar muchos indicadores de resultados, el
evaluador tambin puede hallar un resultado significativo al mirar a
distintos subgrupos en aislamiento. Por ejemplo, puede ser que las
pastillas de cloro no tengan ningn impacto aparente en la salud de los
hogares. Podra ser razonable mirar el impacto en nios en el hogar, o en
nias en particular. Pero podramos estar tentados a comparar nios y
nias de distintos grupos de edad, de distintas composiciones de hogares,
en distintas combinaciones. Podramos descubrir que hay mejoras
significativas en la salud del grupo de tratamiento de nios entre 6 y 8
aos, que slo tienen una hermana, cuyo abuelo vive en el hogar y donde
el hogar posee una televisin y ganado. Hasta podramos inventar una
historia plausible de por qu este subgrupo podra haber sido afectado y
no otros. Pero si encontramos que ste es el nico impacto significativo
despus de una serie de impactos insignificantes para otros subgrupos,
es probable que la diferencia hubiera sido causada por el azar no por
nuestro programa.
Como Sacar Implicancias para Polticas Pblicas
Tras realizar una evaluacin aleatoria perfecta y un anlisis de resultados
honesto, podemos derivar implicaciones para polticas pblicas con cierto nivel
de certeza acerca de nuestras conclusiones de como el programa impacta
nuestra poblacin objetivo. Por ejemplo, Nuestro programa de distribucin de
pastillas de cloro caus una reduccin en la incidencia de diarrea en los nios
en nuestra poblacin objetivo en 20 puntos porcentuales. Esta declaracin es
cientficamente legtima, o vlida a nivel interno. El rigor de nuestro estudio no
puede decirnos, sin embargo, si este mismo programa tendra el mismo
impacto si se replicara en una poblacin objetivo diferente, o si se expandiera.
A diferencia de la validez interna, que puede ser proporcionada por una
evaluacin aleatoria bien realizada, la validez externa, o generalizacin, es ms
difcil de obtener. Para extrapolar cmo nuestros resultados se aplicaran a un
contexto diferente, tenemos que salir de nuestro rigor cientfico, y comenzar a
responder en supuestos. Dependiendo de nuestro conocimiento del contexto de

nuestra evaluacin y de otros contextos en los que nos gustara generalizar los
resultados, nuestras suposiciones pueden ser ms o menos razonables.
Sin embargo, la metodologa que elegimos -una evaluacin aleatoria- no provee
validez interna a costa de la validez externa. La validez externa es una funcin
del diseo del programa, los proveedores de servicios, los beneficiarios, y el
entorno en que se llev a cabo la evaluacin del programa. Los resultados de
cualquier evaluacin de programas estn sujetos a esas mismas realidades
contextuales cuando se utilizan para obtener conclusiones respecto a
programas similares o a las polticas aplicadas en otros lugares. Lo que la
evaluacin aleatoria nos compra es la certeza de que nuestros resultados al
menos son vlidos internamente.
HACIENDO LA PREGUNTA DE INVESTIGACIN CORRECTA
Al tratar de mejorar la eficacia de las polticas y programas, tenemos que hacer
frente a una amplia gama de preguntas ... una evaluacin de impacto puede
responder a la pregunta bsica de si un programa o poltica obras. Pero
tambin puede responder a una serie de otras cuestiones.
Hay varias preguntas crticas para responder a la hora de considerar la
realizacin de una evaluacin aleatoria:
I.
II.

Cul es el problema de investigacin precisa queremos pedir?


Esta pregunta puede ser respondida a travs de una evaluacin de

III.

impacto-es decir. probar una relacin causal especfica o hiptesis?


El investigador o ejecutor tienen la capacidad de cambiar
aleatoriamente si, dnde, cundo, o para los cuales ocurre la

IV.

intervencin?
Tenemos un tamao de muestra suficientemente grande para medir
nuestros resultados con precisin? (Esto puede ser determinado por el
presupuesto de investigacin, o por el tamao, el alcance y otros detalles

V.

del programa que se est evaluando.)


Es el costo de la evaluacin menor que el valor esperado de la
respuesta?

POBLACIN OBJETIVO Y RESULTADOS

El objetivo y los resultados que nos importa deberan ser definidos por nuestra
pregunta de investigacin. Para la poblacin objetivo, tenemos que contestar
una serie de preguntas: Cules son los beneficiarios directos e indirectos de
nuestro programa? Quines son los beneficiarios ltimos si vamos a escalar
hasta el programa? Para quin vamos a querer idealmente estos resultados
que deben aplicarse a? Los detalles de cmo medir los resultados en nuestra
poblacin objetivo se tratan en la siguiente seccin sobre la medicin y
recopilacin de datos.
MUESTREO
En algunos casos, la muestra puede ser toda la poblacin objetivo en nuestro
estudio de investigacin. Por ejemplo, si una evaluacin del 3er grado de
orientacin se lleva a cabo en 100 escuelas, que puede ser capaz de obtener
los resultados del examen de todos los estudiantes en las escuelas. No hay
necesidad de probar al azar el que los estudiantes que queremos estudiar o
prueba. Sin embargo, en ms casos que no, vamos a probar aleatoriamente
encuestados. En tales casos, muchas de las mismas preguntas surgen con el
muestreo como con asignacin al azar.
DISEO DE LA ALEATORIZACIN
La asignacin al azar en concepto puede ser muy simple; resultado aleatorio
puede ser generado por lanzamiento de una moneda, o utilizando un generador
de nmeros aleatorios. Hay, sin embargo, a menudo muchas maneras posibles
para asignar el tratamiento y control de estado. Las principales preguntas que
debemos hacernos son:
I.

Cul es el nivel / unidad de asignacin al azar? (individuos asignados al


azar a las condiciones de tratamiento y de control? O RANDOMIZE

II.

grupos de individuos, tales como escuelas enteras o pueblos?)


Qu ocurre con el grupo de control? (Les negamos el acceso de
forma permanente o slo durante un cierto perodo? Nos permitimos el
acceso al grupo de control, as, sino simplemente tratar de inducir a una

III.

mayor asimilacin en un grupo ( "diseo del estmulo")?)


Queremos medir los efectos secundarios? Incluso si no queremos para
medirlos, podran afectar a que nuestras estimaciones?

IV.

Nos limitamos la muestra de investigacin a algn grupo que est en la

V.

frontera de elegibilidad?
No aceptar un diseo en el que un individuo tiene una mayor
probabilidad de ser asignado a, por ejemplo, el grupo de tratamiento que

VI.

otro individuo?
Hay que estratificar, cunto y por qu variables? Para una discusin
sobre las ventajas y detalles de la estratificacin, pensamientos ver esta
Guido Imbens 'sobre el diseo experimental para la unidad y agrupar los

VII.

ensayos aleatorios.
Si no tenemos una lista completa de las unidades al principio, podemos

VIII.

cambiar aleatoriamente a medida que avanzamos?


Cmo debe estatus de tratamiento se comunicar a los participantes:

IX.
X.

sorteo pblico, en privado, o de alguna otra manera?


Si se utiliza el software, el software que debemos utilizar?
En caso de que nuestra aleatorizacin ser reproducible y que otros

XI.

pudieran usar nuestro cdigo y subir con la misma asignacin?


Si no estamos satisfechos con el nivel de equilibrio entre nuestros
grupos,

podemos

volver

cambiar

aleatoriamente?

Para

una

comparacin de los mritos relativos de la estratificacin ex ante, a juego


por parejas, ex post re-aleatorizacin para lograr el equilibrio, etc., ver
David McKenzie y el papel de Miriam Bruhn en diversas estrategias de
asignacin al azar. Una entrada en el blog Impacto sobre el desarrollo de
los mismos autores entra en la mecnica de la estratificacin para el
equilibrio ms.
Clculos de potencia / Tamao de la muestra
Un experimento debe ser lo suficientemente sensible como para detectar
diferencias en los resultados entre el tratamiento y los grupos de comparacin.
La sensibilidad de un diseo se mide por el poder estadstico, que, entre otros
factores, depende del tamao de la muestra - es decir, el nmero de unidades
asignadas al azar y el nmero de unidades encuestadas. El poder estadstico
de un estudio determina la probabilidad de que el estudio se detecta un impacto
del tratamiento cuando hay realmente es un impacto a detectar. En otras
palabras, lo que maximiza la potencia estadstica escogiendo un tamao de
muestra adecuado minimiza la probabilidad de cometer un error tipo II: el

rechazo de la proposicin de que el tratamiento tiene un impacto cuando se


tiene de hecho un impacto.
diapositivas de Owen Ozier en el tamao de la muestra y de poder realizar
los clculos, desarrollados originalmente para la formacin de una IPA-J-PAL
en 2010, son una til introduccin a los determinantes de la potencia y la
relacin entre el tamao de la muestra y el poder.
Impacto sobre el desarrollo del blog del Banco Mundial ha tenido una serie
de mensajes interesantes en los clculos de potencia; consulte la etiqueta
"clculos de poder" en el blog para ms detalles.
Para los clculos de tamao de muestra sencillos en el diseo de ensayos
aleatorios por grupos, consulte este artculo de RJ S Hayes y Bennett en el
International Journal of Epidemiology.
Diseo ptimo es un programa de software libre para la realizacin de los
clculos de potencia, que solamente sean compatibles con los sistemas
operativos Windows (para el asesoramiento en el funcionamiento ptimo de
diseo en los Macs, ver aqu.) El programa y la documentacin estn
disponibles para su descarga aqu. El documento disponible aqu contiene
ejercicios y una gua paso a paso que muestran cmo varan los parmetros
pueden afectar a la potencia estadstica de un estudio.
LA MEDICIN Y RECOPILACIN DE DATOS
Especificacin de buenos resultados y los indicadores que vamos a utilizar para
medirlos requiere un profundo conocimiento del programa que se est
desarrollando, los objetivos de los que implementan el programa, y las posibles
vas a travs del cual el programa o poltica puede influir en la vida, tanto
positiva como negativamente.
Los resultados primarios de inters generalmente se definen dentro de nuestra
pregunta de investigacin original (por ejemplo, cul es el impacto del tamao
de la clase en el aprendizaje, donde el aprendizaje es el resultado.) Sin
embargo, permanecen muchas preguntas:

I.

Teora del cambio: Cul es la va a travs de la cual esperamos


cambios atribuibles a nuestro programa para venir alrededor?

II.
III.

Medicin: Cules son nuestros resultados y los indicadores?


Recogida de datos: Cmo podemos obtener datos sobre las medidas

IV.

de resultado?
Calidad de Datos: Cmo podemos asegurar que los estndares de
calidad de datos se cumplen en el proceso de recoleccin de datos?

TEORA DEL CAMBIO


Una teora de cambio describe una estrategia o plan maestro para lograr un
objetivo determinado a largo plazo. En l se identifican las condiciones previas,
las vas y las intervenciones necesarias para el xito de una iniciativa.
MEDICIN
Un "resultado" es un cambio o impacto causado por el programa que estamos
evaluando, o podra ser caracterstica de los encuestados que se quiere medir.
Un "indicador" es una seal observable utilizado para medir los resultados.
I.

Medicin de Niveles de Vida de Estudio del Banco Mundial tiene una


amplia documentacin en el diseo de cuestionarios para medir
diversos resultados e indicadores, as como otros temas en el diseo y
ejecucin de la encuesta.

En la determinacin de nuestros resultados y los indicadores y cmo encajan


en la teora de la evaluacin del cambio, preguntas que tenemos que tener en
cuenta son:
I.

Cules son los resultados intermedios que pueden medir cada


componente de nuestra teora del cambio (de supuestos iniciales para

II.

procesar)?
Qu resultados basal medir las diversas formas en que nuestra
muestra es heterognea, para ayudarnos a entender el contexto, para
ayudarnos a medir los efectos del tratamiento heterogneos, as como

III.

para ayudar a absorber la varianza para ayudar con la precisin?


Para un ejemplo de una evaluacin que estima los efectos del
tratamiento heterogneos, ver este documento por Monica Angelucci,

IV.

Dean Karlan, y Jonathan Zinman mirando microcrditos en Mxico.


Qu otros resultados ambientales (por ejemplo, la calidad de la
escuela, densidad) pueden ayudar a evaluar el contexto de nuestra

muestra de evaluacin, que pueden ayudar a determinar el grado en que


V.

los resultados son generalizables a otros contextos?


Cmo nos aseguramos de que nuestros resultados se miden de una
manera que garantiza tanto la validez - una medida objetiva y precisa de
los resultados - y fiabilidad - una medida consistente y precisa de los

VI.

resultados?
Cmo podemos registrar de forma sistemtica los resultados difciles
de medir, como en un estudio de J-PAL que intent medir el sesgo en

VII.

contra de los polticos femeninos en la India?


Qu resultados deben medirse cuantitativamente y cualitativamente la
que?

RECOPILACIN DE DATOS
Habiendo determinado los indicadores sobre la base de nuestra teora del
cambio, la siguiente pregunta es: Cmo obtenemos datos sobre los
indicadores de los individuos de la muestra? En trminos generales existen dos
tipos de datos: datos primarios y datos secundarios.
Los datos primarios son los que los investigadores recogen s mismos, por lo
general como parte del experimento. (Los datos primarios no deben ser
confundidos con los resultados primarios!)
Los datos secundarios provienen de otras fuentes de datos administrativos -tal
vez de un socio de gobierno, datos de encuestas de otro organismo de
investigacin, estudio o la oficina de estadsticas.

I.

Cmo podemos obtener y utilizar los datos administrativos no pblicas


para una evaluacin aleatoria? Este recurso proporciona una gua
prctica sobre cmo obtener y utilizar los datos administrativos no
pblicas para una evaluacin aleatoria. Mientras que muchos de los
conceptos de esta gua son aplicables en todos los pases y contextos,
algunas secciones estn dirigidas especficamente a la investigacin

II.

llevada a cabo en y perteneciente a los Estados Unidos.


Cules son los procedimientos de acceso de datos para las fuentes de
datos administrativos clave en los Estados Unidos? requisitos y
procedimientos para la obtencin de datos especficos varan segn la

fuente de datos. Para ayudar a los investigadores en la deteccin de


posibles fuentes de datos, J-PAL Amrica del Norte ha catalogado una
serie de conjuntos de datos clave de Estados Unidos. Este catlogo
documenta los procedimientos sobre cmo acceder a los datos en base
III.

a la informacin proporcionada por los organismos de procedencia.


Esta lista compilada por The Guardian une a una serie de conjuntos de
datos existentes que puedan ser de inters para los investigadores y
profesionales del desarrollo internacional.

Si nuestra evaluacin consiste en la recogida de los datos primarios, la


siguiente serie de preguntas para responder incluye:
I.

Hay que construir el equipo de recoleccin de datos en la empresa, o

II.

subcontratar la tarea a una empresa de encuestas?


Hay que utilizar las encuestas en papel, o recoleccin de datos
electrnicos (asistida por ordenador entrevistando-CAI)? Determinar qu
tipo de proceso de recoleccin de datos para utilizar afectar a una serie
de factores, entre los tipos de preguntas que se pueden formular, a la

III.

lnea de tiempo para recoger y analizar los datos.


Este post en el blog de Impacto sobre el desarrollo cubre algunas de las
ventajas y desventajas involucradas con el ejercicio de papel lugar de la

IV.

recoleccin de datos electrnicos.


Si la participacin en la recogida electrnica de datos, lo que el software
y la plataforma debemos utilizar?

Algunas opciones utilizadas por los investigadores del IPA y J-PAL en el pasado
incluyen:
CALIDAD DE LOS DATOS
Cmo podemos monitorear el proceso de recoleccin de datos, tanto durante
el proceso de recoleccin de datos y despus de los datos ha entrado, para
asegurar la calidad de los datos? Algunos recursos que IPA y J-PAL han
desarrollado incluyen (stos sern publicados en una fecha futura ya que
estamos en el proceso de finalizacin de ellos):
TRABAJAR CON DATOS

Los conjuntos de datos son los productos ms valiosos (y ms caros)


individuales de nuestra investigacin. Si una evaluacin cost un milln de
dlares, no deberamos valorar el conjunto de datos subyacente en un milln
de dlares, as?
Es fundamental para garantizar la seguridad y la seguridad de los datos. Los
datos deben ser respaldados y protegidos en todo momento, con los
procedimientos adecuados emprendidas para garantizar el cumplimiento de
IRB y otros protocolos de investigacin. Una vez asegurada la seguridad de los
datos, siguiendo los protocolos de limpieza y anlisis de datos apropiados es
esencial para obtener resultados precisos, y para garantizar un proceso
transparente, anlisis de datos replicable. Las categoras generales de gestin
de los datos tratados en esta seccin son:
I.
II.
III.

Seguridad de datos, copias de seguridad y almacenamiento


Limpieza de datos
Anlisis de los datos

Seguridad de datos, copias de seguridad y almacenamiento


Hay una serie de preguntas que necesitan ser contestadas cuando se trata de
almacenamiento y seguridad de los datos:
I.

Dnde debemos almacenar, y cmo deberamos realizar copias de


seguridad, nuestros datos? En caso de que se almacena en la nube? Si

II.

no es as, por qu no?


Necesita ser protegido con contrasea todos los datos? Lo que
constituye una buena contrasea? Cules son los protocolos
adecuados para la transmisin de contraseas entre los miembros del

III.

equipo?
Lo que constituye informacin de identificacin personal, u otros datos

IV.

sensibles que necesita ser encriptada?


Si los datos se va a guardar en un lugar no seguro, cmo hace uno
para la eliminacin de los identificadores? Puede de-identificados los
datos sern compartidos con las partes que no estn en la aprobacin

V.

del IRB para tratar los datos identificados?


Con qu frecuencia debe ser los datos de copia de seguridad y cuntas
posiciones se deben realizar respaldos?

VI.

Cmo podemos transferir datos, tanto interna como externamente? Lo


que constituye un "canal seguro" para la transferencia de datos?

LIMPIEZA DE DATOS
Incluso los datos de las encuestas mejor diseados normalmente requieren
algn trabajo de preparacin y limpieza antes de que est listo para su anlisis.
Algunas de las preguntas que vamos a necesitar para hacer frente a los datos
de entrada son:
I.
II.

Cmo se deben nombrar los datos, recodificados, y etiquetados?


Hay mejores prcticas estndar para la preparacin de los datos antes
de su anlisis? Qu controles estndar debe ejecutarse sobre los

III.
IV.
V.

identificadores nicos y valores de variables?


Cmo podemos hacer frente a los conflictos en los datos?
Cmo debemos tratar con los datos que faltan?
Cul es la mejor manera de comprobar la consistencia lgica en las
respuestas y para verificar las respuestas en los datos con opciones de
la encuesta?

ANLISIS DE LOS DATOS


Al llevar a cabo el anlisis de los datos de nuestro proyecto, a menudo estamos
interesados en la relacin entre dos variables. Como ejemplos, podemos utilizar
el anlisis de: teoras de prueba, comprender las relaciones entre las variables,
predecir resultados, y ejecutar simulaciones. Anlisis del impacto puede variar
desde la bsica - como las pruebas de si existe una diferencia estadsticamente
significativa en los resultados para las personas en el tratamiento contra el
grupo de control - a la ms complejo - como el uso de los datos para mirar a
impactos heterogneos, parmetros de estimacin de un modelo estructural,
etc.
I.

Para una visin general de la teora detrs de la inferencia causal en

II.

evaluaciones aleatorias, consulte la aleatorizacin Toolkit.


El dominio de mtricas ', un libro de texto dirigido a estudiantes
universitarios de Joshua Angrist y Jrn-Steffen Pischke, es una buena
gua para la econometra detrs dibujo inferencia causal en varios
diseos de los estudios, incluyendo evaluaciones aleatorias.

III.

Colin Cameron y Trivedi Praveen tienen una gua completa para la

IV.

realizacin de anlisis microeconomtrica utilizando el software Stata.


Chuck Huber y David Drukker tienen una serie de publicaciones en el
blog de Stata sobre el uso de los efectos del tratamiento de comandos

V.

del programa, "teffect."


diapositivas de Christopher Baum (2013) sobre el uso de Stata para la
gestin de datos y la investigacin reproducible contienen muchos

VI.

consejos y herramientas valiosas.


Para ms recursos tcnicos sobre el uso de software para administrar y
analizar los datos, consulte la seccin Herramientas de software.

Potrebbero piacerti anche