Evaluación Del Resultado

EVALUACIÓN DEL RESULTADO
THOMAS KELLAGHAN Y GEORGE F. MADAUS
La primera edición de Modelos de evaluación no contenía un capítulo sobre evaluación de

resultados. ¿Por qué hay uno en esta edición? Después de todo, la idea de medir resultados
no es nueva y, como veremos, la evaluación de resultados difícilmente puede considerarse
como un enfoque unitario, dada la variedad de prácticas que abarca el término. Tampoco
puede considerarse realmente un modelo, si por modelo nos referimos a una representación
más o menos elaborada de la estructura y las relaciones de una serie de fenómenos. Algunos
dirían que ni siquiera es evaluación. Sin embargo, todavía hay una buena razón para incluir
en este volumen una descripción de las actividades que pueden clasificarse ampliamente
como evaluación de resultados, ya que ahora representan una cantidad considerable de
actividades de monitoreo de programas en todo el mundo, en algunos casos desplazando
enfoques más tradicionales. a la evaluación e investigación, tanto en países con tradiciones
establecidas desde hace mucho tiempo en estas disciplinas como en aquellas donde solo se
están desarrollando actividades formales de evaluación. La evaluación de resultados ha
recibido el respaldo y el apoyo financiero de los gobiernos y de las organizaciones
internacionales, como la Unión Europea, la Organización para la Cooperación y el Desarrollo
Económicos, la UNESCO y el Banco Mundial.
En este capítulo, primero describiremos las características de la evaluación de resultados. A
continuación, describiremos las razones de su crecimiento y las ventajas atribuidas a su uso.
Luego identificaremos una serie de tradiciones y desarrollos a los que se debe la práctica
actual en la evaluación de resultados, seguidos de ejemplos de evaluación de resultados a
nivel estatal, nacional e internacional. Después de eso, consideraremos los enfoques
utilizados en la evaluación de resultados. En nuestras observaciones finales, describiremos
una serie de cuestiones planteadas por la evaluación de resultados y consideraremos cómo
encaja entre los enfoques tradicionales. La mayor parte de nuestro material ilustrativo
provendrá del campo de la educación, donde la evaluación de resultados probablemente ha
tenido su mayor impacto. Pero tal evaluación no se limita a la educación.
¿QUÉ ES EVALUACIÓN DE RESULTADOS?
Se pueden identificar varias características de la evaluación de resultados. En primer lugar,

es un término que se aplica a las actividades que están diseñadas principalmente para medir
los efectos o resultados (a menudo supuestos) de los programas, en lugar de sus aportes o
procesos. En segundo lugar, dado que se requiere algo más que la medición si una actividad
debe considerarse evaluativa, a menudo se hace un juicio sobre dónde se encuentra un
producto con respecto a un estándar. Por lo tanto, los resultados pueden estar relacionados
con un objetivo, un estándar de servicio o un logro. A menudo, la idea de "excelencia" es
utilizada o implícita. El uso generalizado del término nebuloso "estándares de clase mundial"
por parte de aquellos en el movimiento de reforma basado en estándares en los EE. UU. Es
típico de este énfasis en la excelencia. A veces el juicio de mérito o valor es implícito más
que explícito. Se implica un juicio implícito cuando la información sobre los resultados (por
ejemplo, el nivel de rendimiento medio de los estudiantes en una escuela) es normativa (por
ejemplo, indica dónde se ubica una escuela en relación con otras escuelas) y se deja a los
clientes y al público para que hagan la evaluación Juicio y, tal vez, para tomar acción.
Tercero, la gama de resultados que se han utilizado en la evaluación de resultados es
considerable. Dentro del campo de la educación, el logro académico es el resultado evaluado
con mayor frecuencia, y se han empleado una variedad de modos de desempeño y cartera
con éxito mixto. La mayoría de los estados ahora emplean muestras de escritura y éstas han
tenido más éxito. Sin embargo, otras evaluaciones de desempeño y cartera han demostrado
ser ineficientes, costosas y poco confiables. Kentucky tuvo que abandonar su evaluación de
desempeño, mientras que Vermont tuvo que reconsiderar su dependencia de las carteras
(Kortez, 1994; Koretz, Barron, Mitchell y Stecher, 1996). También se han considerado otros
resultados relacionados con la construcción, los materiales educativos, la enseñanza, las
actitudes hacia la escuela, la motivación para el aprendizaje y el cambio en el uso de un
servicio (tasas de retención estudiantil, ausentismo y destinos postescolares de los
estudiantes). En cuarto lugar, los efectos o resultados que son el foco de la evaluación de
resultados pueden observarse en diferentes puntos de un programa: durante su vida, al final
o más tarde para evaluar los efectos a largo plazo. Con mayor frecuencia, la atención se centra
en los resultados al finalizar un programa.
En quinto lugar, no es habitual en la evaluación de resultados tratar de describir o especificar
lo que realmente está sucediendo en un programa, aunque el tipo de información obtenida
obviamente, al menos en términos generales, será elegido para reflejar las actividades del
programa. En muchas circunstancias en las que se utiliza la evaluación de resultados, una
descripción de las actividades del programa sería muy difícil, si es posible. Esto se debe a
que muchos programas son extremadamente complejos y solo pueden considerarse
programas en el sentido más amplio de la palabra (por ejemplo, educación primaria). Dichos
programas tal vez se describen con mayor precisión como complejos de programas, que se
implementan de diversas maneras y para los cuales el término sistema podría ser más
apropiado.
Sexto, mientras que las evaluaciones de resultados pueden evitar descripciones de las
actividades del programa, se pueden hacer esfuerzos para relacionar los resultados con
factores contextuales o con supuestas variables antecedentes relevantes. Las evaluaciones
varían mucho en la medida en que intentan hacer esto y, más adelante en el documento, nos
referiremos a las técnicas analíticas utilizadas para abordar el problema. Cuando se usan tales
técnicas, el propósito principal es distinguir en los datos de resultados entre los efectos brutos
y netos de la actividad del programa. Es importante hacer esto si se va a utilizar la
información del resultado, como suele serlo, en la gestión de los recursos, en el control, para
garantizar la calidad o con fines de responsabilidad (por ejemplo, para reconocer y aplicar
sanciones al desempeño de instituciones o personas responsables de la implementación de
un programa).
Finalmente, la evaluación de resultados puede ser única o puede incluir monitoreo (es decir,
comparaciones de resultados a lo largo del tiempo). Cuando se integra en un sistema de
gestión del rendimiento, es probable que sea lo último, ya que tiene que adaptarse a una
actividad continua.
RAZONES PARA EL CRECIMIENTO EN LA EVALUACIÓN DE RESULTADOS

Se pueden identificar varias razones para el crecimiento en la evaluación de resultados.
Primero, desde un punto de vista histórico, la Encuesta de Igualdad de Oportunidades
Educativas de 1966, comúnmente llamada el informe Coleman, alejó la atención de los
formuladores de políticas educativas de una definición de igualdad de oportunidades
educativas en términos de recursos escolares hacia un enfoque en los resultados educativos
como Medido por pruebas (Coleman et al., 1966). Una segunda razón es la percepción
deficiente de los enfoques de evaluación tradicionales para proporcionar orientación a los
formuladores de políticas en la toma de decisiones sobre la gran cantidad de programas
públicos que se han desarrollado desde los años sesenta. Las soluciones a corto plazo de fácil
aplicación no parecían venir de esa evaluación (Radaelli y Dente, 1996), mientras que
muchas evaluaciones se percibían como costosas, lentas y complejas, y no prestaban
suficiente atención a los resultados.
Una tercera razón para el crecimiento en la evaluación de resultados es el desarrollo de un
enfoque corporativista de la administración gubernamental, señalado por un aumento en el
"gestionismo". El enfoque está muy influenciado por las ideas del mundo empresarial, que
involucran la planificación estratégica y operativa. , el uso de indicadores de desempeño, un
enfoque en "entregables" / resultados, un crecimiento en los sistemas de incentivos y
rendición de cuentas basados en resultados (por ejemplo, pago relacionado con el
desempeño) y el concepto de ciudadano como consumidor (Davies, 1999). En esta situación,
"el culto caballeroso de la administración amateur", como observó Pollitt (1993), está siendo
desplazado, y su sucesor es "el manierismo, no la evaluación y el análisis profesional" (pág.
354). Se espera que el consultor de gestión sea capaz de proporcionar el análisis rápido y
centrado que se necesita.
Una cuarta razón para el crecimiento en la evaluación de resultados es la creciente influencia
de la comunidad de contabilidad y auditoría en las áreas no financieras de la administración
pública. La influencia se refleja en “auditorías integrales”, “auditorías de valor por dinero”,
“auditorías de desempeño” y “auditorías ambientales”. En una variedad de países hoy (por
ejemplo, Estados Unidos, el Reino Unido, Nueva Zelanda, Suecia) , se llevan a cabo
auditorías de los indicadores de desempeño y se emiten opiniones sobre el grado en que los
sistemas o programas cumplen con los objetivos de los indicadores (Davies, 1999).
En quinto lugar, el crecimiento en la evaluación de resultados refleja el uso creciente de la
evaluación como una herramienta de política. En el campo de la educación, esto implica un
cambio del uso de la información de evaluación para la toma de decisiones educativas
localizadas a la toma de decisiones centralizada de alto nivel y el monitoreo de la
responsabilidad (Madaus y Raczek, 1996).
En sexto lugar, el crecimiento de la evaluación de resultados se debe en gran parte a una
reorganización del servicio público en varios países, lo que resulta en el uso de proveedores
de servicios relativamente autónomos (por ejemplo, los fideicomisos del Servicio Nacional
de Salud y las escuelas subvencionadas en Gran Bretaña). Con la descentralización de la
autoridad del programa y la consiguiente pérdida del control directo sobre la implementación
de los programas, surgió la necesidad de nuevos acuerdos contractuales con los proveedores
de servicios y de la regulación y el monitoreo del cumplimiento. “Calidad” y “estándares”
son los términos del tema, y los acuerdos de evaluación están diseñados para verificar que
las organizaciones estén brindando servicios flexibles y rentables a los usuarios ciudadanos
(Pollitt, 1993).
Finalmente, una situación en la que el crecimiento de la demanda de servicios públicos y la
financiación de programas sociales (por ejemplo, educación, atención médica, seguridad
social) está creciendo más rápidamente de lo que pueden encontrarse los recursos para la
expansión conduce a la necesidad de una mayor eficiencia, que a su vez requiere para la
selectividad a la hora de decidir qué programas se continuarán y qué nuevas actividades se
lanzarán (Blalock, 1999; Duran, Monnier y Smith, 1995; Pollitt, 1993).
LA VALUENCIA DEL RESULTADO EVALUA CIÓN
Varias ventajas se han atribuido al uso de la evaluación de resultados. Una se basa en la

experiencia empresarial, donde los objetivos bien articulados se asocian con la efectividad
organizacional. La situación en las escuelas, que es notoria en carecer de tales objetivos,
contrasta fuertemente con esto. Se argumenta que si las escuelas especificaran los resultados
relacionados con las metas, esto identificaría lo que es importante y ayudaría a concentrar a
los maestros y estudiantes en el contenido del currículo esencial (ver Schmidt, McKnight y
Raizen, 1996). También es la posición de los defensores de la evaluación de resultados que
es probable que la especificación de los resultados tenga un mayor impacto cuando se alinee
con la evaluación apropiada. Esta orientación hacia la especificación de los resultados de la
escolarización está en el corazón del movimiento de reforma basado en estándares. Varios
estados han desarrollado marcos curriculares que obligan, primero, estándares de aprendizaje
académico por grado y área temática, y segundo, evaluaciones para medir el logro
relacionado con estos marcos. Por ejemplo, el Sistema de Evaluación Integral de
Massachusetts (MCAS), un nuevo programa de evaluación para escuelas públicas, “mide el
desempeño de los estudiantes, las escuelas y los distritos en los estándares de aprendizaje
académico contenidos en los Marcos curriculares de Massachusetts, cumpliendo los
requisitos de La ley de reforma educativa de 1993 ”(Departamento de Educación de
Massachusetts, 1998, p. 1).
La fuerza impulsora detrás de muchos esfuerzos de reforma estatal parecería ser la
combinación de recompensas o sanciones al desempeño en la prueba estatal. Los
responsables de la formulación de políticas son conscientes de que los programas de
evaluación que tienen el mayor impacto en el currículo, la instrucción y el aprendizaje son
aquellos que los estudiantes, maestros, administradores, padres o el público en general
perciben que tienen sanciones o grandes riesgos asociados con ellos
(Madaus y Kellaghan, 1992). En 1999, 33 de los Estados Unidos tenían o tendrían un alto
nivel de participación (por ejemplo, graduación de la escuela secundaria, finalización de la
promoción social) adjunto a sus pruebas, mientras que 14 estados vinculan las apuestas
moderadas (por ejemplo, un diploma especial) a sus sistemas de evaluación. Las sanciones
pueden involucrar consideraciones financieras para distritos, escuelas o maestros. A veces,
sin embargo, la mera publicación de la información de resultados se considera una sanción.
Parece que hay dos principios que subyacen al uso de sanciones. Primero, las personas e
instituciones que están sujetas a sanciones tomarán medidas para obtener recompensas y
evitar el castigo. En segundo lugar, si la información sobre los resultados se pone en el
dominio público, los principios de la competencia entrarán en funcionamiento y, como en el
mundo comercial, prosperarán aquellos que lo hacen bien, los que lo hacen mal se
marchitarán.
ORIGEN DE EVALUACIÓN DE RESULTADOS

El fundamento y la práctica de la evaluación de resultados tienen una deuda con al menos
seis fuentes: la evaluación tradicional, las tradiciones de evaluación en educación, la eficacia
de la escuela y la investigación de la función de producción educativa, el movimiento de
gestión del desempeño, las preocupaciones de rendición de cuentas y los avances técnicos.
Evaluación tradicional
Una consideración de los resultados de los programas es una característica integral de muchos
enfoques tradicionales para la evaluación y, hasta la década de 1970, las evaluaciones
educativas se centraron principalmente en evaluar los resultados del programa. El énfasis en
los resultados es más evidente en los enfoques de evaluación orientados a objetivos. Tyler
(1949), por ejemplo, se centró en los objetivos educativos y su medición en el contexto de la
evaluación curricular. Otros enfoques en la tradición tyleriana también dieron importancia a
la especificación de objetivos y juicios sobre el grado en que se podría decir que se lograron
sobre la base de los datos de resultados del programa (por ejemplo, Provus, 1971). Sin
embargo, estos enfoques difirieron de muchos esfuerzos actuales de evaluación de resultados
en los objetivos del programa Unking con respecto a las metas u objetivos de escuelas o
maestros individuales en lugar de los marcos curriculares estatales, mientras que los
resultados no se utilizaron para decisiones importantes o para fines de rendición de cuentas.
Evaluaciones tradicionales en Educación
Pocas personas estarían en desacuerdo con la opinión de que los resultados de la educación
son importantes. Sin embargo, el acuerdo no estaría tan extendido en cuanto a la importancia
relativa de los resultados, ya que los individuos difieren en sus percepciones de la importancia
que debe darse a la variedad de metas u objetivos que se han propuesto para la escolarización.
A las habilidades de alfabetización y aritmética generalmente se les otorga una importancia
particular, y el uso de información sobre los resultados para tomar decisiones sobre la
efectividad de las escuelas y los maestros, basado en las adquisiciones de estas habilidades
por parte de los estudiantes, se remonta al siglo pasado. Quizás los ejemplos más conocidos
de este enfoque son los esquemas de pago por resultados que se introdujeron en las escuelas
británicas en 1862 para ayudar a mejorar la alfabetización y las habilidades matemáticas de
los estudiantes y la eficiencia de los maestros, al mismo tiempo que ahorran dinero. En estos
esquemas, la asignación de fondos a las escuelas se vinculó con los logros de los estudiantes,
medidos por exámenes escritos y orales en lectura, escritura y aritmética. La responsabilidad
por el fracaso de los estudiantes se colocó sobre los hombros de los maestros.
El crecimiento en el uso de pruebas estandarizadas en este siglo, especialmente en los Estados
Unidos, refleja el interés continuo en los resultados de la educación. El trabajo de Rice (1897)
sobre la ortografía es un ejemplo temprano de evaluación de resultados. La información sobre
los resultados, por supuesto, se ha utilizado para una variedad de propósitos, solo algunos de
los cuales están relacionados con la evaluación de programas o incluso de escuelas. Las
pruebas se utilizaron con mayor frecuencia para evaluar el rendimiento de estudiantes
individuales. Sin embargo, sobre la base de su valor en este contexto, Coleman y Karweit
(1972) propusieron que también podrían usarse para proporcionar medidas del rendimiento
escolar en la evaluación de "entornos educativos".
En las últimas tres décadas, las pruebas estandarizadas se han utilizado cada vez más como
instrumentos de la reforma educativa nacional. Su uso para diagnosticar lo que está mal en
la educación, junto con la atención legislativa que han recibido las pruebas, reflejan un
cambio fundamental en el mundo de la educación oficial, no solo en el propósito para el que
se usan las pruebas estandarizadas, sino también en las percepciones de calidad que tienen.
pasó de una consideración de las instalaciones escolares, los recursos y las condiciones a los
resultados de la escolarización (Madaus y Raczek, 1996). Una ilustración reciente de la
medida en que los resultados se han convertido en una preocupación importante de los
responsables de la formulación de políticas se encuentra en la propuesta del Presidente Bush
para América 2000 (Departamentos de Educación y Trabajo de EE. UU., 1993) que allanó el
camino para la Ley de Educar a América de 1994. Esta legislación propuso que los nuevos
American Achievement Tests deberían formar parte de un paquete de responsabilidad de 15
puntos diseñado para alentar a los padres, las escuelas y las comunidades a “medir los
resultados, comparar los resultados e insistir en el cambio cuando los resultados no son lo
suficientemente buenos” (Objetivos 2000: Ley de Educación de América, 1994). Esta
legislación nunca se implementó y la idea de una prueba nacional "voluntaria" todavía está
en suspenso. No obstante, muchos estados han adoptado las ideas centrales en la legislación
al diseñar sus propios programas de reforma basados en estándares.
Investigación sobre la eficacia escolar y la función de producción educativa
Una gran cantidad de estudios sobre la eficacia escolar y la investigación de la función de

producción educativa ha utilizado medidas de resultados educativos, generalmente pruebas
estandarizadas, en sus esfuerzos por determinar las características de escuelas efectivas. El
modelo empleado con más frecuencia fue una representación de entrada / salida de la
escolaridad: el rendimiento de los estudiantes en un momento determinado se relacionó con
una serie de insumos, generalmente identificados como influencias familiares y de
antecedentes, recursos escolares y características de la escuela (por ejemplo, gasto actual,
calificaciones y experiencia del maestro, proporción alumno-maestro (ver Hanushek, 1997;
Madaus, Airasian, y Kellaghan, 1980).
De acuerdo con esta tradición, varios enfoques para la evaluación de resultados recopilan
datos sobre los aportes en un esfuerzo por identificar los factores asociados con el
rendimiento estudiantil. El uso de indicadores (que podrían describirse como estadísticas con
relevancia evaluativa) en la evaluación de resultados encaja particularmente bien con la
conceptualización entrada-salida
de la escolarización. Reflejando el modelo de entrada y salida, los indicadores utilizados por
el Centro Nacional de Estadísticas de Educación del Departamento de Educación de los
Estados Unidos ahora incluyen datos de contexto y de resultados (Stern, 1986). A nivel
internacional, la OCDE (1997) en la descripción de los sistemas educativos de los países
miembros ha utilizado, durante la década de 1990, indicadores para describir el contexto
demográfico, social y económico de la educación, los recursos financieros y humanos
invertidos en educación, el aprendizaje. El medio ambiente y la organización de las escuelas,
y el logro de los estudiantes.
El movimiento de gestión del rendimiento
La sensibilidad a las necesidades de los gerentes de programas y tomadores de decisiones no

es nueva en la evaluación. Stufflebeam (1983), por ejemplo, consideró que la decisión que
debía tomarse, en lugar de los objetivos del programa, debería ser la preocupación clave del
evaluador. Sin embargo, el interés actual en el uso de los resultados de la evaluación para las
decisiones de gestión tiene un origen bastante diferente: la gestión del desempeño, que tiene
sus raíces en la década de 1930 pero creció en popularidad a fines de la década de 1980 y en
la de 1990 junto con enfoques de evaluación más establecidos. Si bien los objetivos generales
de la gestión del desempeño "para basar los juicios de la efectividad de los esfuerzos del
programa en información más apropiada y confiable, y para mejorar estos esfuerzos"
(Blalock, 1999, p. 118) no difieren de los objetivos de muchos más enfoques tradicionales de
evaluación, conceptos que subyacen a la gestión del rendimiento difieren de tales enfoques
en varias formas.
Si bien la evaluación tradicional surgió de la investigación en ciencias sociales, al adoptar
sus conceptos y técnicas básicas, la gestión del desempeño tiene sus raíces en un entorno
burocrático. Se basa en ideas de planificación y gestión, en particular las relacionadas con la
garantía de calidad, la satisfacción del cliente y la mejora continua. Implica definir el
desempeño en términos de resultados, establecer objetivos de desempeño, determinar la
medida en que se logran los resultados utilizando indicadores de desempeño y basar las
decisiones de asignación de recursos en la información de desempeño. Su objetivo es
proporcionar retroalimentación rápida y continua sobre un número limitado de medidas de
resultados que se perciben como de interés para los responsables de formular políticas,
administradores, partes interesadas, políticos y clientes, y para ser valiosos al tomar
decisiones (Blalock, 1999; Davies, 1999). El gerente, no el analista político "científico", es
la figura carismática; La eficiencia y la economía son las principales preocupaciones; y el
logro de objetivos de desempeño es el signo de “salud administrativa” (Pollitt, 1993).
Fue en este contexto que los sistemas de información de gestión (MIS) crecieron en la década
de 1980, diseñados para especificar las estructuras y procedimientos que rigen la
recopilación, análisis, presentación y uso de la información en las organizaciones. El
desarrollo fue, al menos en parte, una respuesta a la necesidad de monitorear el crecimiento
y la creciente complejidad de los sistemas y justificar las decisiones sobre la asignación de
recursos. La evaluación de resultados se adapta fácilmente a esta imagen al proporcionar
información estadística relativamente simple sobre un sistema, programa o actividad de
manera oportuna. Si bien los análisis más o menos complejos pueden acompañar esta
información en algunas evaluaciones, no es el propósito principal de la evaluación de
resultados proporcionarlos.
La responsabilidad
En los últimos años, la rendición de cuentas ha alcanzado una prominencia creciente en las
administraciones gubernamentales en muchos países. Las medidas para controlar cómo las
partes interesadas cumplen con sus obligaciones se han concebido como un mecanismo para
tratar los problemas que surgen de una serie de fenómenos: el aumento de la demanda de
servicios junto con la disminución de los recursos; una multiplicación de estrategias de
reforma; instrumentos administrativos débiles; y valores y demandas en competencia en
culturas pluralistas. Estas medidas, que se han aplicado a una gama de servicios públicos,
pueden parecer una forma razonable de poner orden en entornos complejos y poco
comprendidos. Se prevé que la información basada en las medidas conduciría al uso de
controles administrativos sobre el uso de insumos para garantizar que se cumplan los
procedimientos especificados. Pero también puede implicar simplemente la identificación de
productos que cumplen con un estándar específico y productos que no lo hacen. Se considera
como una tarea relativamente simple y directa utilizar los datos de una evaluación de
resultados para colocar la responsabilidad del cambio y el ajuste en la persona o institución
identificada como responsable, y para confiar en la operación de un mercado competitivo.
La amenaza o promesa de sanciones para lograr el efecto deseado. En esta situación, la
responsabilidad no está en un administrador para identificar los aspectos deseables de la
implementación o las condiciones que deben cambiarse. Él o ella no tiene que tratar de
entender o explicar por qué algunas personas o instituciones son "efectivas" y otras no. Todo
lo que se necesita es identificar lo efectivo y lo no efectivo, y tener datos estadísticos que
respalden el juicio.
A pesar de los problemas asociados con la evaluación de resultados que se considera a
continuación, los problemas de rendición de cuentas cobran mucha importancia en las
consideraciones de la reforma escolar actual. Por ejemplo, la Ley de Mejoramiento Educativo
adoptada en Tennessee en 1991 creó la necesidad de especificar los medios por los cuales los
maestros, las escuelas y los sistemas escolares podrían ser responsables de cumplir con los
objetivos establecidos para los sistemas educativos de Tennessee. Dado que la atención se
centró en el producto más que en el proceso, se estableció un sistema de evaluación basado
en resultados y se incorporó al Sistema de Evaluación de Valor Agregado de Tennessee
(TVAAS), que forma parte integrante de la legislación (Sanders & Horn, 1994).
Desarrollos tecnicos
La disponibilidad de tecnologías de costo relativamente bajo con capacidades de cómputo
masivas ha ayudado en gran medida al desarrollo, no solo de programas de prueba a gran
escala para obtener datos de resultados, sino también de los sistemas de información
gerencial en general y la planificación logística. La evaluación de resultados se ve facilitada
en gran medida por la capacidad de almacenar grandes cantidades de datos, vincular los datos
recopilados en diferentes momentos y realizar análisis estadísticos sofisticados.
EL USO DE EVALUACIÓN DE RESULTADOS
La tendencia de los gobiernos a asumir la responsabilidad de la calidad mediante el

establecimiento de estándares y el monitoreo de los logros académicos, junto con una
asignación de responsabilidad por el uso de recursos / aportes a los proveedores, se puede
encontrar en una amplia gama de países. Esto es un cambio de una situación en la que, hasta
hace poco, los sistemas de monitoreo y evaluación estaban más preocupados por los recursos
y la implementación que por evaluar los resultados. En muchos países, los aspectos de las
medidas de desempeño ahora están respaldados por la legislación.
En los Estados Unidos, la Ley de Desempeño y Resultados del Gobierno (GPRA) de 1993
se implementó en octubre de 1997 como respuesta a los informes de desperdicio e
ineficiencia en el gasto gubernamental. Para restablecer la confianza pública en el gobierno,
todas las agencias federales serían responsables de lograr los resultados del programa, la
calidad del servicio, la satisfacción del cliente y de proporcionar al Congreso información
suficiente para mejorar la toma de decisiones. Se requeriría una medición del desempeño y
los datos resultantes se harían públicos. La Oficina de Contabilidad General de los EE. UU.
Y otras agencias (http: // www) prepararon una gama de publicaciones que proporcionan una
relación y una descripción de la medición del rendimiento ("gestión por resultados"), así
como la experiencia en su uso. .reeusda.gov / part / gpra / gpralist.htm).
Se han producido importantes cambios en las agencias gubernamentales siguiendo la
legislación. Por ejemplo, la Agencia de los Estados Unidos para el Desarrollo Internacional
(USAID) ha desarrollado para sus proyectos financiados un "marco de resultados" que
involucra la especificación de metas, objetivos, indicadores con metas periódicas, resultados
intermedios y resultados netos a largo plazo (que representan el efecto de la intervención)
(Toffolon-Weiss, Bertrand, y Terrell, 1999).
La actividad de evaluación fuera de los Estados Unidos no está bien documentada. Sin
embargo, parece razonable decir que el alcance o el rango de las actividades de evaluación
encontradas en los Estados Unidos no se encuentran en otros lugares, a pesar de un aumento
reciente de la actividad de evaluación, o al menos un reconocimiento de su necesidad, en
muchos países. En España, por ejemplo. el gobierno ha respondido a la legislación que
requiere una evaluación después de la acción del gobierno en la contratación de servicios,
creando condiciones para la competencia y planteando el problema de la responsabilidad. La
respuesta refleja una preferencia por los enfoques de evaluación que son compatibles con la
producción de indicadores de control de gestión y son útiles para informar la toma de
decisiones en el proceso de políticas. Por ejemplo, la Oficina Administrativa de los Servicios
de Salud de Cataluña supervisa las poblaciones atendidas, los costos y los productos (por
ejemplo, número de visitas por habitante por día, número y costo de las recetas) (Ballart,
1998).
El uso de la evaluación (generalmente a través de una variedad bastante antigua) también ha
crecido rápidamente en otros países durante los años 80 y 90. En Dinamarca, se prefieren las
metodologías empíricas tradicionales (generalmente encuestas) para proporcionar datos para
el desarrollo político y organizativo, el control, el monitoreo y la modernización (Hansson,
1997). En Francia, se informó sobre el "encaprichamiento generalizado con la evaluación de
políticas públicas" como medio para modernizar el servicio público (Duran, Monnier y
Smith, 1995, p. 45). En Italia, las demandas para producir un marco de evaluación para las
reformas recientes en los servicios de salud (aziettda lizzazione della sanita publica) han dado
lugar a tensiones entre un enfoque centrado en la gestión y otro más orientado a la evaluación
de la eficacia y la calidad. Noruega también parece estar mostrando signos de creciente
entusiasmo por la evaluación, aunque los problemas aún no se han desarrollado con la nitidez
del enfoque observable en los países anglosajones (ver Noticias de la Comunidad,
Evaluación, 1998, 4, 373–379). En la Federación de Rusia, el requisito de un plan de estudios
uniforme en las escuelas se está reemplazando por una mayor autonomía para las autoridades
regionales y las escuelas en conjunto con los planes de estudios basados en resultados
(Bakker, 1999). Aunque las ambiciones de evaluación de muchos países parecen menos que
modestas La realización se ve obstaculizada por la falta de datos, experiencia, instrumentos
y la infraestructura necesaria para la recopilación y análisis de datos a gran escala. Este punto
se ha hecho en relación con el desarrollo de la evaluación en la República Popular China,
donde la evaluación era desconocida hasta principios de la década de 1980, pero ahora se
considera importante en el contexto del desarrollo nacional y el crecimiento económico. Se
están tomando muchas medidas para mejorar la capacidad de evaluación del país (Hong y
Rist, 1997).
Pasamos ahora a las descripciones de los esfuerzos de evaluación de resultados específicos
en educación a nivel estatal (EE. UU.), A nivel nacional e internacional.
Evaluación de resultados a nivel estatal

En los Estados Unidos, los departamentos estatales de educación son los principales actores
en la evaluación de resultados, recopilan datos sobre el rendimiento de los estudiantes,
publican los datos y permiten realizar comparaciones entre escuelas y distritos escolares.
En Texas, por ejemplo, los datos de resultados se proporcionan en todos los niveles de grado
para un rango de variables que incluyen el rendimiento académico, la tasa de promoción
estudiantil, la asistencia de estudiantes, la tasa de deserción escolar, el porcentaje que toma
las Pruebas de Aptitud Académica y la tasa de inscripción en la universidad después de la
escuela. Se otorgan recompensas en efectivo a las escuelas y al personal profesional
individual a las escuelas que proporcionan datos de prueba para el 95 por ciento de los
estudiantes elegibles y en los que al menos la mitad de sus cohortes se desempeñan mejor
que un grupo normal (Webster, Mendro y Almaguer, 1994).
El Sistema de Evaluación de Valor Agregado de Tennessee (TVAAS, por sus siglas en
inglés) también es un sistema basado en resultados, en el cual el enfoque de la rendición de
cuentas está en el producto de la experiencia educativa, no en el proceso. El TVAAS ha sido
adoptado y legislado por la ley estatal. De acuerdo con el Plan Maestro para Escuelas de
Tennessee de 1993, de la Junta de Educación del Estado, “las políticas educativas estatales y
locales se centrarán en los resultados; Tennessee tendrá sistemas de información de
evaluación y gestión que brindan información sobre los estudiantes, las escuelas y los
sistemas escolares para mejorar el aprendizaje y ayudar en la formulación de políticas
”(citado en Sanders & Horn, 1994, p. 301). Los exámenes se llevan a cabo en todos los
niveles de grado en lectura, matemáticas, ciencias, lenguaje y estudios sociales. Los juicios
se hacen sobre la base de los datos que se recopilan sobre los efectos de los sistemas escolares,
las escuelas individuales y los maestros individuales. Los datos sobre los dos primeros se dan
a conocer al público.
Evaluación de resultados a nivel nacional
Los ejemplos más obvios de evaluación de resultados a nivel nacional son las "evaluaciones
nacionales", que han funcionado en el Reino Unido de una forma u otra desde 1948, en los
Estados Unidos desde 1969 y en Francia desde 1979. La Evaluación Nacional de los Estados
Unidos de El progreso educativo (NAEP) es el modelo de evaluación más ampliamente
informado en la literatura. Es una encuesta en curso, mandatada por el Congreso de los
Estados Unidos e implementado por personal de campo capacitado, generalmente personal
de la escuela o del distrito. La encuesta está diseñada para medir los logros educativos de los
estudiantes en edades y grados específicos e informa el porcentaje de estudiantes con puntaje
en las tres categorías de rendimiento controvertido: "básico", "competente" y "avanzado".
También examina los logros de las subpoblaciones definidas por las características
demográficas y por la experiencia de fondo específica. Con los años, los detalles de la
administración de NAEP han cambiado; por ejemplo, en la frecuencia de evaluación y en el
nivel de grado objetivo. En la actualidad, las evaluaciones se realizan cada dos años en
muestras de estudiantes de los grados 4, 8 y 12. Se han evaluado periódicamente once áreas
de instrucción. Los informes más recientes se han centrado en lectura y escritura,
matemáticas y ciencias, historia, geografía y educación cívica. Los datos han sido reportados
por estado, género, etnia, tipo de comunidad y región.
Las evaluaciones nacionales son ahora una característica de muchos otros sistemas
educativos en todo el mundo, no solo en países industrializados (por ejemplo, Australia,
Canadá, Finlandia, Francia, Irlanda, los Países Bajos, Noruega, Suecia, Nueva Zelanda,
Reino Unido) sino también en países en desarrollo (ver Chinapah, 1997; Greaney y
Kellaghan, 1996). En todas las evaluaciones nacionales se incluye una evaluación del primer
idioma y las matemáticas de los estudiantes en el nivel de la escuela primaria. La ciencia está
incluida en algunos, y un segundo idioma, arte, música y estudios sociales en un pequeño
número. En la mayoría de los países, los datos se recopilan para una muestra de estudiantes
de una determinada edad o nivel de grado, pero en algunos países se evalúa a todos los
estudiantes de la edad o nivel de grado correspondiente (Kellaghan y Grisay, 1995).
Evaluación de resultados a nivel internacional
Las evaluaciones internacionales difieren de las evaluaciones nacionales en que involucran

la medición de los resultados de los sistemas educativos en varios países, por lo general de
forma simultánea. Los representantes de muchos países (generalmente de las organizaciones
de investigación) acuerdan un instrumento para evaluar los logros en un área curricular, el
instrumento se administra a una muestra representativa de estudiantes de una determinada
edad o nivel de grado en cada país, y se realizan análisis comparativos de los datos.
(Kellaghan y Grisay, 1995). La principal ventaja de los estudios internacionales sobre las
evaluaciones nacionales es el marco comparativo que proporcionan al evaluar el rendimiento
estudiantil y la provisión curricular. Las evaluaciones internacionales dan alguna indicación
de dónde se ubican los estudiantes en un país en relación con los estudiantes en otros países.
También muestran hasta qué punto el tratamiento de las áreas curriculares comunes difiere
entre los países y, en particular, en qué medida el enfoque en un país determinado puede ser
idiosincrásico. Esta información puede llevar a un país a reevaluar su política curricular.
La Asociación Internacional para la Evaluación del Rendimiento Educativo (IEA) ha sido
pionera en los estudios internacionales de evaluación y ha llevado a cabo una serie de estudios
sobre el rendimiento escolar, las actitudes y los planes de estudio en diversos países desde
1959. Aunque una de las funciones principales de la AIE es llevar a cabo La investigación
diseñada para mejorar la comprensión del proceso educativo, los estudios también pretendían
tener un propósito más práctico y aplicado: obtener información relevante para la
formulación de políticas y la planificación educativa con el fin de mejorar los sistemas
educativos (Husén, 1967; Postlethwaite, 1987) .
Hasta la fecha, la IEA ha realizado estudios de logros en matemáticas, logros en ciencias,
alfabetización en lectura, composición escrita, inglés como lengua extranjera, francés como
lengua extranjera, educación cívica, informática en la educación y cuidado infantil
preprimario. Los niveles y patrones de logros han sido descritos y comparados en todos los
países. Así también tienen diferencias en los planes de estudio previstos e implementados y
en los patrones de toma de cursos de los estudiantes. Se ha identificado una variedad de
correlatos de logros, incluida la oportunidad de los estudiantes de aprender, la cantidad de
tiempo que se estudia una materia, el uso de computadoras y los recursos en los hogares de
los estudiantes.
ENFOQUES EN RESUMEN EV ALUA CIÓN
Se ha utilizado una variedad de enfoques, según el resultado a evaluar, en la evaluación de

resultados. En las evaluaciones en el campo de la educación, las evaluaciones del rendimiento
de los estudiantes usualmente involucran la administración de pruebas o exámenes. Los
rendimientos de los estudiantes individuales se pueden agregar al nivel del maestro, la
escuela, el distrito, el estado o incluso la nación para permitir que se formulen juicios sobre
los logros en el nivel deseado.
Los juicios se pueden hacer sobre la base de resultados no ajustados. En las tablas de
clasificación británicas, los porcentajes de estudiantes en escuelas que recibieron diferentes
grados en exámenes públicos ("tablas de rendimiento") se han publicado desde 1992. En los
Estados Unidos, la mayoría de los sistemas estatales de rendición de cuentas en el pasado
comparaban escuelas y distritos escolares en el base de las medidas de resultado no ajustadas
(Guskey y Kifer, 1990). De manera similar, en los estudios comparativos internacionales, los
países se clasifican según las puntuaciones medias no ajustadas.
Este procedimiento tal vez no sea sorprendente si la evaluación de resultados se refiere
principalmente a la descripción, no a la explicación, al producto de la experiencia educativa,
no al proceso por el cual se logró. Sin embargo, existe preocupación sobre el grado en que
dichas comparaciones son justas, en particular si los resultados de la evaluación se utilizan
para fines de rendición de cuentas. El problema en juego es el de distinguir entre el impacto
"neto" de un programa que representa resultados que son directamente atribuibles al
programa, y el impacto "bruto" que refleja, además del impacto neto, influencias distintas al
programa que se está evaluando. monitoreado La distinción se ilustra fácilmente en el caso
de los logros de los estudiantes, que generalmente se reconoce como reflejo de una variedad
de influencias, incluyendo la dotación genética, los logros en el ingreso a la escuela y el
apoyo y la asistencia que los estudiantes reciben en el hogar y en la comunidad. - munity,
todos los cuales pueden ser independientes de las influencias de la escuela y del maestro
(Sanders & Horn, 1994; Webster et al., 1994). Si los estudiantes difieren de una escuela a
otra en sus niveles de rendimiento al ingresar a una escuela, es posible que las mediciones de
niveles absolutos de rendimiento estudiantil en una fecha posterior no reflejen
adecuadamente el éxito de una escuela en el traslado de estudiantes de sus niveles iniciales
de ingreso. Sin embargo, parece razonable decir que las escuelas e instituciones deben ser
responsables solo por las cosas que se espera que influyan, no por las características que los
estudiantes traen cuando vienen a la escuela (Woodhouse y Goldstein, 1996).
En línea con este pensamiento, se han realizado varios intentos para desarrollar metodologías
estadísticas que permitan una evaluación de las contribuciones de las escuelas al desarrollo
de los estudiantes en situaciones en las que se asume la asignación no aleatoria de los
estudiantes. Estas metodologías se basan en dos conceptos. Una se relaciona con la
progresión académica "normal", que es la progresión promedio que los estudiantes hacen
desde un punto de inicio dado durante un período particular en el sistema escolar (descrito
como progreso "esperado"). La otra está relacionada con la medida en que los estudiantes
individuales o los grupos de estudiantes (por ejemplo, en una clase o escuela) superan o caen
por debajo de ese progreso promedio en el período de tiempo especificado. Se considera que
la diferencia representa el valor que una clase o escuela en particular ha "agregado" al
progreso de los estudiantes.
Los procedimientos estadísticos generalmente se basan en un análisis de regresión múltiple
e involucran la comparación de los resultados reales de los estudiantes con las expectativas
o predicciones determinadas empíricamente sobre la base de datos relevantes (asistencia,
género, origen étnico, logros anteriores). El más sofisticado de estos enfoques utiliza datos
longitudinales de los estudiantes, en los cuales los puntajes de logros anteriores de los
estudiantes individuales se combinan con sus puntajes de logros posteriores. En el Sistema
de Evaluación de Valor Agregado de Tennessee, por ejemplo, los puntajes de ganancia de
estudiantes estimados se agregan a los niveles de maestro, escuela y sistema y se comparan
con los aumentos de las normas nacionales, que se espera que logre cada escuela. Las
escuelas con puntajes menores a dos desviaciones estándar por debajo de la norma deben
mostrar un progreso positivo o una intervención de riesgo por parte del Estado (Sanders &
Horn, 1994).
Los problemas asociados con el uso de medidas de valor agregado incluyen una cobertura
inadecuada de los logros de las escuelas, que puede variar según el área del currículo, el nivel
de grado y el maestro; datos incompletos para estudiantes derivados del ausentismo o la tasa
de rotación de estudiantes; regresión a la media en análisis estadísticos; problemas con la
confiabilidad de las medidas cuando el número de estudiantes en una escuela es pequeño; y
cómo tener en cuenta el efecto contextual sobre el rendimiento creado por el nivel de
capacidad de los estudiantes en una escuela o clase (Sanders & Horn, 1994; School
Curriculum and Assessment Authority, 1994; Tymms, 1995; Webster et al., 1994;
Woodhouse & Goldstein, 1996).
CUESTIONES EN EVALUACIÓN DE RESULTADOS
A pesar de su popularidad, el uso de la evaluación de resultados da lugar a una serie de

problemas. Primero, dado que la evaluación de resultados se basa principalmente en
suposiciones relacionadas con la planificación, los incentivos, la responsabilidad y el
consumismo, no es probable que conduzca a una mayor comprensión de lo que ocurre en los
programas, ni a una identificación de los factores que afectan a los resultados (por ejemplo,
, las contribuciones relativas de maestros, escuelas y una variedad de otras influencias, dentro
de un programa o fuera de él). Sin embargo, muchos consideran que el progreso en la
comprensión de cómo y por qué los programas tienen un impacto es importante para una
mejora real. En segundo lugar, y relacionado con el primer punto, está el tema de la
identificación y especificación de la responsabilidad de los proveedores y clientes,
particularmente en situaciones en las que los roles pueden ser ambiguos y no estar claramente
separados. ¿Cómo se establece que un resultado particular fue, incluso en parte, susceptible
a la influencia de una persona a quien se le puede haber asignado la responsabilidad? Por
ejemplo, si bien es razonable suponer que una escuela y los maestros son responsables de los
logros de los estudiantes, ¿no son responsables los estudiantes y los padres? Si esto es así,
¿cómo debería distribuirse la responsabilidad entre las partes? ¿Y debería ser el reparto el
mismo para todos los estudiantes, en todas las circunstancias, en todos los niveles de edad?
En tercer lugar, los indicadores de rendimiento se pueden utilizar, registrar e interpretar de
diferentes maneras, dando lugar a problemas de comparabilidad. Por ejemplo, un conjunto
central de medidas desarrollado por un Grupo de trabajo federal interinstitucional para
monitorear los programas de mercado en los Estados Unidos se diseñó para formar la base
de los sistemas de información de gestión a nivel estatal que apoyan el monitoreo del
desempeño. Sin embargo, dado que ningún estado opera un sistema de datos totalmente
integrado al servicio de múltiples programas, y como la elección de las medidas de
desempeño difiere de un programa a otro, los datos no son directamente comparables
(Blalock, 1999).
Cuarto, dado que muchas evaluaciones de resultados se centran en un rango limitado de
resultados, los datos que se obtienen pueden no reflejar adecuadamente las metas y objetivos
del sistema o programa. La tentación, por supuesto, es centrarse en lo que es fácil de medir,
pero esto puede ir en detrimento de objetivos importantes. Perrin (1998) nos recuerda que
“muchas actividades en el ámbito de las políticas públicas, por su propia naturaleza, son
complejas e intangibles y no pueden reducirse a una cifra numérica. . . Lo que se mide, o
incluso se puede medir, a menudo se parece poco a lo que es relevante ”(pp. 373–373). Sin
embargo, centrarse en un conjunto limitado de resultados probablemente signifique que otros
resultados se descuidarán en la implementación del programa.
En quinto lugar, cuando la evaluación de resultados se asocia con grandes intereses, cumplir
con los requisitos de medición y presentación de informes puede ser más importante que lo
que un programa fue diseñado para lograr, lo que resulta en un desplazamiento de la meta.
En educación, por ejemplo, cuando los resultados de la evaluación se convierten en el
objetivo de la instrucción, el verdadero propósito del proceso de instrucción puede ser
subvertido a medida que las metas se reorientan para cumplir o superar las "normas".
Además, los esfuerzos para mejorar el desempeño en la medida no necesariamente resultan
En mejora en las áreas que los programas fueron diseñados para lograr. Cuando cumplir con
los estándares se convierte en la base de las decisiones presupuestarias, existe la consecuencia
adicional de que los programas que cumplen con los estándares, en lugar de los objetivos del
programa, pueden continuar, mientras que los programas que cumplen con los objetivos, pero
no los estándares, pueden ser descontinuados.
Sexto, cuando las evaluaciones se basan en objetivos o estándares predeterminados, es poco
probable que se detecten consecuencias no intencionadas o imprevistas. Séptimo, la
interpretación de los datos en las evaluaciones de resultados puede no reconocer
adecuadamente las diversidades en el entorno en el que se implementaron los programas.
Bien puede ser que un programa sea "exitoso" en un contexto, pero no en otro. Finalmente,
el costo de la evaluación de resultados puede desviar fondos de otras necesidades, una
consideración no importante en un momento de restricciones de recursos (Battistich et al.,
1999; Blalock, 1999; Davies, 1999; Natriello, 1996; Perrin, 1998) .
EVALUACIÓN DE RESULTADOS Y OTRAS FORMAS DE EVALUACIÓN
En conclusión, podemos preguntar: ¿Dónde encaja la evaluación de resultados entre los

enfoques tradicionales para la evaluación de programas? La pregunta puede abordarse desde
tres puntos de vista que no son mutuamente excluyentes: el contexto en el que se realiza una
evaluación, su metodología y su relación con el proceso de políticas y la toma de decisiones.
Contexto
En lo que se refiere al contexto, la evaluación de resultados, como se ha desarrollado

recientemente, difiere de los enfoques tradicionales en varios aspectos, y se ajusta más
cómodamente a sus antecedentes administrativos que a cualquier enfoque de evaluación de
programas. Primero, tiende a ser parte de una rutina burocrática, que proporciona un
conocimiento que, en teoría, es relevante para la política. Segundo, frecuentemente involucra
consideraciones de rendición de cuentas, relacionadas con el escrutinio de los programas y
el reporte de indicadores de desempeño. En tercer lugar, el uso más común de dicha
evaluación es en el contexto de programas muy amplios y complejos (representados en, por
ejemplo, todos los esfuerzos realizados por una escuela o sistema escolar a lo largo de varios
años) en lugar de ser más discretos y más claros. programas En cuarto lugar, la evaluación
de resultados, como se practica con más frecuencia, se relaciona con la práctica continua más
que con programas innovadores o experimentales diseñados para abordar problemas sociales
o económicos. Por lo tanto, normalmente no se asocia con ejecuciones de prueba de nuevos
programas, como lo es la evaluación tradicional del programa, ni se combina normalmente
con enfoques cualitativos para evaluar la implementación y el impacto del programa.
Metodología
Las metodologías de evaluación de resultados tienen cierta afinidad con los enfoques de
evaluación temprana (década de 1960), que se basaron en gran medida en el positivismo
lógico popperiano, empleando medidas cuantitativas, cadenas deductivas y aspiraciones
hacia la generalización. Si bien los indicadores de resultados en sí mismos no proporcionarán
un conocimiento causal válido, el interés en la causalidad asociada con su uso se evidencia
en los esfuerzos para identificar los correlatos de logros y en los supuestos subyacentes al
uso de técnicas de valor agregado.
Si bien estos aspectos de la evaluación de resultados pueden apuntar a una afinidad con los
puntos de vista tradicionales de la evaluación y, de hecho, de la investigación, también hay
indicios de que la evaluación de resultados se percibe como un género que es distinto de la
evaluación tradicional (véase Blalock, 1999; Pollitt , 1993). Esta conclusión parece
justificada cuando se considera que los gobiernos y los organismos internacionales están
promoviendo el monitoreo de resultados (representado en evaluaciones nacionales y estudios
comparativos internacionales) al mismo tiempo que, e independientemente de, los enfoques
de evaluación más tradicionales (ver, por ejemplo, Comisión Europea, 1997).
Política y toma de decisiones
En esta etapa, hay poca documentación disponible sobre el uso de las evaluaciones de
resultados en un contexto de políticas. La medida en que la información derivada de tales
evaluaciones entre en el ámbito de las políticas sin duda diferirá de un país a otro,
dependiendo de las tradiciones de gobierno de un país y de la política y la toma de decisiones,
así como de las relaciones que ya se han establecido entre los responsables políticos.
tomadores de decisiones y evaluadores. En la medida en que la metodología de las
evaluaciones de resultados parece cercana a la involucrada en los enfoques cuantitativos
empíricos, con su visión racional del proceso de políticas, se puede esperar que la
información de los resultados se considere exógena al proceso, proporcionando "objetivo",
"neutral" y apolítico. Información a ser utilizada instrumentalmente en políticas y toma de
decisiones. Desde este punto de vista, al igual que en los esfuerzos de evaluación temprana,
el evaluador tiene un papel que desempeñar en la resolución de problemas de políticas, pero
no como un actor en el proceso actual de políticas (Radaelli y Dente, 1996). Esta conclusión
se refuerza cuando consideramos el número de proyectos de evaluación de resultados en los
que a menudo no hay un "evaluador" identificable. De hecho, el término evaluación a menudo
no ocupa un lugar prominente en los discursos sobre las actividades de lo que llamamos
evaluación de resultados. .
Esto no debería sorprendernos, dado el número limitado de objetivos de producción de
información que se consideran relevantes para la evaluación de resultados. De los seis
objetivos identificados por Blalock (1999) que los métodos de evaluación más
convencionales se esfuerzan por cumplir, es probable que la evaluación de los resultados
aborde solo uno: determinar si los resultados de un programa para los clientes (y quizás su
impacto neto) son consistentes con los resultados deseados. - Viene y para mejorar estos
resultados. No es probable que la evaluación de resultados proporcione información sobre
los otros cinco objetivos de Blalock: si las intervenciones de un programa son o no las
previstas; si un programa se está entregando a la población objetivo prevista; si un programa
se está implementando según lo previsto; identificación de las principales influencias que
dan forma a los resultados de un programa; o la adecuación, utilidad y valor social de las
políticas en las que se basa un programa.
La forma en que se predice que funcionará la información de la evaluación de resultados en
algunos sistemas sugiere que el esfuerzo por acomodar la información en la política será leve.
Si, por ejemplo, el propósito principal de proporcionar información sobre los resultados del
desempeño escolar es adjuntarle recompensas o castigos a los distritos escolares, escuelas o
maestros, entonces parecería que hay poca necesidad de reflexionar sobre, o tratar de
entender, cómo Las escuelas funcionan, o lo que se trata de programas que facilitan el
crecimiento de los estudiantes. Tal vez, las preguntas planteadas por estos problemas son
demasiado exigentes y desafiantes para un administrador ocupado. El curso más sencillo es
importar modelos de mercado y dejar que la competencia y el consumidor opten por lograr
la reforma deseada. Sin embargo, mientras se siga este enfoque, muchas preguntas que
tradicionalmente han tenido evaluadores ocupados permanecerán sin respuesta: ¿contribuye
un programa a la mejora, es equitativo, cuáles son las consecuencias no deseadas y a qué
costo se logra el cambio?
EL PAPEL DE LAS PRUEBAS EN LAS EVALUACIONES
GEORGE F. MADAUS, WALTER HANEY Y AMELIA KREITZER
La prueba está estrechamente vinculada a la evaluación. Las pruebas de algún tipo

desempeñan un papel en prácticamente todas las evaluaciones de programas educativos; de
hecho, con demasiada frecuencia una "evaluación" no es más que un análisis apresurado de
si los puntajes de las pruebas aumentaron.
Supervisar o realizar evaluaciones requiere un entendimiento de conceptos básicos y
problemas centrales en las pruebas; tal comprensión ayuda a garantizar que las pruebas no se
utilicen como una "línea de fondo" demasiado simplista. Cuando las pruebas se eligen con
cuidado y se interpretan adecuadamente en las evaluaciones, los resultados de las pruebas
pueden ayudar a responder la pregunta "¿Este proyecto marca la diferencia?" Debido a que
las pruebas son una tecnología compleja, es fácil para los patrocinadores del programa
asignar inquietudes acerca de cómo funcionan las pruebas o cómo están construidas para los
expertos. Pero así como un paciente sabio nunca se sometería a una cirugía sin hacer
preguntas, aquellos que pretenden utilizar los resultados de las pruebas deben plantear
preguntas pertinentes sobre los costos, las alternativas y las consecuencias de las decisiones
de las pruebas tomadas en las evaluaciones. Este capítulo introducirá algunos de los aspectos
del uso de las pruebas que deben ser analizados por quienes se encargan y emplean las
evaluaciones de programas.
El capítulo se abre con una explicación de lo que es una prueba. Posteriormente, se
considerarán dos tipos de pruebas con respecto a la evaluación. Las formas tradicionales de
prueba, como la prueba de opción múltiple, serán discutidas primero. También se discutirán
otras formas de prueba, las formas "alternativas" de evaluación que han recibido mucha
atención reciente. El capítulo se cerrará con una lista de preguntas para hacer y temas a
considerar cuando se usan pruebas o se interpretan los resultados de las pruebas en una
evaluación.
¿QUÉ ES UNA PRUEBA?
A pesar de la amplia experiencia con las pruebas, muchos estadounidenses, incluidos algunos
que regularmente administran y usan las pruebas, se perderían si se les preguntara ese famoso
ensayo extraterrestre, ET, “¿Qué es una prueba? No tenemos estas cosas en mi planeta ". La
confusión de ET podría aclararse con una explicación de cuatro conceptos centrales para la
definición de una prueba:
 Una prueba se centra en un dominio particular de interés.
 Una prueba es una muestra de comportamiento, productos, respuestas o rendimiento
de ese dominio.
 Una prueba le permite al usuario hacer inferencias sobre el dominio más amplio de
interés, y luego, usar esas inferencias para describir, tomar decisiones o determinar
las consecuencias sobre el examinador.
 El grado en que las inferencias, descripciones, decisiones o consecuencias específicas
son apropiadas se llama validez.
Dominio de prueba
Una prueba está diseñada para medir un conjunto particular de conocimientos, habilidades,
habilidades o actuaciones que son de interés para el usuario de la prueba. Esta área de interés
se denomina dominio de prueba o universo de prueba. El primer paso para construir una
prueba es definir el dominio, de modo que uno pueda decidir fácilmente si un aspecto
particular del conocimiento, o una habilidad, tarea, habilidad o desempeño en particular cae
claramente dentro del dominio.
Una manera directa, aunque algo simplista, de pensar en el dominio para una prueba de
rendimiento es como un libro de texto o como parte de un libro de texto. Por ejemplo, si un
escritor de pruebas quería construir una prueba de operaciones matemáticas de cuarto grado,
ella podría concebir el dominio de prueba como los capítulos de operaciones de un libro de
texto de matemáticas típico de cuarto grado. El dominio de prueba podría entonces dividirse
en cuatro secciones, llamadas subdominios o facetas, que representan las operaciones básicas
de suma, resta, multiplicación y división. Cualquiera de estos cuatro subdominios podría
especificarse más. Por ejemplo, podríamos limitar la faceta de adición a problemas que
involucran tres dígitos o menos. Los subdominios también podrían dividirse en problemas de
computación numérica y problemas de palabras. Una vez que estemos satisfechos con la
especificación del dominio, se puede construir una prueba para evaluar el dominio completo
de la aritmética de cuarto grado, o alguna faceta de la misma.
El ejemplo aritmético anterior representa un contenido o dominio de logros
comparativamente simple en educación. No todos los dominios de prueba se pueden definir
tan fácilmente, y mucho menos se pueden dividir de manera tan clara en subdominios o
facetas. Además, por supuesto, los dominios de prueba no se limitan a áreas académicas o
curriculares. Un dominio de prueba podría centrarse en habilidades relacionadas con el
trabajo para una ocupación particular, por ejemplo, o en uno de una amplia gama de rasgos
más abstractos como inteligencia, motivación, honestidad, competencia docente, aptitud
musical, capacidad de resolución de problemas matemáticos. , o desviación psicopática.
Definir el dominio de prueba para un rasgo abstracto es necesariamente una tarea más
espinosa que especificar el contenido de un libro de texto típico.
El concepto del dominio de prueba es relevante para las evaluaciones de dos maneras
importantes. Primero, con demasiada frecuencia la gente no pregunta si el dominio es el
correcto para los usos a los que se aplicará la prueba. Por ejemplo, imagine una prueba de
ciencias estandarizada de tercer grado que se utiliza para evaluar el éxito de un currículo de
ciencias práctico e innovador. El dominio de prueba para la prueba estandarizada podría, por
ejemplo, cubrir hechos relacionados con semillas y plantas, materia y cambios, formación de
rocas, máquinas, clima, ecología, la luna y salud. El currículo práctico podría, en cambio,
enfatizar el desarrollo de habilidades en las áreas de observación, clasificación, medición,
predicción, generalización, hipótesis y comprobación de hipótesis. Si bien no hay nada malo
con la prueba estandarizada relacionada con los hechos, se extrajo de un dominio de "ciencia
básica de tercer grado" que difiere dramáticamente de la visión de "ciencia de tercer grado"
reflejada en el currículo práctico de ciencias; por lo tanto, la adecuación estandarizada de la
prueba al evaluar un currículo práctico debe ser cuidadosamente examinada. La pregunta
"¿Esta prueba cubre el dominio en el que estoy realmente interesado?" Es fundamental para
el uso adecuado de la prueba.
Un segundo problema importante con respecto a los dominios de prueba en la evaluación es
el poder connotativo del nombre dado a un dominio, y por lo tanto a su prueba relacionada.
Los nombres de las pruebas, como las que están diseñadas para medir la "inteligencia" o la
"literatura funcional", pueden tener significados culturales y personales poderosos. Estos
significados asociativos dan color a la forma en que las personas usan, interpretan y
comprenden el rendimiento de las pruebas. Por lo tanto, incluso cuando la definición del
dominio de prueba es apropiada para un propósito de evaluación dado, el nombre de la prueba
puede determinar cómo los resultados de las pruebas son interpretados por varias audiencias
de evaluación.
El nombre de un dominio, por ejemplo, puede dejar de transmitir la incertidumbre o, a veces,
el carácter incompleto de nuestras conceptualizaciones. Por ejemplo, las personas a menudo
olvidan, o tal vez nunca sepan, que una prueba particular de "inteligencia" o "competencia
docente" podría representar solo una faceta pequeña, y en ocasiones relativamente poco
importante, de un dominio más grande. Tomar el nombre de la prueba demasiado literalmente
puede significar que el rendimiento de la prueba de una persona adquiere todo el bagaje
semántico, afectivo, con- tativo, emocional y metafórico generalizado asociado con el
nombre del dominio en particular, ya sea "honestidad", "inteligencia" o "Preparación": la
prueba supuestamente representa. Nombrar una prueba también afecta las actitudes sobre el
uso de la prueba, a veces en un nivel profundo. Por ejemplo, las personas se resisten al uso
de una "prueba de inteligencia" para retener a los niños en el jardín de infantes. Sin embargo,
cuando el mismo tipo de prueba se denomina prueba de "preparación", la práctica se vuelve
defendible y finalmente aceptable (Cunningham, 1988).
Cuando un probador construye pruebas para medir construcciones como la inteligencia, la
única esperanza para alguna apariencia de significado compartido es a través de una
comunicación clara de las facetas específicas del dominio que se supone que la prueba debe
reflejar. ¡Pero esto es más fácil decirlo que hacerlo! Los usuarios de las pruebas a menudo
no hacen referencia al rendimiento de las pruebas a la definición de dominio cuidadosamente
elaborada de los desarrolladores de pruebas. En cambio, interpretan el desempeño de las
pruebas en términos de los contextos, significados, propósitos y sensibilidades culturales que
asocian con el nombre de una prueba. Por lo tanto, al elegir y utilizar las pruebas, debemos
ser sensibles a la posibilidad de una mala interpretación basada en el nombre de una prueba.
Muestreo desde el dominio de prueba
Un segundo concepto básico que debe explicarse al responder la pregunta "¿Qué es una
prueba?" Es que una prueba es una muestra de comportamiento, productos, respuestas o
rendimiento del dominio más amplio de interés. Incluso para el dominio comparativamente
simple de los problemas aritméticos de cuarto grado, el número de posibles preguntas de
prueba que podrían construirse es asombroso; nunca podríamos esperar pedirles a los
estudiantes que los resuelvan a todos. Por lo tanto, seleccionamos una muestra de problemas
para representar las partes importantes del dominio. Es esta muestra la que constituye la
prueba del dominio.
La Figura 1 ilustra el concepto de muestreo del dominio de aritmética de cuarto grado. El
dominio está representado por el capítulo de un libro de texto, con los cuatro subdominios
relevantes representados por los subtítulos de los capítulos. La prueba se compone de
preguntas del contenido del capítulo; en nuestra ilustración, cada parte del capítulo está
representada por al menos una pregunta en la prueba. Si un subdominio completo, como
"división", no estuviera representado en absoluto, o solo por unos pocos ítems, la
representatividad de la muestra se cuestionaría. “¿La muestra de preguntas de la prueba
representa adecuadamente el dominio?” Es un tema importante que debe abordarse al utilizar
las pruebas en la evaluación.
Muestreo desde el dominio de prueba
Un segundo concepto básico que debe explicarse al responder la pregunta "¿Qué es una
prueba?" Es que una prueba es una muestra de comportamiento, productos, respuestas o
rendimiento del dominio más amplio de interés. Incluso para el dominio comparativamente
simple de los problemas aritméticos de cuarto grado, el número de posibles preguntas de
prueba que podrían construirse es asombroso; nunca podríamos esperar pedirles a los
estudiantes que los resuelvan a todos. Por lo tanto, seleccionamos una muestra de problemas
para representar las partes importantes del dominio. Es esta muestra la que constituye la
prueba del dominio.
La Figura 1 ilustra el concepto de muestreo del dominio de aritmética de cuarto grado. El
dominio está representado por el capítulo de un libro de texto, con los cuatro subdominios
relevantes representados por los subtítulos de los capítulos. La prueba se compone de
preguntas del contenido del capítulo; en nuestra ilustración, cada parte del capítulo está
representada por al menos una pregunta en la prueba. Si un subdominio completo, como
"división", no estuviera representado en absoluto, o solo por unos pocos ítems, la
representatividad de la muestra se cuestionaría. “¿La muestra de preguntas de la prueba
representa adecuadamente el dominio?” Es un tema importante que debe abordarse al utilizar
las pruebas en la evaluación.
La muestra de elementos que forman la prueba y que pretende representar el dominio
generalmente se desarrolla de acuerdo con los planes, llamados especificaciones de prueba.
Las especificaciones de la prueba describen en detalle cuestiones tales como el tipo de
elementos que se utilizarán, el número de elementos en la prueba, la proporción de elementos
de prueba que representan cada parte del dominio, el tiempo asignado a la prueba y las
características estadísticas del elemento. como la dificultad de los elementos y los niveles de
legibilidad. Las especificaciones de prueba, por lo tanto, son los planos detallados para
construir la prueba. Los manuales de prueba bien escritos suelen incluir algunos de estos
detalles para el usuario de la prueba.
Hacer inferencias de los resultados de la prueba
Implícito en la discusión anterior está el concepto de que es el dominio, no la prueba en sí,

lo que es de interés en cualquier situación de prueba. El desempeño en la pequeña muestra
particular de preguntas que constituyen la prueba es de interés solo en la medida en que nos
permite hacer inferencias sobre todo el dominio de la prueba. Este concepto de inferencias
es el tercer componente principal de la definición de una prueba: una prueba permite hacer
inferencias sobre el dominio de interés y luego usar esas inferencias para describir, tomar
decisiones o determinar las consecuencias de la prueba. -trabajador, la institución, o el
programa.
Para continuar con el ejemplo de la prueba aritmética de cuarto grado, el desempeño de un
estudiante (o el rendimiento promedio de una clase) en los diez, veinte o cien problemas que
componen la prueba aritmética nunca es la máxima preocupación. La preocupación final es
cuál es el rendimiento en la muestra de problemas, la prueba, sugiere sobre el dominio del
estudiante o la clase de aritmética básica (ver Figura 2).
Los resultados de las pruebas pueden conducir a inferencias que no se refieren al dominio de
prueba original, sino a un dominio diferente. El contenido de las pruebas de aptitud, por
ejemplo, se extrae de un dominio, pero la inferencia principal que se hace a partir de la
calificación de un estudiante no suele ser acerca de cómo ha dominado ese dominio; en
cambio, el puntaje generalmente se usa para hacer una inferencia sobre el desempeño futuro
del estudiante. El SAT es un ejemplo de ello: los elementos se extraen de los dominios de
matemáticas y artes del lenguaje, pero la inferencia más común a partir de los puntajes de las
pruebas, y en la que se diseñó la prueba, se refiere a la probabilidad de éxito en la universidad.
Cuando los puntajes del SAT se usan para determinar la elegibilidad para el atletismo
universitario, para otorgar becas o para comparar estados individuales en cuanto a la calidad
educativa, las inferencias se hacen a dominios diferentes por completo. Las flechas negras
grandes en la Figura 3 representan inferencias hechas a diferentes dominios del SAT.
Validez de la prueba
El concepto final necesario para comprender una prueba es la validez. La validez es la

idoneidad, la corrección o el significado de las inferencias, descripciones, decisiones o
consecuencias específicas que son provocadas por una calificación de la prueba. Cuando los
estudiantes en un programa de matemáticas innovadoras obtienen un promedio del 20 por
ciento de los problemas en la prueba aritmética correcta, y el evaluador del proyecto deduce
que no saben mucho acerca de las operaciones matemáticas básicas, la pregunta de validez
es: "¿Es correcto ¿Se infiere que los estudiantes no han dominado las operaciones
aritméticas? "Cuando todos los estudiantes son asignados a la clase de matemáticas
correctivas por el resto del año escolar, la pregunta de validez es:" ¿Es apropiado asignar a
todos los estudiantes a las matemáticas correctivas? y por lo tanto, potencialmente,
¿etiquetarlos como de bajo rendimiento) según el puntaje promedio de las pruebas del
programa?
La validez es un término ampliamente mal utilizado. Algunos de los malentendidos más
comunes se pueden aclarar considerando lo siguiente:
No existe tal cosa como una prueba genéricamente válida. En otras palabras, es incorrecto
afirmar de manera amplia y simple: "Esta es una prueba válida". Obviamente, se podría hacer
una inferencia inapropiada incluso desde la prueba mejor elaborada y administrada con
cuidado. Por lo tanto, las declaraciones sobre la validez de una prueba deben calificarse en
términos de la corrección de una inferencia particular y la consecuente descripción o decisión
sobre poblaciones particulares de examinados.
La validación es un proceso continuo, de hecho, interminable de acumulación de evidencia
sobre la validez. La característica fundamental de la validación es la búsqueda del significado
detrás de la puntuación de la prueba. Un verdadero estudio de validación busca evidencia que
no solo confirma, sino también evidencia que podría poner en duda la capacidad de la prueba
para medir lo que pretende medir.
La validez de una prueba es una cuestión de grado, no una simple dicotomía de "válido" o
"no válido". No existe tal cosa como una prueba perfecta; Las inferencias son siempre
problemáticas. La validación ofrece una defensa razonada para una inferencia, decisión o
descripción, no prueba.
UTILIZANDO PRUEBAS DE ELECCIÓN DE TIPOS MÚLTIPLES EN EVALUACIÓN
Al construir una prueba, un escritor de prueba debe decidir cómo los examinados
demostrarán lo que saben y pueden hacer. Puede pedir a los examinados que seleccionen una
respuesta entre varias alternativas, como en una prueba de opción múltiple. O bien, podría
pedirles que produzcan una respuesta, como en respuesta a una pregunta de ensayo, y luego
evaluar el producto resultante. También podría considerar requerir que los estudiantes
realicen algo, luego evaluar el desempeño o el proceso observado a medida que sucede.
Al utilizar las pruebas en la evaluación, podemos elegir entre estos diferentes modos de
prueba para responder a nuestras preguntas de evaluación. Nuestra elección del tipo de
prueba debe basarse en una comprensión clara de las ventajas y desventajas de cada modo,
en el conocimiento de las limitaciones logísticas y contextuales de la evaluación y en la
comprensión de los problemas de la evaluación que queremos que las pruebas informen.
Pedirle a los examinados que seleccionen entre las alternativas, como en los exámenes de
opción múltiple o de examen verdadero / falso, ha sido el modo predominante de exámenes
escolares en los Estados Unidos durante más de cuatro décadas. Las pruebas de opción
múltiple también son la forma más común de reunir datos de logros en las evaluaciones
formales de programas educativos; de hecho, las pruebas estandarizadas de opción múltiple
son obligatorias para las evaluaciones de muchos proyectos financiados por el gobierno
federal, como el Capítulo I.
Las pruebas de selección múltiple alcanzaron su posición de prominencia por razones que
son fáciles de entender en un contexto histórico. Durante la primera mitad del siglo XIX en
los Estados Unidos, los estudiantes que se graduaban de la escuela secundaria generalmente
tomaban exámenes orales. En Boston, el educador Horace Mann encontró que estos
exámenes consumían demasiado tiempo. Además, las preguntas presentadas a cada
examinado tenían que ser diferentes; Una vez que un examinado salía de la sala de examen,
las preguntas que se le presentaban podían ser reveladas a los siguientes examinados. Mann
reemplazó los exámenes orales con exámenes de ensayo, lo que permitió que las mismas
preguntas se administraran a muchos estudiantes a la vez. La práctica de dar exámenes de
ensayo creció y, durante la Guerra Civil, fue la metodología de evaluación más común en las
escuelas estadounidenses.
La inmigración a gran escala y el mayor acceso a la educación en las últimas décadas del
siglo XIX aumentaron dramáticamente el tamaño de la población escolar. Se necesitaban
medios de prueba aún más eficientes. Además, los estudios revelaron que los puntajes en las
pruebas de ensayo variaban enormemente dependiendo de quién los calificara. La invención
del artículo de opción múltiple, acreditado a Frederick Kelley en 1914, resolvió los problemas
de ineficiencia y subjetividad en las pruebas de ensayo. El uso de pruebas de opción múltiple
creció rápidamente, especialmente después del desarrollo de los escáneres ópticos en la
década de 1950. La eficiencia y la objetividad siguen encabezando la lista de ventajas de las
pruebas de opción múltiple.
Ventajas del uso de pruebas de selección múltiple en la evaluación

Las pruebas de opción múltiple se recomiendan para su uso en la evaluación por muchas
razones. Algunos de los más comunes son los siguientes:
 Se calificaron objetivamente: no importa qué persona o la máquina que corrija la
prueba, las puntuaciones serán las mismas.
 Además, las pruebas de opción múltiple son extremadamente eficientes; se pueden
administrar a muchos estudiantes a la vez y se pueden calificar de manera rápida,
precisa y económica gracias a los escáneres ópticos. Por lo general, no hay necesidad
de administradores capacitados o especialistas en áreas temáticas.
 Las pruebas de selección múltiple pueden cubrir gran parte del dominio de prueba en
comparativamente poco tiempo. Por ejemplo, los estudiantes pueden responder 50
preguntas en 40 minutos.
 Las pruebas de selección múltiple a menudo poseen una característica de prueba
deseable llamada confiabilidad. La confiabilidad se refiere a la consistencia de los
resultados de las pruebas en diferentes condiciones de prueba o diferentes formas de
una prueba.
 Muchas audiencias de evaluación consideran que las pruebas de selección múltiple,
en parte porque se califican objetivamente y se usan ampliamente, son fuentes de
información buenas y creíbles.
 Las pruebas de selección múltiple proporcionan puntajes en métricas que son
familiares para muchas audiencias de evaluación. Por ejemplo, los percentiles o
puntajes equivalentes de grado son dos métricas referidas a la norma que se informan
ampliamente en las evaluaciones.
Table pagina 121
Desventajas de utilizar pruebas de opción múltiple en la evaluación

A pesar de sus muchas ventajas, las pruebas de opción múltiple han sido criticadas por
algunas de las siguientes razones.
Los elementos de prueba de opción múltiple a menudo son intrínsecamente ambiguos. La
redacción que pueda parecer clara para un escritor de prueba puede confundir
involuntariamente al examinador. Las pruebas de selección múltiple proporcionan poca
información realmente diagnóstica sobre los estudiantes. No proporcionan información
acerca de por qué los alumnos obtienen información correcta o incorrecta, ni datos sobre el
proceso que los estudiantes emplearon para responder.
En un sentido similar, las pruebas típicas estandarizadas de opción múltiple proporcionan
poca información que el maestro puede utilizar directamente para guiar o mejorar la
instrucción. Las pruebas de selección múltiple a menudo no aprovechan (por lo tanto, a
menudo no proporcionan información sobre) las habilidades de pensamiento de orden
superior de los estudiantes. Es más fácil escribir elementos de opción múltiple para medir el
conocimiento fáctico que los procesos mentales complejos de varios pasos, aunque esto
último se puede hacer.
Si los exámenes de opción múltiple están asociados con sanciones y recompensas
importantes, como la promoción al siguiente grado o la graduación de la escuela secundaria,
pueden ejercer influencias negativas en el currículo. Imagine una escuela que desea recibir
financiamiento continuo del proyecto para un programa innovador que han desarrollado. Si
la financiación continua está supeditada a la mejora de la puntuación de la prueba, casi
ciertamente veremos tal mejora. Desafortunadamente, la razón para un aumento en la
puntuación en tales circunstancias es a menudo que la instrucción se ha reducido a la
perforación para la prueba.
Tabla pagina 123
USO DE EVALUACIONES ALTERNATIVAS EN EVALUACIÓN

Los problemas bien documentados con las pruebas de opción múltiple, como los resaltados
anteriormente, han provocado una demanda para diferentes tipos de pruebas. Estos tipos de
pruebas "diferentes" generalmente se conocen como "evaluaciones alternativas", ya que
representan una alternativa a las pruebas estandarizadas de selección múltiple dominantes.
Las evaluaciones de desempeño, portafolios e incluso elementos de opción múltiple que
requieren un pensamiento de orden superior, se han incluido bajo esta rúbrica.
Lo que estas pruebas alternativas y tipos de elementos tienen en común son las siguientes
características:
Se centran en una tarea completa, no en partes discretas de información. Requieren que el
examinado produzca o realice, no seleccione.
......
PREGUNTAS PARA PREGUNTAR CUANDO SE UTILIZAN LAS PRUEBAS EN EL
PROGRAMA EV ALUA CIÓN
Tenemos que usar pruebas e instrumentos de evaluación, pero no debemos engañarnos a
nosotros mismos ni a otros para que crean que los resultados de nuestras pruebas son
infalibles. El uso inteligente de la prueba implica hacer preguntas informadas sobre cada
decisión de la prueba. Ninguna de las desventajas mencionadas anteriormente con respecto a
las pruebas tradicionales o alternativas presenta dificultades insuperables, siempre y cuando
sepamos sobre las posibles dificultades y sepamos qué preguntar sobre ellas.
Al tomar decisiones de prueba en la evaluación, o trabajar con un evaluador que está tomando
decisiones de prueba, algunas de las preguntas que puede hacer son:
¿Cuáles son nuestros propósitos para la prueba? ¿Qué inferencias, decisiones, descripciones
o consecuencias esperamos producir a partir de los resultados de las pruebas?
¿El dominio de la prueba es el dominio que nos interesa? ¿El nombre de la prueba enmascara
una concepción incompleta del dominio?
¿Es el grupo normal para la prueba apropiado para nuestras decisiones de prueba? ¿Están las
normas al día?
.........
¿Estamos utilizando una métrica apropiada y asegurándonos de que aquellos que usan
nuestros resultados de evaluación lo entiendan?
¿Hay otros indicadores que puedan apoyar las conclusiones extraídas de los resultados de la
prueba? ¿Qué otras fuentes de información (como otras pruebas u opiniones del maestro)
pueden ayudarnos a juzgar las inferencias que hacemos de la prueba?
¿Tenemos que evaluar a cada estudiante en cada grado para tomar nuestras decisiones? Si
está utilizando un procedimiento de prueba costoso o disruptivo, y no necesita tomar
decisiones a nivel del estudiante individual (es decir, "¿Johnny debería hacer más trabajo en
la suma?"), Considere probar solo una muestra aleatoria del estudiantes (ver recuadro abajo).
¿Cómo podemos aprovechar el conocimiento rico en el contexto del profesor?
¿Qué restricciones contextuales y logísticas afectarán nuestra elección del modo de prueba?
EL MODELO DE EVALUACIÓN DE DISCREPANCIAS
ANDRÉS STEINMETZ
La palabra evaluación se usa a la ligera para abarcar muchas actividades y propósitos

diferentes. Cuando los educadores evalúan un programa de lectura, pueden referirse a decidir
cuál de los varios programas de lectura debería adoptar su distrito escolar; cuando evalúan
un horario de campana escolar, pueden significar descubrir qué tan popular es el horario entre
los estudiantes y la facultad y cuáles son las ventajas y desventajas de varios otros horarios
de campanas; al evaluar a los estudiantes, pueden significar administrar logros o pruebas
psicológicas; y así.
Además, cuanto más enfatizan los educadores la necesidad de evaluación y más se asocia
con las decisiones de responsabilidad y financiamiento, más aparece el término en su
vocabulario. Las personas están dispuestas a llamar evaluación de muchas cosas cuando
necesitan mostrar que han hecho algo que se llama evaluación.
Si bien el término abarca una gran variedad de actividades, existe una gran cantidad de
recursos asociados que parece ser invariante. La evaluación sugiere hacer juicios de valor, y
estos juicios generalmente están acompañados por fuertes reacciones emocionales. El
término hace pensar que se tomarán decisiones que afectarán el estatus social y / o profesional
de las personas, sus planes de carrera, su autoestima, el alcance de su autoridad, etc. Lo que
significa todo esto es que cuando uno es llamado a hacer una evaluación, por lo general es
difícil escapar de una batalla con muchas expectativas que las personas tienen sobre lo que
va a suceder. Para trabajar de manera efectiva, un profesional se ve obligado a aclarar su
posición en relación con todas estas expectativas. El Modelo de Evaluación de Discrepancia
(DEM) 1 representa un conjunto de ideas y procedimientos que surgen de intentos de
responder constructivamente a tales expectativas. Representa un esquema con el cual
responder a los desafíos presentados por la difícil tarea de evaluar programas educativos.
TENETES BÁSICOS DEL MODELO
Los conceptos de estándares, desempeño y discrepancia

Para evaluar algo, inevitablemente hacemos comparaciones. Más específicamente, decimos
que para evaluar un objeto dado (ya sea una persona, una motocicleta o un programa) debe
compararse con un estándar. Por estándar nos referimos a una lista, descripción o
representación de las cualidades o características que el objeto debe poseer. En otras palabras,
una descripción de cómo debe ser algo se llama Estándar (S).
Una vez que tengamos claro cómo deberían ser las cosas, podemos proceder a averiguar si
realmente son así. Cuando nos ocupamos de descubrir las características reales del objeto a
evaluar, estamos tomando medidas de rendimiento (P). Por lo tanto, la evaluación es una
cuestión de comparar S con P.
Hay otro término involucrado en la comparación entre S y P. Decimos que la comparación
produce información de Discrepancia (D) y, por lo tanto, podemos hablar de evaluación como
una cuestión de hacer juicios sobre el valor o la idoneidad de un objeto basado en sobre la
información D entre S y P.
Los conceptos de S, P y D emergen de forma bastante natural cuando, bajo el nombre de
evaluación, uno quiere juzgar la idoneidad o el valor de algo. Supongamos, por ejemplo, que
desea comprar una motocicleta pero no está seguro de si la específica que está considerando
está en buenas condiciones mecánicas, y, por lo tanto, dispone que un mecánico la examine.
Podemos usar los conceptos de S, P y D para describir lo que hará el mecánico conforme a
su solicitud para averiguar si la motocicleta está en buenas condiciones mecánicas.
Esencialmente, el mecánico tomará ciertas medidas de P y las comparará con una S. La
información de D generada al hacer la comparación de alguna manera se agregará a un juicio
acerca de si la motocicleta está o no en buenas condiciones mecánicas.
El mecánico tiene algunas ideas sobre cómo debería funcionar la motocicleta cuando
funciona adecuadamente y procederá a probarlas. Por ejemplo, puede consultar el manual de
especificaciones de la motocicleta para averiguar qué compresión deben generar los pistones,
y esa información se convertirá en parte de la S. Luego, como medida de P, puede averiguar
si los pistones sí lo hacen. De hecho se genera la compresión especificada. Él / Ella también
puede escuchar la forma en que el motor está en marcha en vacío (P) y compararlo con su
experiencia para decidir si el motor suena como debería (S). O bien, puede referirse tanto a
su experiencia como al manual de especificaciones (S) para generar D
Información sobre la condición real (P) de los frenos. Como otra estrategia de recopilación
de información de P, es probable que el mecánico conduzca la motocicleta y compare cómo
se siente y cómo suena la forma en que cree que la motocicleta debería sentirse y sonar.
Por lo tanto, para averiguar si la motocicleta está en buenas condiciones mecánicas, el
mecánico hará ciertas cosas, como medir la compresión, probar los frenos, examinar las
bujías, etc., todo lo cual representa la recopilación de información de P. Por supuesto, el
mecánico probablemente se limitará a recopilar medidas de P en un número limitado de
dimensiones según el tiempo disponible; el precio que ha acordado con usted; su experiencia
sobre lo que es importante mirar; y, también, la disponibilidad de una S que rige lo que él /
ella está mirando. Tenga en cuenta también que S variará en especificidad y será una mezcla
de la experiencia del mecánico y las especificaciones operativas y de ingeniería de la
motocicleta. La información de D que genera al comparar S y P se convertirá en la base de
las conclusiones que le envíe. En sus conclusiones, es probable que él o ella emita un juicio
diciendo que la motocicleta está o no está en buenas condiciones. Probablemente, él / ella
respaldará su conclusión al referirse a algunos de sus hallazgos. Él / Ella podría agregar cosas
como "los anillos del pistón están desgastados" o "necesita un nuevo embrague" y, por lo
tanto, enrollar en una frase una declaración P, una información S, D entre las dos, y una
conclusión que indique qué hacer acerca de eso Además, sabiendo que está intentando decidir
si comprar o no la motocicleta, es probable que él o ella haga una recomendación como, "está
bien para el precio" o "No lo compraría".
De manera similar, se puede demostrar que los conceptos S, P y D son la base de cualquier
juicio de adecuación o valor.
Resumen de observaciones
1. La persona que consultó para determinar si la motocicleta está en buenas condiciones

mecánicas es considerada por usted como un experto en mecánica de motocicletas.
2. Tanto el S como las características específicas de la motocicleta que se examinará (la
información específica de P que se recopilará) fueron seleccionadas y determinadas por el
mecánico. En particular, las fuentes de la S fueron la experiencia y el conocimiento del
mecánico y las especificaciones del fabricante.
3. Gran parte de la S quedó implícita. Puede solicitar que se le aplique, verbalice o explique
la S, pero la costumbre que rige el intercambio entre usted, el cliente y el mecánico (como
experto y como evaluador) tiende a mantener ese tipo de conversación al mínimo y en un
Nivel relativamente superficial. Y, cualquiera que sea la conversación sobre S, por lo general
están cargadas de jerga y se asumen conocimientos sobre las mismas condiciones o
fenómenos que, como cliente, usted no tiene y que lo llevaron a dirigirse a otra persona en
primer lugar. Por lo tanto, la S específica aplicada a cierta información de desempeño puede
seguir siendo desconocida para usted y, en cierta medida, porque no está articulada por él, es
menos conocida por el mecánico. Por ejemplo, al examinar la condición de las bujías, el
mecánico puede notar que son una marca que él / ella considera inferior a otra marca. Eso,
en sí mismo, puede hacer que esté más dispuesto a considerar que su vida está agotada de lo
que podría estar. Y la influencia de ese sesgo en su juicio es algo que el mecánico puede no
estar listo para reconocer.
4. No es probable que vea la información de rendimiento específica obtenida. Es probable
que el mecánico le informe un juicio general sobre la condición mecánica de la motocicleta,
elabore un poco sobre algunos de sus hallazgos y responda algunas de las preguntas que
pueda tener. Sin embargo, es poco probable que él / ella desglose la información de P y D o
que sea explícito acerca de cómo ha agregado la información de D para llegar a su criterio.
También puede recomendarle un curso de acción: reparación, negociación de precios, etc.
El papel del evaluador
Hemos visto cómo lo que se le pidió a un mecánico se puede discutir en términos de S, P y

D. Por lo tanto, podemos decir que el mecánico estaba evaluando la idoneidad mecánica de
la motocicleta. Pero no diríamos que él / ella estaba aplicando el DEM, a pesar de que
podemos describir lo que hizo en términos de S, P y D, porque lo crítico de la DEM es la
manera en que se aplican estos conceptos. Lo crucial reside en la relación de rol que asume
el evaluador frente al cliente. En particular, el evaluador de DEM no establecería S ni juzgaría
las comparaciones hechas entre S y P, aunque normalmente recolectaría P. En su lugar,
ayudaría al cliente a hacer estas cosas por sí mismo.
Supongamos, para explorar esta relación de rol, que venga a mí, un evaluador de DEM y no
un experto ni mecánico de motocicletas, y pídame que lo ayude con su problema más grande,
a saber, evaluar una motocicleta específica con el objetivo de Decidir si comprarlo o no.
Como evaluador de DEM, lo primero que me preocupa es la existencia de una S. Quisiera
saber de usted lo que está buscando en una motocicleta, qué características o cualidades
considera que debería poseer esa motocicleta. Si me dirijo a ti para una S parece un poco
extraño en este punto, puede ser porque tenemos algunas ideas y expectativas diferentes de
una evaluación. Recuerde que esta función característica del evaluador se elige para permitir
una respuesta constructiva a los problemas técnicos, políticos, organizativos y emocionales
encontrados en la situación aplicada.
Como evaluador de DEM, buscaría un modelo que represente el tipo de motocicleta que está
buscando, que luego se puede usar como la S con la cual comparar cualquier motocicleta en
particular. Esto contrasta con las observaciones de resumen (1) y (2) anteriores, que
observaron cómo el mecánico (como evaluador) se consideraba una autoridad experta y la
fuente del funcionamiento mecánico que rige. Podría comenzar ayudándole a hacer una lista
de las características o cualidades que valora o encuentra deseable, como se muestra en la
Tabla 1.
Si bien este primer intento de una S da una idea de los tipos de características que cree que
debe poseer la motocicleta deseada, todavía necesitaría más orientación de su parte antes de
poder recopilar información de P que sea útil para usted. Le pediría que formule algunas
preguntas, preguntas de evaluación, a las que le gustaría recibir una respuesta relativa a cada
característica que forma la S. Estas son preguntas que preguntan directamente si la calidad,
condición o característica deseada y especificada por la S obtiene en realidad. Tomemos el
costo y el poder, por ejemplo. En el caso del costo, una pregunta de evaluación podría ser:
¿Cuánto cuesta esta motocicleta específica? Al prepararme para responder esta pregunta,
haría un pequeño plan de trabajo, como el que se muestra en la Tabla 2, que revisaría con
usted.
Quedaría claro que cuando obtenga la respuesta a la pregunta uno en dólares, será fácil para
usted determinar si se cumple o no la S, ya que ha dicho que no debería costar más de $ 800.
Consideremos el poder, sin embargo. Como se muestra en la Tabla 2, una pregunta de
evaluación aquí podría ser: ¿Esta motocicleta realiza un crucero a 60 mph? Sin embargo, al
pensar en los elementos del plan de trabajo de evaluación aquí, me enfrentaré de inmediato
con un problema básico, y me dirigiré a usted para aclarar los siguientes puntos: Puedo
responder la pregunta de muchas maneras diferentes y aún así cumplir con su norma. Por
ejemplo, podría descender por una larga pendiente y mantener 60 mph, o conducir en línea
recta sin pasajeros o sin viento y mantener 60 mph durante media hora, o podría encontrar
que las especificaciones de ingeniería dicen que la motocicleta viajará a 65 con un pasajero,
o así sucesivamente. Por lo tanto, pensaría en estas dificultades con usted y le insto a
establecer una S que restrinja más severamente la cantidad de condiciones y respuestas
diferentes que lo satisfarían. Por lo tanto, podemos terminar con una S más específica como
se muestra en la Tabla 3.
Veamos ahora otro aspecto de la S mencionada en la Tabla 1, es decir, la estabilidad.
Podemos ver de inmediato que el mismo problema con la S vuelve a aparecer aquí. Afirma
una relación entre el tamaño, el peso y la estabilidad, pero si no sabemos qué es, entonces
simplemente averiguar el tamaño y el peso de una motocicleta determinada no le informará
si su S para la estabilidad se habrá cumplido. Una vez más, le insto a que decida qué
considerará estabilidad adecuada y que acepte una manera adecuada de tomar medidas de
desempeño. Si no pudieras llegar a una conclusión por tu cuenta, te ayudaría a pensar en una
serie de opciones diferentes. Puede consultar a los ingenieros de motocicletas para conocer
las constelaciones de variables y condiciones que podrían definir la estabilidad; usted podría
lanzar un proyecto de investigación para definir la estabilidad y los factores involucrados,
etc. También podría decidir eliminar todo el asunto de la estabilidad de su S. Mientras yo
facilitaría un proceso de configuración de S y buscaría confrontarlo con usted. Las decisiones
que necesitaría tomar para tener una S disponible, no me involucraría en el trabajo ni en las
decisiones involucradas en la creación de la propia S. Así, por ejemplo, no llevaría a cabo el
proyecto de investigación que construiría la S, a menos que cambiara completamente mi
contrato con usted, y quedó claro que ya no sería un evaluador. Para mí, la evaluación
supondría la existencia de la S y supondría simplemente observar un objeto o evento
específico para ver si están presentes las características o condiciones pertinentes.
En la mayoría de los casos, ni siquiera recopilaría ningún dato a menos que se indicara
explícitamente la S. De lo contrario, usted, como cliente, quedaría abierto a la posibilidad de
que yo, y no usted, realizaría el juicio final de la adecuación en la evaluación. Supongamos
que decide que las preguntas de investigación relativas a la estabilidad son demasiado lentas
y costosas, dado que desea llegar a una decisión dentro de un breve período de tiempo. Por
lo tanto, usted está en la posición de permanecer interesado en una cierta calidad (estabilidad)
pero se encuentra sin una S para ello. Esta es ciertamente una situación bastante común en la
mayoría de los asuntos cotidianos, y existe un método popular para tratarla: deje el S sin
explicar y decida la idoneidad de la información de P a medida que la recopila. Aplicando
este método a nuestro ejemplo, uno podría conducir la motocicleta y sacar una conclusión
acerca de qué tan "estable" se siente uno, lo que implica evocar una S basada en la experiencia
inmediata. Una sería contrastar la experiencia inmediata con un modelo ideal implícito de
estabilidad. También se podría hacer un juicio comparativo montando varias motocicletas y
comparando los sentimientos de estabilidad involucrados. De cualquier manera, uno recopila
algo de conocimiento psicomotor sobre la estabilidad que desea, formula como S y genera
información de D mientras conduce la prueba. Sin embargo, si se eligiera esta última ruta
para obtener P medidas de estabilidad, entonces usted, como cliente, tendría que hacer la
prueba de manejo. Después de todo, usted es el que está interesado principalmente en saber
si una motocicleta específica cumple con su S. Si la S se deja inobservable y si yo, como
evaluador, hago la prueba de manejo, la cuestión de la estabilidad terminaría siendo juzgado
contra mi S (implícito) y no el tuyo.
revisión
Si bien el trabajo del evaluador mecánico y del DEM se puede describir en términos de los
conceptos S, P y D y, por lo tanto, se denomina evaluación, existen diferencias importantes
en la forma en que cada uno desempeñó su función. Estas diferencias se pueden resumir en
términos de la relación entre el mecánico y el evaluador de S involucrados. El mecánico fue
la fuente de S, la S seleccionada, definió las P medidas que debían realizarse, los
procedimientos involucrados y también recopiló la información de P. Luego / comparó S y
P en cada caso y formó un juicio general sobre la idoneidad mecánica de la motocicleta en
función de la información D generada. Él / Ella tampoco estaba especialmente interesado en
hacer S explícito ni en presentar P con gran detalle. Al menos, lo hizo solo cuando parecía
necesario para hacer sus conclusiones plausibles y convincentes para el cliente, o en respuesta
a preguntas específicas.
En contraste, el evaluador de DEM abordó el problema ayudando al cliente a articular las
dimensiones involucradas en S, dejando en claro que la responsabilidad de decidir qué S debe
ser del cliente. El evaluador también dejó en claro que el cliente tenía que especificar el tipo
de evidencia que sería un índice aceptable de la S, así como lo que se consideraría el
desempeño según el criterio. Por otra parte, la importancia atribuida a todas las discrepancias
encontradas y, por lo tanto, el juicio general de adecuación, también se dejó al cliente. El
evaluador de la DEM fue, por lo tanto, el facilitador de un proceso. El evaluador real, en el
sentido de hacer valer el juicio, era el cliente.
Para garantizar que el cliente estuviera en condiciones de emitir un juicio de valor, tanto la
información de S como la de P que debían recopilarse debía alcanzar un cierto nivel de
especificidad independiente de la personalidad del evaluador de DEM. Esto es algo que hace
que el rol del evaluador sea complicado. Si bien el evaluador de DEM generalmente lo
consideraría parte de su responsabilidad de recopilar información de P, no lo haría en los
casos en los que evidentemente comprometería la capacidad del cliente para comparar S y P
y, por lo tanto, daría D significado. El ejemplo de la estabilidad fue un ejemplo de ello. Vimos
que al dejar S incrustado en la experiencia personal, la misma definición y colección de P se
estableció tácitamente en S. Por lo tanto, en ese caso, se le pidió al cliente que recolectara P
mismo.
Hay dos aspectos de la postura del evaluador de DEM que requieren comentarios adicionales.
Tienen que ver con el interés de distinguir claramente entre los actos de configuración de S
y determinar si S se ha cumplido. Primero, como ya se mencionó, establecer S es
responsabilidad del cliente, pero facilitar el proceso es responsabilidad del evaluador. Si el
cliente no puede formular una S pertinente, entonces puede emprender cualquier actividad
necesaria para crearla, lo que puede implicar consultar a expertos o lanzar proyectos de
investigación. Él / Ella también puede contratar a un experto para hacer la "evaluación" por
él / ella. Esta fue la situación en el ejemplo anterior, donde se contrató a un mecánico para
juzgar la condición mecánica de la motocicleta porque el cliente no sintió que tenía la
experiencia para hacerlo él mismo. Sin embargo, debido a la forma en que se realizó esta
"evaluación" o, más exactamente, debido a la relación del cliente con ella, no la
consideraríamos una evaluación de DEM. La razón principal de esto es que el cliente no está
estableciendo expresamente S, y esto se consideraría como un precedente a su papel y
responsabilidad en la toma de decisiones. Se puede objetar que el cliente todavía es libre de
aceptar o rechazar lo que el experto termine recomendando. Eso es, por supuesto, cierto, pero
el punto no es tanto que el cliente termine tomando las decisiones finales como lo es que
expande su conciencia de los ingredientes crudos que intervienen en la toma de la decisión.
Elegir aceptar o rechazar un juicio formal es diferente de ser parte en la realización de ese
juicio.
juicio.
El segundo asunto es una variación de la dificultad que se encuentra a menudo en
ing. S. Se puede decir que dejar la definición de algo como estabilidad a una sensación no
explicada derivada de la prueba de manejo no es objetiva, no es científica o no le brinda al
evaluador una definición operativa u observable. Y el no ser objetivo o científico en este
sentido generalmente es rechazado. Sin embargo, prefiero no hablar sobre el tema de esta
manera. Creo que es mejor discutir el tema en términos de roles y responsabilidades. El
cliente es quien tiene que vivir con la elección hecha. Él / Ella es el que tiene que
responsabilizarse de la evaluación y de las decisiones resultantes. Los datos específicos o la
información de desempeño a la que uno responde al comparar P y S es ciertamente una
cuestión de la estructura de creencias y la forma preferida de relacionarse con el mundo. Si
nada más que datos empíricos o científicos servirá, entonces ciertamente se podría proceder
a construir una definición empírica.
Inición de "estabilidad". Pero no creo que esa sea automáticamente la mejor manera o la más
apropiada de proceder. Un cliente puede encontrar satisfactorio su propio juicio personal
basado en criterios de sentimiento o no explicados, y si lo hace, yo también lo haré. Eso no
significa que no trataría de explorar con el cliente otras alternativas o las consecuencias de
hacer las cosas de diferentes maneras. Tampoco significa que aceptaría ningún contrato de
evaluación de ningún tipo. Significa que la credibilidad de la evidencia es una función de las
creencias de uno y que la información objetiva cuantitativa no es necesariamente la cosa por
la que luchar.
Un corolario interesante aquí es que, en el caso de la evaluación del programa, absolutamente
cualquier objetivo del programa es un objetivo adecuado en lo que respecta al evaluador de
la DEM. No hay necesidad de insistir en el comportamiento u otros tipos de objetivos. La
descripción de la función ya proporcionada enfatiza la libertad de establecer S como parece
deseable y pertinente para el cliente, quien tiene la responsabilidad del programa. Las reglas
para expresar el desempeño de los criterios, en particular, no se deducen necesariamente de
una cierta orientación metodológica o marco lógico. Las S y P aceptables se consideran, más
bien, como una función del conjunto de acuerdos y creencias que conforman el mundo del
cliente.
Estas características de los roles pueden ser difíciles de manejar cuando un laico quiere
evaluar una motocicleta, pero son esenciales para la evaluación integral y útil de algo como
un programa educativo o de servicio social. Esto se debe a que los programas representan
actividades humanas organizadas y, como tales, siempre representan
LA APLICACIÓN DE LA DEM A UN PROGRAMA EDUCATIVO

Revisión del modelo
Hemos dicho que la evaluación siempre consiste en comparar el rendimiento (P) con un
estándar (S). Esta comparación produce información de discrepancia (D), que se puede
utilizar como base para emitir un juicio de valor o valor sobre el objeto que se está evaluando.
Para evaluar algo, debemos tener una S pertinente disponible. Por lo general, obtener una S
de este tipo no es fácil y, en la mayoría de los casos, debe crearse: un trabajo realizado por el
cliente, asistido por el evaluador, para aclarar y concienciar la S que debe regir la actividad
u objeto que se evalúa. Por lo general, la medida en que S puede hacerse explícita y
observable es una cuestión de grado, las dimensiones importantes de la misma permanecen
implícitas.
El evaluador recopila datos para los cuales está disponible una S explícita; pero, para hacerlo,
el evaluador y el cliente deben acordar primero la información de P específica que se
recopilará y la fuente de esa información. Esto puede implicar que el cliente y el evaluador
trabajen juntos para aclarar continuamente S.
Pasos básicos en la aplicación del DEM a un programa

Lo primero que debe hacer es comprender que el propósito de la evaluación es mejorar el
programa haciendo que los ciclos de SPD sean explícitos y públicos en la medida de lo
posible. Esto incluye acordar las distinciones de roles entre el cliente y el evaluador que se
discutieron anteriormente, y despejar el camino para la primera tarea, que es crear S.
Crear S es una planificación orientada a la acción. El cliente debe recurrir tanto al
conocimiento existente como a sus propias experiencias, valores y propósitos para poder
construir S. Él / Ella debe buscar involucrar a otros en su personal, a los afectados por el
programa o a aquellos para quién está diseñado el programa, para terminar con una S.
adecuada y realista. Crear S es, por lo tanto, un ejercicio de clarificación de metas y valores
aplicados y se puede considerar que crea un modelo concreto de un programa.
Una forma útil de proceder para crear S es hacer un análisis de componentes: dividir el
programa en sus principales actividades, funciones o componentes. Cada componente, a su
vez, puede dividirse en sus subcomponentes y así sucesivamente, hasta que se alcanza un
nivel de detalle adecuado a las necesidades de la gestión del programa. Por ejemplo,
supongamos que el programa que nos preocupa es un programa de maestros en servicio.
Podemos representarlo como se muestra en la Figura 1. Sin embargo, al reflexionar sobre la
organización básica, podríamos decidir que el programa realmente consta de tres
componentes principales: selección, desarrollo del currículo e instrucción. Estos pueden
luego ser representados como subcomponentes del programa de maestros en servicio como
se muestra en la Figura 2.
Cada vez que dividimos un componente en subcomponentes, alcanzamos un nuevo nivel de
detalle. Por lo tanto, llamamos análisis de nivel I de la Figura 1 y análisis de nivel II de la
Figura 2. La Figura 3 muestra un análisis de nivel III para el componente de selección. Si
bien la selección sola ha sido elegida por razones de brevedad, los otros componentes se
desglosarán de manera similar al construir un diseño de programa.
Para escribir una descripción práctica de cada componente y subcomponente, hacemos un
análisis de entrada-proceso-salida para cada uno. Esto significa que asumimos que la
actividad del programa no es aleatoria, que está dirigida a un objetivo y que cada actividad
tiene uno o más objetivos. Estos objetivos, que pueden ser condiciones, comportamientos,
productos tangibles o cualquier propósito que una actividad esté tratando de alcanzar, son
resultados. Las cosas que hacemos para lograr los resultados son procesos. Los procesos
indican qué se hará, quién lo hará, cómo, cuándo y dónde. Describen cómo se combinarán o
transformarán los recursos para producir productos. Los recursos en sí mismos, el personal,
las instalaciones, los materiales, los requisitos previos, etc., que se necesitan para respaldar
los procesos, son insumos.
Asignemos a todo el programa el número 1.0. Luego podríamos llamar al componente de
selección 1.1, desarrollo de currículo 1.2 e instrucción 1.3. Del mismo modo, la selección de
personal puede ser 1.1.1. y selección de participantes, 1.1.2. (Este sistema de numeración
ofrece una manera conveniente de referirse a los componentes y sigue la forma habitual de
esbozo). Una descripción abreviada de entrada-proceso-salida para cada uno podría verse
como se muestra en la Tabla 4.
De la misma manera, se desarrollaría un diseño de programa o S para cada uno de los otros
subcomponentes, desglosándolos en sus componentes (por lo tanto, hasta el nivel de detalle
IV), si eso es útil. Observe que se hace referencia a la salida de 1.1.1, dos capacitadores de
maestros: "a 1.1.2, 1.2 y 1.3". Esto indica que la salida de 1.1.1 se usa como entrada a 1.1.2,
1.2 y 1.3 . En otras palabras, los capacitadores de maestros serán insumos para la selección
de participantes, el desarrollo del currículo y las actividades de instrucción en servicio. La
descripción de entrada-proceso-salida para 1.1.2 muestra esta relación entre 1.1.1 y 1.1.2 con
la entrada "formadores de docentes (de 1.1.1)" en la columna de entrada. Por lo tanto,
esperamos encontrar la contribución de los formadores de docentes mencionada en la
descripción del proceso para 1.1.2, selección de participantes. El diseño también muestra que
los diez maestros de cada escuela son insumos para el componente 1.3, instrucción en
servicio (eso tiene sentido, por supuesto, ya que serán los beneficiarios del programa).
Estas relaciones de entrada a salida se muestran en la red en la Figura 4, que es la misma que
en la Figura 3, excepto que se agregaron los números de los componentes y algunas flechas
entre los componentes. Una flecha entre componentes significa que
un componente produce al menos una salida que es una entrada para el otro componente. Por
lo tanto, el hecho de que los formadores de docentes seleccionados en 1.1.1 son una entrada
a 1.1.2, como ya se señaló, se muestra con una flecha que conecta 1.1.1 y 1.1.2. Las otras
relaciones (entrada-salida) entre los componentes también son se muestra con flechas. Esta
información adicional al análisis de componentes de la Figura 3 nos lleva a llamar a la Figura
4 una red.
Este tipo de análisis de componentes y relaciones eventualmente produce un diseño detallado
del programa. Constará de narrativas de entrada-proceso-salida para cada componente, junto
con una red que muestra todos los componentes (y subcomponentes) y las relaciones
principales entre ellos. Este diseño actúa entonces como S; Especificando lo que debería ser,
la intención del programa. Como veremos en un momento, los datos de P se pueden recopilar
en cualquier aspecto del programa para determinar si lo que debería ocurrir o el resultado (S)
en realidad está ocurriendo (P).
Debe ser evidente que este procedimiento de planificación sobresale de las diferencias en los
valores, los enfoques, los procedimientos, las orientaciones filosóficas, etc., facilitado
adecuadamente por el evaluador de la DEM, la planificación promueve la resolución o
negociación de estas diferencias y el acuerdo sobre la S que gobernará la evaluación formal.
A medida que estos planes se implementan y revisan periódicamente a la luz de la
información de P, pueden ser modificados o modificados; es decir, la S puede cambiar a
medida que cambian las condiciones y se produce una evaluación continua de los resultados.
Por lo tanto, las decisiones y acciones programáticas utilizan retroalimentación. El trabajo
del evaluador incluye recopilar los comentarios y ponerlos a disposición de los clientes del
evaluador.
La descripción de entrada-proceso-salida sugiere diferentes tipos de información que pueden
ser recopiladas deliberada o formalmente para ayudar a la acción guiada por la
retroalimentación. Estos se resumen en la Tabla 5.
La evaluación del diseño en la Tabla 5 se refiere a juzgar la idoneidad de las intenciones del
programa. El objeto que se evalúa aquí es el plan del programa. Cualquier programa está
destinado a tener una base en la filosofía social y moral, así como en la investigación
empírica, y la crítica de estas bases puede ser referida como el problema de la validez de
constructo. Pero los planes del programa también pueden ser examinados por su
exhaustividad, adecuación a la situación, relación con los intereses y necesidades conocidos,
etc. También se puede hacer un análisis para ver si los recursos, como los tipos y
calificaciones del personal y los materiales, parecen adecuados para apoyar las actividades
que el programa pretende emprender. De manera similar, uno puede criticar la relación lógica
entre los objetivos del programa y las actividades diseñadas para lograrlos. La evaluación de
diseño, entonces, se refiere a la construcción y la validez lógica u operativa de un conjunto
de intenciones. Los estándares involucrados en este tipo de evaluación a menudo no son
completamente explícitos de antemano y se hacen explícitamente en forma incremental. El
método que se utiliza es el de los argumentos lógicos y la evaluación en sí misma se entiende
fácilmente en términos de los conceptos S, P, D.
Los planes del programa pueden servir como S para otras evaluaciones realizadas durante el
ciclo de vida del programa. Los planes del programa especifican y dirigen la implementación
del programa y, como tales, pueden servir como S para la evaluación de aportes, procesos y
resultados. Por ejemplo, cualquier programa utiliza ciertos tipos y cantidades de recursos a
lo largo del tiempo. Los planes del programa que especifican la cantidad y el tipo de recursos
para diferentes actividades y propósitos pueden actuar como una S que rige la instalación del
programa. Por lo tanto, la información de P se puede recopilar con respecto a la medida en
que los recursos planificados están realmente disponibles y, de hecho, se despliegan según
sea necesario (evaluación de entrada). Sin embargo, un programa cuyo diseño ha sido
juzgado como adecuado puede fallar si no tiene los recursos adecuados disponibles cuando
son necesarios. La evaluación de insumos está dirigida a ayudar a la gerencia a asegurarse de
que estos recursos estén disponibles cuando sea necesario.
La evaluación del proceso implica determinar si las actividades planificadas se llevan a cabo
de la manera requerida por los planes del programa y si son de la calidad esperada.
Nuevamente, la S aquí es el plan del programa, que especifica y describe los procesos del
programa que se deben poner en movimiento. Debido a la compleja interacción entre S y
acción (¿qué se conoció primero?), La evaluación completa del proceso se superpone a la
investigación de acción.
La evaluación de resultados se refiere a determinar la medida en que se logran los resultados
planificados. Es útil distinguir al menos dos clases de resultados. Los resultados habilitantes
o provisionales se refieren a los hitos o subobjetivos esenciales para la ejecución del
programa de mes a mes. En contraste, los objetivos terminales se refieren a los propósitos
principales u objetivos del programa.
Debe quedar claro que la especificación adecuada de entradas, procesos y salidas para cada
componente y subcomponente, y la especificación de las relaciones entre todos los
subcomponentes, equivale a poner a disposición la S esencial para la evaluación de
aportaciones, procesos y resultados. Esto hace posible realizar una evaluación de forma
continua a lo largo de la vida del proyecto, ya que los datos de P pueden recopilarse en
relación con una clase más amplia de características del programa que los objetivos finales.
Finalmente, la información
La información producida en el curso de la evaluación puede utilizarse para respaldar dos
categorías amplias de acciones de gestión. Por un lado, se puede usar para ejercer un mayor
control sobre las operaciones del programa con el fin de asegurar que P cumple con S. Por
otro lado, la administración puede decidir que el S originalmente establecido es inapropiado
o irrealista y, por lo tanto, puede cambiar la configuración. S involucrado
Ahora, por supuesto, es imposible recopilar formalmente información empírica sobre todas
las entradas, procesos y salidas. Así, la gestión del programa se enfrenta con el
establecimiento de algunas prioridades. La gerencia debe identificar la información P que
sería más útil para ella, dados sus recursos limitados y sus necesidades internas y externas.
Habrá información de P útil principalmente para la gestión del programa en la operación
diaria del programa, y habrá información que se debe proporcionar a las personas y otras
organizaciones en el entorno que sirvan para justificar el programa. . Por lo tanto, la
administración debe establecer prioridades en torno a sus necesidades de administración
interna adecuada y su necesidad de seguir siendo responsable ante el entorno externo. Las
decisiones involucradas son tomadas por la administración, no por el evaluador de DEM,
aunque este último facilita nuevamente las deliberaciones involucradas. Tener un diseño
completo del programa disponible, literalmente, señala los puntos problemáticos y ayuda a
hacer las concesiones involucradas. La recopilación de información de P se guía por lo que
el evaluador de DEM llama "preguntas de evaluación". Dichas preguntas se preguntan si lo
que debería ser realmente es; si las entradas están disponibles como se especifica; si los
procesos se llevan a cabo según lo planeado; y si los resultados se están logrando según lo
previsto.2 En otras palabras, las preguntas de la evaluación dirigen la atención a la
información P necesaria para determinar si se ha cumplido con la S aplicable. Algunos
ejemplos podrían ser: ¿Hay diez participantes de cada escuela y cumplen con los criterios de
selección? (evaluación de resultados; la S requiere que haya diez de cada escuela que
cumplan con ciertos criterios); ¿Están disponibles los datos de evaluación de necesidades?
(evaluación de entrada; la S requiere que los datos de evaluación de necesidades estén
disponibles para las personas que planifican la selección de personal); o ¿Se reúne el comité
de personal según lo previsto? (Evaluación del proceso; la S especifica quién debe reunirse
para diseñar y llevar a cabo la selección del personal). También puede haber preguntas de
evaluación sobre el funcionamiento de los otros componentes, con el objetivo similar de
garantizar la operación efectiva del programa. Y, sin duda, habría preguntas de evaluación
dirigidas a determinar si los resultados finales se han realizado.
Es importante notar la definición muy estrecha dada a las preguntas de evaluación. Las
preguntas de evaluación suponen la existencia de una S. Esto se debe a que la evaluación se
define como la comparación entre lo que es y lo que podría ser y es imposible a menos que
se especifique la S. El evaluador de DEM no se permitirá participar en la recopilación de
información de P para responder preguntas para las que no existe S. Pero, como ya se
comentó, él / ella trabajará con el cliente para articular la S y definir la acción que se debe
tomar para que la S pertinente esté disponible.
Las preguntas de la evaluación proporcionan la conexión entre el diseño del programa, la
intención o las expectativas del programa, en resumen, el programa S y el programa tal como
es en realidad. Se pueden hacer docenas de estas preguntas y muchas se pueden responder a
través de entrevistas informales, reuniones o sesiones de planificación. Algunos se llevarán
a cabo de manera más formal, dependiendo de los intereses y necesidades de la
administración y los problemas y costos involucrados en la recopilación de la información.
Los pasos principales esenciales para la recopilación de información de P se resumen en las
Tablas 6 y 7. Por lo tanto, una evaluación de DEM consistirá en una S (un diseño de programa
detallado que muestra una red y descripciones de entrada-proceso-salida para todos los
componentes y subcomponentes ) y se completó un plan de recolección de datos para cada
pregunta de evaluación. De esta manera, se puede configurar un ciclo de retroalimentación
interna para que el programa se administre lo más posible sobre la base de la información D
generada al comparar S y P; Es decir, sobre la base de una evaluación sistemática.
CONCLUSIÓN
El modelo de evaluación de discrepancia ofrece un enfoque pragmático y sistemático para
una amplia variedad de necesidades de evaluación. Desde las actividades diarias de un
maestro individual hasta la evaluación del programa educativo, el DEM puede utilizarse para
estructurar la recopilación de información esencial para una toma de decisiones bien
informada. Una característica importante de la DEM es su énfasis en la autoevaluación y la
mejora sistemática del programa.

Evaluación Del Resultado

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Evaluación Del Resultado

Caricato da

Copyright:

Formati disponibili

EVALUACIÓN DEL RESULTADO

THOMAS KELLAGHAN Y GEORGE F. MADAUS

La primera edición de Modelos de evaluación no contenía un capítulo sobre evaluación de

¿QUÉ ES EVALUACIÓN DE RESULTADOS?

Se pueden identificar varias características de la evaluación de resultados. En primer lugar,

RAZONES PARA EL CRECIMIENTO EN LA EVALUACIÓN DE RESULTADOS

LA VALUENCIA DEL RESULTADO EVALUA CIÓN

Varias ventajas se han atribuido al uso de la evaluación de resultados. Una se basa en la

ORIGEN DE EVALUACIÓN DE RESULTADOS

Evaluaciones tradicionales en Educación

Investigación sobre la eficacia escolar y la función de producción educativa

Una gran cantidad de estudios sobre la eficacia escolar y la investigación de la función de

El movimiento de gestión del rendimiento

La sensibilidad a las necesidades de los gerentes de programas y tomadores de decisiones no

EL USO DE EVALUACIÓN DE RESULTADOS

La tendencia de los gobiernos a asumir la responsabilidad de la calidad mediante el

Evaluación de resultados a nivel estatal

Evaluación de resultados a nivel nacional

Evaluación de resultados a nivel internacional

Las evaluaciones internacionales difieren de las evaluaciones nacionales en que involucran

ENFOQUES EN RESUMEN EV ALUA CIÓN

Se ha utilizado una variedad de enfoques, según el resultado a evaluar, en la evaluación de

CUESTIONES EN EVALUACIÓN DE RESULTADOS

A pesar de su popularidad, el uso de la evaluación de resultados da lugar a una serie de

EVALUACIÓN DE RESULTADOS Y OTRAS FORMAS DE EVALUACIÓN

En conclusión, podemos preguntar: ¿Dónde encaja la evaluación de resultados entre los

En lo que se refiere al contexto, la evaluación de resultados, como se ha desarrollado

Política y toma de decisiones

GEORGE F. MADAUS, WALTER HANEY Y AMELIA KREITZER

La prueba está estrechamente vinculada a la evaluación. Las pruebas de algún tipo

¿QUÉ ES UNA PRUEBA?

Implícito en la discusión anterior está el concepto de que es el dominio, no la prueba en sí,

El concepto final necesario para comprender una prueba es la validez. La validez es la

UTILIZANDO PRUEBAS DE ELECCIÓN DE TIPOS MÚLTIPLES EN EVALUACIÓN

Ventajas del uso de pruebas de selección múltiple en la evaluación

Table pagina 121

Desventajas de utilizar pruebas de opción múltiple en la evaluación

Tabla pagina 123

USO DE EVALUACIONES ALTERNATIVAS EN EVALUACIÓN

La palabra evaluación se usa a la ligera para abarcar muchas actividades y propósitos

TENETES BÁSICOS DEL MODELO

Los conceptos de estándares, desempeño y discrepancia

1. La persona que consultó para determinar si la motocicleta está en buenas condiciones

El papel del evaluador

Hemos visto cómo lo que se le pidió a un mecánico se puede discutir en términos de S, P y

LA APLICACIÓN DE LA DEM A UN PROGRAMA EDUCATIVO

Pasos básicos en la aplicación del DEM a un programa

Potrebbero piacerti anche