Apuntes Medición Educativa

MEDICIÓN EDUCATIVA
- Evaluación normativa: evaluación en función de la comparación con la media

del grupo.
- Evaluación criterial: en función de unos criterios y en la consecución de los
mismos.
Evaluación criterial:
Nos vamos a basar en un criterio. Cuando hablamos de un curso es el dominio

educativo. Los criterios mínimos que tenemos que alcanzar para pasar de curso.
Establecemos un dominio y comparamos su el alumno ha adquirido ese dominio o no.
Ejemplo: para aprobar tenéis que saber tres países: si sacas 1,5 aprobado, menos
suspenso (Esto es el sistema binario: o pasas o no pasas).
Por lo tanto, nos centramos en el individuo. Para hacer una buena evaluación tenemos
que tener bien claro el dominio.
Evaluación normativa:
La distribución se basa en los resultados de un grupo.
En esta tabla se establecería según la puntuación que ha obtenido un sujeto, donde se

sitúa respecto de la media. Esto cuando tenemos los resultados de todo el grupo.
Teoría clásica de los Test.
Esta establece que en cualquier evaluación, van a haber errores.
X=V+e
X = puntuación que obtiene el alumno.

e = error. (X-V).
V = puntuación verdadera.
Supuestos:
V = E(X) La media de las puntuaciones que sacaría el alumno si le pasásemos la prueba

un nº infinito de de veces.
R (v,e) = 0 Entre la puntuación verdadera y el error no hay ninguna relación. No hay

relación proporcional entre el error y la puntuación obtenida.
Ejemplo:
X e V
A 2 -1 3
B X e V
4 +1 3
2 -1
Esto es falso, ya que la nota no es proporcional al error.
4 -2
8 tipos de ítems:
1. Respuesta breve o de lagunas.
Tenemos una frase y hemos quitado una palabra que hay que completar.
Para saber:
- Si conoce la terminología.
- Completar ecuaciones matemáticas.
- Idiomas extranjeros.
 Hay que tener en cuenta que el enunciado del ítem permita una sola
respuesta posible.
 Las palabras que se utilicen estén directamente relacionadas con el
enunciado.
 En este ítem que tenemos aquí la palabra que nos falta está en la mitad de
fase. Ejemplo; what’s ____ name? Esta no es aconsejable hay que procurar
que esté a final de palabra.
 Hay que evitar dar pistas al alumno.
 Cuando lo que pedimos es un número tenemos que precisar el grado de
precisión (decimales) y el grado de medida (grados, etc.).
2. Ítems de asociación.
Cuando tenemos dos tipos de contenidos que están relacionados entre sí. Por ejemplo;
hechos históricos y fechas.
Siempre en cosas muy concretas.
 Debemos de incluir en cada ítem, un único contenido.

 Indicar siempre en el enunciado que es lo que pedimos.
 Una buena idea es incluir más o menos alternativas en una de las dos columnas.
Para evitar el descarte.
3. Los ítems de verdadero y falso.
Para medir la habilidad para identificar si es adecuada o no. Ejemplo,

relaciones causa-efecto.
 Evitar técnicas como raramente, frecuentemente.

 Enunciados breves con una estructura sencilla.
 Evitar las negaciones dobles negaciones, si no podemos evitar el utilizar un
adverbio negativo, resaltarlo, subrayarlo.
 Los ítems que incluyen palabras como todo, nada suelen ser falsas.
 Los que lleven a veces, usualmente suelen ser verdaderas.
 Debemos de evitar que sigan una estructura fija. Ejemplo; 1. v, 2. f, 3. v, 4. f, lo
que te lleva a hacer una consecución de respuestas.
4. Interpretativos. (Mirarlo en el power).
5. De desarrollo de la respuesta breve o extensa.
 Utilizarlos cuando no hay otra forma de medir, ya que tienen cosas más
complejas.
 Siempre expresar bien en el enunciado lo que se va a medir.
 Tenemos que evitar empezar con palabras como: quién, cómo, cuándo,
menciona. Es una respuesta cerrada, si se deja un poco abierta puedes
evaluar más cosas. No tenemos que limitar las cosas.
 Podemos utilizar palabras como: analiza, critica, evalúa, desarrolla y
cualquiera que permita que el alumno cuente lo que sepa.
 Luego tenemos exámenes que ponen 3 preguntas, de las que tienes que
elegir dos. Esto es perjudicial para medir que sabe el alumno, sobre lo
que el profesor define que es lo que quiere que sepa el alumno. Así el
profesor no sabrá si las ha escogido por comodidad, porque eligió unas y
se puso nervioso y las contesto mal, etc.
 Cuando corregimos es un poco subjetivo:
a) Efecto alo: cuando yo corrijo los exámenes, la nota que pongo está influida
por la convivencia con los alumnos y el que participa más, es más
colaborativo puede sacar una nota mejor.
b) Cuando coge todos los exámenes y los lee, el criterio del profesor va
cambiando conforme va corrigiendo. Para solucionarlo se lee todas las
primeras preguntas, y las corrige y así sucesivamente. Otra solución sería
que redactáramos una respuesta modelo y a partir de esta corregir.
c) Respecto al tiempo. Lo preferible es que el alumno tenga el tiempo que
necesite. Hay que intentar no fijar un tiempo y si hay indicar al principio
del examen al alumno del tiempo que dispondrá.
6. Microsituacionales: mirarlas en el power.
7. Ítems de elección múltiple o alternativa.
a) Referidas al contenido: cada ítem un contenido, y que sean importantes.

Hay que evitar el copiar literalmente lo que viene en el libro de texto, ya
que lo que quereos evaluar es que sabe, no cuanta memoria tiene. Evitar
preguntar por cosas demasiado específicas o demasiado generales. Evitar
opiniones. Adaptar el lenguaje al nivel del grupo.
b) Tenemos dos tipos de formato.
- Simple: una única respuesta correcta.
- Complejo: 2, 3 respuestas son la correcta.
 Hay que evitar utilizar el complejo.

 Siempre hacer el ítem de manera vertical: ejemplo, enunciado y tres
alternativas.
c) Referidas al estilo: redactar el ítem varias veces de formas distintas y elegir

la que más se adapte a lo que quiero medir. Cuidar la puntuación (las
mayúsculas, minúsculas, acentos). Tratar de que el ítem se lea lo más
rápido posible.
d) Redacción del enunciado: tienen que incluir la idea principal. Evitar utilizar
demasiada palabrería. Evitar las negaciones.
e) Redacción de las opiniones: poner 3 o 4 opciones. Tener en cuenta que
solamente haya una respuesta correcta. Variar la respuesta correcta, es
decir en que posición están. Si utilizamos números colocarlos en orden, un
orden lógico. Que no se solapen las opciones, es decir, que una no incluya
otra. Ejemplo; grados de ebullición: a) 100-150, b) 145-160.
 Evitar la opción “todas las anteriores” “ninguna de las

anteriores”.
 Intentar que todas las opciones tengan sentido.
 Evitar dar pistas.
 Evitar palabras como “sierre”, “absolutamente”, palabras
que contengan palabras del enunciado, que concuerden
con el enunciado.
 Una buena técnica para poner las alternativas es coger
opciones donde suelen fallar los alumnos.
10/11/2010
r (ej, ek) = 0 La relación entre el error de un test y el error de otro no existe relación. Ya
que los diferentes test que se pasan son diferentes entre ellos. La puntuación verdadera
más o menos la podemos conocer pero el error no. Ya que la puntuación verdadera se
saca de pasar el test infinitas veces.
Test paralelo = test distintos que miden lo mismo. Por lo tanto los errores de test
paralelos no tienen relación.
Evaluación educativa = proceso sistemático de indagación y comprensión de la realidad

educativa que pretende la emisión de un juicio de valor sobre la misma, orientando a la
toma de decisiones y la mejora (GEM, 2001).
- El fin de la evaluación es emitir un juicio sobre la calidad de un programa

educativo, para lo que evaluamos distintos aspectos que intervienen, como
rendimiento, productividad, etc.
- El objetivo final no es describir, sino valorar.
- Esta encaminada a la toma de decisiones sobre un producto resultado de un
proceso.
Diapositiva modelos Examen.
Medición educativa:
Propiedades numéricas:
- Igualdad.
- Orden.
- Igualdad de diferencia (la diferencia entre uno y otro es proporcional).
- Igualdad de razones.
EXAMEN:
- Definición de evaluación.
- Medición.
- Modelos de evaluación, tener una idea general de lo más importante.
Resumen texto 1º:
El dominio educativo constituye el UM desde el que se extraen los

componentes de la prueba y al que se pretende representar desde ella.
- Dimensiones a tener en cuenta para orientar el desarrollo de las pruebas:
1. Amplitud del dominio educativo (Dominios amplios vs Reducidos).

2. Límites del dominio educativo (dominios con límites difusos/no-finitos
vs Dominios con límites concretos/finitos).
3. Dimensionalidad del Dominio educativo vs Unidimensionales.
Características de la población a que va dirigida la prueba:

Afecta a la elección del modelo de medida y la selección de indicadores que
permitan el análisis adecuado del ajuste de las características de la prueba a las de la
población.
- Las dimensiones más relevantes:
4. Amplitud de la población.
5. Grado de diversidad de la población (Heterogénea vs homogénea).
Finalidad y uso de la prueba.
La validez no es una característica imputable a una prueba, es más bien el

uso que se pretende realizar de las puntuaciones derivadas de ella, lo que debe
analizarse como elemento de validación. Así la utilización que se desee realizar de la
prueba tiene consecuencias desde la definición del Dominio Educativo hasta el
establecimiento de estándares de puntuación.
- Dimensiones más importantes:
6. Decisiones asociadas al uso de la prueba (Formativa vs Sumativa).

7. Unidades sobre las que se pretenden tomar decisiones (Individuos vs
Grupos).
Características del tipo de interpretación de las puntuaciones:
8. Tipo de estándar de referencia (criterial vs normativo).
Pruebas estandarizadas como indicadores de resultados:
La actividad evaluativa forma parte de la cultura de la gestión de los

Estados democráticos. E estos contextos es necesario utilizar pruebas estandarizadas
que “traduzcan” los niveles de competencia que en las diferentes disciplinas y materias,
una sociedad asume como objetivo educativo.
No es posible abordar un análisis adecuado a un sistema o un Programa si

no se cuenta con pruebas estandarizadas de probada fiabilidad y validez.
- Componentes implicados en la elaboración de estas pruebas:
 Comité de expertos: en la materia objeto de evaluación---

Definición de dominio educativo. Este comité esta apoyado por
especialistas de Medición y evaluación.
 Para desarrollar pruebas que sirven como indicador de resultados
y utilizando en evaluaciones sucesivas, no es útil configurar una
sola prueba por ello:
- La creación de bancos de ítems como alternativas que nos acercan a la

posibilidad de disponer de pruebas aleatoriamente paralelas o al menos
equivalentes.
- En este contexto el trabajo del Comité de expertos en cuanto a la formulación y
revisión de ítems es fundamental: así como la Revisión lógica de los ítems.
- La selección inicial de ítems, es conveniente basarla en dos dimensiones del
contenido:
a) la importancia de los ítems.

b) Su disciplina teórica.
Que representen conocimiento o habilidades esenciales,

cubriendo a su vez estratos de dificultad.
c) Calidad técnica de los ítems.
- El análisis del sesgo se hace fundamental en este tipo de pruebas, ya que son
pruebas destinadas a la Medición y Evaluación de un Dominio en una amplia
población de referencia.
Modelos de medida más adecuados.
Criterial y Normativo.
Pruebas estandarizadas de certificación y de admisión.
- Tienen por objeto recoger la información que permita certificar que una persona
ha superado administrativamente un determinado nivel educativo o que tiene los
conocimientos necesarios para ser admitido en un programa de formación de
amplio espectro, por ejemplo, en la enseñanza universitaria.
- En este tipo de pruebas se establece un punto de corte que define el “apto” o “no
apto” de la prueba. Este debe ser establecido por el Comité de Expertos. Este
tipo de pruebas también responden a la teoría de respuesta al ítem.
- Sin embargo, en la selección de indicadores para el análisis de ítems y para la
fiabilidad es preciso tener en cuenta la existencia del estándar criterial.
Pruebas de nivel y de dominio.
- Podemos considerarlas como variaciones de los anteriores, diferenciándose en

virtud de la amplitud del Dominio Educativo a que se refieren (más reducido) o
bien en relación a la población a la que van dirigidas (suele ser más específica).
- El hecho de referirse a un programa educativo más concreto conlleva a
diferencias sustanciales que se pueden sintetizar en las siguientes:
a) Se puede dar una definición del universo de referencia

tanto empírica como teórica.
b) Se puede aspirar a la valoración del proceso no solo del
producto.
c) Las reglas de conexión entre el universo de medida y la
prueba están mucho más determinadas.
d) Se debe distinguir entre las pruebas que se orientan a
poblaciones amplias y las que se destinan a ámbitos más
concretos.
e) El estándar de referencia está normalmente basado en un
criterio absoluto, aunque se den casos en que se utiliza
una combinación con información normativa.
Texto 2.
Fases en la elaboración de una prueba:
- definir la finalidad de la prueba, en sí misma y en relación a los recursos

evaluativos disponibles.
- Especificar/definir el dominio educativo.
- Determinar el nivel mínimo de competencia, a través del estándar y el punto de
corte. (Punto más débil de las pruebas criteriales).
- Realizar aplicaciones piloto sucesivas hasta lograr un ajuste que permita la
disponibilidad del instrumento y las decisiones asociadas.
En este desarrollo priman las decisiones del Comité de Expertos.
¿Qué elementos pueden mejorar la precisión en la definición del Dominio Educativo?
1. Comenzar la definición del dominio educativo con un análisis del

aprendizaje a evaluar desde una taxonomía o sistema de clasificación.
2. Graduar inicialmente el nivel de aprendizaje que se desea observar a
través de objetivos.
3. Orientar la escritura de ítems de forma que éstos:
a) Responden a la descomposición de las diversas habilidades

significativas contenidas en el aprendizaje de una tarea.
b) Permitan la valoración de diversos niveles de aprendizaje en una
tarea (por ejemplo, reconocimiento, comprensión, aplicación,
…).
La elección del sistema de clasificación o taxonomía puede constituir en sí

mismo un elemento clave para el posterior desarrollo de la prueba. Lo aconsejable
debido a la laboriosidad del proceso taxonómico, es adoptar reglas de clasificación lo
más simples posible.
- Clasificación de Merrill:
Tres niveles de clasificación para la categorización del rendimiento:
1. Recordar. (Reconocimiento).
2. Utilizar Comprensión).
3. Encontrar (Aplicación).
Combinables con las categorías de clasificación de los contenidos de

aprendizaje:
1. Hechos.
2. Procedimientos.
3. Principios.
 Ventajas: proporciona un referente compacto para abordar el

conjunto del programa instruccional desde el desarrollo hasta la
evaluación.
Elemento clave en la definición del Dominio Educativo.
- Formulación de objetivos en el que se especifica:
o El objetivo operativo: nivel deseado a observar en el aprendizaje.

o Condiciones en que se observa (evalúa) dicho aprendizaje: tipo de
tarea, materiales, situación en que se va a presentar al estudiante,
forma en la que el estudiante debe de dar la respuesta, forma y
criterios de puntuación.
o Selección del tipo de ítems: esto depende del ajuste al nivel de
aprendizaje que se desea observar.
Escritura de ítems: reglas de generación de los ítems. (POWER POINT).
La definición de un dominio educativo mediante la utilización de diversas

reglas de generación induce a la producción de un conjunto de ítems susceptible de ser
organizado en un banco de ítems.
Con independencia de la generación de elementos, las técnicas de escritura

de ítems permiten, atendiendo a criterios técnicos de calidad, una mejora sustancial
sobre las pruebas objetivas clásicas. Así pueden establecerse diversos criterios de
calidad en la formulación de ítems que ofrecen como resultado de elementos bien
ajustados al material didáctico utilizado, el programa y el nivel requerido.
Calidad técnica de los ítems:

- análisis del contenido.
- Formulación.
- Escritura del ítem.
- Ajuste del ítem a los requerimientos del modelo de medida en que se sustenta la
prueba.
El planteamiento criterial de construcción de pruebas supone la

estandarización de todo el proceso, desde la especificación del dominio, hasta la
interpretación de la puntuación final. Esta estandarización en ocasiones no es posible o
bien constituye un proceso gradual al que puede aspirarse a partir de la experiencia
continuada. D este modo el análisis del dominio educativo, puede entenderse como un
marco de trabajo inicial para el desarrollo de una prueba criterial, o bien, como la
elaboración de recursos alternativos que pueden utilizarse en un esquema
(cuantitativa/cualitativa).
Este enfoque es posible desde una gestión basada en la idea de “bancos de

ítems”, que estarán estandarizados totalmente (en su formulación, como en los criterios
técnicos de selección de ítems para pruebas) dejando los criterios de selección a la
opinión del profesor, en el caso en que se integren procesos evaluativos de corte
cuantitativo.
Análisis de los ítems:
1. Revisión Lógica:
Realizada por el equipo de profesores- o Comité- que desarrollan la prueba y que

actúan a modo de jueces.
Objeto: adecuación de los contenidos y el planteamiento de los ítems al programa

(globalmente considerado).
Las características básicas que se comprueban en la revisión lógica son:
a) Congruencia ítem-objetivo: grado en que el ítem es una medida

adecuada del objetivo del que se deriva.
b) Calidad técnica.
c) Sesgo de los ítems.
2. Revisión empírica:
Comprobar el funcionamiento de los ítems de acuerdo con las expectativas que los
docentes tienen.
Función principal: Facilitar una retroalimentación informativa que facilite el ajuste

de la prueba al programa o mejore el conocimiento de la funcionalidad del mismo.
Representa dos polos de interés:
a) Disponer de una retroalimentación empírica sobre el comportamiento de

la unidad institucional.
b) Contrastar la hipótesis-definición inicial del dominio educativo. Esto
permitirá una revisión-selección de la prueba y sus elementos o incluso
de la modificación del dominio.
El desarrollo de una revisión empírica de ítems puede concretarse en las siguientes

acciones:
1. Especificar las hipótesis funcionales y requerimientos para cada uno de

los ítems o grupos de ítems.
Hipótesis referidas:
- La dificultad esperada del ítem.

- La discriminación del ítem respecto al nivel de competencia en el test.
- El análisis de errores y distractores. Dependiendo del tipo de ítems que integren
la prueba, es conveniente formular hipótesis relativas al funcionamiento de
distractores y/o las tipologías de error.
2. Recogida de la información para el análisis empírico. Dependiendo del

tipo de objetivos que se planteen en la construcción de la prueba, esta se
aplica sobre un grupo de sujetos de similares características a los que va
dirigida la misma. En el caso de que se vayan a incluir procedimientos
de construcción basados en el contraste entre preinstrucción y
postinstrucción es preferible una doble aplicación sobre el mismo grupo
de sujetos.
3. Análisis de datos. Puede orientarse basándose en la estructura básica de
parámetros e indicadores clásicos incluyendo otros específicos
propuestos en el ámbito de la evaluación criterial.
Los componentes del análisis empírico de ítems son:
a) Parámetros de dificultad del ítem. Grado de dificultad

empírico del ítem. El análisis de los errores y/o
distractores provee de una información muy útil acerca
del funcionamiento global de los ítems.
b) Parámetro de discriminación del ítem. Informa acerca del
grado en el que el ítem diferencia entre sujetos en relación
al dominio de contenidos o el nivel mínimo de
competencia.
Dos líneas de análisis:
- Homogeneidad: si este actúa de forma adecuada en relación al nivel mínimo
exigido. Ejemplo; puede determinarse mediante una hipótesis para un ítem, que
será acertado aproximadamente por el 50% de los sujetos y deberá ser
respondido correctamente por todos los sujetos que superen el nivel mínimo de
competencia.
- Sensitividad instruccional: la sensibilidad del ítem para detectar el cambio
educativo.
c) Parámetro de validez. Informa acerca del grado en el que el ítem mide

lo que pretende medir.
4. La interpretación de los resultados. Una revisión del programa requiere

la revisión subsiguiente del dominio.
Estándares, puntos de corte y fiabilidad de las pruebas.
El establecimiento del nivel mínimo debe mostrar el estudiante para asumir

que domina/no domina (pasa/no pasa) el contenido del programa se establece a partir
del análisis de estándares y puntos de corte.
La determinación del estándar se establece por métodos intersujetivos por

parte del Comité que desarrolla la prueba. Se le acusa de ser poco objetivos, pero el
proceso al que son sometidos es de una evaluación pulcra por parte del Comité.
Puntos de corte: (dicotómicos: pasa/no pasa; o; politómicos: no apto, apto, notable…)

hacen referencia a la puntuación real de la prueba que deben obtener los sujetos para ser
asignados a una categoría de conocimiento.
Fiabilidad: hace referencia a si la prueba es consistente al clasificar a los sujetos de

acuerdo con el punto de corte establecido.
Texto 3.
Una de las limitaciones más frecuentes señaladas para los test desarrollados
sobre modelos de carácter normativo es la baja utilidad de la información que aportan
para el diagnóstico al sintetizar la ejecución mostrada por el sujeto en la prueba en una
única puntuación, lo cual se basa en la concepción teórica que origina el test.
Manifestación en los bajos niveles de Validez de Constructo con que se han venido
generando los test.
El análisis de los errores cometidos en los ítems se ha convertido en una

evidencia de Validez, estudios que afectan a la Validez de Constructo del instrumento
de medida, aunque se reseñan como aportación a la validez bajo otras acepciones. El
estudio de distractores se integra como una aproximación para la mejora de las
características métricas internas del test.
La Validez Criterial, el estudio del comportamiento del test en general y de

los ítems, en particular, respecto a su funcionamiento en relación a variables
diferenciales o diferenciadoras ha construido otro foco de interés. El análisis del sesgo
alude a la mejora del test en relación a variables externas al mismo.
Distractor: referente de alternativas de error en un ítem.
Los distractores son elementos que deberían ser aprovechados en dos vertientes:
a) meramente psicométrica, como elemento de confusión

para el sujeto, de forma que una elección correcta esté
avalada por un proceso de decisión entre opciones que se
pueden escalar por su plausibilidad (digno de aplauso).
b) Unos usos diagnósticos, apoyados sobre la validez de
constructo, de forma que tanto en la elección correcta
como en el error cometido en un ítem de elección
múltiple, puedan haber pautas que hagan posible una
interpretación procesual o funcional de las respuestas
individuales.
Análisis del sesgo de los ítems, partimos de dos nociones básicas:
a) La ejecución en un ítem puede estar sujeta a otras formas de variación

más que a diferencias en el constructo de interés.
b) El supuesto de que estas fuentes de variación más que a diferencias en
el constructo de interés.
c) El supuesto de estas fuentes extrañas de variación influyen en la
ejecución de forma sistemáticamente diferente para algunos subgrupos
identificables.
Sesgo de los ítems: análisis de la interacción ítem/grupo para los sujetos que presentan
el mismo nivel de habilidad, como el elemento claro de determinación de sesgo.
Un ítem esta insesgado sí:
a) Los ítems se afectan por las mismas fuentes de variación en dos

subpoblaciones.
b) Entre sujetos que tienen el mismo nivel de habilidad en el constructo
propiamente medido por el test, las distribuciones de fuentes de
variación irrelevantes son las mismas para ambas subpoblaciones.
Las alternativas de respuesta al ítem deberían de escalarse de acuerdo con

su plausibilidad, configurando un patrón que debería de replicarse tanto para el grupo
normativo, como para grupos de rendimiento establecidos en función de la puntuación
total de la subprueba. Todo siendo función de la dificultad y capacidad discriminativa
del ítem. En este planteamiento se deben tener en cuenta, algunas hipótesis relativas al
concepto de adivinación o acierto al azar.
El concepto de adivinación o acierto al azar se puede conceptualizar en

torno a dos dimensiones:
a) La dificultad del ítem.
b) La incertidumbre en las elecciones de respuesta.
El concepto de sesgo deviene de la teoría del Rasgo Psicológico, de forma

que este supone que debe estar presente en todos los sujetos pertenecientes a la misma
población y asume que las diferencias individuales serán únicamente de usted. Para que
un test peda ser utilizado adecuadamente debe ser independiente del sesgo.
Si partimos de que la Educación es una actividad intencional orientada a

producir cambios en los sujetos de acuerdo con algún principio u objetivo y, todo ello,
utilizando diversas posibilidades metodológicas de acción, podemos decir que el sesgo
puede ser expresión de la Educación recibida por una determinada subpoblación. De
forma que no nos parece evidente y generalizable que todos los test educativos deban
ser independientes del sesgo de sus ítems, por lo tanto, deberá ser la comunidad
investigadora la que, en cada caso en relación directa con el contexto social esté
inmersa, tendrá que definir que sesgo es indeseable.
Si el test pretende utilizar una orientación diagnóstica en muchas ocasiones

el sesgo en una determinada subpoblación nos puede servir de guía para profundizar en
el cambio en el rendimiento. Cambio entendido como mejora.
Texto 4.
El verdadero sentido de la evaluación educativa no puede ser otro que

facilitar la toma de decisiones eficaces para la mejora, directa o indirecta, de los
protagonistas de la educación.
Es pues, la necesidad de disponer de información en que basar las

decisiones de mejora el motivo o razón fundamental para que el objeto de evaluación de
programas tenga que ir mucho más allá de los nuevos resultados, logros e impactos.
Evaluación Referida a la Norma (evaluación normativa).
Objetivo: diferenciación entre sujetos, puesto que se les compara entre sí.
Universo de medida: población de sujetos de la que forma parte la persona evaluada; la

inferencia nos indica el lugar que ocuparía tal persona dentro.
Reglas de conexión entre universo de medida y test: en un test referido a la norma

(TRN) no hay reglas de conexión entre él y el universo de medida.
Amplitud y complejidad del UM: los ámbitos son mucho más amplios, de compleja
estructura, y en consecuencia, heterogéneos.
Poder de generalización: el poder de generalización es amplio hacia su dominio, es este

caso: población de sujetos.
Dimensión temporal (medida de cambio): se parte del concepto de estabilidad como

condición indispensable para cualquier dimensión que se desee evaluar/medir.
En la base esta el hecho de que la ERN se relaciona fundamentalmente en constructos
de ámbito psicológico-psicometría.
Nivel histórico y ámbito de definición de variables: suele atenderse a conceptos de alto

nivel teórico, tales como las aptitudes, la inteligencia, la personalidad.
Evaluación Referida al Criterio.
Objetivo: determinar las competencias que ha adquirido un sujeto dentro del dominio
instruccional.
Universo de referencia: el universo lo es el dominio instruccional y la referencia se

realiza sobre el nivel de conocimiento de dicho dominio a partir del evidenciado en el
test. Una puntuación en un test referido al criterio (TRC) nos informa directamente
sobre el grado de conocimiento del dominio instruccional de referencia que el sujeto ha
conseguido, normalmente expresado en términos de la proporción del mismo. Este
hecho exige una descripción exhaustiva y pormenorizada del dominio instruccional.
Reglas de conexión entre universo de medida y test: debe darse siempre, y de la forma
más precisa posible, la conexión entre las reglas y el dominio instruccional.
Amplitud y complejidad del universo de medida: los dominios deben ser concretos y,
por lo general, homogéneos.
Poder de generalización: poder de generalización amplio hacia el dominio instruccional.
Dimensión temporal (medida de cambio): la apreciación de la mediad del cambio

educativo.
Nivel teórico y ámbito de definición de las variables: suele restringirse al área cognitiva,
especialmente del rendimiento.
Concepto formal ERC: aquel acercamiento de evaluación educativa en el que se
recoge información mediante un instrumento estandarizado con objeto de poder
describir el conjunto de conocimientos o habilidades adquiridos por un sujeto acerca de
un dominio de referencia descrito adecuadamente.
Tipo de test criteriales:
Test de certificación u admisión:
Objetivo: recoger información que permita certificar que una persona ha superado
administrativamente un determinado nivel educativo o que posee los conocimientos
necesarios para ser admitido a un determinado programa de amplio espectro.
Test de nivel o de dominio:
Objetivo: poner de manifiesto el logro del nivel necesario para pasar de un curso a otro,
o si han alcanzado los niveles mínimos exigidos en un determinado programa de
formación.
Test de aula o clase:
Se refieren a universos de medida reducidos o muy reducidos, lo que hace posible una
definición exhaustiva.
Test diagnósticos:
Ámbito muy reducido.

Objetivo: recogida de información muy ajustada a las características de cada sujeto.
Construcción de test criteriales de clase.
a) Especificación del dominio educativo.

b) Análisis del ítem.
c) Determinación de estándares y puntos de corte.
d) Fiabilidad.
e) Validez.
a) Dominio educativo: conjunto de objetivos, contenidos, actividades y tareas que

constituyen el objeto de la educación. Cuando más concreto es, es más fácil su
definición lo que nos resultará a su vez más fácil obtener puntuaciones. Un
dominio adecuado será una lección o una unidad didáctica.
El dominio educativo es especificado mediante los ítems escritos, lo cual es
una tarea laboriosa por lo que se están estableciendo reglas de generación de ítems.
Reglas de generación de ítems:
a) Formatos de ítems: tecnología adecuada a elementos técnicos y cuantitativos.

b) Transformaciones lingüísticas: procedimientos que aseguran la conexión lógica
entre los ítems y los materiales de texto a partir de los que se generan. Fases:
1. búsqueda de frases clave relevantes en el proceso educativo.
2. selección de las más importantes.
3. transformación de las frases, atendiendo al tipo de ítems que se desee
(reconocimiento, comprensión, aplicación o análisis).
4. construcción de distractores para los casos de elección múltiple.
c) Diseño de facetas:
Su principal aplicación está en el campo de las materias altamente estructuradas, de
tipo técnico o científico, aunque sea aplicable a las humanidades.
d) Análisis de conceptos.
Tras el análisis y especificación del dominio, y tras la aplicación de las

reglas de generación de ítems, se puede llegar a contar con un Banco de ítems, lo que
permite obtener pruebas paralelas aplicables en diferentes momentos.
Análisis de ítems:
a) Revisión lógica.
Orienta a asegurar la adecuación entre los ítems y la operativización métrica del

dominio de contenidos. Supone revisión por parte del Comité de expertos.
- Congruencia ítem-objetivo o representatividad global de un ítem respecto del

objetivo que se deriva. Problemática si se parte de unos objetivos poco
definidos.
- Calidad técnica: asegurar que se cumplen las especificaciones técnicas sobre
temas de medida.
- El sesgo: evitar que la formación de los ítems pueda beneficiar, perjudicar a
determinados subgrupos de la población a que pertenecen en relación con otros.
b) Revisión empírica.
Se orienta a informar al profesor sobre aspectos como:

 El funcionamiento de la unidad de instrucción tal como es medida por el
test.
 La revisión-selección de ítems a partir del análisis de la consistencia del
funcionamiento de la prueba con sus hipótesis docentes. Se concreta en
las siguientes etapas.
 Especificación de las hipótesis referentes a cada ítem. Plantear
por adelantado el grado de dificultad como la discriminación
del ítem en relación con el nivel de competencia establecido.
 Aplicación ensayo-piloto.
 Análisis de datos. Los indicadores estadísticos se utilizan de
cara a comprobar las hipótesis previas del profesor, en concreto
dificultad, discriminación y validez. La discriminación puede
analizarse a través de la homogeneidad y de su sensitividad.
 Intervención de los resultados, en relación con las hipótesis
previas del constructor/profesor.
Determinación de estándares y puntos de corte.
Para diferenciar entre los sujetos que han alcanzado un nivel mínimo de
competencia y los que no lo han logrado, entre apto y no aptos.
Procedimiento determinación estándares realizada por un juicio de

expertos:
- el grupo de jueces/expertos/profesores tiene que ser el mismo que realice el

análisis y especificación del dominio, debiendo decidir, previamente, la finalidad
de la prueba.
- Afrontar la detección de jueces que emitan valoraciones externas.
- El ajuste realista del estándar se facilita en la medida en que se ofrece a los
expertos el análisis de las consecuencias de su aplicación sobre estudios
conocidos.
Fiabilidad.
Se refiere al hecho de si la clasificación de sujetos como aptos/no aptos a

partir de dos aplicaciones del test es consistente, en ocasiones se han identificado
aproximaciones a la fiabilidad como elementos de validación <<punto de corte>>.
Validez:
La validez debe estudiarse en relación:

- describir términos de ejecución lo que conocen los examinados.
- Clasificar a los sujetos en niveles de dominio.
- Describir la ejecución de grupos específicos de sujetos en estudios de evaluación
de programas.
 Validez no es un concepto unívoco, hay que hablar de varios tipos de validez,

fundamentalmente validez de constructo, de contenido y de criterio.
 La validez de contenido no es una comprobación suficiente, aunque sea
necesaria para la determinación de la validez general.
Validez de constructo: la existencia de evidencias en torno a la consistencia entre

programa educativo y test.
Validez de contenido: pretende establecer si la prueba es una muestra adecuada del

dominio.
Validez criterial: consistencia entre las decisiones que puedan derivarse a partir del test
y las de otro instrumento o proceso alternativo externo a la prueba tomada como criterio
para la misma.
Texto 5.
El sistema de interpretación de los Exámenes y logro educativos (Excale)

constituye uno de los elementos de su validez. La utilidad de la evaluación se basa en
una información válida y confiable, la cual represente de forma adecuada los resultados
de aprendizaje de un sistema educativo, y permita establecer pautas para la mejora del
mismo. Por ello, la determinación de los niveles de logro constituye un elemento clave
para la validez de los Excale.
Los elementos de investigación a considerar para la validación de estos

exámenes se refieren a la interpretación de la prueba entre ellos se identifican dos
grandes conjuntos de acciones:
a) La determinación de NL y puntuaciones de corte.

b) La validación de los mismos.
El término estándar se ha utilizado, bajo dos acepciones:
a) Normas y procedimientos con los cuáles juzgar la calidad de las

evaluaciones.
b) Criterios o normas para la interpretación de las puntuaciones de los test
psicológicos y/o pruebas de rendimiento.
Estándar: hace referencia al sistema de criterios de interpretación de los resultados de

pruebas. (definición teórica de los NL).
Puntuación de corte: para indicar la puntuación de la prueba que sirve para diferenciar a
los alumnos que se encuentran en uno u otro.
En la definición de los estándares se identifican cuatro elementos de claridad:
1. Categorías relativas a los NL: las categorías se describen con nombres o

etiquetas que aluden al nivel de domino sobre un área de competencia
en particular (pueden ser numerales).
2. Descriptores de los NL: se utilizan descripciones sintéticas, o
descirptores, que reflejan de forma global el tipo de aprendizaje
adquirido por los estudiantes que se pueden clasificar en cada categoría.
3. Puntuaciones de corte: se refieren a las puntuaciones que en la prueba
sirven para diferenciar o distinguir cada uno de los NL establecidos.
4. Ítems característicos: reactivos que son capaces de responder
correctamente los estudiantes que se ubican en un determinado NL, de
forma diferencial respecto de los demás niveles.
Desarrollo de los métodos para determinar estándares.

 Métodos de juicio: aquéllos que basan el establecimiento de los
estándares en el juicio que realizan expertos acerca de los ítems, los
sujetos o las tareas.
 Métodos empíricos: incluyen los que priorizan, los criterios
estadísticos para apoyar la calidad de la decisión; entre ellos se
pueden clasificar los modelos de estado y los continuos basados en
la teoría de la decisión.
 Métodos mixtos: son aquéllos que partiendo de valoraciones
basadas en juicios de expertos, ajustan identificación de las
puntuaciones de corte considerando elementos empíricos del
funcionamiento de las pruebas; entre ellas se pueden identificar los
métodos de compromiso y las de correspondencia de ítems.
Elección del método para la evaluación de niveles de logro (NL).
 El concepto de evaluación como un proceso multidisciplinario de especialistas

en currículo, investigadores en educación, autores de libros de texto, expertos en
psicometría y profesores frente a grupo.
 El uso de metodologías cuantitativas y cualitativas complementarias, como el
medio más idóneo, confiable y válido para el desarrollo de pruebas de gran
escala cuyo propósito es la evaluación de sistemas y subsistemas educativos.
Si bien no puede asumirse que haya un solo procedimiento para la

determinación de NL y PC que sobresalga sobre los demás por su calidad y pertinencia,
si parecen claros algunos principios básicos que se deben considerar, los cuáles ponen
de manifiesto las ventajas de los métodos:
1. Centrados en los reactivos.

2. De carácter mixto, con juicio de expertos e información
empírica.
3. Con un componente de retroalimentación sobre los juicios de los
expertos.
El proceso de determinación de los NL se basa en el trabajo de dos comités

con características distintas (Comité 1 y Comité 2) de especialistas en currículum y en
investigación educativa, para el 1º de ellos, y de profesores en ejercicio, para el
segundo. El primero tiene como finalidad la determinación de los NL ; es decir de los
conocimientos y habilidades de cada asignatura, y los del comité 2 la identificación de
los PC y lo del comité 2 la identificación de los PC en los Excale, que deben diferenciar
a los estudiantes de acuerdo a su nivel de competencias escolares.

Apuntes Medición Educativa

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apuntes Medición Educativa

Caricato da

Copyright:

Formati disponibili

MEDICIÓN EDUCATIVA

- Evaluación normativa: evaluación en función de la comparación con la media

Nos vamos a basar en un criterio. Cuando hablamos de un curso es el dominio

La distribución se basa en los resultados de un grupo.

En esta tabla se establecería según la puntuación que ha obtenido un sujeto, donde se

Teoría clásica de los Test.

Esta establece que en cualquier evaluación, van a haber errores.

X = puntuación que obtiene el alumno.

V = E(X) La media de las puntuaciones que sacaría el alumno si le pasásemos la prueba

R (v,e) = 0 Entre la puntuación verdadera y el error no hay ninguna relación. No hay

1. Respuesta breve o de lagunas.

 Debemos de incluir en cada ítem, un único contenido.

3. Los ítems de verdadero y falso.

Para medir la habilidad para identificar si es adecuada o no. Ejemplo,

 Evitar técnicas como raramente, frecuentemente.

4. Interpretativos. (Mirarlo en el power).

5. De desarrollo de la respuesta breve o extensa.

6. Microsituacionales: mirarlas en el power.

7. Ítems de elección múltiple o alternativa.

a) Referidas al contenido: cada ítem un contenido, y que sean importantes.

 Hay que evitar utilizar el complejo.

c) Referidas al estilo: redactar el ítem varias veces de formas distintas y elegir

 Evitar la opción “todas las anteriores” “ninguna de las

Evaluación educativa = proceso sistemático de indagación y comprensión de la realidad

- El fin de la evaluación es emitir un juicio sobre la calidad de un programa

Diapositiva modelos Examen.

Resumen texto 1º:

El dominio educativo constituye el UM desde el que se extraen los

- Dimensiones a tener en cuenta para orientar el desarrollo de las pruebas:

1. Amplitud del dominio educativo (Dominios amplios vs Reducidos).

Características de la población a que va dirigida la prueba:

- Las dimensiones más relevantes:

Finalidad y uso de la prueba.

La validez no es una característica imputable a una prueba, es más bien el

- Dimensiones más importantes:

6. Decisiones asociadas al uso de la prueba (Formativa vs Sumativa).

Características del tipo de interpretación de las puntuaciones:

8. Tipo de estándar de referencia (criterial vs normativo).

Pruebas estandarizadas como indicadores de resultados:

La actividad evaluativa forma parte de la cultura de la gestión de los

No es posible abordar un análisis adecuado a un sistema o un Programa si

- Componentes implicados en la elaboración de estas pruebas:

 Comité de expertos: en la materia objeto de evaluación---

- La creación de bancos de ítems como alternativas que nos acercan a la

a) la importancia de los ítems.

Que representen conocimiento o habilidades esenciales,

c) Calidad técnica de los ítems.

Modelos de medida más adecuados.

Pruebas estandarizadas de certificación y de admisión.

Pruebas de nivel y de dominio.

- Podemos considerarlas como variaciones de los anteriores, diferenciándose en

a) Se puede dar una definición del universo de referencia

Fases en la elaboración de una prueba:

- definir la finalidad de la prueba, en sí misma y en relación a los recursos

En este desarrollo priman las decisiones del Comité de Expertos.

¿Qué elementos pueden mejorar la precisión en la definición del Dominio Educativo?

1. Comenzar la definición del dominio educativo con un análisis del

a) Responden a la descomposición de las diversas habilidades

La elección del sistema de clasificación o taxonomía puede constituir en sí

Tres niveles de clasificación para la categorización del rendimiento:

Combinables con las categorías de clasificación de los contenidos de

 Ventajas: proporciona un referente compacto para abordar el

Elemento clave en la definición del Dominio Educativo.

- Formulación de objetivos en el que se especifica: