Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1 //Escenario
Escenario26
Lectura fundamental
Fundamental
Construcción
Etapas de un plan
y diseño
de comunicación
de un test:
reactivos,
estratégicaformatos y normas de
puntuación
Contenido
3 Normas de puntuaciones
En esta Lectura fundamental, usted conoce cómo se estructura una prueba cuya base son los ítems y sus
opciones de respuesta.
De forma básica se puede decir que una prueba debe tener en cuenta como mínimo la elección del
contenido, su expresión en forma de reactivos o ítems y unas opciones de respuesta. Esto no quiere
decir que sea lo único a considerar, pues cada uno de estos mínimos tiene dentro de sí una serie de
aspectos que Moreno, Martínez y Muñiz (2004) consideran cruciales para construir buenos ítems
con opciones de respuesta múltiple que compongan una prueba de desempeño o ejecución máxima.
Estos aspectos se presentan a continuación.
POLITÉCNICO GRANCOLOMBIANO 2
1. Para la elección del contenido que se quiere evaluar:
a. Se debe asegurar que sea una muestra representativa del contenido que ha sido previamente
especificado o clasificado, evitando con ello ubicar información en los ítems insignificantes.
b. Debe ser gramaticalmente correcto. La escritura del ítem debe evitar ser demasiado sencilla
o compleja, ambigua o confusa, evitando las expresiones negativas.
c. La semántica o significado del ítem debe ajustarse al contenido y a las personas evaluadas.
d. La ubicación más adecuada para cada opción es la vertical o una sobre la otra.
f. Las opciones de respuesta deben ser autónomas entre sí, es decir, una opción no debe
hacer referencia a otra, ni repetirse. Se debe evitar usar las opciones “todas las anteriores” y
“ninguna de las anteriores”.
POLITÉCNICO GRANCOLOMBIANO 3
Así, para elaborar una prueba es necesario, según Thomas (2015), seguir estos pasos.
1. Definir el propósito de la prueba. Este paso incluye una descripción detallada del atributo o
rasgo a medir, así como la información sobre el público al que se dirigirá. Al formular el objetivo
se debe pensar en la forma en la que se interpretarán los resultados, así como su modo de
aplicación, la extensión y formato de los reactivos, el número de puntuaciones y su informe.
2. Diseño de la prueba. En este apartado se concreta la estructura que tendrá la prueba, la cual se
detalla a continuación.
Modo de aplicación
Individual Grupal
Extensión
Tiempo: corta (15 min.) o larga (45 min.) Número de reactivos
Formato de reactivos
Abierto Cerrados
Número de puntuaciones
Se relaciona con la extensión de la prueba.
Informes de puntuación
Forma en la que se mostrarán los resultados. Una por el total de la prueba o por dimensiones.
POLITÉCNICO GRANCOLOMBIANO 4
3. Preparación de reactivos. Una vez se tiene claro el propósito de la prueba y se han concretado los
preliminares del diseño, es posible comenzar el trabajo sobre los reactivos. Un reactivo tiene cuatro
partes: la primera es el tronco, que corresponde al estímulo y que puede ser una pregunta, una
afirmación, un enunciado o una imagen que incluye la instrucción. La segunda es el formato de
respuesta en el que se estructura la forma en la que se presentan las opciones de respuesta, sean
abiertas o cerradas, de opción múltiple o dicotómica. La tercera son las condiciones que regulan
la forma en que se emiten las respuestas, como el tiempo para responder o en el que se registra la
respuesta. Finalmente, la cuarta parte es el procedimiento de calificación o las rúbricas que especifican
la forma como se evaluará el desempeño, que incluye identificar las respuestas correctas e incorrectas
y las puntuaciones diferenciadas para las distintas elecciones por parte del sujeto (Thomas, 2015).
Los pasos restantes para la construcción de un test psicométrico como el tipo de reactivos, su análisis
y estandarización se tratan al detalle en los apartados que se presentan a continuación. El apartado de
preparación de materiales finales y publicación consiste en alistar el material de la prueba, siguiendo las
partes básicas de una prueba, revisadas en la unidad 1.
Para calificar ítems de formato abierto es posible usar dos métodos, según Thomas (2015):
1. Evaluación interjueces. En este método, se apela al juicio de, por lo menos, dos jueces que
evalúan la pertinencia de la respuesta respecto de unos criterios definidos con antelación.
En el caso de las pruebas de reactivos cerrados o las pruebas de ejecución máxima, la calificación puede
identificar las respuestas correctas e incorrectas. En este caso la puntuación total sería la suma de las
respuestas correctas, pues se concede un punto a las correctas y cero a las incorrectas. Sin embargo,
existe la opción de puntuar distinto cada opción seleccionada; por ejemplo, dando un punto a la opción
A por ser la más pertinente, 0,5 para la B por ser adecuada y 0 para la C por ser incorrecta.
POLITÉCNICO GRANCOLOMBIANO 5
En el caso de las pruebas de formato cerrado de elección típica, como las pruebas de actitud,
personalidad e intereses, se suele usar el 1 y 0 para indicar niveles o presencia y ausencia del
atributo. Por ejemplo, se usa 1 cuando el ítem que evalúa estrés indica más ansioso. Para ítems de
opción múltiple, es posible asignar calificación de 3, 2 y 1 o +1, 0 y -1. En las escalas tipo Likert es
posible asignar puntos de 5, 4, 3, 2 y 1 o +2, +1 0 -2, -1, pero también es viable otorgar 1 punto a las
respuestas totalmente de acuerdo y de acuerdo, y 0 a las demás (Thomas, 2015).
El análisis de ítems o reactivos se realiza a partir de dos modelos: la teoría clásica de test (TCT) y la teoría
de respuesta al ítem (TRI). La TCT expresa que la puntuación obtenida por una persona al contestar un
ítem está compuesta por una parte del nivel verdadero de esa persona y una parte de error. Esta teoría
busca medir y minimizar el nivel de error, analizando la confiabilidad de esa medida (Meneses, 2013).
Bajo estos principios, según Meneses (2013), la TCT establece que las principales propiedades a
medir en un ítem que integra una prueba de desempeño son:
2. Discriminación: indica la capacidad de un ítem para distinguir entre las personas que tienen
buen rendimiento o alto puntaje frente a las que no lo tienen. A la forma de saber si un reactivo
es acertado por quienes suelen tener altas o bajas puntuaciones se le denomina índice D o
índice basado en las proporciones de aciertos. Este se obtiene después de haber aplicado el
test, cuando se cuenta con el porcentaje de las puntuaciones superiores, aquellos que obtienen
puntajes superiores al 75%, y el de las inferiores, aquellos que tienen puntuaciones bajo el 25%.
Con estos datos, se resta la proporción del alto rendimiento a la proporción de bajo rendimiento.
Cuando el resultado de D es positivo, el ítem está discriminando, no obstante, el resultado se
interpreta así: ≥40, alta discriminación; (b) entre 30 y 40, aceptable; (c) entre 20 y 30 es baja
y se sugiere revisar el ítem; (d) entre 10 y 20 es baja y se debe eliminar el ítem o reformarlo
profundamente; y (e) ≤20 es inaceptable, se debe eliminar el ítem.
POLITÉCNICO GRANCOLOMBIANO 6
3. Discriminación de los distractores: ayuda a saber si los distractores que acompañan la respuesta
correcta están cumpliendo su función. Se calcula usando el índice D, pero en lugar de hacerlo
con quienes aciertan y fallan, se hace con la proporción de los que eligen cada una de las opciones
de respuesta. Este índice se interpreta igual: si el resultado es positivo está discriminando o
distrayendo, es decir, las personas lo eligen. Hay que aclarar que para que se pueda aplicar este
índice, todas las opciones de respuesta deben ser coherentes con el enunciado.
4. Valoración del sesgo: al sesgo se le denomina falta de equidad. Dentro del trabajo psicométrico,
es una necesidad tratar a todos los participantes imparcialmente, sin importar características
personales como etnia, género o condición de discapacidad, haciéndolas irrelevantes para el
test, es decir, que no tengan incidencia en los resultados y su interpretación. Así pues, un test
puede ser sesgado en su elaboración cuando no se tiene en cuenta la validez del constructo, al
introducir componentes irrelevantes que pueden llevar a que algunas personas que pertenecen a
ciertos subgrupos obtengan puntuaciones más bajas que el resto. También puede ser sesgado en
su uso, pues las puntuaciones bajas de cierta población pueden interpretarse como que derivan
de su condición y no de las propiedades de la prueba (Martínez y Hernández, 2014). Esta es
considerada una fuente de error sistemático, pues introduce distorsión en los resultados de
un test para los miembros de un grupo particular (Martínez y Hernández, 2014). Por ejemplo,
cuando Alfred Binet elaboró en 1910 su test de inteligencia, notó que en algunos ítems los niños
de estratos socioeconómicos más bajos rendían peor. Al ver esto, pensó que estos ítems podrían
estar midiendo los efectos del entrenamiento cultural en lugar de la verdadera capacidad mental
de los niños. El objetivo es crear test libres de efectos culturales.
El índice que evalúa el sesgo es también llamado índice de funcionamiento diferencial de los ítems (DIF)
e identifica si estadísticamente se presenta una diferencia significativa en las puntuaciones de dos grupos
que, a juicio lógico, se espera tengan el mismo desempeño, por ejemplo, entre hombres y mujeres.
Este se calcula dividiendo a los sujetos en dos grupos en función de sus puntuaciones totales, luego se
elabora una tabla por grupos en la que se pueda observar si la variable cultural interviniente, por ejemplo,
el género se asocia con acertar más. Dicho resultado se analiza con el estadístico Mantel-Haenszel y se
compara con el grupo de referencia; si el resultado es significativo (0.05), la prueba tiene sesgo.
POLITÉCNICO GRANCOLOMBIANO 7
¿Sabía que...?
El índice de significancia es un umbral que permite determinar si el resultado
de un estudio es estadísticamente significativo como para ratificar una
hipótesis. Por ejemplo, la hipótesis afirma que el test contiene ítems que
sesgan los resultados a favor de los hombres. Si el resultado estadístico es
igual o menor a 0.05, se considera que la prueba contiene ítems sesgados.
Bajo la teoría de respuesta al ítem, el cálculo o análisis se hace sobre cada ítem cuyo objetivo es medir el rasgo
latente desde tres parámetros: discriminación del ítem, dificultad y acierto al azar. El cálculo se hace a partir
de la curva característica del ítem (CCI), que en el plano Y ubica la probabilidad de acertar el ítem a partir de
la magnitud del rasgo latente o constructo que se mide; y en el eje X la dificultad a partir de la probabilidad de
acierto, que es del 50 %. La interpretación se hace sobre el nivel de rasgo latente necesario para obtener un
50 % de probabilidades de acertar el ítem bajo el nivel de discriminación, de dificultad y de azar (Meneses,
2013). La limitación de esta forma de análisis de ítems es que requiere un software muy específico.
2.1. Abiertos
Son formatos que exigen que la persona construya la respuesta, por ejemplo:
POLITÉCNICO GRANCOLOMBIANO 8
También están aquellos en los que la persona debe completar frases añadiendo uno o más elementos
de una oración, por ejemplo:
Existen test de ejecución típica con ítems sencillos de respuesta abierta, en los que la persona debe
completar la frase o asociar palabras.
Asociación de palabras: Por favor diga la primera palabra que venga a su mente
cuando yo le diga la palabra.
Frío.
Universidad.
Invierno.
Padre.
2.2. Cerrados
Los ítems con formato cerrado brindan al evaluado las diversas opciones de respuesta indicando que
se seleccione la opción u opciones que considera correctas. Este tipo de formato suele ser útil para
evaluar poblaciones grandes, tareas cognitivamente complejas y procesos (Haladyna, 1994). Los
formatos cerrados más comunes se muestran ejemplificados en la Tabla 1.
Tabla 1. Formatos de reactivo según el tipo de opción de respuesta
Formato Ejemplo
Un tipo de atención es:
1. Atenta
Selección múltiple usual
2. Distraída
3. Selectiva
POLITÉCNICO GRANCOLOMBIANO 9
Una teoría que permite elaborar ítems adecuados es:
Selección alternativa 1. Teoría clásica del ítem
2. Teoría de respuesta al ítem
Formato Ejemplo
Señale si es verdadero (V) o falso (F) que las siguientes son características de
un estadístico descriptivo.
1. a y b
2. b y c
3. a, b y c
POLITÉCNICO GRANCOLOMBIANO 10
En una oficina donde se comparte un mismo espacio, se han generado
conflictos por el tono de voz usado por parte de algunos trabajadores, y el gusto
de algunos por escuchar música a un alto volumen.
¿Cuál sería el camino para resolver esta situación, considerando que se debe
procurar que todos los involucrados se sientan satisfechos?
Conjunto de ítems dependientes de
un contexto a. Obedeciendo lo que indica el jefe que se haga.
b. Consensuando pautas de comportamiento en el trabajo.
c. Imponiendo el punto de vista del que es más popular.
d. Esperando que la situación se resuelva con el paso del tiempo
Para pruebas de ejecución típica o de rasgo, que son pruebas que miden aspectos no escalables,
donde no hay respuestas correctas o incorrectas, los formatos varían sustancialmente en las opciones
de respuesta. Los más comunes son las escalas tipo Likert, donde se usa una escala de cinco puntos
que va desde completamente de acuerdo hasta completamente en desacuerdo o las escalas de
valoración gráfica. A continuación, se presentan un par de ejemplos.
1 2 3 4 5
Me encanta la matemática
POLITÉCNICO GRANCOLOMBIANO 11
Ejemplo escala de valoración gráfica
Marque cualquier punto de la línea para mostrar su nivel de motivación
Muy motivado _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Nada motivado
_ _ _ / _ _ _ /_ _ _ /_ _ _/_ _ _/ _ _ _/ _ _ _/ _ _ _ / _ _ _ / _ _ _
1 2 3 4 5 6 7 8 9 10
Escala para convertir las marcas a escala numérica
Figura 2. Ejemplos de los tipos de formatos para reactivos en pruebas de ejecución típica
Fuente: elaboración propia, basada en Thomas (2015)
3. Normas de puntuaciones
Al crear una prueba o seleccionarla, se debe tener en cuenta el tipo de puntuaciones sobre las cuales se
realiza la interpretación. Una verdadera prueba psicométrica tiene en cuenta estos tipos de puntuaciones,
que varían según la base teórica sobre la cual se crea. Los test referidos a norma (TRN) proporcionan
puntuaciones derivadas como las típicas o z, decatipos, eneatipos, percentiles, puntuaciones T o edades
escalares, que son a las que se pasan las puntuaciones directas, crudas o brutas (puntajes que la persona
registra cuando responde la prueba). En los test referidos a criterio (TRC), se trabaja únicamente con las
puntuaciones directas, crudas o brutas, que en ocasiones se pasan a porcentajes y no más (Aragón, 2015).
En las pruebas elaboradas sobre puntuaciones normalizadas o TRN, existen, según Aragón (2015), tres conceptos
clave que tienen que ver con las puntuaciones derivadas: normalización, estandarización y baremación.
3.1. Normalización
POLITÉCNICO GRANCOLOMBIANO 12
Tabla 2. Normalizar la puntuación
3.2. Estandarización
En este tipo de puntuación, se debe aplicar la prueba a una muestra representativa, producto de
aleatorización para su conformación, velando porque en esta muestra se encuentre representación
de cada grupo que conforma la población (Aragón, 2015). Estas condiciones hacen de este proceso
el más costoso, pues necesita una cantidad grande de personas, para que los resultados permitan
conocer el comportamiento de la prueba en una población particular.
Si, por ejemplo, se quiere estandarizar una prueba en población colombiana, lo primero es saber
el total de la población del país y luego en las regiones, para saber cuántas personas deben estar
presentes por cada región. Con este número, las personas que integran cada grupo deben ser elegidas
aleatoriamente, es decir, cada habitante de la región debe tener la misma probabilidad de ser elegida.
POLITÉCNICO GRANCOLOMBIANO 13
3.3. Baremación
Este es un proceso que busca obtener las puntuaciones normalizadas con una muestra lo más
representativa posible de la población. Se usa cuando se quiere verificar qué tan confiable sería una
prueba elaborada o con baremos de otro país o región, en donde se quiere aplicar. Por ejemplo, una
prueba con baremos de población mexicana que se quiere usar para población colombiana. Todo inicia
con una muestra representativa, luego se eligen personas que cumplan características en términos
de edad o características que la prueba exprese, para después elegir al azar a quienes se les aplicará
la prueba. Las puntuaciones directas obtenidas de esta aplicación se transforman en puntuaciones
derivadas. Si estas toman forma de curva normal, las puntuaciones serán típicas o z, pero si toman
forma aplanada o planocúrtica, las puntuaciones serán decatipos o eneatipos. Si no se da ninguna de
estas dos formas, se usarán las puntuaciones percentiles (Aragón, 2015).
¿Sabía que...?
POLITÉCNICO GRANCOLOMBIANO 14
Referencias
Aragón, B. L. (2015). Evaluación psicológica: historia fundamentos teórico-conceptuales y psicometría
(2a. ed.). México, D.F.: Manual Moderno.
Haladyna, T. M. (1994). Developing and validating multiple-choice test items. Hillsdale, New Jork: LEA.
Moreno, R., Martínez, R. y Muñiz, J. (2004). Directrices para la construcción e ítems de elección múltiple.
Psicothema, 16 (3), 490-497.
Thomas, P. H. (2015). Pruebas psicológicas: una introducción práctica (Segunda edición). Distrito Federal:
Manual Moderno.
POLITÉCNICO GRANCOLOMBIANO 15
INFORMACIÓN TÉCNICA
Módulo: Psicometría
Unidad 3: Elaboración de instrumentos de medición
Escenario 6: Construcción y diseño de un test: reactivos,
formatos y normas de puntuación
POLITÉCNICO GRANCOLOMBIANO 16