Temario Medición

1.
INTRODUCCIÓN
1.1. Evaluación
Se entiende por Evaluación…”un proceso sistemático de indagación y comprensión de

la realidad educativa que pretende la emisión de un juicio de valor sobre la misma,
orientado a la toma de decisiones y la mejora” (Gem, 2001-2004).
Podemos definir tres tipos de evaluación: Normativa, Criterial y Conductual. A

continuación se presenta una tabla-resumen con sus principales características.
NORMATIVA CRITERIAL CONDUCTUAL

Unidad de Rasgo Psicológico Dominio educativo Conducta
Análisis
Variables Cognitivas/no Cognitivas No cognitivas
cognitivas
Nivel de Representativo del Representativo y No generalizable
Generalización rasgo proporcional al
dominio
Instrumento Tests psicométricos Tests criteriales Téc. No formales
Criterios de Relativos a la Representativos de No prefijados
Evaluación población carácter absoluto
Tipo de Medida del prod. Medida del prod- Medida del proceso
Evaluación Final proceso
Medida de No hay Medición del cambio Situación del
Cambio educativo individuo
Valor/Utilidad Muy relativo a la Nos informa de lo Es eficaz
intervención mejorable
Valor de Principios de siglo Años 60 Años 50
Desarrollo
1.2. Medición Educativa
Podemos partir de la definición clásica de Stevens (1951) según la cual medida es el

acto de asignar numerales a hechos empíricos de acuerdo con unas reglas determinadas.
Nunnally y Bernstein (1995) indican que "la medición consiste en reglas para asignar
símbolos a objetos de manera que 1) representen numéricamente cantidades de atributos
(escala de medición) o 2) definan si los objetos caen en las mismas categorías o en
diferentes con respecto a un atributo determinado (clasificación)" (p.1)
La Medición no requiere emitir valoraciones sobre estos números.
La Educación implica cambio. Cualquier resultado educativo debe implicar una

diferencia observable.
En el siguiente gráfico podemos observar la situación de la Medición Educativa en el

contexto del Proceso General de Investigación:
Proceso General de Investigación
1.3. Escalas de medida
Uno de los principales problemas con los que se encuentra la Medición Educativa es
que trabajamos con variables que no podemos cuantificar de la misma forma que en las
ciencias naturales y por tanto no tenemos los instrumentos necesarios para medir los
aspectos educativos.
Las escalas de medida nos van a permitir realizar un tipo determinado de operaciones
con los números. Stevens propone a partir de su definición clásica de asignar números a
objetos o acontecimientos de acuerdo con reglas, cuatro escalas nominal, ordinal, de
intervalo y de razón, que posteriormente aumenta a cinco con la escala de intervalo
logarítmico. Sus características son:
Escala Nominal.
Su fin es identificar sujetos/objetos dentro de una distribución, por lo que únicamente

podremos establecer las relaciones de igualdad/desigualdad entre los sujetos/objetos de
una distribución. Un ejemplo es el nombre de las ciudades: solo podemos diferenciarlas
entre sí de acuerdo con esta escala. El número de los jugadores de fútbol o de
baloncesto nos proporciona la misma información: solo sirve para identificarlos y
diferenciarlos del resto de jugadores, no podemos establecer ningún tipo de orden o de
gradación en función de este número.
Igualdad/Desigualdad
Escala Ordinal.
Este tipo de escala está destinada a ordenar a los sujetos/objetos de una distribución en
función de alguna característica. Cabe señalar que la distancia entre sus unidades no es
uniforme. De esta forma, podemos decir que A está por encima que B, pero no que sea
el doble o que sea la mitad uno que otro. Un ejemplo es el orden de llegada en una
carrera. Además del atributo de igualdad/desigualdad, en esta escala podemos añadir el
ordenamiento de sus componentes.
A____B___________C_______________________________D__E______
Orden
Escala de Intervalo.
En esta escala la distancia entre las unidades de medida sí es uniforme, de forma que
podemos decir que D es el doble que A, por ejemplo. Por ello, permite realizar
operaciones matemáticas, como suma, resta, multiplicación o división. El cero es
arbitrario, no indica la ausencia de atributo. Como ejemplo puede servir la escala de
tiempo que utilizamos: el cero es arbitrario, puesto en el nacimiento de Cristo, o la
escala para medir la temperatura en grados centígrados, en la que el cero es también
relativo.
_A____B____C____D
Operaciones aritméticas; Cero relativo
Escala de Razón.
Similar a la de intervalo, con la única diferencia que el cero en esta escala sí indica la
ausencia de atributo, es cero absoluto. Como ejemplo podemos señalar la altura en
centímetros, o el peso en gramos. En ambos casos 4 es doble que 2 (2+2=4), o 4 es la
mitad que 8, por ejemplo, debido a que la distancia entre sus unidades de medida es
uniforme.
Cero absoluto
Debido a la naturaleza de las variables que utilizamos en Educación es muy difícil

encontrar variables que tengan un cero absoluto, por ejemplo inteligencia, o
rendimiento, por ello al grado máximo que podemos llegar en la medida es
habitualmente el de intervalo, aunque por lo general nos quedamos siempre en las
escalas ordinales, en las que podemos ordenar a los sujetos en función de alguna
variable determinada.
Tipo Características Ejemplo

Nominal Igualdad Nombre ciudades
Ordinal " Orden Llegada carrera
Intervalo " op.matemáticos, 0 relativo ºCentigrados
Razón " 0 absoluto altura
1.4. Fases en la construcción de un test

1.5. Propiedades que debe cumplir un ítem
1. Que posibilite la máxima variación posible –máxima discriminación.

2. Que el ítem funcione correctamente en el conjunto del test, es decir, que bajo el
supuesto de unidimensionalidad, tenga un funcionamiento similar al del conjunto.
3. Que el ítem mida realmente lo que pretende medir.
1.6. Tipos de ítems
Los tipos de ítems se pueden clasificar de la siguiente:
 Respuesta Breve
 Asociación
 Verdadero/Falso
 Alternativas
 Interpretativos
 Desarrollo
1. Ítems de Respuesta breve -lagunas
El ítem de tipo respuesta breve (lagunas) puede ser completado con una palabra o varias
o utilizar números para la respuesta.
Ejemplo: La ciudad de ______________ es la capital de España.
Habilidades medidas/campos de aplicación:

 Conocimiento de terminología
 Conocimiento de hechos específicos
 Conocimiento de principios
 Interpretación simple de datos (algo más compleja cuando se utiliza material
figurativo)
 Habilidad para resolver problemas numéricos
 Habilidad para completar e igualar ecuaciones químicas
 Son particularmente útiles en matemáticas y ciencias donde se requiere una
respuesta computacional o se debe escribir una fórmula o ecuación
 También con idiomas extranjeros donde se busca medir partes específicas de
información.
 Adecuados para medir el conocimiento de definiciones y términos teóricos.
Ventajas e inconvenientes:
 Ventajas
1. Facilidad de construcción y administración.
2. Reducción de la posibilidad de respuesta por conocimiento parcial.
3. Aportación de información diagnóstica.
 Inconvenientes
1. Sólo se aplican a Cuestiones que pueden responderse mediante una
palabra o frase muy breve.
2. No se ajustan a medir situaciones que requieran síntesis e interpretación,
en los que sólo haya una respuesta correcta.
3. Orientan hacia un aprendizaje excesivamente memorístico,
empobreciendo los hábitos de estudio.
4. La puntuación no es tan rápida y precisa por la variedad de respuestas
aceptables.
2. Ítems de Asociación
El ítem de asociación consiste en relacionar dos o más series de nombres, números o

imágenes. Ejemplo:
País - Capital
España - París
Francia - Lisboa
Italia - Madrid
Habilidades medidas/campos de aplicación

 Ámbitos de aprendizaje en los que se pretende la aplicación de una base de
asociación homogénea en un conjunto de pares.
Ventajas e inconvenientes
 Ventajas
1. Su forma compacta permite incluir más ítems en un examen.
2. Requieren poco tiempo de lectura.
3. Se ajustan a una corrección mecanizada y objetiva.
 Inconvenientes
1. Si no se tiene cuidado en su preparación, las listas de asociación pueden
orientarse más a la memoria serial que a la asociación.
2. Es difícil encontrar cuestiones que permitan formular este tipo de ítems.
3. Ítems de Verdadero/Falso
El ítem de tipo verdadero/falso consiste en responder a una pregunta.

Ejemplo: La propiedad conmutativa es A + B = B + A V F

 Habilidad para identificar la adecuación de las afirmaciones de hechos,
definición de términos. frases de principios y similares.
 Habilidad para reconocer relaciones causa-efecto.
 Aspectos simples de lógica.
 Son particularmente útiles para medir las creencias en concepciones incorrectas
populares y en supersticiones.
 Si se construyen cuidadosamente, pueden medir procesos mentales superiores
(comprensión, aplicación, interpretación).
 Ventajas
1. Son buenos para niños pequeños y personas con dificultades lectoras.
2. Su tiempo de lectura-respuesta es menor al de otros tipos de ítems, por lo
que pueden incluirse más por unidad de tiempo.
3. Se ajustan a una corrección mecanizada y objetiva.
4. Son muy flexibles, se pueden adaptar a la mayor parte de áreas de
contenido.
 Inconvenientes
1. Las puntuaciones están muy influenciadas por la adivinación.
2. Son bastante susceptibles a la ambigüedad y mala interpretación, lo que
posiblemente incide negativamente en un menor nivel de fiabilidad.
3. Es fácil copiar en este tipo de ítems.
4. Tienden a ser menos discriminativos que los de elección múltiple. Son
susceptibles a la tendencia de respuesta por aquiescencia.
5. No deben ser utilizados en aquellas situaciones en las que la respuesta no
es totalmente verdadera o falsa.
6. Son susceptibles a la inclusión de determinantes específicos, para forzar
que la respuesta sea totalmente verdadera o falsa.
4. Ítems de alternativas
Los ítems de alternativas consisten en formular un enunciado (tronco) y presentar unas

alternativas de respuesta (más de dos), de las cuales una o varias pueden ser verdaderas.
Ejemplo: La medida de dispersión que permite establecer la variabilidad de una

distribución en términos porcentuales se denomina:
1. Desviación Típica
2. Varianza
3. Desviación Media
4. Cociente de Variación (*)

 Objetivos de aprendizaje:
o Conocimiento de terminología.
o Conocimiento de hechos específicos.
o Conocimiento de principios.
o Conocimiento de métodos y procedimientos.
 Resultados en los niveles de comprensión y aplicación:
o Habilidad de identificar hechos y principios.
o Habilidad para interpretar relaciones de causa-efecto.
o Habilidad para justificar métodos y procedimientos.
 Ventajas
o Se da un mayor muestreo de contenido por lo que, generalmente,
conducen a una mayor validez de contenido.
o La fiabilidad de las puntuaciones de los tests puede ser muy elevada con
un número suficiente de ítems de alta calidad.
o Se ajustan a una corrección mecanizada y objetiva.
o Se pueden obtener subpuntuaciones diagnósticas basadas en un análisis
de distractores.
o Teorías de los tests (TRI, generalizabilidad, clásica...) se acomodan
fácilmente a respuestas binarias.
o Están relativamente menos afectados por los conjuntos de respuesta que
otros tipos de ítems objetivos.
 Inconvenientes
o Son relativamente difíciles de construir, en ocasiones resulta complicado
encontrar un número suficiente de alternativas.
o Hay tendencia a construir ítems de EM que demandan solamente
recuperar información de hechos concretos (aunque sucede menos que
con otros tipos de ítems objetivos).
o Entre los ítems objetivos, es el que más tiempo se tarda en responder,
especialmente cuando se piden discriminaciones precisas.
o Están sesgados a favor de sujetos:
o con habilidades para los tests objetivos y que asumen más riesgo en las
respuestas;
o más hábiles para detectar la ambigüedad.
o No se adaptan bien para medir la habilidad para organizar y presentar
ideas.
5. Ítems interpretativos
Los ítems interpretativos plantean una situación, un escrito, etc. y se pide al sujeto que
los interprete de acuerdo con unas consideraciones previamente establecidas. consisten
en formular un enunciado (tronco) y presentar unas alternativas de respuesta (más de
dos), de las cuales una o varias pueden ser verdaderas.
Ejemplo: Indica qué ha querido decir el autor con la siguiente poesía:
El ángel del misterio
Un sueño sin faroles y una humedad de olvidos,

pisados por un nombre y una sombra.
No sé si por un nombre o muchos nombres,
si por una sombra o muchas sombras.
Reveládmelo.
Sé que habitan los pozos frías voces,
que son de un solo cuerpo o muchos cuerpos,
de un alma sola o muchas almas.
No sé.
Decídmelo.
Que un caballo sin nadie va estampando
a su amazona antigua por los muros.
Que en las almenas grita, muerto, alguien
que yo toqué, dormido, en un espejo,
que yo, mudo, le dije...
No sé.
Explicádmelo.
Rafael Alberti

 Habilidad para aplicar un principio.
 Habilidad para interpretar relaciones.
 Habilidad para reconocer y establecer inferencias
 Habilidad para reconocer la relevancia de la información.
 Habilidad para desarrollar y reconocer hipótesis posibles.
 Habilidad para identificar la relevancia de argumentos y juzgarlos como
erróneos, en su caso.
 Habilidad para identificar la adecuación de procedimientos.
 Habilidad para formular y reconocer conclusiones válidas.
 Habilidad para reconocer asunciones que subyazcan a las conclusiones.
 Habilidad para reconocer las limitaciones de los datos.
 Habilidad para reconocer y establecer problemas significativos.
 Habilidad para diseñar procedimientos experimentales.
 Todos los productos similares basados en la habilidad de los sujetos para
seleccionar una respuesta.
 Ventajas
o El material introductorio hace posible medir la habilidad para interpretar
materiales escritos, diagramas, mapas, dibujos y otros medios de comu-
nicación que podemos encontrar en situaciones cotidianas.
o Permiten medir resultados más complejos de aprendizaje que con un ítem
objetivo simple.
o Dada su estructura más amplia, minimiza la influencia de información no
relevante sobre el comportamiento de objetivos de aprendizaje complejo.
o Las series de ítems objetivos fuerzan a utilizar sólo los procesos mentales
que requieren, lo que posibilita también medir aspectos separados de la
habilidad para resolver problemas y para utilizar procedimientos
objetivos de puntuación.
 Inconvenientes
o Dificultad de construcción.
o Especialmente cuando el material introductorio es escrito, es fuerte el
requerimiento de habilidad lectora.
o Aunque es eficiente para medir aspectos específicos del proceso de
resolución de problemas, no puede medir la capacidad de resolución de
problemas global de sujeto.
o Está orientado a objetivos de aprendizaje a un nivel de reconocimiento.
6. Ítems de desarrollo o ensayo
En los ítems de desarrollo o de ensayo se plantea una pregunta y el sujeto debe contestar
con formato libre, pudiendo ser de respuesta breve o extensa.
Ejemplo: La Reconquista en España.
De desarrollo respuesta breve:

 Habilidad para explicar las relaciones.
 Habilidad para describir las aplicaciones de principios.
 Habilidad para presentar argumentos relevantes.
 Habilidad para formular hipótesis.
 Habilidad para formular conclusiones válidas.
 Habilidad para establecer asunciones necesarias.
 Habilidad para describir las limitaciones de los datos.
 Habilidad para explicar métodos y procedimientos.
 Todos los productos similares basados en la habilidad de los sujetos para emitir
una respuesta.
De desarrollo respuesta extensa:

 Habilidad para producir, organizar y expresar ideas.
 Habilidad para integrar aprendizajes de diferentes áreas.
 Habilidad para crear formas originales (p.c., diseñar un experimento).
 Habilidad para evaluar el valor de las ideas.
 Ventajas
o Es relativamente fácil de preparar, sobre todo en términos comparativos
con otras opciones.
o Es la única forma de evaluar significativamente una habilidad para
componer una respuesta y presentarla de forma textual propia.
o Permite medir aprendizajes complejos que no pueden ser medidos con
otros procedimientos.
o Produce un “buen efecto” en el aprendizaje de los estudiantes. Los
estudiantes lo prefieren frente a otras opciones (p.e., elección múltiple).
o Posee validez ecológica, al enfrentar al sujeto con una situación más real
y compleja.
o En los niveles inferiores se puede utilizar para mejorar habilidades de
escritura.
 Inconvenientes
o Su pobre o limitado muestreo de contenido, especialmente en las
cuestiones amplias.
o La baja fiabilidad en los sistemas de puntuación, especialmente si se
utilizan sistemas globales.
o La gran cantidad de tiempo requerido en la corrección.
2. PARAMETROS E INDICADORES
Parámetros
Son las grandes vías de acción, los ejes de referencia principal a partir de los que
analizamos el funcionamiento de los ítems
 Dificultad
 Discriminación
 Validez
Indicadores
Son la forma de aplicar en la práctica las indicaciones de los parámetros. En cada uno
de los parámetros que vamos a estudiar se reseñarán los indicadores que se utilizan.
2.1. Parámetro de dificultad
El parámetro de dificultad se centra en el análisis del nivel de respuesta a las preguntas

de la prueba, es decir, en su nivel de dificultad. Se utilizan los siguientes indicadores:
2.1.1. Índice de Dificultad
Nos indica la proporción de sujetos que han contestado correctamente a una prueba
determinada y por tanto señala el nivel de dificultad del ítem. Cuantos más sujetos
acierten el ítem, más se acercará a 1 y por tanto más fácil será. Por el contrario, cuanto
más difícil sea el ítem, menos sujetos lo acertarán y se acercará más a 0.
Al tratarse de una proporción, sus valores oscilan entre 0 y 1.
Valor Interpretación
1 Muy fácil. Lo aciertan todos los sujetos
0.75 - 1 Fácil.
0.25 - 0.74 Dificultad Media.
0.01 - 0.24 Difícil.
0 Muy difícil. No ha acertado ningún sujeto.
Criterios:
Se eligen los ítems en función de la proporción de los mismos en la prueba, teniendo en

cuenta que la puntuación total de la misma deberá ajustarse a la curva normal. Por ello,
se recomienda que su distribución sea:
Porcentaje Nivel de dificultad Indice de dificultad

25% Fácil (pi > 0.75 y < 1)
50% Medio (pi > 0.25 y < = 0.75)
25% Difícil (pi > 0 y < = 0,25)
2.2. Parámetro de Discriminación
Es la asociación de medida entre los ítems y el test. Determina si el ítem está midiendo
en el mismo sentido que el test.
Indicadores:
 Poder de discriminación: La varianza del ítem; al ser dicotómico, pi x qi
 CH Coeficiente de Homogeneidad: Correlación ítem-test.
 IH Indice de Homogeneidad. Descuenta el peso de la variabilidad del ítem en la
serie test, para evitar la autocorrelación. IH = CH si
Niveles: Se prefieren los ítems con una elevada relación con el test.
2.2.1. Poder de discriminación
Capacidad de discriminación del ítem: su varianza. Para ítems dicotómicos:
s2= pi x qi pi: Indice de Dificultad qi: (1-pi)

s2 Niveles
0.25 Ítem Modal. Máxima discriminación
0.21 - 0.24 Óptima
0.01 - 0.20 Crítica
0 Nula
 Criterios:
Debido a que la finalidad de un ítem es discriminar entre sujetos, eliminamos los ítems
con poder de discriminación nulo, dado que no discriminan entre sujetos.
2.3. Parámetro de Validez
Asociación de medida entre el ítem y el criterio externo de medida.

Determina si el ítem está midiendo en el mismo sentido que el criterio externo.
Indicadores: Coeficiente de Validez: Correlación ítem-criterio
Niveles: Se prefieren los ítems con un elevado coeficiente de validez (correlación).
2.3.1. Correlación
Podemos querer estudiar si dos variables están relacionadas. Podemos utilizar el

diagrama de dispersión para ver la relación. En los siguientes ejemplos podemos ver
distintos tipos de relación entre dos variables.
Ejemplo 1: Relación positiva entre dos variables
Ejemplo 2: Relación nula (no hay relación) entre dos variables
Ejemplo 3: Relación negativa entre dos variables
Cuando queremos cuantificar la relación entre dos variables utilizamos la covarianza
La covarianza nos informa de:
 Positiva: Será positivo cuando a medida que aumentan los valores de una
variable aumentan también los de la otra (ejemplo 1).
 Nula: Será nula =0, cuando no exista una relación clara entre las variables
(ejemplo 2).
 Negativa Será negativo cuando a medida que aumentan los valores de una
variable disminuyen los de la otra (ejemplo 3).
El problema de la covarianza es que no nos informa de la intensidad de la relación. Para

ello, utilizamos la Correlación. La correlación nos permite cuantificar la relación entre
las dos variables añadiendo a la información proporcionada por la Covarianza un nuevo
valor: la intensidad de la relación, puesto que tipifica la covarianza en función del
producto de las desviaciones típicas de las dos variables consideradas. Así,
De esta forma, la correlación puede oscilar entre +1 y -1, siendo 0 la ausencia de

correlación. En nuestros ejemplos, obtendremos:
ejemplo 1: rxy= 0,97

ejemplo 2: rxy= 0,07
ejemplo 3: rxy= -0,98
Así, podemos señalar la intensidad de la correlación
Valor Intensidad
1 Perfecta
0,81-0,99 Alta
0,61-0,80 Medio-alta
0,41-0,60 Media
0,21-0,40 Medio-baja
0,01-0,20 Baja
0 Nula
3. MATRIZ VACIADO DE ÍTEMS
La matriz Vaciado de Ítems (MVI) es una tabla de contingencia de doble entrada de

sujetos (Filas) por columnas (Ítems) en la que incluimos los resultados de los sujetos en
una prueba determinada.
En la distribuciones marginales se incluyen el sumatorio tanto de los aciertos de los

sujetos (puntuaciones en el test t) como el sumatorio de aciertos por ítems (puntuaciones
en los ítems).
4. ANÁLISIS DE ÍTEMS.
El análisis de ítems consiste en analizar cada uno de los reactivos de los que consta la
prueba por separado, para así poder seleccionar los que muestran un comportamiento
más ajustado al conjunto de la prueba.
Se realiza sobre tres parámetros:
1. Parámetro de Dificultad
2. Parámetro de Discriminación
3. Parámetro de Validez
Además, con el fin de determinar si la prueba mide un único constructo de referencia o

varios, se hace un Análisis de las correlaciones de la matriz de resultados.
4.1. Parámetro de Dificultad
El parámetro de dificultad se centra en el análisis del nivel de respuesta a las preguntas

de la prueba, es decir, en su nivel de dificultad. Se utilizan los siguientes indicadores:
4.1.1. Índice de Dificultad
Nos indica la proporción de sujetos que han contestado correctamente a una prueba
determinada y por tanto señala el nivel de dificultad del ítem. Cuantos más sujetos
acierten el ítem, más se acercará a 1 y por tanto más fácil será. Por el contrario, cuanto
más difícil sea el ítem, menos sujetos lo acertarán y se acercará más a 0.
Al tratarse de una proporción, sus valores oscilan entre 0 y 1.
1 Muy fácil. Lo aciertan todos los sujetos
0.75 - 1 Fácil.
0.25 - 0.74 Dificultad Media.
0.01 - 0.24 Difícil.
0 Muy difícil. No ha acertado ningún sujeto.
Criterios:
Se eligen los ítems en función de la proporción de los mismos en la prueba, teniendo en

cuenta que la puntuación total de la misma deberá ajustarse a la curva normal. Por ello,
se recomienda que su distribución sea: (Ejercicios)
Porcentaje Nivel de dificultad Indice de dificultad

25% Fácil (pi > 0.75 y < 1)
50% Medio (pi > 0.25 y < = 0.75)
25% Difícil (pi > 0 y < = 0,25)
4.2. Parámetro de Discriminación
Es la asociación de medida entre los ítems y el test. Determina si el ítem está midiendo
en el mismo sentido que el test.
Indicadores:
 Poder de discriminación: La varianza del ítem; al ser dicotómico, pi x qi
 CH Coeficiente de Homogeneidad: Correlación ítem-test (consultar atrás).
 IH Indice de Homogeneidad. Descuenta el peso de la variabilidad del ítem en la
serie test, para evitar la autocorrelación. IH = CH si
Niveles: Se prefieren los ítems con una elevada relación con el test.
4.2.1. Poder de discriminación
Capacidad de discriminación del ítem: su varianza. Para ítems dicotómicos:
s2= pi x qi pi: Indice de Dificultad qi: (1-pi)
s2 Niveles
0.25 Ítem Modal. Máxima discriminación
0.21 - 0.24 Óptima
0.01 - 0.20 Crítica
0 Nula
Criterios:
Debido a que la finalidad de un ítem es discriminar entre sujetos, eliminamos los ítems
con poder de discriminación nulo, dado que no discriminan entre sujetos.
4.3. Parámetro de Validez
Asociación de medida entre el ítem y el criterio externo de medida.

Determina si el ítem está midiendo en el mismo sentido que el criterio externo.
Indicadores: Coeficiente de Validez: Correlación ítem-criterio
Niveles: Se prefieren los ítems con un elevado coeficiente de validez (correlación).
5. FIABILIDAD
Definimos fiabilidad como el grado de precisión/estabilidad de la medida que realiza el
instrumento.
Dentro del modelo propuesto por Spearman (1904): O=V+E
Cualquier puntuación observada en una prueba (O) contiene la puntuación verdadera

que corresponde al sujeto al medir el constructo de referencia (V) más la puntuación de
error que se comete al medir (E).
En general, se distingue entre:
1. Fiabilidad Relativa
2. Fiabilidad Absoluta
5.1. Fiabilidad Relativa
La fiabilidad relativa se centra en la determinación del grado de precisión /estabilidad,

utilizando procedimientos basados en general en la correlación entre las puntaciones de
dos formas/aplicaciones. La fiabilidad absoluta se centra en la determinación de los
errores.
El índice de fiabilidad -rxx'- oscila entre 0 y 1. Cuanto mayor fiabilidad tenga el

instrumento, más se acercará a 1. La diferencia entre el índice de dificultad y 1 se
conceptualiza como error.
Coeficiente de Fiabilidad
Se parte del supuesto de que la diferencia entre las formas/aplicaciones se conceptualiza

como error, siendo la varianza de los errores la varianza de las diferencias.
Por tanto, si rxx'= 1 señala que no existe error en la medida.
Criterios:
1 Muy fiable
0.75 - 0.99 Fiable
0.25 - 0.74 Fiabilidad Media.
0.01 - 0.24 No fiable.
0 Nada fiable.
En general, se entiende que para pruebas cognitivas el índice de fiabilidad requerido

debe ser mayor que 0.80, mientras que para pruebas de tipo no cognitivo se aceptan
valores por encima de 0.65. Esto se debe a que en las pruebas no cognitivas no es
necesario que las respuestas sean muy homogéneas.
Procedimientos
 Dos aplicaciones
o Tests paralelos
o Tests tau-equivalentes
o Test/retest
 Una aplicación
o Dos mitades
o Consistencia interna
5.1.1. Dos Mitades
El procedimiento consiste en una sola aplicación de la prueba, dividiéndola en dos

mitades que se considera que deben ser paralelas o equivalentes.
El problema que se plantea es cómo dividir la prueba en dos mitades. Si dividimos en la

primera mitad y la segunda, en la segunda mitad los sujetos estarán más cansados. De
igual forma, en muchos tests los ítems se disponen de acuerdo con su grado de
dificultad, por lo que la segunda mitad será más dificil. Para solucionarlo se opta por
una división en ítems pares/impares, asegurando por tanto mayor equivalencia entre las
formas.
5.1.2. Consistencia Interna
Nos indica el grado de homogeneidad en las respuestas: Coeficiente alfa de Cronbach
5.2. Fiabilidad absoluta
La Fiabilidad absoluta hace referencia a los tipos de errores en la construcción de una

prueba.
Nos informa acerca de la cantidad de error que cometemos al medir. Hay dos tipos de
error:
 Sistemáticos
 Aleatorios
o Fuentes externas
o Fuentes internas
5.2.1. Errores sistemáticos
Se producen siempre y en la misma forma. Son fácilmente detectables y eliminables del

test. Ejemplos:
* Cuando una pregunta tiene más de una respuesta correcta. * Cuando ninguna
alternativa es correcta. * Pregunta que no está claramente formulada. * Poco tiempo
para responder al ítem. * En ítems ponderados, que el sistema de ponderación esté mal
calculado.
5.2.2. Errores aleatorios
Se producen por el azar o por cualquier otra circunstancia y no los podemos detectar ni
eliminar. Lo único que podemos hacer es especular acerca de la probabilidad de que se
den en un test. Hay dos fuentes generadoras de errores aleatorios:
- Errores aleatorios de fuentes externas a la prueba

- Errores aleatorios de fuentes internas a la prueba
5.2.2.1. Errores aleatorios de fuentes externas a la prueba
Cuando pasamos una prueba, debemos tener en cuenta las reacciones de los sujetos que
la completan. Estas reacciones incluyen aspectos como:
 Errores debidos a la situación:

o Temperatura de la sala/aula
o Iluminación de la sala/aula
o Nivel de ruido
o Superficie de escritura
o Capacidad del aula
 Errores debidos al Sujeto:
Las variables de los sujetos que pueden influir en la ejecución de un test son:

o Cuánto ha dormido el sujeto la noche anterior
o Incomodidades físicas
o Ansiedad ante el test
o Situaciones/problemas emocionales
o Efectos de drogas que haya podido consumir
 Errores debidos al observador:
o No ha explicado con claridad las instrucciones de aplicación
o No ha dejado un tiempo de ejecución suficiente, en tests de tiempo límite
o Interrumpe con frecuencia a los sujetos
5.2.2.2. Errores aleatorios de fuentes internas a la prueba
La fiabilidad absoluta se centra en el estudio de los errores que se comenten al medir.

Algunos de los errores internos a la prueba son:
6. VALIDEZ
Determina hasta qué punto el instrumento mide lo que pretende medir.

Validación: Recogida de evidencias sobre el correcto funcionamiento del instrumento
para el fin para el que ha sido diseñado
Se han propuesto distintas definiciones de validez: aparente, curricular, etc. A partir de

las normas de la APA se reducen a tres tipos fundamentales.
Existen tres tipos de validez:
 Validez de Contenido
 Validez de Criterio
 Validez de Constructo
Las tres se pueden considerar como evidencias acerca del correcto funcionamiento de
un instrumento y de las interpretaciones de las puntuaciones que genera.
En general, se asume que la más importante es la validez de constructo, que englobaría

a todas las demás acepciones, pues se considera que son evidencias acerca del correcto
funcionamiento del instrumento.
Estudios de validación
Debemos realizar estudios de validación:
 Cuando cambiamos el formato, las instrucciones, el lenguaje o el contenido del

test
 Si la población a la que se aplica varía significativamente de la de origen
 Cada cierto tiempo, para constatar que las características poblacionales no han
cambiado
 Validez transpoblacional y transsituacional.
Relación de validez con otras variables

 Validez y Longitud. Es siempre directa. A mayor Validez, mayor Longitud.
Cuanto mayor es la fiabilidad, más número de ítems deberemos aumentar para
aumentar la Validez.
6.1. Validez de contenido
Hace referencia a si el test incluye una muestra representativa de los ítems que
componen el universo de medida. Si en nuestra muestra están presentes todas las
variables que pretendemos medir, tendrá Validez de Contenido.
Tipos de validez de contenido

 V. aparente: el test mide aquello que pretendía.
 V. muestral: hasta qué punto los contenidos del test son relevantes.
 V. curricular: es la Validez de Contenido que habrán de poseer todas las
pruebas de acceso a instituciones.
Estrategias para determinar la validez de contenido
 Análisis de jueces (o juicio de expertos o revisión lógica)
 Coeficientes de acuerdo interjueces.
o Técnica Kappa.
o Técnica Delphi.
http://www.uv.es/gonzalej/privado2/500tgtri.wiki
TEMA 3. ELS TEST COM ESCALES DE MESURAMENT.
1 Què es mesurar?
2 Mesurament al procés general d’investigació.
3 Mesurament, avaluació i diagnòstic.
4 Els test
– Concepte
– Tipus
– Construcció
Mesurar es « asignar numerals a objectes o fets d’acord amb unes regles o normes fijas
(Stevens, 1951)»:
 Asignar numerals: asignar les propietats dels números (igualtat-desigualtat;
ordre; igualtat de diferèncias i igualtat de raó).
 Al mesurar el que fem es asignar números a les característiques dels objectes o
de les persones.
Les normes per las que se asignen els números a les característiques dels objectes i/o
subjectes son:
Les escales:
• Nominal
• Ordinal
• Interval
• Raó
Plantejament del problema
Determinació d’elements que

operacionalitzen el problema
Decisions sobre
el diseny
Hipótesis Variables
Recollida de dades:
mesurament
Anàlisi de
dades
Avaluació dels resultats

Concepte de test:
• Instrument que intenta mesurar el comportament humà.
• Constitueixen una mesura objectiva i tipificada de una mostra de conducta
(Anastasi,1982).
• Es un estímul o reactiu que posa a proba als subjectes per a que aquests evidencien o
manifesten algunes d eles seues característiques o conductes (possessió d’una
habilitat, coneixement,...).
Tipus :
 En funció de la natura del mesurament.
 En funció de la característica a mesurar.
 En funció del enfocament amb que es realitza l’avaluació.
 En funció de la manera d’interpretar els resultats.
 Segons altres criteris.
En funció de la natura del mesurament:
 Test de realització/execució màxima: mesuren la
capacitat màxima que un subjecte pot demostrar en l’execució del test, els subjectes
tracten d’obtindre la puntuació màxima (test d’aptituds i rendiment).
 Test de realització/ execució típica: mesuren la conducta
del subjecte en situacions típiques o quotidianes (test de personalitat, interessos i
aptituds)
En funció de la característica a mesurar:

 Test de personalitat: es mesuren valors, actituds, els
interessos, l’adaptació persona-entorn, los rasgos del caràcter,... Com que les
respostes no poden ser considerades com verdaderes o falses, s’utilitzen els
termes d’inventari o qüestionari.
 Test d’aptituds: mesuren capacitats per a adquirir algunes
conductes o habilitats, mitjançant un entrenament adequat.
 Test de rendiment: mesuren els resultats d'aprenentatge.
En funció del enfocament amb que es realitza l’avaluació:

 Test psicotècnics: es centren en mesurar rasgos concrets
de la personalitat dels individus. Es donen unes respostes ja elaborades per a que
el subjecte conteste.
 Test projectius: l’individu pot interpretar amb certa
llibertat en la resposta. Permeten una varietat casi il·limitada en les respostes.
En funció de la manera d’interpretar els resultats:

 Test normatius: es comparen els resultats de l’individu
en uns altres individus. La interpretació dels resultats d’un subjecte es compara
en els del grup en que està inclòs.
 Test criterials: es mesura el que l’individu sap i pot fer en
quant a uns continguts i habilitats definides. La interpretació dels resultats es fa
en base a un criteri extern (continguts, programa educatiu, domini educatiu,...).
Normatius Criterials
– El domini d’aprenentatge es molt – El domini d’aprenentatge es més específic
ample i s'utilitzen uns pocs ítems i es fan mes ítems per a cada tasca.
per a cada tasca. – Resalten la descripció del tipus de tasques
– Posen l’accent en la discriminació individuals que poden o no fer els individus.
entre subjectes. – Els ítems tenen diferents nivells de
– Predominen els ítems de dificultat dificultat.
mitjana. – S’utilitzen per a comprobar el domini.
– S’utilitzen per a examinar. – Per a ser interpretats el domini ha de estar
– S’interpreten en referència a un clarament definit.
grup.
Segons altres criteris:

 Test colectius/individuals: segons la forma d’aplicació.
 Test de potencia/de velocitat: els primers tracten de
determinar el nivell d’execució màxima, i els segons tracten d’averiguar quantes
preguntes es responen en un tems donat.
 Test de selecció/de facilitació: als primers s’ha de
seleccionar la resposta entre varies donades, als segons hi ha que elaborar una
resposta.
 Test de llapicera i paper/de execució: els primers
necessiten que el llenguatge oral i escrit estiga dominat, en canvi, als segons no es
necesari.
 Test convencionals/adaptatius: els primers son els que es
pasen de la mateixa forma per a tots els subjectes, els segons, encara que mesuren
un mateix contingut en tots, s’adapten a l’execució de cada subjecte conforme va
donant respostes encertades o erròneas.
Construcció d’un test (http://www.uv.es/gonzalej/privado2/):

– Fase 1: definició del constructe.
– Fase 2: validació d’instrument- pas pilot (judici d’experts).
– Fase 3: determinació del primer esborrany, aplicació y correcció.
– Fase 4: determinació del segon esborrany.
– Fase 5: test definitiu.
– Fase 6: baremació-tipificació.
– Fase 7: disponibilitat social del test (adaptació a la població).

Temario Medición

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Temario Medición

Caricato da

Copyright:

Formati disponibili

1.

Se entiende por Evaluación…”un proceso sistemático de indagación y comprensión de

Podemos definir tres tipos de evaluación: Normativa, Criterial y Conductual. A

NORMATIVA CRITERIAL CONDUCTUAL

1.2. Medición Educativa

Podemos partir de la definición clásica de Stevens (1951) según la cual medida es el

La Medición no requiere emitir valoraciones sobre estos números.

La Educación implica cambio. Cualquier resultado educativo debe implicar una

En el siguiente gráfico podemos observar la situación de la Medición Educativa en el

1.3. Escalas de medida

Su fin es identificar sujetos/objetos dentro de una distribución, por lo que únicamente

Operaciones aritméticas; Cero relativo

Debido a la naturaleza de las variables que utilizamos en Educación es muy difícil

Tipo Características Ejemplo

1.4. Fases en la construcción de un test

1. Que posibilite la máxima variación posible –máxima discriminación.

3. Que el ítem mida realmente lo que pretende medir.

1.6. Tipos de ítems

Los tipos de ítems se pueden clasificar de la siguiente:

1. Ítems de Respuesta breve -lagunas

Ejemplo: La ciudad de ______________ es la capital de España.

Habilidades medidas/campos de aplicación:

El ítem de asociación consiste en relacionar dos o más series de nombres, números o

Habilidades medidas/campos de aplicación

El ítem de tipo verdadero/falso consiste en responder a una pregunta.

Habilidades medidas/campos de aplicación

Los ítems de alternativas consisten en formular un enunciado (tronco) y presentar unas

Ejemplo: La medida de dispersión que permite establecer la variabilidad de una

Habilidades medidas/campos de aplicación

Ejemplo: Indica qué ha querido decir el autor con la siguiente poesía:

El ángel del misterio

Un sueño sin faroles y una humedad de olvidos,

Habilidades medidas/campos de aplicación

Ejemplo: La Reconquista en España.

Habilidades medidas/campos de aplicación

De desarrollo respuesta breve:

De desarrollo respuesta extensa:

2.1. Parámetro de dificultad

El parámetro de dificultad se centra en el análisis del nivel de respuesta a las preguntas

2.1.1. Índice de Dificultad

Al tratarse de una proporción, sus valores oscilan entre 0 y 1.

Se eligen los ítems en función de la proporción de los mismos en la prueba, teniendo en

Porcentaje Nivel de dificultad Indice de dificultad

2.2. Parámetro de Discriminación

2.2.1. Poder de discriminación

Capacidad de discriminación del ítem: su varianza. Para ítems dicotómicos:

s2= pi x qi pi: Indice de Dificultad qi: (1-pi)

2.3. Parámetro de Validez

Asociación de medida entre el ítem y el criterio externo de medida.

Podemos querer estudiar si dos variables están relacionadas. Podemos utilizar el

Cuando queremos cuantificar la relación entre dos variables utilizamos la covarianza

La covarianza nos informa de:

El problema de la covarianza es que no nos informa de la intensidad de la relación. Para

De esta forma, la correlación puede oscilar entre +1 y -1, siendo 0 la ausencia de

ejemplo 1: rxy= 0,97

Así, podemos señalar la intensidad de la correlación

La matriz Vaciado de Ítems (MVI) es una tabla de contingencia de doble entrada de

En la distribuciones marginales se incluyen el sumatorio tanto de los aciertos de los

Se realiza sobre tres parámetros:

Además, con el fin de determinar si la prueba mide un único constructo de referencia o

4.1. Parámetro de Dificultad

El parámetro de dificultad se centra en el análisis del nivel de respuesta a las preguntas

4.1.1. Índice de Dificultad