Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUCCIÓN
1.1. Evaluación
Nunnally y Bernstein (1995) indican que "la medición consiste en reglas para asignar
símbolos a objetos de manera que 1) representen numéricamente cantidades de atributos
(escala de medición) o 2) definan si los objetos caen en las mismas categorías o en
diferentes con respecto a un atributo determinado (clasificación)" (p.1)
Uno de los principales problemas con los que se encuentra la Medición Educativa es
que trabajamos con variables que no podemos cuantificar de la misma forma que en las
ciencias naturales y por tanto no tenemos los instrumentos necesarios para medir los
aspectos educativos.
Las escalas de medida nos van a permitir realizar un tipo determinado de operaciones
con los números. Stevens propone a partir de su definición clásica de asignar números a
objetos o acontecimientos de acuerdo con reglas, cuatro escalas nominal, ordinal, de
intervalo y de razón, que posteriormente aumenta a cinco con la escala de intervalo
logarítmico. Sus características son:
Escala Nominal.
Igualdad/Desigualdad
Escala Ordinal.
Este tipo de escala está destinada a ordenar a los sujetos/objetos de una distribución en
función de alguna característica. Cabe señalar que la distancia entre sus unidades no es
uniforme. De esta forma, podemos decir que A está por encima que B, pero no que sea
el doble o que sea la mitad uno que otro. Un ejemplo es el orden de llegada en una
carrera. Además del atributo de igualdad/desigualdad, en esta escala podemos añadir el
ordenamiento de sus componentes.
A____B___________C_______________________________D__E______
Orden
Escala de Intervalo.
En esta escala la distancia entre las unidades de medida sí es uniforme, de forma que
podemos decir que D es el doble que A, por ejemplo. Por ello, permite realizar
operaciones matemáticas, como suma, resta, multiplicación o división. El cero es
arbitrario, no indica la ausencia de atributo. Como ejemplo puede servir la escala de
tiempo que utilizamos: el cero es arbitrario, puesto en el nacimiento de Cristo, o la
escala para medir la temperatura en grados centígrados, en la que el cero es también
relativo.
_A____B____C____D
Escala de Razón.
Similar a la de intervalo, con la única diferencia que el cero en esta escala sí indica la
ausencia de atributo, es cero absoluto. Como ejemplo podemos señalar la altura en
centímetros, o el peso en gramos. En ambos casos 4 es doble que 2 (2+2=4), o 4 es la
mitad que 8, por ejemplo, debido a que la distancia entre sus unidades de medida es
uniforme.
Cero absoluto
Respuesta Breve
Asociación
Verdadero/Falso
Alternativas
Interpretativos
Desarrollo
El ítem de tipo respuesta breve (lagunas) puede ser completado con una palabra o varias
o utilizar números para la respuesta.
Ventajas e inconvenientes:
Ventajas
1. Facilidad de construcción y administración.
2. Reducción de la posibilidad de respuesta por conocimiento parcial.
3. Aportación de información diagnóstica.
Inconvenientes
1. Sólo se aplican a Cuestiones que pueden responderse mediante una
palabra o frase muy breve.
2. No se ajustan a medir situaciones que requieran síntesis e interpretación,
en los que sólo haya una respuesta correcta.
3. Orientan hacia un aprendizaje excesivamente memorístico,
empobreciendo los hábitos de estudio.
4. La puntuación no es tan rápida y precisa por la variedad de respuestas
aceptables.
2. Ítems de Asociación
País - Capital
España - París
Francia - Lisboa
Italia - Madrid
Ventajas e inconvenientes
Ventajas
1. Su forma compacta permite incluir más ítems en un examen.
2. Requieren poco tiempo de lectura.
3. Se ajustan a una corrección mecanizada y objetiva.
Inconvenientes
1. Si no se tiene cuidado en su preparación, las listas de asociación pueden
orientarse más a la memoria serial que a la asociación.
2. Es difícil encontrar cuestiones que permitan formular este tipo de ítems.
3. Ítems de Verdadero/Falso
Ventajas e inconvenientes
Ventajas
1. Son buenos para niños pequeños y personas con dificultades lectoras.
2. Su tiempo de lectura-respuesta es menor al de otros tipos de ítems, por lo
que pueden incluirse más por unidad de tiempo.
3. Se ajustan a una corrección mecanizada y objetiva.
4. Son muy flexibles, se pueden adaptar a la mayor parte de áreas de
contenido.
Inconvenientes
1. Las puntuaciones están muy influenciadas por la adivinación.
2. Son bastante susceptibles a la ambigüedad y mala interpretación, lo que
posiblemente incide negativamente en un menor nivel de fiabilidad.
3. Es fácil copiar en este tipo de ítems.
4. Tienden a ser menos discriminativos que los de elección múltiple. Son
susceptibles a la tendencia de respuesta por aquiescencia.
5. No deben ser utilizados en aquellas situaciones en las que la respuesta no
es totalmente verdadera o falsa.
6. Son susceptibles a la inclusión de determinantes específicos, para forzar
que la respuesta sea totalmente verdadera o falsa.
4. Ítems de alternativas
1. Desviación Típica
2. Varianza
3. Desviación Media
4. Cociente de Variación (*)
Ventajas e inconvenientes
Ventajas
o Se da un mayor muestreo de contenido por lo que, generalmente,
conducen a una mayor validez de contenido.
o La fiabilidad de las puntuaciones de los tests puede ser muy elevada con
un número suficiente de ítems de alta calidad.
o Se ajustan a una corrección mecanizada y objetiva.
o Se pueden obtener subpuntuaciones diagnósticas basadas en un análisis
de distractores.
o Teorías de los tests (TRI, generalizabilidad, clásica...) se acomodan
fácilmente a respuestas binarias.
o Están relativamente menos afectados por los conjuntos de respuesta que
otros tipos de ítems objetivos.
Inconvenientes
o Son relativamente difíciles de construir, en ocasiones resulta complicado
encontrar un número suficiente de alternativas.
o Hay tendencia a construir ítems de EM que demandan solamente
recuperar información de hechos concretos (aunque sucede menos que
con otros tipos de ítems objetivos).
o Entre los ítems objetivos, es el que más tiempo se tarda en responder,
especialmente cuando se piden discriminaciones precisas.
o Están sesgados a favor de sujetos:
o con habilidades para los tests objetivos y que asumen más riesgo en las
respuestas;
o más hábiles para detectar la ambigüedad.
o No se adaptan bien para medir la habilidad para organizar y presentar
ideas.
5. Ítems interpretativos
Los ítems interpretativos plantean una situación, un escrito, etc. y se pide al sujeto que
los interprete de acuerdo con unas consideraciones previamente establecidas. consisten
en formular un enunciado (tronco) y presentar unas alternativas de respuesta (más de
dos), de las cuales una o varias pueden ser verdaderas.
Rafael Alberti
Ventajas e inconvenientes
Ventajas
o El material introductorio hace posible medir la habilidad para interpretar
materiales escritos, diagramas, mapas, dibujos y otros medios de comu-
nicación que podemos encontrar en situaciones cotidianas.
o Permiten medir resultados más complejos de aprendizaje que con un ítem
objetivo simple.
o Dada su estructura más amplia, minimiza la influencia de información no
relevante sobre el comportamiento de objetivos de aprendizaje complejo.
o Las series de ítems objetivos fuerzan a utilizar sólo los procesos mentales
que requieren, lo que posibilita también medir aspectos separados de la
habilidad para resolver problemas y para utilizar procedimientos
objetivos de puntuación.
Inconvenientes
o Dificultad de construcción.
o Especialmente cuando el material introductorio es escrito, es fuerte el
requerimiento de habilidad lectora.
o Aunque es eficiente para medir aspectos específicos del proceso de
resolución de problemas, no puede medir la capacidad de resolución de
problemas global de sujeto.
o Está orientado a objetivos de aprendizaje a un nivel de reconocimiento.
6. Ítems de desarrollo o ensayo
En los ítems de desarrollo o de ensayo se plantea una pregunta y el sujeto debe contestar
con formato libre, pudiendo ser de respuesta breve o extensa.
Ventajas e inconvenientes
Ventajas
o Es relativamente fácil de preparar, sobre todo en términos comparativos
con otras opciones.
o Es la única forma de evaluar significativamente una habilidad para
componer una respuesta y presentarla de forma textual propia.
o Permite medir aprendizajes complejos que no pueden ser medidos con
otros procedimientos.
o Produce un “buen efecto” en el aprendizaje de los estudiantes. Los
estudiantes lo prefieren frente a otras opciones (p.e., elección múltiple).
o Posee validez ecológica, al enfrentar al sujeto con una situación más real
y compleja.
o En los niveles inferiores se puede utilizar para mejorar habilidades de
escritura.
Inconvenientes
o Su pobre o limitado muestreo de contenido, especialmente en las
cuestiones amplias.
o La baja fiabilidad en los sistemas de puntuación, especialmente si se
utilizan sistemas globales.
o La gran cantidad de tiempo requerido en la corrección.
2. PARAMETROS E INDICADORES
Parámetros
Son las grandes vías de acción, los ejes de referencia principal a partir de los que
analizamos el funcionamiento de los ítems
Dificultad
Discriminación
Validez
Indicadores
Son la forma de aplicar en la práctica las indicaciones de los parámetros. En cada uno
de los parámetros que vamos a estudiar se reseñarán los indicadores que se utilizan.
Nos indica la proporción de sujetos que han contestado correctamente a una prueba
determinada y por tanto señala el nivel de dificultad del ítem. Cuantos más sujetos
acierten el ítem, más se acercará a 1 y por tanto más fácil será. Por el contrario, cuanto
más difícil sea el ítem, menos sujetos lo acertarán y se acercará más a 0.
Valor Interpretación
1 Muy fácil. Lo aciertan todos los sujetos
0.75 - 1 Fácil.
0.25 - 0.74 Dificultad Media.
0.01 - 0.24 Difícil.
0 Muy difícil. No ha acertado ningún sujeto.
Criterios:
Es la asociación de medida entre los ítems y el test. Determina si el ítem está midiendo
en el mismo sentido que el test.
Indicadores:
Poder de discriminación: La varianza del ítem; al ser dicotómico, pi x qi
CH Coeficiente de Homogeneidad: Correlación ítem-test.
IH Indice de Homogeneidad. Descuenta el peso de la variabilidad del ítem en la
serie test, para evitar la autocorrelación. IH = CH si
Niveles: Se prefieren los ítems con una elevada relación con el test.
Criterios:
Debido a que la finalidad de un ítem es discriminar entre sujetos, eliminamos los ítems
con poder de discriminación nulo, dado que no discriminan entre sujetos.
2.3.1. Correlación
Positiva: Será positivo cuando a medida que aumentan los valores de una
variable aumentan también los de la otra (ejemplo 1).
Nula: Será nula =0, cuando no exista una relación clara entre las variables
(ejemplo 2).
Negativa Será negativo cuando a medida que aumentan los valores de una
variable disminuyen los de la otra (ejemplo 3).
Valor Intensidad
1 Perfecta
0,81-0,99 Alta
0,61-0,80 Medio-alta
0,41-0,60 Media
0,21-0,40 Medio-baja
0,01-0,20 Baja
0 Nula
3. MATRIZ VACIADO DE ÍTEMS
El análisis de ítems consiste en analizar cada uno de los reactivos de los que consta la
prueba por separado, para así poder seleccionar los que muestran un comportamiento
más ajustado al conjunto de la prueba.
1. Parámetro de Dificultad
2. Parámetro de Discriminación
3. Parámetro de Validez
Nos indica la proporción de sujetos que han contestado correctamente a una prueba
determinada y por tanto señala el nivel de dificultad del ítem. Cuantos más sujetos
acierten el ítem, más se acercará a 1 y por tanto más fácil será. Por el contrario, cuanto
más difícil sea el ítem, menos sujetos lo acertarán y se acercará más a 0.
Valor Interpretación
1 Muy fácil. Lo aciertan todos los sujetos
0.75 - 1 Fácil.
0.25 - 0.74 Dificultad Media.
0.01 - 0.24 Difícil.
0 Muy difícil. No ha acertado ningún sujeto.
Criterios:
Es la asociación de medida entre los ítems y el test. Determina si el ítem está midiendo
en el mismo sentido que el test.
Indicadores:
Poder de discriminación: La varianza del ítem; al ser dicotómico, pi x qi
CH Coeficiente de Homogeneidad: Correlación ítem-test (consultar atrás).
IH Indice de Homogeneidad. Descuenta el peso de la variabilidad del ítem en la
serie test, para evitar la autocorrelación. IH = CH si
Niveles: Se prefieren los ítems con una elevada relación con el test.
s2 Niveles
0.25 Ítem Modal. Máxima discriminación
0.21 - 0.24 Óptima
0.01 - 0.20 Crítica
0 Nula
Criterios:
Debido a que la finalidad de un ítem es discriminar entre sujetos, eliminamos los ítems
con poder de discriminación nulo, dado que no discriminan entre sujetos.
1. Fiabilidad Relativa
2. Fiabilidad Absoluta
Coeficiente de Fiabilidad
Criterios:
Valor Interpretación
1 Muy fiable
0.75 - 0.99 Fiable
0.25 - 0.74 Fiabilidad Media.
0.01 - 0.24 No fiable.
0 Nada fiable.
Dos aplicaciones
o Tests paralelos
o Tests tau-equivalentes
o Test/retest
Una aplicación
o Dos mitades
o Consistencia interna
Nos informa acerca de la cantidad de error que cometemos al medir. Hay dos tipos de
error:
Sistemáticos
Aleatorios
o Fuentes externas
o Fuentes internas
* Cuando una pregunta tiene más de una respuesta correcta. * Cuando ninguna
alternativa es correcta. * Pregunta que no está claramente formulada. * Poco tiempo
para responder al ítem. * En ítems ponderados, que el sistema de ponderación esté mal
calculado.
5.2.2. Errores aleatorios
Se producen por el azar o por cualquier otra circunstancia y no los podemos detectar ni
eliminar. Lo único que podemos hacer es especular acerca de la probabilidad de que se
den en un test. Hay dos fuentes generadoras de errores aleatorios:
Cuando pasamos una prueba, debemos tener en cuenta las reacciones de los sujetos que
la completan. Estas reacciones incluyen aspectos como:
Las variables de los sujetos que pueden influir en la ejecución de un test son:
o Cuánto ha dormido el sujeto la noche anterior
o Incomodidades físicas
o Ansiedad ante el test
o Situaciones/problemas emocionales
o Efectos de drogas que haya podido consumir
Errores debidos al observador:
o No ha explicado con claridad las instrucciones de aplicación
o No ha dejado un tiempo de ejecución suficiente, en tests de tiempo límite
o Interrumpe con frecuencia a los sujetos
Validez de Contenido
Validez de Criterio
Validez de Constructo
Las tres se pueden considerar como evidencias acerca del correcto funcionamiento de
un instrumento y de las interpretaciones de las puntuaciones que genera.
Estudios de validación
Hace referencia a si el test incluye una muestra representativa de los ítems que
componen el universo de medida. Si en nuestra muestra están presentes todas las
variables que pretendemos medir, tendrá Validez de Contenido.
http://www.uv.es/gonzalej/privado2/500tgtri.wiki
TEMA 3. ELS TEST COM ESCALES DE MESURAMENT.
1 Què es mesurar?
2 Mesurament al procés general d’investigació.
3 Mesurament, avaluació i diagnòstic.
4 Els test
– Concepte
– Tipus
– Construcció
Mesurar es « asignar numerals a objectes o fets d’acord amb unes regles o normes fijas
(Stevens, 1951)»:
Asignar numerals: asignar les propietats dels números (igualtat-desigualtat;
ordre; igualtat de diferèncias i igualtat de raó).
Al mesurar el que fem es asignar números a les característiques dels objectes o
de les persones.
Les normes per las que se asignen els números a les característiques dels objectes i/o
subjectes son:
Les escales:
• Nominal
• Ordinal
• Interval
• Raó
Decisions sobre
el diseny
Hipótesis Variables
Recollida de dades:
mesurament
Anàlisi de
dades
Tipus :
En funció de la natura del mesurament.
En funció de la característica a mesurar.
En funció del enfocament amb que es realitza l’avaluació.
En funció de la manera d’interpretar els resultats.
Segons altres criteris.
En funció de la natura del mesurament:
Test de realització/execució màxima: mesuren la
capacitat màxima que un subjecte pot demostrar en l’execució del test, els subjectes
tracten d’obtindre la puntuació màxima (test d’aptituds i rendiment).
Test de realització/ execució típica: mesuren la conducta
del subjecte en situacions típiques o quotidianes (test de personalitat, interessos i
aptituds)