08 Procedimientosbasicos

Procedimientos bsicos para el anlisis de reactivos Cuaderno tcnico 8
Procedimientos bsicos para el anlisis de reactivos Cuaderno tcnico 8 Csar Chvez lvarez Antonio Saade Hazin Revisin tcnica: Rafael S. Vidal Uribe Luca Monroy Cazorla
Procedimientos bsicos para el anlisis de reactivos Cuaderno tcnico 8 D.R. 2009, Centro Nacional de Evaluacin para la Educacin Superior, A.C. (Ceneval) Av. Camino al Desierto de los Leones 19, Col. San ngel, Deleg. lvaro Obregn, C.P. 01000, Mxico, D.F. www.ceneval.edu.mx Diseo y formacin: Mnica Corts Genis Abril de 2009 Impreso en Mxico Printed in Mxico
Directorio
Direccin General Rafael Vidal Uribe Direccin General Adjunta de los EGEL Jorge Hernndez Uralde Direccin General Adjunta de los EXANI Jos O. Medel Bello Direccin General Adjunta de Programas Especiales Roco Llarena de Thierry Direccin General Adjunta Tcnica y de Investigacin Luca Monroy Cazorla Direccin General Adjunta de Difusin Javier Daz de la Serna Braojos Direccin General Adjunta de Operacin Francisco Javier Apreza Garca Mndez Direccin General Adjunta de Administracin Francisco Javier Anaya Torres Direccin de Procesos pticos y Calificacin Ma. del Socorro Martnez de Luna Direccin de Tecnologas de la Informacin y las Comunicaciones Francisco Manuel Otero Flores
ndice
Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11
Presentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13 Captulo 1. Qu es el anlisis de reactivos? . . . . . . . . . . . . . . . . . . . .15 Anlisis de reactivos en la construccin de una prueba . . . . . . . . . . . . .15 Qu se analiza y qu se obtiene? . . . . . . . . . . . . . . . . . . . . . . . . . . .18 Cundo se hace el anlisis estadstico de los reactivos? . . . . . . . . . . . .19 Principales metodologas de anlisis . . . . . . . . . . . . . . . . . . . . . . . . . .20
Captulo 2. Pasos para el anlisis de reactivos . . . . . . . . . . . . . . . . . . .23 Paso 1. Preparativos para el anlisis . . . . . . . . . . . . . . . . . . . . . . . . . .23 Paso 2. Recoleccin de informacin . . . . . . . . . . . . . . . . . . . . . . . . . .24 Paso 3. Seleccin del modelo de anlisis . . . . . . . . . . . . . . . . . . . . . . .29 Paso 4. Validacin de los insumos para el anlisis . . . . . . . . . . . . . . . . .35 Paso 5. Anlisis de distractores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .36 Paso 6. Anlisis de funcionamiento diferencial de los reactivos . . . . . . . .37 Paso 7. Seleccin de reactivos y conformacin de la prueba . . . . . . . . . .38 Limitaciones del anlisis de reactivos . . . . . . . . . . . . . . . . . . . . . . . . . .45 Captulo 3. Fundamentos tcnicos del anlisis de reactivos . . . . . . . . .49 Teora clsica de los test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49 Teora de la respuesta al tem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60 Anlisis de distractores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .88 Anlisis de funcionamiento diferencial . . . . . . . . . . . . . . . . . . . . . . . . .94
Captulo 4. Prctica de calibracin y anlisis de reactivos . . . . . . . . . .99 Ejercicio de calibracin 1: Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .99 Ejercicio de calibracin 2: BILOG-MG . . . . . . . . . . . . . . . . . . . . . . . . .109 Ejercicio de calibracin 3: calibracin concurrente de versiones diferentes . . . . . . . . . . . . . . . . . .134 Anlisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .151 Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .155
ndice de tablas
Tabla 1. Tamaos de muestra mnimos propuestos para distintos modelos de anlisis de reactivos . . . . . . . . . . . . . . . . . . . . .27
Tabla 2. Criterios para la seleccin de reactivos por el ndice de discriminacin . . . . . . . . . . . . . . . . . . . . . . .41
Tabla 3. Criterios para la seleccin de reactivos de acuerdo con el ajuste del modelo de la TRI a los datos . . . . . . . . . . . . . .43
Tabla 4. Criterios para la seleccin de reactivos de acuerdo con el valor estimado de sus parmetros en la TRI . . . . . . . . . . .44
Tabla 5. Estadsticos de fiabilidad para una prueba de 11 reactivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .57 Tabla 6. Resultados de SPSS para el clculo de alfa . . . . . . . . . . . . . . . . . .58 Tabla 7. Parmetro de dificultad de 10 reactivos de una prueba . . . . . . . . .75 Tabla 8. Probabilidad de respuesta correcta de 10 reactivos de una prueba, suponiendo un nivel de habilidad de 1 . . . . . . . . . . . . . . .75
Tabla 9. Porcentaje de sustentantes que eligi cada opcin de respuesta (por grupos de habilidad definidos por quintiles) . . . . . . . . . . .89
Tabla 10. Anlisis de distractores en Winsteps . . . . . . . . . . . . . . . . . . . . .93 Tabla 11. Tabla de contingencia para el intervalo i . . . . . . . . . . . . . . . . . .95 Tabla 12. Interpretacin del estadstico delta de Mantel-Haenszel para funcionamiento diferencial . . . . . . . . . . . . .97
ndice de figuras
Figura 1. La dificultad del reactivo depende de la distribucin de habilidad de los sustentantes con los que se calcule . . . . . . . . . . . . . . . . . . . . . . . . .31
Figura 2. Los puntajes observados de los sustentantes dependen de la distribucin de dificultad de los reactivos de la prueba . . . . . . . . . . . . . . . . . . . . . . . .31 Figura 3. Funcin de probabilidad normal estndar . . . . . . . . . . . . . . . . .55 Figura 4. Curva caracterstica del tem (CCI) . . . . . . . . . . . . . . . . . . . . . . .61
Figura 5. Proporcin de respuestas correctas para cinco grupos de habilidad . . . . . . . . . . . . . . . . . . . . . . . . .62 Figura 6. Ajuste de una CCI a la proporcin de respuestas correctas . . . . . . . . . . . . . . . . . . . . . . . . . .62 Figura 7. Reactivos con diferente parmetro de dificultad b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .64 Figura 8. El parmetro de dificultad b define un umbral para la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . .65
Figura 9. En el modelo de Rasch no hay cruzamiento de la CCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .66
Figura 10. Reactivos con diferente parmetro de discriminacin a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .67 Figura 11. Interpretacin de la discriminacin . . . . . . . . . . . . . . . . . . . . .68 Figura 12. Reactivos con discriminacin extrema . . . . . . . . . . . . . . . . . . .69
Figura 13. Reactivo con discriminacin negativa . . . . . . . . . . . . . . . . . . .69
Figura 14. Cruce de CCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .70 Figura 15. Parmetro de pseudo-adivinacin . . . . . . . . . . . . . . . . . . . . . .71 Figura 16. Probabilidad asociada a b en el modelo de tres parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .72 Figura 17. Parmetros de los modelos de la TRI . . . . . . . . . . . . . . . . . . . .73 Figura 18. Curva caracterstica de la prueba (puntaje verdadero) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .76
Figura 19. Informacin del reactivo (b=0) . . . . . . . . . . . . . . . . . . . . . . . .77
Figura 20. CCI y Funcin de informacin del tem, efecto del parmetro de dificultad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78 Figura 21. CCI y Funcin de informacin del tem, efecto del parmetro de discriminacin . . . . . . . . . . . . . . . . . . . . . . . . . .79
Figura 22. CCI y Funcin de informacin del tem, efecto del parmetro de pseudo-adivinacin . . . . . . . . . . . . . . . . . . . . . . .79
Figura 23. Funcin de informacin de la prueba (ejemplo 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .80
Figura 24. Funcin de informacin de la prueba (ejemplo 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81
Figura 25. Funcin de informacin y error estndar de estimacin de la prueba (ejemplo 1) . . . . . . . . . . . . . . . . . . . .82
Figura 26. Funcin de informacin y error estndar de estimacin de la prueba (ejemplo 2) . . . . . . . . . . . . . . . . . . . .83
Figura 27. Propiedad de invarianza de grupo ejemplificada por el modelo de regresin lineal . . . . . . . . . . . . . . . . . . . . .84
Figura 28. Propiedad de invarianza de grupo de la TRI . . . . . . . . . . . . . . .85
Figura 29. Frecuencia relativa de las opciones de respuesta por grupo de habilidad. Funcionamiento esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .89 Figura 30. Frecuencia relativa de las opciones de respuesta por grupo de habilidad. Funcionamiento no esperado 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .90 Figura 31. Frecuencia relativa de las opciones de respuesta por grupo de habilidad. Funcionamiento no esperado 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91 Figura 32. Frecuencia relativa de las opciones de respuesta por grupo de habilidad. Funcionamiento no esperado 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91
Prefacio
l Centro Nacional de Evaluacin para la Educacin Superior (Ceneval) es una institucin de carcter eminentemente tcnico. A lo largo de tres lustros su actividad esencial ha sido promover la calidad de la educacin mediante evaluaciones vlidas, confiables y pertinentes de los aprendizajes. Primordialmente, evala los conocimientos y habilidades adquiridos por los individuos en los procesos de enseanza-aprendizaje, formales o no formales, de los sistemas educativos. As contribuye a la toma de decisiones fundamentadas. De hecho, con sus servicios de evaluacin atiende instituciones de educacin media superior y superior, autoridades educativas, organizaciones profesionales y otras instancias pblicas y privadas y, desde luego, al destinatario final y el ms importante de sus pruebas: el propio sustentante. Con la serie Cuadernos tcnicos el Centro promueve tambin el uso de herramientas de anlisis en crculos cada vez ms amplios. El propsito de estos ttulos es contribuir a elevar la calidad de la educacin mexicana y fomentar una autntica cultura de la evaluacin. Este cuaderno presenta las tcnicas de anlisis de reactivos que se usan en el desarrollo y en la aplicacin de pruebas. Se trata de herramientas ms o menos comunes en las instituciones que hacen evaluacin. Algunas de ellas no son tcnicas complejas y el lector interesado podr aplicarlas con relativa facilidad en muchas situaciones prcticas. En particular, las tcnicas bsicas que forman parte de la llamada teora clsica de los test (TCT) se aplican en pruebas de bajo impacto y muy pequea escala, acotada incluso a un saln de clase. Procedimientos bsicos para el anlisis de reactivos describe, primero, los principales usos y herramientas del anlisis de reactivos, haciendo hincapi en las necesidades prcticas del procedimiento; se hace una exposicin formal de las tcnicas y se presenta un manual con algunas de las tcnicas mostradas; paso por paso, se
Procedimientos bsicos para el anlisis de reactivos
11
analizan los reactivos de una prueba con el auxilio de algunos programas de uso comn para algunos indicadores de la teora clsica de los test. Si el lector quiere involucrarse en las tcnicas de la teora de la respuesta al tem (TRI), al final del documento se incorporan ejemplos con el programa BILOG-MG, de uso corriente en el mbito de la evaluacin.
12
Cuaderno tcnico
Presentacin
ste cuaderno presenta las tcnicas de anlisis de reactivos que se usan en el desarrollo y en la aplicacin de pruebas. Se trata de herramientas ms o menos comunes en las instituciones que hacen evaluacin. Algunas de ellas no son tcnicas complejas y el lector interesado podr aplicarlas con relativa facilidad en muchas situaciones prcticas. En particular, las tcnicas bsicas que forman parte de la llamada teora clsica de los test (TCT) se aplican en pruebas de bajo impacto y muy pequea escala, acotada incluso a un saln de clase. El documento se divide en cuatro partes. La primera describe (sin ser una exposicin tcnica) los principales usos y herramientas del anlisis de reactivos. La segunda recorre el proceso de anlisis con sus pasos ms importantes, haciendo hincapi en las necesidades prcticas del procedimiento. La exposicin formal de las tcnicas es la materia de la tercera parte, donde se presentan las frmulas matemticas que no deberan obviarse. En la cuarta se ofrece un manual, una suerte de visita guiada por algunas de las tcnicas mostradas. Esta ltima seccin permite seguir, paso por paso, el anlisis de los reactivos de una prueba con el auxilio de algunos programas de uso comn (en particular de la hoja de clculo) para algunos indicadores de la teora clsica de los test. Si el lector quiere involucrarse en las tcnicas de la teora de la respuesta al tem (TRI), al final del documento se incorporan ejemplos con el programa BILOG-MG (Zimowski et al., 2003). Se trata de un programa comercial, pero de uso corriente en el mbito de la evaluacin. La exposicin y los ejemplos se centran en reactivos de opcin mltiple con una respuesta correcta. Este tipo de preguntas, por su versatilidad y por sus ventajas operativas, son de lo ms comn en los exmenes objetivos y en la evaluacin educativa, al grado que se han convertido en la columna vertebral de la mayor parte de las pruebas que se elaboran en el Ceneval. Sin ms prembulo, comencemos.
13
14
Cuaderno tcnico
Captulo 1 Qu es el anlisis de reactivos?
or anlisis de reactivos se entienden varias tcnicas y procedimientos matemticos encaminados a verificar la calidad y pertinencia de los reactivos o preguntas de una prueba. El anlisis permite inferir las caractersticas tcnicas de una pregunta, determinar si cumple con los requerimientos que se esperan de ella y, finalmente, decidir si puede ser seleccionada para ser incluida en una prueba. Tambin ayuda a elegir los mejores reactivos para una prueba determinada. En la prctica, la construccin de una prueba requiere de la elaboracin de un grupo numeroso de reactivos (tems), por lo general mucho mayor que los necesarios para la construccin de las versiones previstas por el proyecto de evaluacin. Este conjunto de reactivos nuevos se aplica a una muestra de sujetos de la poblacin objetivo (estudio piloto), a fin de analizarlos para obtener ndices de su calidad, y poder as producir una prueba definitiva que sea fiable y vlida. Para establecer una relacin entre las observaciones obtenidas por medio de la aplicacin de una prueba y el constructo o rasgo que se pretende medir, es necesario un modelo de medicin. Conocer y estudiar las caractersticas individuales de un reactivo es importante si se quiere mejorar una prueba, regularizar su calidad y estandarizarla. Los reactivos son en ltima instancia los ladrillos con que se construye una prueba. De su calidad depende en buena medida que tengamos o no una buena prueba. El anlisis estadstico de los reactivos es una herramienta til pues ayuda a corroborar que en la prctica estos ladrillos se comporten como se espera de ellos.
Anlisis de reactivos en la construccin de una prueba Una prueba sirve para recopilar informacin sobre el objetivo que se va a evaluar, de ah que los reactivos se deben disear a partir de una base terica y metodolgica que garantice que la informacin obtenida a partir de ellos sea til para la toma de decisiones.
15
La metodologa Ceneval para la elaboracin de pruebas estandarizadas, objetivas y con reactivos de opcin mltiple se basa en un modelo secuencial en el que los productos de una fase se convierten en insumos de la siguiente. Las pruebas son objetivas cuando su calificacin no depende del evaluador, toda vez que sin excepcin hay una nica respuesta correcta. Son estandarizadas porque se aplican y se califican manteniendo las mismas condiciones para todos los sustentantes evaluados. Estn conformadas con reactivos de opcin mltiple cuando incluyen preguntas o problemas que tienen una respuesta correcta y varios distractores, generalmente entre dos y cuatro. Procesos de una estrategia de evaluacin En el Centro se utilizan ocho fases para el desarrollo de las pruebas: diseo, construccin, verificacin, ensamble, aplicacin, calificacin, reportes y mantenimiento. Durante el diseo de un instrumento de evaluacin se definen los elementos con que se construye el marco de referencia en que se fundamentar todo el proceso, como el perfil referencial y la estructura de la prueba. En la fase de construccin se lleva a cabo la materializacin del objeto de medicin en los reactivos que conformarn el instrumento de evaluacin. Una medida de control en esta fase es que los reactivos elaborados cumplan con estndares de forma y contenido. El objetivo de la fase de verificacin o validacin es comprobar la buena calidad de los reactivos que se elaboran para los exmenes. Todos los reactivos de los bancos de exmenes pasan por una revisin cualitativa (una revisin tcnicopedaggica y una validacin de los reactivos por expertos externos) y una cuantitativa. Aqu se ubica el piloteo y el anlisis de los reactivos que compondrn la prueba. Esto no quiere decir que el anlisis de reactivos que aqu se describe pueda aplicarse solamente a evaluaciones educativas y con reactivos de opcin mltiple. Exmenes con otros objetivos y caractersticas son analizados rutinariamente con esta metodologa.
16
Cuaderno tcnico
En la fase denominada ensamble se integra el examen incorporando las preguntas que formarn parte del instrumento, y la calidad de los cuadernillos es supervisada. En la fase de aplicacin se trata de contar con los procedimientos adecuados para que los sustentantes respondan el instrumento de evaluacin en condiciones controladas, estandarizadas, ptimas y equitativas. En la fase de calificacin se procesa la informacin recolectada durante la fase de aplicacin. Sus etapas son la lectura y correccin de las hojas de respuesta, la calificacin de los sustentantes y la definicin de niveles de desempeo y puntos de corte. En la fase denominada reportes se comunican los resultados de la evaluacin. Por ltimo, el objetivo de la fase de mantenimiento es actualizar el contenido del instrumento y de todos los insumos relacionados. Como puede verse, el proceso de construccin de pruebas consta de varias fases, las cuales deben estar bien alineadas entre s para obtener buenos resultados. No hay una fase ms importante que la otra. Cada una interacta con las dems y las complementa. Todo el proceso de construccin se afana por ser transparente y se sustenta en la idea de que se requieren verificaciones continuas a lo largo del proceso. Una y otra vez se corrobora que el paso anterior se haya llevado a cabo correctamente. Y una nueva opinin o una forma de anlisis adicional son bienvenidas siempre. En este sentido, es importante mencionar que la estructura y el contenido de los exmenes son determinados con el apoyo de cuerpos colegiados externos. Cada prueba cuenta con un consejo tcnico y con comits acadmicos que proporcionan validez y legitimidad a las pruebas. Hay comits para el diseo de la prueba, otros para la elaboracin y la validacin de reactivos. Tambin hay comits para el establecimiento de los niveles de desempeo. El anlisis de los reactivos es una manera ms de comprobar que el trabajo que se ha invertido en la prueba va por buen camino, y otras maneras cobran ese mismo sentido a lo largo del proceso.
17
La importancia del anlisis estadstico de los reactivos radica en que abre una especie de dilogo entre quienes disean la prueba y elaboran los reactivos y quienes estudian la evidencia emprica que resulta de aplicar las pruebas en situaciones reales. Llevar a cabo adecuadamente esta forma de anlisis aporta informacin para poder confirmar en la prctica que el comportamiento terico de las preguntas (aplicadas a un grupo de sustentantes) y del examen en general es el que se espera, y asimismo para identificar problemas potenciales. En este sentido, el anlisis de reactivos establece un vnculo entre la teora y la prctica. Qu se analiza y qu se obtiene? El insumo para el anlisis de reactivos es precisamente el conjunto de las respuestas de cada uno de los sustentantes a las preguntas de una prueba. Los resultados son indicadores de las caractersticas psicomtricas de cada uno de los reactivos. A manera de simplificacin, lo ms comn es que se obtengan al menos dos indicadores bsicos de las caractersticas del reactivo: La dificultad, es decir, qu tan fcil o difcil resulta el reactivo para la poblacin que tomar el examen. Tradicionalmente, esto se puede medir considerando la proporcin de los sustentantes que aciertan en la respuesta. La discriminacin, o qu tan eficiente es el reactivo para ayudar a diferenciar entre quienes saben y no. En algunos casos tambin se busca informacin sobre el comportamiento del reactivo con respecto a una poblacin especfica (funcionamiento diferencial del tem o DIF, por sus siglas en ingls). En algunos pases, como en Estados Unidos, en donde tienen importancia las preocupaciones sociales y legales sobre la igualdad social, en particular las que conciernen a cuestiones tnicas, este tipo de anlisis se hace rutinariamente para identificar comportamientos diferenciados en el funcionamiento de los reactivos, no solamente entre hombres y mujeres sino tambin entre distintos grupos tnicos.
18
Cuaderno tcnico
Cundo se hace el anlisis estadstico de los reactivos? El anlisis estadstico de los reactivos de una prueba es un control de su calidad. Una vez que se conoce bien lo que se va a medir, el siguiente paso es identificar las preguntas que se comportan conforme a ese objetivo y las que podran mostrar comportamientos no esperados, sea por deficiencias en la elaboracin del propio reactivo o porque simplemente lo que se pregunta es otra cosa. Las tcnicas estadsticas del anlisis aportan informacin til para este efecto y por eso son de uso rutinario en todos los programas de evaluacin educativa en el mundo. Aun cuando en este documento se hace nfasis en el anlisis estadstico de los reactivos, a partir del cual se toman decisiones para incluir o no un reactivo determinado en una prueba, en la prctica el anlisis puede hacerse en tres contextos distintos, antes y despus de una aplicacin: Anlisis en un piloteo o prueba de campo previo a la aplicacin Una prctica comn de las agencias de evaluacin es probar los reactivos antes de usarlos en las pruebas, procurando hacerlo en grupos de sustentantes que sean lo ms parecido que se pueda a aquellos que usarn la prueba real. En la prctica, tener acceso a un grupo de sustentantes potenciales que quieran participar en nmero suficiente y con la misma motivacin con la que contestaran la prueba real no es siempre fcil. Por ello, se ofrecen todo tipo de beneficios como puntos extra en algunas asignaturas escolares. En programas que se aplican constantemente, como los EXANI o los EGEL que desarrolla el Ceneval, la forma ms sencilla de obtener condiciones reales para el anlisis de los reactivos es generalmente la de incluir algunos reactivos extra en cada cuadernillo para ser piloteados. As, los sustentantes que enfrenten esos reactivos especiales los contestarn exactamente igual que lo hacen con el resto del examen, sin que ello afecte sus calificaciones. Lo importante en cualquier caso es obtener informacin relevante sobre la calidad del reactivo y tenerla en el mejor momento para decidir, antes de que el reactivo se aplique y tenga un impacto en la calificacin de los sustentantes.
19
Anlisis despus de la aplicacin, pero antes de que se entreguen calificaciones Los errores suceden en la realidad. Los reactivos pueden haber sido verificados por expertos o en piloteos previos, y aun as presentar comportamientos inesperados. Por ejemplo, puede ser que en el camino alguien se haya equivocado al asignar la respuesta correcta y haya escrito una A en donde debi de haber puesto una B. Como quiera que sea, al momento de calificar, una sola de estas razones puede significar que un sustentante pierda puntos por una respuesta que debera ser contada como acierto y fue calificada como error o viceversa. El anlisis de reactivos en esta fase se convierte en un valioso auxiliar para detectar problemas y corregirlos antes de que las calificaciones se den a conocer. Despus de hacer el estudio, tal vez bastar cambiar una A por una B. Si el problema es ms grave, podra ser necesario eliminar ese reactivo de la versin. De cualquier manera, el anlisis de reactivos ofrece una oportunidad ms de verificar y detectar errores que as pueden ser corregidos a tiempo. Anlisis despus de dar las calificaciones Elaborar un examen no es siempre un acto de una sola vez, que tras armar el cuadernillo se olvida. Con la prctica y el ensayo continuos, las pruebas se van mejorando, dejando lo que ha funcionado bien y eliminando lo que no funciona. Los bancos de reactivos maduran y se fortalecen; los exmenes se perfeccionan. Revisar los reactivos despus de que se aplic una prueba y se dieron las calificaciones sirve para elegir los mejores reactivos que pasarn a formar parte de nuevas versiones. Principales metodologas de anlisis Son diversas las metodologas para hacer el anlisis de los reactivos, segn las necesidades de la evaluacin, las caractersticas del estudio y las capacidades del anlisis. Las dos corrientes principales en el anlisis de reactivos son la teora clsica de los test, de amplia tradicin, y la ms moderna: la teora de la respuesta al tem.
20
Cuaderno tcnico
En la teora clsica de los test (TCT) se conjuntan varias tcnicas de lo que es probablemente el modelo de anlisis ms conocido en la psicometra. Aunque sus antecedentes se remontan seguramente ms atrs, se reconoce que el modelo clsico fue introducido por el psiclogo britnico Charles Spearman, quien a principios del siglo XX public una serie de argumentos matemticos en los que expuso que los puntajes de una prueba son medidas inexactas de los rasgos humanos. Cien aos despus, la TCT ha avanzado y se ha adaptado a las necesidades actuales. Sin embargo, sus principios bsicos siguen mantenindose como la forma de anlisis ms popular de la evaluacin educativa moderna. La teora de la respuesta al tem (TRI) es en realidad un conjunto de modelos matemticos que buscan describir el comportamiento de los reactivos. A diferencia de la TCT, el eje sobre el que gira la teora no es la prueba sino el reactivo propiamente dicho. Los modelos de la TRI tratan de descubrir qu relacin existe entre la habilidad del sustentante y el reactivo que enfrenta, y de describirla a partir de un modelo matemtico. Los modelos bsicos de la TRI se desarrollan a partir de cuestionarios con preguntas de respuestas dicotmicas (acierto/error, verdadero/falso, correcto/incorrecto). Hay extensiones de la TRI para otros tipos de variables, ordinales o politmicas, que son utilizadas rutinariamente en los casos en que se utilizan reactivos con respuestas graduadas. Van der Linden y Hambleton (1997) realizan una exposicin detallada de varios de estos modelos. Los antecedentes del modelo bsico pueden trazarse al menos hasta 1927 con el trabajo de Thurstone sobre percepcin del estmulo. En las dcadas siguientes, y despus de otros posibles candidatos para la distincin de haber sido los primeros en penetrar las bases del modelo, parece haber consenso en que los progresos ms importantes en trminos tericos y prcticos fueron los de George Rasch, Frederick Lord y Allan Birnbaum, desarrollados entre las dcadas de los cincuenta y los sesenta (Van der Linden y Hambleton, 1997). El llamado modelo de Rasch fue desarrollado por el dans Georg Rasch durante los aos cincuenta. Si bien para algunos es un modelo ms de los que conforman la TRI, sus adherentes consideran que sus caractersticas tcnicas y
21
desarrollo histrico lo convierten en un modelo original y que requiere tratamiento por separado. Ciertamente el modelo y la metodologa que lo acompaa efectivamente tienen una tradicin propia, aunque en trminos prcticos comparte muchas de sus caractersticas con los otros modelos de la TRI, por lo que ser tratado aqu de manera indiferenciada.
22
Cuaderno tcnico
Captulo 2 Pasos para el anlisis de reactivos
Los pasos para el anlisis cuantitativo de una prueba nueva son:

1. 2. 3. 4. 5. 6. 7. Preparativos Recoleccin de informacin Seleccin del modelo de anlisis Validacin de los insumos para el anlisis Anlisis de distractores Anlisis de sesgo Seleccin de reactivos y conformacin de la prueba
Antes haremos hincapi en que las mejores prcticas sobre la materia insisten en la necesidad de documentar adecuadamente los procesos. Los estndares de la APA, AERA y NCME tal vez los ms conocidos en el rea plantean el asunto directamente y con claridad: 3.7 Se deben documentar los procedimientos utilizados para desarrollar, revisar y probar los tems y para seleccionar tems del banco de reactivos. Si los tems fueron clasificados en diferentes categoras o subconjuntos de acuerdo con las especificaciones de la prueba, los procedimientos utilizados para la clasificacin y la pertinencia y precisin de la clasificacin tambin deben ser documentados. (American Educational Research Association, American Psychological Association & National Council on Measurement in Education, 1999). Paso 1. Preparativos previos para el anlisis Ciertos pasos previos al anlisis de reactivos se deben cumplir antes de iniciar siquiera. Esto incluye el diseo mismo de la prueba, la definicin de su estructura y, no menos importante, la elaboracin de los reactivos y su revisin. De cada una de las etapas deben existir elementos que tienen que verificarse antes de proceder al anlisis.
23
Objetivo de la prueba y principales definiciones Nunca se destacar lo suficiente el trabajo que se realiza en la fase de diseo de la prueba. Aqu se hace la definicin de lo que se quiere evaluar y la manera en que se quiere hacer; aqu se determina a quines se evaluar y se establece el alcance y las consecuencias de los resultados que se obtienen. Todos estos elementos deben quedar claramente resueltos y consignados por escrito antes de proseguir con el proceso. Estructura de la prueba De la etapa de diseo surge tambin la estructura de la prueba, que abarca los elementos bsicos de la prueba (temas, contenidos, niveles taxonmicos, nmero de reactivos, tipo de reactivos, etctera). Contar con una buena definicin de la prueba y tener claras sus caractersticas es un requerimiento esencial, ya que de ello depende el resto del trabajo. Elaboracin y revisin de reactivos Los reactivos son la materia prima del anlisis, as que debe contarse con reactivos suficientes, en nmero y calidad. Y no basta hacerlos; adems, debe procurarse la opinin experta que pueda determinar si los reactivos propuestos son apropiados, representativos de lo que se quiere medir y que cubran el conjunto de elementos que componen al constructo. Tambin es recomendable la opinin sobre otros elementos del reactivo: es claro?, no es excesivamente complejo?, no ofrece pistas para ser resuelto?, tiene una sola respuesta correcta?, no tiene sesgos culturales, religiosos o de gnero?, tiene faltas de ortografa o mala redaccin? Paso 2. Recoleccin de informacin El siguiente paso para el anlisis cuantitativo de los reactivos consiste en recabar la informacin necesaria (bsicamente de las respuestas de los sustentantes). En los exmenes del Ceneval generalmente hay un archivo en formato de texto
24
Cuaderno tcnico
(*.TXT) que contiene estos datos. En cada rengln aparecen el folio del sustentante, la versin del examen que respondi y las respuestas que eligi cuando se trata de exmenes con reactivos de opcin mltiple. Para recabar este tipo de informacin se deben tomar en cuenta los siguientes elementos: a) Definicin del objetivo y alcances Se reconocen varios tipos de ejercicios que varan en tamao y alcance. En ocasiones, la verificacin estadstica del comportamiento de los reactivos se ve precedida de uno o ms ejercicios de menores dimensiones que permiten ir depurando el conjunto de reactivos a partir de criterios cualitativos, para luego avanzar hacia estudios de un marcado carcter estadstico. En muchos casos, estos ejercicios se repiten durante la vida del reactivo, ya que se hacen frecuentes comprobaciones de sus caractersticas psicomtricas. En las etapas iniciales de la comprobacin de las cualidades de los reactivos es comn que se sometan a ejercicios de dimensiones reducidas, quiz entre 10 y 30 personas, con los que se busca hacer un diagnstico general, suficiente para detectar los errores ms evidentes, como pueden ser la falta de respuesta correcta, problemas en la redaccin de la pregunta o valores extremos en los estadsticos del reactivo. Aunque el enfoque del ejercicio puede variar, casi desde un anlisis de tipo grupo de enfoque, con esta informacin se pueden identificar los reactivos notoriamente inadecuados y corregir las faltas evidentes. En realidad, cuando el impacto del examen se estima bajo como en el caso del diagnstico que hace el profesor a sus alumnos en la clase, un estudio de tan baja escala puede ser suficiente al menos para darse una idea de cmo estn los alumnos. Sin embargo, el piloteo propiamente dicho es un ejercicio ms exigente en trminos del tamao y representatividad de las muestras: a partir de l se determinan las caractersticas mtricas definitivas con las que los reactivos ingresarn al banco operativo. Esto es especialmente cierto en instituciones como el Ceneval, donde los exmenes pueden tener un alto impacto y se espera que las diferentes versiones se comporten con estabilidad.
25
b) Diseo de la muestra Debido a que el principal objetivo del estudio piloto es identificar las caractersticas psicomtricas de los reactivos que pueden servir para nutrir las pruebas, resulta indispensable asegurar que la muestra elegida de sustentantes sea representativa de la poblacin objetivo, es decir, de la poblacin para la que se dirige el examen o la que normalmente lo contesta. La representatividad de la muestra est determinada por ciertas caractersticas que identifican a esos sustentantes como parte de la poblacin objetivo, aunque otros factores tambin intervienen; por ejemplo, el nmero de sustentantes que participan en un estudio piloto y su motivacin para resolver los reactivos que se les presenten. La representatividad de la muestra es an ms importante que su tamao. Siempre debe procurarse que las pruebas piloto y los anlisis se realicen en ejercicios bien controlados, que respeten las condiciones normales de aplicacin y que se hagan con sujetos que representen lo ms fielmente posible a la poblacin objetivo. Es importante que se distingan las aplicaciones de alto impacto para la institucin y el sustentante de aquellas con otros fines. Lo mismo deben evitarse las aplicaciones que en ocasiones se hacen, por ejemplo, a los maestros de quienes sern sustentantes y a todo tipo de poblaciones que pudieran ser distintas a aquellas a las que se dirige el examen. El mejor escenario para el estudio piloto consiste en incluir los reactivos que se quieren probar en versiones finales aplicables en condiciones normales de operacin. De esta forma se garantiza en buena medida que se trata de la misma poblacin que utiliza el examen y que los individuos estn bien motivados para contestarlo. c) Determinacin del tamao de la muestra El nmero mnimo de sustentantes en una muestra es difcil de determinar para todos los casos, ya que depende de varios factores, entre los que destacan las caractersticas de la poblacin involucrada, la homogeneidad del constructo que se mide, el nmero de reactivos incluidos en el estudio y su calidad. El objetivo que se busca con el anlisis tambin es un factor importante.
26
Cuaderno tcnico
En el Ceneval, por ejemplo, se desarrollan exmenes que son aplicados a miles de sustentantes a lo largo del ao y que, por lo tanto, proporcionan informacin suficiente para la aplicacin de cualquiera de los modelos. En la siguiente tabla aparecen los tamaos de muestra mnimos sugeridos para el clculo de estadsticos estables de la TCT y de los parmetros de los reactivos en los tres modelos de la TRI descritos en este cuadernillo (Downing y Haladyna, 2006).
Tabla 1. Tamaos de muestra mnimos propuestos para distintos modelos de anlisis de reactivos
Modelo Teora clsica de los test Nmero de sustentantes requerido Rasch 2 parmetros 3 parmetros Alrededor de 100 100 250-500 Ms de 1000
Teora de la respuesta al tem:
Siempre ser deseable contar con el mayor nmero de sustentantes posible, invariablemente por arriba de los valores indicados en la tabla anterior. d) Diseo de las versiones para piloteo En programas que se aplican constantemente, como los EXANI o los EGEL del Ceneval, la forma ms sencilla de obtener condiciones reales para el anlisis de los reactivos es generalmente la de incluir algunos reactivos extra en cada cuadernillo para ser piloteados. As, los sustentantes que enfrenten esos reactivos especiales los contestarn exactamente igual que lo hacen con el resto del examen, sin que ello afecte sus calificaciones. De este modo, el sustentante los resolver sin que pueda diferenciarlos de los que s se calificarn y los resolver con toda honestidad, como hara con los otros. En ocasiones sucede que los reactivos que van a ser probados se entregan al sustentante en un cuadernillo por separado. Esto que muchas veces se justifica
27
por restricciones operativas tiene la desventaja de que podra llegar a cambiar la actitud del sustentante al enfrentarse a un cuadernillo diferente, separado de la prueba principal, sobre todo si por alguna razn puede sospechar que esas preguntas son de piloteo y no influirn en su calificacin. Cuando se trate de aplicaciones exclusivas para piloteo deben buscarse condiciones e incentivos que estimulen a los sustentantes a hacer su mejor esfuerzo. Adems, deben construirse versiones cortas, con el nmero de reactivos que puedan contestarse en una sesin breve, incluyendo el tiempo de preparacin y la lectura de las instrucciones. Las versiones que contienen exclusivamente reactivos piloto pueden seguir la estructura original del examen o adoptar una estructura distinta. Seguir de cerca la estructura de la prueba es recomendable cuando lo que se busca es analizar las caractersticas del conjunto, como la fiabilidad de la prueba. Elaborar versiones con estructuras distintas a las establecidas es especialmente recomendable para facilitar la administracin cuando se trata de exmenes largos y para aquellos que cuenten con secciones o reas de pocos reactivos. Como desventaja, debe tenerse en cuenta que este mtodo puede requerir de ms cuadernillos y, por lo tanto, complicar la aplicacin, adems de que implica contar con ms sustentantes y una mayor participacin de instituciones para poder probar todos los reactivos. e) Nmero de reactivos por pilotear Debe tomarse en cuenta que en ocasiones se pierde hasta la mitad de los reactivos al determinar que no cumplen con las caractersticas psicomtricas requeridas. En realidad, esta merma vara grandemente entre el 10 y el 70 por ciento de los reactivos probados, dependiendo de la calidad original del reactivo y de las estrategias previas de validacin. En esta lnea de ideas, es recomendable que los reactivos que se sometan a piloteo hayan pasado por alguna forma de validacin previa, de modo que no se desperdicien recursos en el anlisis y calibracin de reactivos de mala calidad y que al mezclarse con el resto de los reactivos en el anlisis puedan incluso llegar a distorsionar las medidas.
28
Cuaderno tcnico
Para obtener una calibracin adecuada es de esperar que las versiones cuenten con un nmero suficiente de reactivos aceptables como para mantener una buena referencia del constructo por medir; esto es, 20 reactivos aceptables. Es verdad que pueden usarse menos reactivos si hace falta. Sin embargo, mientras ms sean estos reactivos, mejores y ms estables sern los resultados del anlisis. f) Nmero de sesiones de aplicacin Las pruebas piloto pueden extenderse en varias sesiones, especialmente si se cuenta con pocos sustentantes o si lo que se busca es mantener las sesiones de aplicacin en tiempos razonables. g) Condiciones de aplicacin, capacitacin a aplicadores e instrucciones para los sustentantes En un estudio piloto deben conocerse con antelacin las condiciones en que habr de llevarse a cabo la aplicacin y ajustar las acciones operativas en concordancia. Paso 3. Seleccin del modelo de anlisis A continuacin se enlistan algunas de las ventajas y desventajas de cada modelo que podran ayudar en la eleccin del modelo para el anlisis. Ventajas de la teora clsica Se considera adecuado el uso general de la teora clsica; tiene las siguientes ventajas sobre los modelos de la teora de la respuesta al tem (TRI): 1) Es ms fcil de utilizar. El anlisis puede hacerse incluso sin usar software especializado. Una calculadora o una hoja de clculo son muchas veces todo lo que se necesita. Y para calificar, por lo general basta con contar las respuestas correctas. 2) Se explica con mayor sencillez a un pblico no especializado pues sus principios bsicos son fcilmente comprensibles para la gran mayora. Cualquiera
29
entiende cuando se habla de proporcin de sustentantes que respondieron correctamente y, a la hora de calificar, el nmero de aciertos puede interpretarse sin recurrir a frmulas sofisticadas. 3) Para una estimacin precisa de los parmetros se requieren muestras modestas, de incluso menos de 100 sustentantes. Y an con muestras menores se puede utilizar la teora clsica como indicador aproximado de la calidad y caractersticas generales de los reactivos. 4) Cuando se trabaja con poblaciones relativamente homogneas y con un nmero reducido de versiones, los resultados son suficientemente precisos para tomar decisiones sin tener que recurrir a metodologas ms sofisticadas. 5) Es una metodologa flexible, con supuestos menos rgidos. Esto quiere decir que es razonablemente apropiada incluso cuando el contenido de las reas de la prueba es moderadamente heterogneo y cuando los supuestos de la TRI, siempre ms exigentes, no se cumplen. Desventajas de la TCT 1) Probablemente la mayor desventaja de la TCT puede resumirse como una dependencia circular: los estadsticos del sustentante (por ejemplo, su puntuacin en la prueba) son dependientes de los reactivos que le tocan en suerte en esa prueba en particular, mientras que los estadsticos de los reactivos dependen de los sustentantes que contestaron en esa ocasin. La dificultad estimada para los reactivos vara de acuerdo con la habilidad del grupo de sustentantes que se incluye en la muestra. Si los sustentantes fueron hbiles en general, los reactivos resultarn fciles. Sin embargo, si sucede que los sustentantes no fueron tan hbiles, se tendr el resultado contrario, y los mismos reactivos parecern ms difciles (figura 1). La habilidad de los sustentantes estimada a partir del puntaje observado depende de la dificultad de los reactivos que componen la prueba. As, un mismo sustentante obtendr puntuaciones diferentes en tres versiones distintas de la prueba si stas difieren en la distribucin de dificultad de los reactivos que las componen. En la figura 2, el mismo sustentante puede ubicarse
30
Cuaderno tcnico
Figura 1. La dificultad del reactivo depende de la distribucin de la habilidad de los sustentantes con los que se calcule
Figura 2. Los puntajes observados de los sustentantes dependen de la distribucin de dificultad de los reactivos de la prueba
en tres calificaciones distintas (25, 50 y 75 por ciento) dependiendo de si la dificultad de los reactivos es alta, media o baja. 2) Otro problema de la TCT es que supone que el error estndar de medida es igual a lo largo de toda la escala de habilidad. Esto no es necesariamente vlido. Una prueba puede ser ms precisa en algunos rangos de puntacin que en otros. Esto depende de la distribucin de la dificultad de los reactivos de
31
la prueba de que se trate. Metodologas ms modernas (como la TRI) pueden aprovechar el conocimiento sobre el error para elaborar pruebas en las que se controle mejor en las regiones de puntuacin que ms interesen. 3) En general, la TCT no se presta tan fcilmente a generalizar los resultados a nuevas circunstancias, nuevas poblaciones o nuevas versiones. Ventajas de la teora de la respuesta al tem (TRI) Los supuestos sobre los que se funda la TRI son ms estrictos y, si se cumplen adecuadamente, le dan a la metodologa una flexibilidad y un poder que difcilmente se logra con la TCT. En condiciones apropiadas, los modelos de la TRI superan algunos de los problemas de la teora clsica. En particular, hay tres importantes ventajas de la TRI sobre la TCT: 1) Invarianza de tem: Los parmetros de los reactivos (por ejemplo: dificultad y discriminacin) son independientes del grupo particular de sustentantes utilizados para su estimacin. Las muestras no requieren ser tan representativas u homogneas como en la TCT para obtener una representacin matemtica del reactivo que permita modelar su comportamiento estadstico. 2) Invarianza de grupo: La estimacin de la habilidad de los sustentantes es independiente del conjunto de reactivos con los que se estime. Esto est relacionado con el punto anterior y en cierta forma resuelve el problema de la dependencia circular de la TCT. Aqu, ni la estimacin de los parmetros de los reactivos depende de la habilidad de los sustentantes, ni la estimacin de la habilidad de los sustentantes depende de los reactivos que se utilicen. 3) Es posible estimar el error asociado a cada nivel de habilidad, en lugar de estimar un solo error estndar de medida para todo el rango, como es el caso en la TCT. Desventajas de la TRI 1) Es relativamente ms compleja, lo que la hace ms difcil de aplicar en la prctica y de explicar a los sustentantes. Requiere generalmente de software especial para hacer el anlisis y la calificacin.
32
Cuaderno tcnico
2) El nmero de sustentantes deseable para una calibracin estable de los reactivos es mayor. Si bien en un modelo de Rasch las muestras necesarias son similares a las de la TCT, cuando se usa un modelo de dos parmetros de la TRI las condiciones comienzan a ser significativamente ms exigentes. La literatura habla de entre 250 y 500 sujetos para obtener estimaciones aceptables, dependiendo de las condiciones de aplicacin y las caractersticas de la prueba. Y cuando se usan modelos de tres parmetros, las necesidades son mucho mayores, con mnimos de entre 1,000 y 1,500. Y aun con muestras sustancialmente mayores es posible encontrar problemas de indeterminacin en el clculo del segundo y el tercer parmetros, especialmente cuando se trata de contenidos incluso moderadamente heterogneos, como sucede corrientemente en algunos instrumentos de evaluacin de conocimientos. 3) Funciona bien si los supuestos se cumplen. La TRI no es siempre apropiada para todos los casos y para todos los exmenes. Es una tcnica bastante flexible y el cumplimiento de los supuestos que la sustentan tiene suficiente tolerancia como para adaptarse a muchos casos. Sin embargo, no es para todos los exmenes, no lo es especialmente para aquellos con contenidos complejos. 4) La realidad no es siempre como dice la teora. Insistir en el cumplimiento de los supuestos de la TRI por ejemplo, eliminando reactivos que no se ajusten al modelo planteado podra llegar a descartar contenidos de la prueba perfectamente vlidos en trminos de, por ejemplo, contenidos curriculares. Teora de la respuesta al tem o clsica. Cul elegir? La eleccin del modelo depende de varias circunstancias, tericas y prcticas, aunque es comn que se usen ambas metodologas al mismo tiempo, ya que no son del todo excluyentes. Por simplicidad, el modelo de la TCT es la ruta por seguir en primera instancia. Es ms sencillo y fcil de explicar, y los resultados son muchas veces similares a los que se logran con modelos ms sofisticados. La prudencia aconseja mantenerse con la TCT hasta que las circunstancias justifiquen acudir a otra metodologa.
33
La TCT no ha permanecido esttica. Los estudiosos de la evaluacin han desarrollado soluciones prcticas para algunas de las limitaciones tericas del modelo. Un ejemplo de ello es la evolucin de mtodos para igualar versiones distintas de una prueba en diferentes situaciones de aplicacin, como la equiparacin lineal o la equipercentil. A pesar de la popularidad y la eficacia de la TCT, la TRI tiene un papel cada vez ms importante en el mundo de la evaluacin. Una razn para acudir a modelos de respuesta al tem puede ser simplemente para complementar el anlisis y obtener ms informacin sobre los reactivos, aunque no se usen todas las ventajas del modelo. Pero esas ventajas son las que verdaderamente pueden llegar a justificar el esfuerzo adicional. La TRI es recomendable cuando se esperan diferencias importantes de habilidad entre las poblaciones en que se usar la prueba. Se pueden hacer versiones fciles para unos y ms difciles para otros, por ejemplo. En ciertas circunstancias, la TRI es indispensable. Un ejemplo son los grandes exmenes internacionales, en que se aplican muchas versiones distintas entre s o se utilizan fragmentos de los contenidos de una prueba mayor y aun as se requiere que los resultados sean comparables. Por supuesto, es la metodologa por seguir en los exmenes adaptativos en computadora, donde los reactivos por utilizar se van seleccionando conforme el sustentante va resolviendo su prueba. Gracias a la invarianza de los parmetros de la TRI, es posible confeccionar y ajustar la prueba para cada ocasin. Una prueba ms corta puede disearse con el afn de ser ms confiable para un grupo de sustentantes que lo que podra ser una prueba ms larga, pero diseada para la poblacin en general. En otras palabras, gracias a la TRI se pueden hacer pruebas a la medida. Se convierte, por lo tanto, en una herramienta invaluable para mantener distintas versiones de la prueba, combinando los reactivos de maneras distintas versiones ms cortas para ahorrar reactivos o, tal vez, versiones ms fciles o ms difciles para adaptarse a la poblacin que habr de contestarlas y aun as obtener una estimacin comparable de las habilidades.
34
Cuaderno tcnico
Paso 4. Validacin de los insumos para el anlisis El anlisis de reactivos de opcin mltiple en la mayor parte de los exmenes del Ceneval requiere de los siguientes insumos: Estructura del examen. Documento que describa la prueba con el nmero de reactivos que corresponde a cada clasificacin temtica si hay varios temas, especificando a qu niveles se ofrece calificacin individual. Formato de versiones que describa: 1. Clave de identificacin de los reactivos en el banco 2. Clasificacin temtica del reactivo 3. Posicin que ocupan los reactivos en cada versin 4. Estatus del reactivo (activo que se calificar o piloto) 5. Clave de respuesta correcta para cada uno de los reactivos Archivo de texto con las respuestas de los sustentantes. Cualquier otra fuente de informacin que pueda ayudar a conocer las caractersticas de la aplicacin o de la poblacin que se present. Entre la informacin ms importante por recabar estn las fechas de aplicacin de las versiones que se analizan, las instituciones participantes en la aplicacin, las sedes de aplicacin y el nmero de sustentantes. Se recomienda registrar informacin sobre las caractersticas de la aplicacin y de la poblacin examinada; por ejemplo, si se trat de un ejercicio diagnstico, de autoaplicacin, si fue una aplicacin especial, etctera. Antes de proceder al anlisis, se validarn todos los insumos tras verificar que se cumpla con los siguientes elementos: El archivo de la estructura del examen debe corresponder con las versiones aplicadas. El formato de versiones debe contener todos los datos requeridos. En particular, se deben verificar las respuestas correctas indicadas en el archivo. En cuanto a la validacin de respuestas de los sustentantes, se debe verificar que en el archivo no haya sustentantes duplicados y que las cadenas de las
35
respuestas tengan slo caracteres vlidos. Por ejemplo, para el EXANI-I del Ceneval aplicado en 2007 solamente se permitieron las letras A, B, C, D, E, el espacio para indicar que no fue contestada la pregunta y el asterisco que indica respuesta mltiple. Para efectos del anlisis, se recomienda descartar del archivo las cadenas de los sustentantes con pocas respuestas. El porcentaje de tolerancia puede variar, pero es de presumir que los sustentantes con ms del 30% de las preguntas sin respuesta no terminaron la prueba o que no estaban suficientemente motivados. Se verificar y se registrar la proporcin de respuestas obtenida por cada reactivo. Si la proporcin de sustentantes que no respondieron algn reactivo en particular es alta en relacin con el resto de los reactivos, vale la pena explorar las posibles razones. En la mayor parte de las pruebas del Ceneval, las tasas de respuesta por reactivo siempre son muy superiores al 90%, as que sin excepcin sera sospechoso un reactivo con una tasa de respuesta menor. Por supuesto, el porcentaje vara en cada examen y circunstancia de aplicacin. Si se muestra una disminucin generalizada en la tasa de respuesta de los sustentantes hacia el final de su examen en comparacin con el resto de las preguntas de la prueba, esto puede indicar que la longitud del examen podra ser excesiva. As, si el 95% de los sustentantes responde las primeras secciones, pero es el 80% el que responde las ltimas, debe sospecharse que el examen es muy largo o que el tiempo es demasiado corto. Los insumos verificados y los productos del anlisis se deben conservar como evidencias para verificaciones o anlisis posteriores.
Paso 5. Anlisis de distractores El anlisis de distractores en los reactivos, aunque es comn en la prctica de la evaluacin educativa, no siempre se lleva a cabo. Al menos no con la frecuencia y el detalle con que debera. En este sentido puede considerrsele opcional o al menos accesorio frente a otras tcnicas.
36
Cuaderno tcnico
El estudio de los distractores ayuda a conocer mejor las preguntas y explicarnos por qu un reactivo se comporta como se comporta. Tambin es un insumo de gran inters para quien quiere conocer el estado del conocimiento en los sustentantes: dnde se equivocan ms?, por qu?, qu tipo de conocimientos les causan confusin?, cules necesitan profundizarse ms? El estudio de los distractores es particularmente til cuando los anlisis previos dan evidencia de que un reactivo no se comporta como se espera. Cuando se han detectado posibles problemas en el funcionamiento estadstico de algn reactivo, el siguiente paso consiste en tratar de averiguar los motivos de estas anomalas para corregir el reactivo o, en su caso, desecharlo definitivamente. Muchas veces presentado de manera grfica, este anlisis permite determinar el patrn de comportamiento tanto de la respuesta correcta como de los distractores del reactivo a lo largo de la escala de habilidad. Paso 6. Anlisis de funcionamiento diferencial de los reactivos La igualdad de condiciones para todos los sustentantes de una prueba es uno de los principios necesarios para garantizar la validez de la evaluacin. Entre las tareas que asume el Ceneval para lograr la equidad entre los sustentantes est la creacin de versiones equivalentes de examen y la estandarizacin de las condiciones de aplicacin de las pruebas. Sin embargo, en ocasiones, un reactivo es particularmente ms fcil (o ms difcil) para algn grupo de sustentantes (por ejemplo, para las mujeres en comparacin con los hombres). Se dice que un reactivo presenta funcionamiento diferencial cuando resulta ms fcil (o difcil) para un grupo de sustentantes que para otro, una vez que se han tomado en cuenta las diferencias en el conocimiento o habilidad de los grupos en el rasgo que se est evaluando. Cuando un grupo de sustentantes presenta una mayor habilidad promedio que otro, tender a mostrar un mejor rendimiento en todos los reactivos de la prueba. Sin embargo, un reactivo con funciona-
37
miento diferencial mostrar una brecha significativamente ms grande que la atribuible a la diferencia en habilidad de los grupos. Generalmente el estudio del funcionamiento diferencial se enfoca a detectar sesgos de los reactivos para grupos con caractersticas distintas, como pueden ser, entre muchas otras, el gnero o el nivel econmico. Paso 7. Seleccin de reactivos y conformacin de la prueba Con cualquier metodologa, el primer requisito de seleccin para los reactivos es que cumplan con los contenidos y las especificaciones establecidos para la prueba por los diseadores. El respeto por la estructura temtica y las especificaciones de los reactivos es fundamental. Ante ellas, los datos estadsticos del instrumento pasan siempre a un segundo plano. De acuerdo con lo anterior, en muchos programas es comn que se construyan y prueben dos o tres veces el nmero de reactivos por especificacin, para poder elegir siempre el mejor. Teora clsica de los test El desarrollo de la TCT se centra en el anlisis de la prueba como una unidad. En comparacin con la TRI, no hay tanto nfasis en el estudio de los reactivos individuales ni se han desarrollado tanto las tcnicas correspondientes. Sin embargo, para los reactivos existen algunos indicadores. A continuacin se describen algunos de los ndices ms utilizados para el anlisis de reactivos mediante la teora clsica de los test. Se refieren bsicamente a la dificultad del reactivo y a lo que se da por llamar discriminacin. Dificultad De acuerdo con la teora clsica, se espera que los reactivos muestren un grado de dificultad medio. Tcnicamente, justo en el 50% de grado de dificultad la varianza de los reactivos tiene su mximo, y precisamente ah el reactivo puede diferenciar ms entre los sustentantes que saben o no saben.
38
Cuaderno tcnico
Los valores alejados de una dificultad media no son recomendables. Los reactivos con un grado de dificultad extremadamente bajo o extremadamente alto no aportan informacin a la medicin de los sustentantes; en otras palabras, de poco sirven los reactivos que todos contestan y an menos los que no contesta nadie. Por lo tanto, una regla generalmente utilizada para la seleccin de reactivos para una prueba consiste en aceptar reactivos que estn cerca de la mitad de la escala. Cuando se trabaja con reactivos de opcin mltiple, la literatura recomienda un grado de dificultad ms alto que la media, para tratar de corregir el hecho de que este tipo de reactivos le da ms probabilidades al sustentante de acertar con la respuesta correcta por casualidad. Como es sabido, en los reactivos de opcin mltiple en ellos normalmente hay cuatro o cinco opciones de respuesta y slo una es la correcta el sustentante puede acertar a la opcin correcta simplemente por azar. Cuando se trata de un reactivo de cuatro opciones, marcar una opcin cualquiera como correcta le da al sustentante una posibilidad entre cuatro de acertar. Por ello, un sustentante que conteste al azar todo el examen, aunque no hubiera ledo una sola de las preguntas, tiene probabilidades de conseguir aproximadamente el 25% de las respuestas correctas. Para corregir esto, a la proporcin de sustentantes que acierta se le suma una fraccin de sustentantes que podran adivinar la respuesta, lo que vara en cada reactivo segn el nmero de opciones de respuesta que tenga. El grado de dificultad en el que se maximiza la varianza del reactivo cambia de 50 a 50 + 50/m, en donde m es el nmero de opciones del reactivo. As, en un reactivo comn de opcin mltiple el grado de dificultad que maximiza la varianza aumenta de 50 a 62, o lo que es lo mismo: 50 + 50/4. Algunos expertos incluso proponen un ajuste mayor. En un estudio de simulacin efectuado por Frederick Lord (Lord, 1962, citado por Crocker y Algina, 1986, p. 313), el grado de dificultad medio que dio los mejores resultados fue de 74 para el caso de reactivos con cuatro opciones de respuesta. Por todo esto, es comn ver exmenes en los que el grado de dificultad medio de los reactivos se cargue ms all de 50, entre 60 y 70.
39
Estas dificultades ptimas promueven la mayor diferencia entre los sustentantes de un examen, ya que los que estn encima del promedio obtienen una muy alta calificacin, mientras los que estn debajo, la obtienen muy baja. El problema con este arreglo es que, aunque subraya la diferencia entre los de arriba y los de abajo, no permite conocer las diferencias en otros niveles. Siguiendo de cerca el concepto de informacin de la TRI, que se ver despus, muchas veces es recomendable distribuir las dificultades en un rango ms amplio para conocer las diferencias a todo lo largo del espectro. Algunos programas de evaluacin procuran que sus dificultades se distribuyan de manera ms o menos uniforme a lo largo del rango ms amplio posible. Este es el caso de varios de los exmenes del Ceneval, que distribuyen su grado de dificultad entre 20 y 80. Otros programas tratan de que los reactivos de sus exmenes se distribuyan en el rango, pero que se acumulen ms hacia el centro o hacia alguna zona predeterminada, tratando de que haya ms reactivos precisamente en la regin en la que se acumulan ms sustentantes. Los exmenes ACT (American College Testing) y SAT (Scholastic Aptitude Test), desarrollados en Estados Unidos, por ejemplo, distribuyen sus reactivos a manera de campana, asignando un nmero determinado de reactivos a cada fragmento del rango y acumulando ms preguntas hacia el centro de la distribucin y menos en los extremos. Como quiera que sea, la seleccin de los reactivos depender necesariamente de ese diseo. Discriminacin Hay varios indicadores de discriminacin. Algunos se desarrollan con sus frmulas en el siguiente captulo. Los ms comunes son algunos tipos de correlacin entre el tem y la calificacin total. Esta correlacin puede medirse con la frmula de Pearson (correlacin punto biserial en el caso de reactivos dicotmicos) o con la correlacin biserial. En ambos casos se favorece la nocin de que el constructo es unidimensional y que se mide ms o menos de manera homognea a todo lo largo de la escala. Cuando esto no es as porque se miden varias reas al mismo tiempo o porque el constructo no es homogneo, o no interesa la continuidad a todo lo largo del rango sino en algunos puntos concretos, pue40
Cuaderno tcnico
den usarse preferentemente otras medidas, como la correlacin entre el tem y algn criterio externo o el ndice de discriminacin. Casi todos los ndices pueden tomar valores entre -1 y 1. Los valores positivos indican que los sustentantes de alto desempeo tienden a elegir la opcin correcta ms frecuentemente que los sustentantes de bajo desempeo, mientras que se observan valores negativos cuando ocurre lo contrario. ndices ms altos de discriminacin se refieren a un reactivo que se ajusta mejor al objetivo que se busca. Basado en estudios empricos, Ebel (1965, citado en Crocker y Algina, 1986, p. 315) estableci algunos criterios para la interpretacin del ndice de discriminacin:
Tabla 2. Criterios para la seleccin de reactivos por el ndice de discriminacin
1. Si ID 0.40 2. Si 0.30 ID < 0.40 3. Si 0.20 ID < 0.30 4. Si ID 0.20 El reactivo discrimina muy bien La discriminacin del reactivo podra ser considerada como satisfactoria El reactivo es marginal y requiere revisin El reactivo debiera ser eliminado o modificado completamente
Como todo criterio estadstico, estos deben ser tratados con cuidado. El lmite inferior de 0.20 es bajo, aunque aceptable, para todos los indicadores que se enlistan. En caso de considerarse necesario para completar los contenidos de la estructura, por ejemplo, pueden usarse algunos reactivos con discriminaciones ms bajas, siempre que no sean negativas. La discriminacin negativa debe evitarse siempre que sea posible. Aunque ms discriminacin siempre es mejor, debe tambin sospecharse de correlaciones altas, por arriba de 0.80, por ejemplo. En estos casos es probable que los reactivos sean redundantes en lo que se pregunta, o poco diversos. Posiblemente podran obviarse algunos de estos reactivos en la prueba sin que se pierda informacin importante.
41
Hacer el clculo de la discriminacin y descartar automticamente los reactivos que no cumplan con el requisito puede tener consecuencias indeseables: llevarnos a descartar ms reactivos de los necesarios o afectar la estructura factorial del constructo. Con esta estrategia se ignora la posibilidad de que unos pocos reactivos con muy mal ajuste puedan afectar los coeficientes de los dems. Las tcnicas que utilizan la calificacin total como referencia de la habilidad del sustentante son sensibles a que existan reactivos malos, varios de los cuales pueden desvirtuar la medida y mermar su calidad, hacindola menos apropiada para utilizarse como un referente ptimo. Si se tienen muchos reactivos aceptables y muy pocos o casi ningn reactivo defectuoso, podra decirse que el problema es insignificante. Sin embargo, al aumentar las proporciones de reactivos malos siempre ser ms recomendable seguir un procedimiento ms parsimonioso, quitando un reactivo a la vez o slo unos pocos, los ms notoriamente defectuosos, y repetir el procedimiento cuantas veces sea necesario. El trabajo para descartar reactivos de una prueba no es exclusivamente estadstico. Sin tratar de demeritar las tcnicas y los procedimientos, a veces puede decirse que es un proceso artesanal. Por ello, siempre se puede aprovechar el conocimiento del contenido de los reactivos y combinarlos con stas y otras funciones estadsticas, que pueden incluir, por ejemplo, medidas de consistencia interna como el alfa de Cronbach. Teora de la respuesta al tem El anlisis de reactivos a travs de los modelos de la TRI representa una oportunidad de allegarse informacin que permita hacer inferencias sobre la verdadera habilidad del sustentante. Sin embargo, en la prctica, el reactivo se convierte en una abstraccin, una frmula matemtica con la que modela su comportamiento estadstico. Por ello, el reactivo debe cumplir con al menos los siguientes requisitos: Que el modelo utilizado muestre un ajuste correcto a los datos, de modo que pueda decirse que la frmula elegida para modelar el comportamiento de los
42
Cuaderno tcnico
reactivos refleja adecuadamente la realidad de la prueba. Se trata de un requisito bsico. Si la abstraccin no se parece a la realidad, de nada servir entonces construir sobre ella. Existen mltiples criterios para evaluar el ajuste. Karabatsos (2002) discute 36 indicadores de ajuste de las respuestas de los individuos distintos y, ciertamente, no son todos. Cualquier criterio de ajuste que se use tiene ventajas y desventajas. Deben usarse con buen juicio. Para los modelos de la TRI, uno de los programas computacionales de uso ms comn es BILOG-MG (Zimowski et al., 2003). Este programa utiliza un indicador de ajuste desarrollado especialmente y cuya particularidad es comportarse como si fuera una prueba ji-cuadrada para medir la bondad del ajuste entre las respuestas al reactivo y el modelo elegido para el anlisis. Por su parte, en el caso de los modelos de Rasch, los programas ms comunes utilizan dos indicadores de ajuste denominados Infit y Outfit. Para efectos prcticos, generalmente se esperan las siguientes tolerancias para considerar que el ajuste es adecuado.
Tabla 3. Criterios para la seleccin de reactivos de acuerdo con el ajuste del modelo de la TRI a los datos
TRI
Rasch
- Bilog
0.7 Infit 1.3 0.7 Outfit 1.3
p ( 2, a) > 0.05
Que el reactivo aporte informacin suficiente para los objetivos deseados y al diseo estadstico planteado para el instrumento. Cada prueba se disea para un objetivo particular y, como parte integrante de la prueba, cada reactivo debe aportar algo. De nada sirve acumular ladrillos en el patio si se necesitan para construir un nuevo nivel para la casa. Por esta razn, generalmente no son adecuados los reactivos con dificultades muy extremas o discriminaciones muy bajas. Los siguientes son lmites ms o menos conserProcedimientos bsicos para el anlisis de reactivos
43
vadores a los parmetros de los reactivos en la TRI. Por supuesto, no hay que preocuparse si de pronto no se entiende de dnde salen a, b y c. Son parte de las frmulas matemticas de los modelos de la TRI y se explican en el captulo siguiente. Son tambin la salida comn de los programas que se utilizan para estimar estos modelos. Lo que s debe quedar muy claro es que no se trata de tolerancias definitivas. Son meras sugerencias, apoyadas por la experiencia, sobre lo que puede funcionar mejor en condiciones generales de aplicacin. Con la experiencia que da el tiempo y, sobre todo, con una idea clara de las necesidades de evaluacin de cada circunstancia en concreto, los lmites pueden ceirse o ampliarse.
Tabla 4. Criterios para la seleccin de reactivos de acuerdo con el valor estimado de sus parmetros en la TRI
1) Dificultad 2) Discriminacin -2.5 b 2.5 0.5 a 2 c 0.30
3) Pseudo-adivinacin
No hay criterios estrictos para ninguno de los parmetros, especialmente en el caso de la dificultad del reactivo. Para algunas poblaciones de habilidades extremas, por ejemplo, pueden ser necesarios reactivos con dificultades igual de extremas. Esto es particularmente cierto si se considera que, a diferencia de la TCT, la escala en la que se calibran los reactivos en la TRI puede ser muy variable. Cuando se usa la TRI, no importan en realidad los nmeros concretos de la escala que se establezcan (pueden variar mucho, segn la poblacin de referencia); lo que s es fundamental es que, sean cuales sean estos nmeros, se mantengan constantes. Se propone para la dificultad un intervalo de -2.5 a 2.5 y as impedir la presencia de reactivos exageradamente fciles o difciles, considerando condiciones
44
Cuaderno tcnico
generales (normales, no extremas) de aplicacin. Por razones tcnicas, tambin conviene que el reactivo se encuentre en un rango de dificultad en que haya sustentantes suficientes para poder hacer una estimacin precisa de sus caractersticas mtricas. En los extremos, hay generalmente pocos sustentantes y la estimacin de los parmetros del reactivo puede tener un error importante. La existencia de un nmero suficiente de sustentantes en el punto que marca la dificultad del reactivo puede determinar una calibracin adecuada, o defectuosa. Adems del anlisis individual de los reactivos, la TRI permite anticipar las caractersticas mtricas y el nivel de precisin de la prueba segn los reactivos que la componen. Por ello, la seleccin de los reactivos trasciende el hecho de que cumplan o no con ciertos lmites; en aplicaciones avanzadas, es necesario tambin que cada reactivo tenga las cualidades que se requieren para que funcione el conjunto, es decir, que cada ladrillo embone en su lugar. Cuando se aborde el tema de la funcin de informacin de la prueba, quedar ms claro cmo puede adaptarse la prueba y, por supuesto, la seleccin de sus reactivos a los objetivos de la evaluacin. Limitaciones del anlisis de reactivos Los resultados del anlisis de reactivos son siempre una propuesta, una fuente de informacin que debe sopesarse en el contexto de la prueba y de lo que se busca con ella. De partida, como sucede en todo procedimiento estadstico, existen elementos que pueden afectar seriamente los resultados: la representatividad de la muestra, el nmero de sustentantes involucrados en el estudio, las condiciones particulares de la aplicacin, etctera. Pero ms all de los problemas propios de la estadstica, que debern como siempre tratar de controlarse, vale la pena subrayar otras limitaciones.
45
Un mal resultado en el anlisis no significa que deba eliminarse el reactivo de la prueba Los resultados del anlisis son indicadores importantes de la calidad del reactivo, sobre todo cuando lo que se busca es un instrumento que permita diferenciar mejor entre los que saben y los que no; y es claro que casi siempre de esto es de lo que se trata al hacer una evaluacin: diferenciar con el mayor detalle posible entre los sustentantes. Sin embargo, este no es el propsito cuando se trata simplemente de corroborar que los sustentantes saben lo que deben saber. En estos casos, si se reconoce que pueden existir, el hecho de que un reactivo no sea particularmente discriminador no resulta fundamental. Un ejemplo puede aclarar las cosas. Supngase que un maestro quiere ver si sus alumnos aprendieron bien lo que les ense en clase y har una serie de preguntas para investigarlo. Sin duda, es perfectamente vlido que las preguntas sean sobre todos o la mayor parte de los temas que se vieron en clase, hayan sido fciles o difciles. Y supongamos tambin que todos los alumnos demuestran ser estudiosos y obtienen un buen resultado en la prueba. Como consecuencia, los reactivos tienen indicadores extremos en el anlisis: son fciles y, por lo mismo, no discriminan bien (todos los responden correctamente). Hay algo malo en ello? En principio, nada. Ciertamente, el maestro estar muy complacido si todos salen bien (y muy desdichado si nadie contesta nada), independientemente de que algunos de los muchachos pudieran saber un poco ms y otros un poco menos de lo que se vio en clase. Lo importante para nuestro maestro no es necesariamente identificar las diferencias, sino corroborar que sus alumnos hayan aprendido (o no) lo que les ense. Si todos lo aprendieron, el examen ser demasiado fcil y no discriminar mucho, pero resultar perfecto para nuestro profesor. La discriminacin y la dificultad, a pesar de ser tan valiosas en otros contextos, pasan en estos casos a un segundo trmino. De hecho, insistir en seleccionar ciertos reactivos porque discriminen mejor que otros puede llegar a tener efectos perniciosos en una prueba. Por razones tcnicas, las medidas ms comu-
46
Cuaderno tcnico
nes para la discriminacin favorecen pruebas con contenidos ms homogneos. Esto, que es lo que se busca para hacer una buena medicin, puede tambin, si no se utiliza juiciosamente, promover pruebas ms planas y favorecer que se eliminen contenidos que se vieron en clase y que podra ser importante evaluar. Un buen resultado en el anlisis de reactivos no es suficiente para decidir que un reactivo se debe incluir Hay que decirlo: el anlisis no es garanta de validez. El hecho de que un reactivo, o un grupo de reactivos, presente un comportamiento estadstico adecuado no significa necesariamente que sea vlido utilizar ese reactivo en una prueba. El anlisis del conjunto de los reactivos ayuda a verificar la consistencia interna del criterio que se evala; sin embargo, la informacin que aporta no es suficiente para determinar si eso que se mide, por consistente que sea, es lo que efectivamente se quiere medir. Otros elementos, generalmente criterios externos, deben aportarse para complementar el anlisis en trminos de validez. Por lo anterior, regularmente se aaden al anlisis de reactivos otros estudios para verificar la validez del criterio y la de los resultados, de manera predictiva o concurrente. Estos mtodos pueden ser estadsticos o a partir de opiniones expertas. En otras palabras, no basta con que el reactivo mida bien lo que mide; adems debe verificarse que esto que mide, sea lo que sea, se aproxime a lo que verdaderamente queremos medir. Que existan limitaciones en el uso del anlisis no quiere decir que deba obviarse el anlisis de reactivos. Por el contrario, estas situaciones deben ser consideradas como excepciones, casos extremos. Y aun en estos casos no es tan fcil decidir si se descartan los indicadores. El anlisis de reactivos aporta informacin importante sobre la adecuacin del reactivo a la prueba. Al obviar esta informacin y esta validacin se corre el riesgo de cometer errores importantes. El juicio de los expertos es importante, pero muchas veces no es suficiente. Tambin los expertos se equivocan. El anlisis de reactivos ofrece una buena dosis de realidad que difcilmente se obtiene de otro modo.
47
Por lo dems, el hecho de que un sustentante sepa o no lo que se le pregunta en una prueba es un asunto de grado, no de todo o nada. Por ello, siempre es preferible contar con un continuo ms amplio en el que se puedan ubicar los sustentantes con distintos grados de habilidad. Las preguntas que ayuden mejor a diferenciar en esta escala resultan preferibles. De poco sirve en un examen hacer preguntas que todos saben o que nadie puede contestar. Por lo general, estas preguntas no valen el espacio que ocupan en la prueba y el tiempo que el sustentante podra utilizar para contestar otras preguntas que aporten mayor informacin.
48
Cuaderno tcnico
n los captulos anteriores se definieron los principales objetivos del anlisis de reactivos y se trazaron procedimientos bsicos para llevarlo a cabo; fueron omitidos, en la medida de lo posible, los detalles ms tcnicos de los modelos y las frmulas matemticas que los definen. Sin pretender desarrollar de manera exhaustiva todos los elementos de los modelos, en este captulo se describirn algunas de sus cuestiones tcnicas esenciales, que permitirn una mejor comprensin del anlisis. Entre otras cosas, se incluyen formulas matemticas para algunos de los estadsticos ms utilizados en la TCT, se explican los componentes ms importantes de los modelos de la TRI y se describen procedimientos especficos para el anlisis de distractores y para el anlisis de funcionamiento diferencial (DIF). Teora clsica de los test La idea fundamental de este modelo se basa en la siguiente ecuacin: Puntaje observado = Puntaje verdadero + Error Esta ecuacin implica que el puntaje que observamos el que se obtiene a partir de la calificacin en la prueba est compuesto por dos elementos bsicos: una cierta medida que representa el puntaje verdadero (o lo que en realidad debera obtener el sustentante de acuerdo con su nivel) y un error de estimacin, que puede depender de muchos factores. Segn la teora, si uno repite la prueba (en realidad versiones paralelas de la prueba) muchas veces, el error tiende a cancelarse y desaparecer y es el verdadero puntaje del sustentante el que permanece. El puntaje verdadero es, en este sentido, el puntaje promedio obtenido a travs de muchas aplicaciones. Aunque en la prctica la aplicacin repetida de una prueba a una misma persona resulta inviable, esta idea constituye el soporte conceptual en que descansa la TCT. A partir de esta ecuacin fundamental se desarrolla la teora.
Captulo 3 Fundamentos tcnicos del anlisis de reactivos
49
Aun cuando el desarrollo de la TCT se centra en el anlisis de la prueba, esta teora hace uso de algunos indicadores de la dificultad y la discriminacin de los reactivos. A continuacin se describen algunos de los ndices ms utilizados. Indicadores de dificultad Evaluar la dificultad de los reactivos es importante por dos razones bsicamente: Para tener una idea de qu tan difcil o fcil ser para los sustentantes contestar cada pregunta. Esto es til en la medida que se puede disear con ello un examen, dependiendo del objetivo que se busque. Conocer la distribucin de las dificultades de los reactivos permite disear pruebas que se parezcan entre s. Se pueden lograr versiones de una misma prueba con una dificultad similar, eligiendo los reactivos con cuidado para que sus dificultades se distribuyan de una manera predeterminada en cada una de ellas. Existen varias formas de representar la dificultad de un reactivo. La de uso ms comn es simplemente la proporcin de sustentantes que aciertan al reactivo (valor-p o p-value en ingls) y algunas transformaciones simples de este valor. Quiz la transformacin ms conocida es el grado de dificultad. El grado de dificultad es el porcentaje de sustentantes que contestan correctamente un reactivo. La diferencia ms importante entre la proporcin de sustentantes que aciertan y el grado de dificultad es que el grado de dificultad toma valores desde 0 (cuando ningn sustentante contest correctamente el reactivo) hasta 100 (cuando el reactivo fue contestado correctamente por todos los sustentantes), mientras que en el otro caso los mismos valores van de 0.0 a 1.0. La interpretacin de este ndice puede ser confusa debido a que valores altos del mismo indican menor dificultad (ms sustentantes contestan ese reactivo), mientras que valores bajos nos hablan de una mayor dificultad. Por eso hay quienes se refieren al indicador como el grado de facilidad del reactivo.
50
Cuaderno tcnico
Indicadores de discriminacin Cuando se aplica una prueba, lo que se espera es que podamos diferenciar adecuadamente entre los sustentantes que saben sobre el tema que se les pregunta y los que no. Por lo tanto, un indicador importante en la seleccin de reactivos debe ser algn ndice que permita determinar si un reactivo discrimina de manera efectiva entre ambos tipos de sustentantes. Son diversas las maneras de estimar la discriminacin de un reactivo. En la mayor parte de las pruebas, la discriminacin del reactivo normalmente se mide tomando como referencia de la habilidad de un sustentante la puntuacin que obtiene en el total de la prueba. As, un reactivo discriminar de manera eficaz si lo responden correctamente ms sujetos con puntuacin alta que sujetos con puntuaciones bajas. Por el contrario, un reactivo ser ineficaz si quienes ms aciertan son los que obtienen bajas puntuaciones en la prueba. Un reactivo que funcione as, que tenga baja discriminacin o, mucho peor, que discrimine de manera negativa ser siempre sospechoso de estar equivocado; puede tener la opcin correcta mal codificada o incluso evaluar una cosa distinta al resto de la prueba. Adems de la anterior que compara el comportamiento del reactivo con el desempeo del sustentante en la prueba, es posible abordar el problema tomando como referencia algn criterio externo. As, por ejemplo, es posible que se tenga a la mano una clasificacin previa de una muestra de sustentantes que sirva para establecer de antemano quienes son competentes y que pudiera servir como un referente adicional. Un reactivo discrimina si quienes lo contestan ms son aquellos de cierta categora determinada previamente, tal vez a partir de la opinin de expertos o con otro examen. Al definir la discriminacin como la capacidad del reactivo para distinguir entre sustentantes de alto y de bajo rendimiento, resulta lgico obtener un indicador de la diferencia del porcentaje de respuestas correctas entre un grupo de rendimiento alto y otro de bajo rendimiento. De esta manera, el ndice de discriminacin se define como (Crocker y Algina, 1986): ID = PS PI
51
donde: ID = ndice de discriminacin PS = Proporcin de respuestas correctas en la prueba, de los sustentantes del grupo superior (nmero de respuestas correctas en el grupo superior entre el nmero de sustentantes que conforman este grupo) PI = Proporcin de respuestas correctas en la prueba, de los sustentantes del grupo inferior (nmero de respuestas correctas en el grupo inferior entre el nmero de sustentantes que conforman este grupo) Se pueden definir los grupos de rendimiento a partir de criterios externos (definidos por un panel de expertos, por ejemplo) o internos (la puntuacin en la prueba). Cuando se usan puntuaciones, los grupos superior e inferior pueden definirse a partir de distintos criterios. Por ejemplo, tomando la mediana de las puntuaciones totales en la prueba, de tal manera que se puede conformar el grupo superior con los sustentantes que obtuvieron un puntaje mayor o igual a la mediana y el grupo inferior con sustentantes con puntajes menores a sta. Tambin pueden definirse a partir de otros criterios. Es comn utilizar los percentiles 27 y 73 para identificar a los integrantes del grupo inferior y del grupo superior respectivamente, con lo que se logra un ndice ms estable. Correlacin punto biserial Existen ndices de discriminacin que se basan en la correlacin entre las puntuaciones de un reactivo y las puntuaciones totales en la prueba. La correlacin indica la fuerza y la direccin de una relacin lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores de la otra. De esta manera, la correlacin entre las variables X e Y ser positiva si al aumentar los valores de X tambin aumentan los valores de Y y ser negativa, si al aumentar los valores de X, los de Y disminuyen. La correlacin de Pearson es un nmero entre -1 y 1 que mide el grado de asociacin entre dos variables cuantitativas. Un valor positivo de esta correla52
Cuaderno tcnico
cin implica una asociacin positiva, mientras que un valor negativo implica una asociacin negativa. El clculo de la correlacin de Pearson se realiza utilizando la siguiente frmula:
donde: = Correlacin de Pearson Xi = Observacin i de la variable X Yi = Observacin i de la variable Y X = Media de X Y = Media de Y X = Desviacin estndar de X Y = Desviacin estndar de Y n = Nmero total de observaciones Un caso particular de la correlacin de Pearson se da cuando una de las dos variables implicadas es dicotmica y la otra puede considerarse como continua. Un ejemplo de esto es cuando se quiere calcular la asociacin que existe entre los resultados obtenidos en un reactivo en particular (en escala dicotmica) y la calificacin global en la prueba (en escala continua). A este tipo de correlacin se le conoce como correlacin punto biserial o correlacin biserial puntual, y puede calcularse por medio de la siguiente frmula simplificada de la correlacin de Pearson:
donde: pbis = Correlacin punto biserial + = Puntaje total promedio de los sustentantes que contestaron el reactivo correctamente
53
X X
p q
= Puntaje total promedio de todos los sustentantes = Desviacin estndar de las puntuaciones de todos los sustentantes = Proporcin de respuestas correctas del reactivo =1p
Un criterio que generalmente se utiliza para la seleccin de reactivos por correlacin punto biserial es aceptar slo los que presenten una correlacin punto biserial mayor a 0.20, de manera tal que los reactivos que muestren una correlacin menor no podrn ingresar al banco de reactivos como reactivos activos. Correlacin biserial Otro ndice utilizado con frecuencia para describir el poder de discriminacin de un reactivo es la correlacin biserial. A diferencia de la correlacin punto biserial, en esta se asume que la variable latente que subyace a las respuestas de los sustentantes al tem analizado tiene una distribucin normal. El clculo de la correlacin biserial se hace con la siguiente frmula:
donde: pbis = Correlacin biserial + = Puntaje total promedio de los sustentantes que contestaron el reactivo correctamente X = Puntaje total promedio de todos los sustentantes X = Desviacin estndar de las puntuaciones de todos los sustentantes p = Proporcin de respuestas correctas del reactivo Y = Ordenada de la curva normal estndar en el valor del puntaje z asociado con el valor de p para este reactivo La nica modificacin en el clculo de esta correlacin con respecto a la correlacin punto biserial es la inclusin del trmino Y, que es el valor que toma
54
Cuaderno tcnico
curva de densidad de probabilidad de una distribucin normal estndar para un valor de p determinado. Por ejemplo, si el reactivo tiene una proporcin de respuestas correctas de 0.5, el valor de Y ser muy cercano a 0.4.
Figura 3. Funcin de probabilidad normal estndar
El valor de la correlacin biserial es siempre mayor que el de la correlacin punto biserial, sobre todo para reactivos en los extremos de la escala de dificultad (grado de dificultad menor a 25 o mayor a 75). En estos casos la correlacin biserial puede llegar a ser hasta cuatro veces mayor a la correlacin punto biserial. Por este motivo, cuando se requiere seleccionar reactivos en los extremos de la escala de dificultad, se recomienda utilizar la correlacin biserial (siempre que el supuesto de normalidad de la variable latente que subyace a las respuestas de los sustentantes al tem sea razonable). Para reactivos con dificultad moderada no existe mayor diferencia entre estos ndices. Indicadores de fiabilidad De acuerdo con la TCT, la medida resultante de un ejercicio de evaluacin est afectada por una cierta cantidad de error aleatorio. Si se le aplicara una prueba a un sustentante en varias ocasiones, suponiendo que no recordara sus respuesProcedimientos bsicos para el anlisis de reactivos
55
tas anteriores, sus puntajes observados en cada una de las aplicaciones difcilmente seran iguales. Por una u otra razn que no siempre se puede anticipar, el sustentante podra tener mal alguna pregunta que antes contest bien (tal vez porque antes le atin sin saber) y viceversa. Sin embargo, las mediciones repetidas generalmente muestran ciertas consistencias, y a esta tendencia a la consistencia de un conjunto de medidas se le denomina fiabilidad. Es decir: aun sabiendo que no obtendramos los mismos puntajes de manera exacta, s esperaramos observar puntuaciones muy cercanas entre s. Si una prueba es fiable definida como tal en trminos de su consistencia, entonces la aplicacin repetida de la misma prueba o de varias pruebas paralelas debera de dar un resultado similar. Determinar el grado de fiabilidad de un instrumento es uno de los objetivos ms importantes de la psicometra. Un mtodo para la aproximacin a la fiabilidad de una prueba es el coeficiente alfa de Cronbach. Este coeficiente es casi con seguridad el mtodo ms utilizado en la psicometra para estimar la fiabilidad de una prueba. Propuesto por Cronbach en 1951, es una extensin de la frmula Kuder-Richardson 20, que la precedi y que es equivalente cuando los reactivos son dicotmicos. Se puede calcular el coeficiente alfa de acuerdo con la siguiente frmula:
donde: = Coeficiente alfa de Cronbach k = Nmero de reactivos en la prueba 2 i = Varianza del puntaje en el reactivo i 2 X = Varianza del puntaje total El valor de alfa de Cronbach suele considerarse como una aproximacin al lmite inferior de la fiabilidad de la prueba. En otras palabras, se espera que la fiabilidad de la prueba sea siempre igual o superior en la prctica a la que estima este indicador.
56
Cuaderno tcnico
La frmula para variables dicotmicas coeficiente Kuder Richardson 20 se obtiene al sustituir el estimador de la varianza del reactivo ( 2i) por pq en la frmula general de alfa. El alfa de Cronbach (representado por la letra griega alfa, ) se ofrece en la mayor parte de los paquetes de estadstica ms comunes, con la ventaja de que (adems del indicador nico) generalmente sealan el efecto que tendra eliminar un reactivo sobre el indicador total. Conocer si eliminar un reactivo determinado mejora o empeora la fiabilidad estimada para la prueba puede ser una informacin importante en la seleccin de los reactivos. Para ejemplificar el clculo e interpretacin del alfa se estim el indicador en SPSS para un grupo de 11 reactivos dicotmicos. En realidad, se trata de 10 preguntas de examen y una ms, n, que es una variable aleatoria aadida para verificar su comportamiento.
Tabla 5. Estadsticos de fiabilidad para una prueba de 11 reactivos
Alfa de Cronbach .747 Alfa de Cron-bach basada en los elementos tipificados .750 Nmero de elementos 11
En la tabla de arriba puede verse el valor de alfa (0.747) para el conjunto de las 11 variables, as como tambin el alfa estandarizada (0.750). Este segundo nmero se incluye en la salida del programa debido a que el coeficiente original tiende a ser sensible al nmero de reactivos (mientras ms reactivos, mayor ser alfa). Por ello, es comn que se ofrezca un alfa ajustada que pueda compararse aunque el nmero de reactivos vare un poco. En el ejemplo, y para efectos de anlisis, el alfa que interesa es el original. La cifra, algo superior a 0.7, resulta modesta para la fiabilidad que se espera de un examen de alto impacto como los que se elaboran en el Ceneval, y que generalmente se acerca e incluso normalmente sobrepasa el 0.9. Sin embargo, es
57
muy buena para una prueba de bajo impacto, especialmente si se considera que se trata de una prueba muy corta, de apenas 11 reactivos. Como era de esperar, la variable n que se aadi sin que tuviera ninguna relacin con el resto de las preguntas hay que recordar que esta variable se gener como un nmero aleatorio en el SPSS presenta algunos problemas que pueden detectarse como resultado del anlisis. En particular, este reactivo muestra una correlacin elemento-total negativa. Para el caso que se ejemplifica, hay que poner atencin en la ltima columna de la tabla 6, en que se puede ver que al eliminar n de la escala, el alfa de Cronbach mejora, pasando del original 0.747 a 0.777.
Tabla 6. Resultados de SPSS para el clculo de alfa
Media de la escala si se elimina el elemento 6.742 6.855 6.607 6.717 6.872 6.713 6.932 6.964 6.830 6.940 7.021 Varianza Correlacin Correlacin de la escala elemento-total mltiple si se elimina corregida al cuadrado el elemento 5.733 5.727 6.465 5.782 5.469 6.093 5.496 5.608 5.815 5.685 6.546 .504 .425 .255 .507 .543 .339 .508 .449 .396 .417 .045 .267 .190 .076 .271 .322 .129 .277 .211 .168 .189 .008 Alfa de Cronbach si se elimina el elemento .715 .724 .744 .716 .707 .735 .712 .721 .728 .726 .777
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 n
El resto de las variables (preguntas) muestra una correlacin positiva y relativamente alta. Puede verse que estas correlaciones altas coinciden con el hecho de que la eliminacin de cualquiera de ellas implica un decremento en el valor de alfa, lo que indica que todas aportan a la fiabilidad de la prueba en su conjunto.
58
Cuaderno tcnico
Error estndar de medida y estimacin de la puntuacin verdadera Aunque no es posible determinar la cantidad exacta de error para un puntaje decidido, la TCT postula un mtodo para describir la variacin esperada de los puntajes observados de cada sustentante, alrededor de su puntaje verdadero. Dado que definimos la puntuacin verdadera como la media de los puntajes observados (obtenidos de varias aplicaciones repetidas de una prueba), los puntajes observados para cada sustentante se distribuirn de cierta forma alrededor de su puntaje verdadero. Cuando se promedian los errores estndar de todos los sustentantes, se obtiene el error estndar de medida.
donde: E = Error estndar de medida X = Desviacin estndar de las puntuaciones obtenidas en la prueba XX|= Coeficiente de fiabilidad (alfa) Asumiendo que los errores de medicin se distribuyen normalmente, es posible encontrar un intervalo a un nivel de significancia para la puntuacin verdadera de un sustentante cuya puntuacin observada fue X, como se indica en la siguiente expresin:
donde: X = Puntaje observado del sustentante Z 1 /2 = Percentil 1 /2 de la distribucin normal estndar (1.96 para = 0.05) = Error estndar de medida E
59
Teora de la respuesta al tem Las pruebas se utilizan para tratar de medir lo que alguien sabe, lo que sabe hacer, lo que le gusta. Una prueba de matemticas, por ejemplo, trata de aportar informacin sobre lo que el sustentante sabe o es capaz de resolver de esta materia. Para ello, se le hacen varias preguntas y si acierta (o si falla) sabremos un poco ms sobre su capacidad. El conocimiento en matemticas o en fsica, la inteligencia o el gusto por la lectura son variables latentes, que existen pero slo pueden conocerse a partir de inferencias sobre sus manifestaciones externas. No es posible saber cun inteligente es alguien o lo que sabe de fsica, ms que por algunas evidencias indirectas que aportan algunas pistas. Los modelos de la TRI parten, para su desarrollo terico, de la existencia de variables latentes que se manifiestan a travs de las respuestas de los sustentantes a un grupo de reactivos; ejemplos de variables latentes que se evalan en el Ceneval son la habilidad verbal y la habilidad matemtica. La curva caracterstica del tem (CCI) El objetivo primordial de la TRI es modelar el comportamiento de estas variables y determinar, en el nivel de cada reactivo, la probabilidad que tiene cada sustentante de acertar cuando se enfrenta a l. El modelo que se asigna al reactivo es una funcin que generalmente toma la forma de una curva logstica. Los modelos de la TRI postulan que la relacin entre el rendimiento de un sustentante en determinado reactivo y la variable latente que subyace a dicho rendimiento, puede ser descrita por una funcin montona creciente. Esto es, para cada nivel de habilidad (generalmente denominado por la letra griega theta ), existe una probabilidad P( ) de que un examinado con dicha habilidad conteste correctamente el reactivo y esta probabilidad crecer mientras la habilidad se incremente. La funcin matemtica que describe esta relacin es conocida como curva caracterstica del tem (CCI) y constituye la base de la TRI.
60
Cuaderno tcnico
En la mayora de las aplicaciones se supone que la CCI tiene una forma de S, como se muestra en la siguiente figura. Las principales diferencias en los modelos ms populares de la TRI radican en matices de la funcin matemtica elegida para describir la CCI y, por lo tanto, en la forma concreta que pueda tomar esta curva.
Figura 4. Curva caracterstica del tem (CCI)
Interpretacin de la probabilidad Tomando en cuenta que el objetivo de estos modelos de probabilidad es expresar y predecir el comportamiento de un sustentante al enfrentarse a un reactivo especfico, es importante tener una interpretacin clara de la probabilidad P( ) en el sentido de saber qu tipo de datos reales se est tratando de modelar. En una situacin estndar de evaluacin lo que se puede observar es si un sustentante con determinado nivel de habilidad, digamos , tuvo xito o no en un reactivo en particular. Entonces, el concepto de probabilidad surge de la idea de que un nmero grande de examinados con el mismo nivel de habilidad ( ) tambin contestaron el reactivo, por lo que es posible calcular la proporcin de respuestas correctas que obtuvo este grupo de sustentantes en el reactivo. En la
61
figura 5 se muestra la proporcin de respuestas correctas a un reactivo, por parte de cinco grupos de diferente habilidad. La tarea principal ahora ser encontrar una curva caracterstica del tem que se ajuste lo mejor posible a estas proporciones de respuestas correctas, tal y como se muestra en la figura 6.
Figura 5. Proporcin de respuestas correctas para cinco grupos de habilidad
Figura 6. Ajuste de una CCI a la proporcin de respuestas correctas
62
Cuaderno tcnico
Modelos logsticos de la TRI En este apartado se definirn tres de los modelos ms populares de la TRI. Una primera distincin entre ellos es el nmero de parmetros que utilizan para describir los reactivos. Los valores numricos de los parmetros empleados por cada modelo definirn la forma de la CCI y describirn diferentes propiedades del comportamiento estadstico de los reactivos. En la TRI, el modelo matemtico estndar para la CCI es la funcin de distribucin logstica acumulada. Esta funcin es parecida a la funcin de distribucin normal, pero tiene la ventaja de ser de ms fcil manejo al no involucrar integracin. La facilidad para su clculo no es ya un factor de gran importancia ahora con la existencia de un poder de cmputo que hace todos estos clculos triviales, pero en la poca en la que se comenz a utilizar fue realmente un descubrimiento. Adems, las curvas logstica y normal pueden hacerse virtualmente idnticas para efectos prcticos empleando sencillos ajustes en las frmulas. Modelo logstico de un parmetro (modelo de Rasch) La ecuacin de la CCI para el modelo logstico de un parmetro (Rasch) es la siguiente:
donde: Pi( ) = Probabilidad de que un examinado con habilidad responda correctamente el reactivo i bi = Dificultad del reactivo i n = Nmero de reactivos en la prueba e = 2.718 El parmetro bi, definido como la dificultad del reactivo i, indica la posicin de la CCI en la escala de habilidad y se define como el punto en la escala en donde la probabilidad de respuesta correcta es igual a 0.5. En la figura siguiente se muestra la CCI de tres reactivos con dificultades diferentes.
63
Figura 7. Reactivos con diferente parmetro de dificultad b
Ntese que las curvas difieren slo en su localizacin a lo largo de la escala de habilidad. El reactivo ms fcil tiene un parmetro de dificultad igual a -1 y se encuentra ubicado al lado izquierdo de la escala. El reactivo ms difcil tiene un parmetro de dificultad igual a 1 y est ubicado hacia la derecha de la escala. La dificultad del reactivo define un punto en la escala de habilidad justo en que la probabilidad de xito P( ) es igual a la probabilidad de fracaso 1 P( ), esto es, un sustentante con un nivel de habilidad igual a la dificultad del reactivo i (bi), tendr una probabilidad de 0.5 de contestar correctamente este reactivo y, por lo tanto, una probabilidad de 0.5 de responderlo de manera incorrecta. Este punto en la escala determina un umbral que divide la escala de habilidad en dos partes; los sustentantes con un nivel de habilidad menor a la dificultad del reactivo tendrn obligadamente una probabilidad de xito menor a 0.5 y, por lo tanto, menor a la probabilidad de fracaso. Los sustentantes con una habilidad mayor a la dificultad del reactivo enfrentarn una probabilidad de xito mayor
64
Cuaderno tcnico
Figura 8. El parmetro de dificultad b define un umbral para la probabilidad
a 0.5 y consecuentemente mayor a la probabilidad de fracaso. Esta idea de umbral define adecuadamente la lgica de los modelos de probabilidad. El modelo de Rasch supone que la dificultad es la nica caracterstica del reactivo que influye en la respuesta del sustentante y supone que el nivel de discriminacin es igual para todos los reactivos. Estos supuestos originan una propiedad importante de este modelo. Para cualquier nivel de habilidad dado, si la dificultad del reactivo 1 es menor a la dificultad del reactivo 2, la probabilidad de respuesta correcta del reactivo 1 ser mayor que la correspondiente al reactivo 2. Esto equivale a decir que las curvas caractersticas de dos reactivos con dificultades diferentes no se cruzan en ningn punto de la escala. En la figura 9 el reactivo 1 es ms fcil que el reactivo 2 (b1 < b2) y la probabilidad de responder correctamente el reactivo 1 es mayor a la probabilidad de responder correctamente el reactivo 2 (P1( ) > P2( )), en cualquier punto de la escala de habilidad.
65
Figura 9. En el modelo de Rasch no hay cruzamiento de la CCI
Modelo logstico de dos parmetros El modelo logstico de dos parmetros incorpora un elemento adicional con relacin al modelo anterior. A diferencia del de Rasch, este modelo permite analizar el comportamiento de los reactivos, adems de por su nivel de dificultad, por su poder de discriminacin. La ecuacin de modelo logstico de dos parmetros es la siguiente:
donde: Pi( ) = Probabilidad de que un examinado con habilidad responda correctamente el reactivo i bi = Dificultad del reactivo i ai = Discriminacin del reactivo i n = Nmero de reactivos en la prueba e = 2.718
66
Cuaderno tcnico
El parmetro ai es el poder de discriminacin del reactivo; por lo tanto, indica qu tan bien distingue a los sustentantes de habilidad alta de los de habilidad baja. Este parmetro es proporcional a la pendiente de la CCI en el punto bi de la escala de habilidad. Entre mayor sea el valor de ai la CCI ser ms inclinada y entre menor sea el valor de este parmetro, la CCI ser ms plana. En la siguiente figura se muestran las curvas caractersticas de tres reactivos con la misma dificultad (bi = 0), pero con diferente discriminacin.
Figura 10. Reactivos con diferente parmetro de discriminacin a
El reactivo con parmetro de discriminacin igual a 0.5 tiene una CCI menos inclinada que las curvas de los dos reactivos con una mayor discriminacin; de hecho, esta curva se asemeja a una recta en el intervalo de la escala visualizado. Como puede notarse en la figura anterior, las curvas caractersticas de los reactivos tienen diferente pendiente a lo largo de la escala de habilidad; sin embargo, alcanzan su mayor inclinacin justamente en el punto = bi. En ese punto se dice que el reactivo da en el blanco debido a que es el lugar en que mejor distingue entre sustentantes con baja y con alta habilidad.
67
La pregunta que surge en este punto es: Cmo se relaciona la pendiente de la CCI con la discriminacin del reactivo? Para un reactivo con una discriminacin alta existe un intervalo relativamente corto en la escala de habilidad para el cual la probabilidad de respuesta correcta Pi( ) cambia de un valor cercano a 0 a un valor cercano a 1.
Figura 11. Interpretacin de la discriminacin
En la figura 12 se muestran dos reactivos con discriminacin extrema. Cuando el valor del parmetro ai se acerca a cero, la CCI tiende a una recta horizontal y cuando el parmetro de discriminacin tiende infinito positivo (+ ), la CCI toma una forma de escaln. Este ltimo caso es conocido como Guttman perfecto y es la base del modelo determinstico de escala perfecta de Guttman. Cuando el valor del parmetro ai es negativo, la pendiente de la curva caracterstica ser negativa, indicando un comportamiento contrario al esperado; y los sustentantes de habilidad baja tendrn una mayor probabilidad de responder correctamente el reactivo que los sustentantes de habilidad alta. El hecho de que cada reactivo pueda tener distinta discriminacin, hace que las curvas caractersticas no sean paralelas como suceda en el modelo de
68
Cuaderno tcnico
Figura 12. Reactivos con discriminacin extrema
Figura 13. Reactivo con discriminacin negativa
Rasch, lo que da lugar a casos paradjicos. En la siguiente figura, los sustentantes con una habilidad menor a cero tienen una probabilidad de respuesta correcta mayor para el reactivo 2 que para el reactivo 1. Sin embargo, esta situacin se invierte para el grupo de sustentantes con habilidad mayor a cero.
69
Figura 14. Cruce de CCI
Modelo logstico de tres parmetros Una de las caractersticas de los reactivos de opcin mltiple es que, por definicin, tienen una probabilidad asociada de ser respondidos correctamente por azar. Por ejemplo, un reactivo con cuatro opciones de respuesta tiene una probabilidad de 0.25 de ser contestado por adivinacin simple; un reactivo con cinco opciones de respuesta reducir esta probabilidad de azar a 0.20, etctera. El modelo logstico de tres parmetros incorpora la posibilidad de que la respuesta correcta haya sido adivinada, agregando el parmetro c, al modelo de dos parmetros de acuerdo a la siguiente expresin.
donde: Pi( ) = Probabilidad de que un examinado con habilidad responda correctamente el reactivo i bi = Dificultad del reactivo i ai = Discriminacin del reactivo i
70
Cuaderno tcnico
ci n e
= Pseudo-adivinacin del reactivo i = Nmero de reactivos en la prueba = 2.718
La frmula indica que existe una probabilidad fija igual a ci, que es independiente al nivel de habilidad del sustentante. Normalmente el parmetro ci toma valores menores a la probabilidad estimada para la adivinacin aleatoria. Esto se atribuye a que los sustentantes con habilidad baja normalmente son atrados a seleccionar alguna de las respuestas incorrectas (distractores), por lo que podran obtener un puntaje mayor contestando aleatoriamente el reactivo. Esta es la razn por la que el parmetro ci es denominado pseudo-adivinacin y no simplemente adivinacin. El valor del parmetro de pseudo-adivinacin se refleja en la asntota inferior de la CCI. En los modelos anteriores, la probabilidad de respuesta correcta se aproximaba a cero cuando la habilidad del sustentante tenda a valores muy bajos ( ). Para este modelo, la probabilidad de respuesta correcta se aproximar al valor de ci para valores bajos de , tal y como puede verse en la siguiente figura.
Figura 15. Parmetro de pseudo-adivinacin
71
La incorporacin del parmetro de pseudo-adivinacin tiene implicaciones importantes en las propiedades matemticas y en la interpretacin del modelo. Por ejemplo, en el modelo de tres parmetros la probabilidad de respuesta correcta para un nivel de habilidad igual a bi ya no ser igual a 0.5; el desplazamiento de la asntota inferior de la CCI aumentar esta probabilidad a un valor de (1 + ci)/2. La figura 16 ejemplifica esta situacin.
Figura 16. Probabilidad asociada a b en el modelo de tres parmetros
El modelo logstico de tres parmetros es el ms general de los tres. A partir de ste pueden desprenderse el modelo de Rasch y el modelo de dos parmetros. Cuando el parmetro de pseudo-adivinacin se fija en un valor de cero, el modelo de tres parmetros se convierte en el modelo de dos parmetros. Sea ci = 0, entonces:
Si adems se fija el parmetro de discriminacin en un valor de 1, el modelo de tres parmetros converge en el modelo de Rasch. Sea ci = 0 y ai = 1, entonces:
72
Cuaderno tcnico
Figura 17. Parmetros de los modelos de la TRI
Supuestos de la TRI Los modelos de la teora de la respuesta al tem requieren de supuestos acerca de los datos con los que se aplicarn. Unidimensionalidad Este supuesto indica que el constructo que se quiere medir es una variable latente continua, esto es, el conjunto de reactivos de la prueba est diseado para medir una sola habilidad latente. De esta forma (y a manera de ejemplo), no sera vlido aplicar alguno de los modelos de la TRI para analizar un examen que incluye preguntas sobre varias materias, digamos Matemticas, Fsica y Espaol; en este caso se recurrira a analizar cada una de estas tres reas de manera independiente. En la realidad, la unidimensionalidad perfecta no existe. Sin embargo, es suficiente la presencia de un factor o componente dominante que refleje la variable latente medida para poder aplicar los modelos de la TRI.
73
Independencia local Dado que las herramientas de la TRI se enfocan en el reactivo y no en la prueba, resulta sumamente importante que las respuestas de los sustentantes a cualquier par de reactivos sean estadsticamente independientes, esto es, que la probabilidad de responder correctamente a determinado reactivo no est influida por la probabilidad de respuesta correcta de otros reactivos de la prueba. La curva caracterstica de la prueba La curva caracterstica del tem define la probabilidad de respuesta correcta a un reactivo para cada nivel de habilidad . Conociendo la curva caracterstica de cada uno de los reactivos que conforman la prueba, es posible estimar el nmero de respuestas correctas esperado para un sustentante con habilidad . Este puntaje estimado representa la transformacin ms importante de la escala de habilidad, y es conocido como puntaje verdadero. Si Ui es la respuesta de un sustentante con habilidad al reactivo i (0 o 1), de acuerdo con el modelo de probabilidad de la TRI, el valor esperado de dicha respuesta est dado por la siguiente expresin:
De esta manera, dicho sustentante tiene un puntaje esperado (puntaje verdadero) en la prueba igual a la suma de las probabilidades de todos los reactivos que la componen.
Ejemplo: Suponga que una prueba compuesta por 10 reactivos es analizada a travs del modelo de Rasch. Si se estiman los siguientes parmetros de dificultad para los reactivos:
74
Cuaderno tcnico
Tabla 7. Parmetro de dificultad de 10 reactivos de una prueba

Reactivo Dificultad -2.3 1 -2 2 -1.5 3 -0.3 4 0 5 0.7 6 1.2 7 1.9 8 2.3 9 2.5 10
Calcule el puntaje verdadero para un sustentante con habilidad
= 1.
Respuesta: El primer paso es calcular la probabilidad de respuesta correcta para cada reactivo tomando en cuenta que el sustentante tiene una habilidad igual a 1.
Tabla 8. Probabilidad de respuesta correcta de 10 reactivos de una prueba, suponiendo un nivel de habilidad de 1
Reactivo
P( )
0.96
0.95
0.92
0.79
0.73
0.57
0.45
0.29
0.21
0.18
10
Ahora es posible calcular el puntaje verdadero sumando todas las probabilidades calculadas:
Por lo tanto, de acuerdo con el modelo de Rasch, un sustentante con habilidad = 1, tendr un puntaje esperado en la prueba de 6.07, esto quiere decir que se espera que responda aproximadamente seis de las 10 preguntas de la prueba. Si se calcula el puntaje verdadero para todos los niveles de la escala de habilidad, se obtiene lo que se conoce como curva caracterstica de la prueba. A continuacin se muestra la curva caracterstica de la prueba del ejemplo anterior.
75
Figura 18. Curva caracterstica de la prueba (puntaje verdadero)
La curva caracterstica de la prueba indica la relacin entre el puntaje verdadero y la escala de habilidad. Esta curva es montona creciente, parecida a la curva caracterstica del tem, pero su forma estar determinada por factores como el nmero de reactivos en la prueba, el modelo de la TRI empleado y los valores de los parmetros de los reactivos. En todos los casos esta curva ser asinttica al valor del nmero total de reactivos en la prueba n. En los modelos de Rasch y de dos parmetros la cola inferior de esta curva se aproximar a cero, mientras que en el modelo de tres parmetros la cola inferior de la curva caracterstica de la prueba se aproximar a la suma de los parmetros de pseudo-adivinacin de los n reactivos. La funcin de informacin del tem Uno de los problemas tpicos de las pruebas estandarizadas es la existencia de reactivos inadecuados para medir a determinados sustentantes. En un examen de matemticas, por ejemplo, habr reactivos que resulten muy difciles para los sustentantes de habilidad baja y que en lugar de proporcionar informacin til sobre este grupo, contribuyen al error de medida de sus habilidades. Del mismo
76
Cuaderno tcnico
modo habr reactivos en extremo fciles para los sustentantes de habilidad alta, que no ayudan a discriminar entre los integrantes de este grupo. Siguiendo con la idea anterior, un reactivo proporcionar mayor informacin sobre los sustentantes cuyo nivel de habilidad est cerca de su dificultad, que de los sustentantes con una habilidad alejada de este punto.1
Figura 19. Informacin del reactivo (b = 0)
La funcin de informacin del tem es una nocin fundamental de los modelos de la TRI: permite, entre otras cosas, seleccionar reactivos para el ensamble de versiones, comparar pruebas y definir la precisin de la medida. La funcin de informacin de un reactivo se define mediante la siguiente frmula.
En los modelos de Rasch y de dos parmetros, el punto de la escala de habilidad en que el reactivo alcanza su mayor informacin es bi, en el modelo de tres parmetros este mximo se da en un nivel de habilidad ligeramente mayor al parmetro bi.
77
donde: Ii( ) = Informacin suministrada por el reactivo i en el nivel de habilidad Pi( ) = Probabilidad de que un examinado con habilidad responda correctamente el reactivo i Pi( )= Derivada de Pi( ) Qi( )= 1 Pi( ) A partir de esta funcin puede demostrarse que la informacin aumenta cuando el valor del parmetro de dificultad bi es cercano a , cuando el parmetro de discriminacin ai crece o cuando el parmetro de pseudo-adivinacin ci decrece. Esta propiedad se ejemplifica en las siguientes figuras.2 La grfica de color gris en la figura 20 es la funcin de informacin del reactivo y alcanza su nivel mximo cuando = bi; mientras se aleja de bi la informacin disminuye.3
Figura 20. CCI y Funcin de informacin del tem, efecto del parmetro de dificultad
En estas grficas el eje vertical representa la probabilidad de respuesta correcta para la CCI y la cantidad de informacin para la funcin de informacin del tem. Recordar que en el modelo de tres parmetros la cantidad mxima de informacin se da en un nivel de habilidad ligeramente mayor al parmetro bi.
Cuaderno tcnico
78
En la figura 21 puede verse que aumentar el parmetro de discriminacin del reactivo implica un aumento en la informacin. De acuerdo con la figura 22, si el valor del parmetro de pseudo-adivinacin disminuye, la informacin aumenta.
Figura 21. CCI y Funcin de informacin del tem, efecto del parmetro de discriminacin
Figura 22. CCI y Funcin de informacin del tem, efecto del parmetro de pseudo-adivinacin
79
La funcin de informacin de la prueba Una prueba es un conjunto de reactivos; entonces, la informacin de la prueba en el nivel de habilidad se define como la suma de la informacin de todos los reactivos que la componen, en dicho nivel de habilidad.
donde: I( ) = Cantidad de informacin de la prueba en el nivel de habilidad Ii( ) = Informacin suministrada por el reactivo i en el nivel de habilidad n = Nmero de reactivos en la prueba A continuacin se muestra un ejemplo de funcin de informacin de la prueba. Esta curva indica con qu precisin est midiendo la prueba en los diferentes puntos de la escala. En el ejemplo anterior, los sustentantes con un nivel de habilidad cercano a cero estaran siendo medidos con una mayor precisin que los sustentantes con niveles de habilidad en los extremos de la escala.
Figura 23. Funcin de informacin de la prueba (ejemplo 1)
80
Cuaderno tcnico
La funcin de informacin vara dependiendo de los parmetros de los reactivos que conforman la prueba; por lo tanto, la forma de esta curva puede cambiar notablemente de una prueba a otra. En la figura 24 se muestra una funcin de informacin con un nivel general de informacin menor a la mostrada en la figura 23. Adems, esta curva alcanza su informacin mxima en un nivel de habilidad de -1.
Figura 24. Funcin de informacin de la prueba (ejemplo2)
Ntese que el nivel de informacin de la prueba es ms grande que el nivel mostrado por cualquiera de los reactivos. Esto se debe a que la prueba en su conjunto mide con mucha mayor precisin que un reactivo de manera individual. Por lo general la precisin de una aprueba aumentar mientras ms reactivos contenga. Esta curva es muy til en el ensamble de versiones. En el caso de exmenes en los que se aprueba o reprueba, por ejemplo, se buscara considerar los reactivos que promuevan que la funcin de informacin se maximice en el punto de corte de la prueba. Por otro lado, en el caso de pruebas en las que el objetivo es medir con precisin a lo largo de toda la escala, se esperara tener una funcin de informacin que fuera lo ms parecida posible a una lnea horizontal.
81
Error estndar de estimacin La informacin de la prueba est ligada a la precisin con que se est estimando el nivel de habilidad de los sustentantes, Entre mayor informacin, mayor precisin en la estimacin. Entonces, el error de estimacin de la prueba en el nivel de habilidad guarda una relacin inversa con la informacin de la prueba en ese punto y se define por la siguiente expresin:
donde: SE( )= Error estndar de estimacin de I( ) = Cantidad de informacin de la prueba en el nivel de habilidad En la TRI el error estndar de estimacin juega el mismo papel que el error estndar de medida en la teora clsica de los test, con la gran diferencia de que en este caso el error depende del nivel de habilidad que se est estimando. En la figura 25 se muestra la relacin entre la funcin de informacin de la prueba y el error estndar de estimacin (a mayor informacin, menor error
Figura 25. Funcin de informacin y error estndar de estimacin de la prueba (ejemplo1)
82
Cuaderno tcnico
estndar de estimacin). Adems, puede corroborarse que (en este ejemplo) la prueba mide con menor error a los sustentantes cuya habilidad est cercana a cero, mientras que el error es grande en los extremos. La cantidad de error es inversamente proporcional a la informacin; por lo tanto, cuando se tiene una funcin de informacin de la prueba con un nivel general bajo, el error de estimacin ser ms grande. Esto puede verificarse en el ejemplo mostrado en la figura 26; en este caso, la mayor precisin se logra en la medicin de sustentantes con un nivel de habilidad de -1.
Figura 26. Funcin de informacin y error estndar de estimacin de la prueba (ejemplo 2)
La propiedad de invarianza de los modelos de la TRI La propiedad de invarianza es una de las principales caractersticas de los modelos de la TRI. Esta propiedad establece que los parmetros de los reactivos no dependen de la distribucin de habilidad del grupo de sustentantes con el que se lleve a cabo el anlisis. Adems, que el parmetro de habilidad de los sustentantes no depende de la muestra de reactivos que componen la prueba. Aun cuando la propiedad de invarianza puede resultar sorprendente, es posible utilizar el modelo de regresin lineal para explicarla. Cuando el modelo de
83
regresin se ajusta de manera adecuada a los datos, se obtendr la misma recta de regresin (a reserva del error estndar de estimacin) para cualquier subconjunto de datos observados.
Figura 27. Propiedad de invarianza de grupo ejemplificada por el modelo de regresin lineal
a) Recta de regresin ajustada a un subconjunto de datos de la parte baja de la escala
b) Recta de regresin ajustada a un subconjunto de datos de la parte alta de la escala
a) Recta de regresin ajustada a todos los datos
84
Cuaderno tcnico
De la misma forma, los modelos de la TRI estimarn la misma CCI a partir de muestras diferentes de sustentantes de la poblacin objetivo (a reserva del error estndar de estimacin).
Figura 28. Propiedad de invarianza de grupo de la TRI
a) CCI estimada a partir de un grupo de sustentantes de habilidad alta
b) CCI estimada a partir de un grupo de sustentantes de habilidad baja
c) CCI estimada a partir de los dos grupos de sustentantes
85
Ajuste del modelo a los datos Los modelos de la TRI cuentan con diversas aplicaciones para resolver determinados problemas en evaluacin. Sin embargo, muchas de las propiedades de estos modelos incluyendo la invarianza de los parmetros de los reactivos y de la habilidad de los sustentantes slo se alcanzarn de manera satisfactoria si los modelos se ajustan correctamente a los datos. Las CCI tratan de modelar la proporcin de respuestas correctas de diferentes grupos de habilidad; en este sentido, muchos de los estadsticos que se emplean para determinar la bondad del ajuste de los modelos de la TRI se basan en el clculo de las diferencias entre las probabilidades predichas por el modelo y las proporciones de respuestas correctas observadas a partir de los datos. En el programa BILOG-MG (Zimowski et al., 2003), por ejemplo, se utiliza un estadstico que se comporta como una prueba ji-cuadrada que se calcula bajo el siguiente procedimiento (Embretson y Reise, 2000): En primer lugar, el programa estima los parmetros de los reactivos y la habilidad de los sustentantes. Con base en esta habilidad se construyen G intervalos a lo largo de la escala de habilidad, y dentro de ellos se clasifica a cada uno de los sustentantes. A continuacin se calcula la proporcin de respuestas correctas alcanzada en cada grupo y se compara con la probabilidad estimada por el modelo seleccionado, de acuerdo con la siguiente frmula:
donde: G = Nmero de intervalos o grupos de habilidad 2 = Estadstico ji-cuadrada con grados de libertad igual al nmero G de intervalos de habilidad Rg = Proporcin de respuestas correctas en el grupo g Pg( M)= Probabilidad (o proporcin de respuestas correctas) predicha por el modelo, basada en la habilidad media de los sustentantes del grupo g Ng = Nmero de sustentantes en el grupo g
86
Cuaderno tcnico
Este estadstico prueba la hiptesis nula de que el reactivo se ajusta de manera adecuada a los datos, por lo que en todo momento el objetivo ser no rechazar esta hiptesis. La escala de habilidad Hasta el momento se supuso la existencia de una escala de habilidad continua, sobre la cual se ha podido medir tanto la habilidad de los sustentantes como la dificultad de los reactivos. Sin embargo, no se le ha dado ninguna interpretacin a las unidades de medicin de la escala; simplemente se ha utilizado (en todos los ejemplos) de manera arbitraria una mtrica que va de -3 a +3. Una simple transformacin algebraica del modelo logstico de Rasch, por ejemplo, lleva a una ecuacin que es til para entender estas unidades de medida:
Esta ecuacin indica que las unidades en que estn medidas la habilidad del sustentante y la dificultad del reactivo son las mismas que las unidades definidas por la expresin de la izquierda. Dicha expresin es el logaritmo natural del momio de respuesta correcta (probabilidad de xito dividida entre la probabilidad de fracaso) y puede tomar valores muy bajos (cercanos a ) cuando es cercana a 0, o valores muy altos (cercanos a + ) cuando Pi( ) es cercana a 1. Sin embargo, para probabilidades no tan extremas, digamos de 0.05 a 0.95, esta expresin toma valores que van de -3 a 3. Por otro lado, una caracterstica de los modelos de respuesta al tem es que la probabilidad de respuesta correcta, que est dada por la funcin de respuesta al tem Pi( ), permanece invariante ante ciertas transformaciones lineales de los parmetros , a y b. Esto implica que la escala de habilidad es arbitraria y depende del grupo de reactivos y de sustentantes empleados en el anlisis; sin embargo, es posible encontrar una transformacin lineal de los parmetros que convierta la escala y permita que la probabilidad de respuesta correcta permanezca invariante.
87
Por este motivo, la interpretacin de la escala depende de cmo est definida en cada uno de los programas que estiman los modelos de la TRI. Sin embargo, una vez definida la escala, las diferencias entre sustentantes o reactivos tendrn el mismo significado. Anlisis de distractores El primer paso para realizar este anlisis de manera grfica consiste en dividir a los sustentantes en grupos de habilidad (seleccionando como criterio de habilidad, el puntaje observado en la prueba o la estimada por la TRI). Dependiendo del tamao de la muestra, se puede seleccionar a los sustentantes de acuerdo con los quintiles o decles del criterio de habilidad elegido. Para cada grupo de habilidad se debe calcular el porcentaje de sustentantes que eligi cada una de las posibles opciones de respuesta del reactivo (respuesta correcta y distractores). La siguiente tabla ejemplifica este clculo para un reactivo de cuatro opciones de respuesta en que la opcin correcta es la B y las tres restantes corresponden a distractores (puede notarse que la opcin correcta est marcada por un asterisco). Conforme se incremente la habilidad de los grupos (el grupo 1 es el de menor habilidad y el 5 es el de mayor habilidad), un reactivo con un comportamiento estadstico adecuado debe mostrar un aumento en el porcentaje de sustentantes que seleccionan la opcin correcta, y una disminucin en el porcentaje
88
Cuaderno tcnico
Tabla 9. Porcentaje de sustentantes que eligi cada opcin de respuesta (por grupos de habilidad definidos por quintiles)
Grupo 1 2 3 4 5 A Opcin de respuesta 5.6 B* 32.6 26.8 19.5 12.9 6.5 C D Total 100 100 100 100 100
29.6 26.0 21.8 14.3 2.6
17.4 32.4 83.5 54.5
29.8 26.3 18.3 7.4
32.2
de sustentantes que seleccionan los distractores. Si se grafica la mediana de habilidad de cada grupo contra el porcentaje de seleccin de cada opcin de respuesta, pueden visualizarse mejor estos patrones esperados. La figura 29 muestra un reactivo de cuatro opciones de respuestas en la que slo una, la B, es la correcta. La curva con tringulos representa la respuesta correcta y puede verse que se comporta como es de esperar en un buen reactiFigura 29. Frecuencia relativa de las opciones de respuesta por grupo de habilidad. Funcionamiento esperado
89
vo: lo contestan menos los sustentantes de bajo desempeo (a la izquierda en la grfica) y ms los sustentantes de desempeo alto (a la derecha). Los distractores tambin tienen en la grfica el comportamiento adecuado; todos son opciones verosmiles para los grupos de bajo desempeo y su inclusin en el reactivo est justificada. Los patrones irregulares en la grfica de distractores ayudan a delimitar algunas de las posibles causas del mal funcionamiento del reactivo. A continuacin se muestran algunos ejemplos: Cuando un distractor funciona como respuesta correcta y la respuesta correcta como distractor, puede tratarse de un error de codificacin en la clave de respuesta correcta.
Figura 30. Frecuencia relativa de las opciones de respuesta por grupo de habilidad. Funcionamiento no esperado 1
Cuando uno de los distractores tiene un comportamiento similar al presentado por la respuesta correcta, puede ser que dicho distractor tenga elementos que confundan a los sustentantes de habilidad alta o incluso que el reactivo tenga dos opciones de respuesta correcta.
90
Cuaderno tcnico
Cuando todas las opciones de respuesta (incluyendo la correcta) se comportan de manera similar, puede deberse a la ausencia de una opcin de respuesta correcta o a problemas en su redaccin.
91
El mtodo grfico para revisar el funcionamiento de los distractores es muy utilizado y ofrece de manera sencilla una forma de revisar de un vistazo el comportamiento de todos los distractores en todos los rangos de habilidad. Existen, sin embargo, otros mtodos. El anlisis de los distractores tambin puede hacerse a partir del clculo de la correlacin de cada opcin de respuesta con la calificacin total. As lo hacen varios programas. A continuacin se presenta como ejemplo la salida del programa Winsteps (Linacre, 2008) para algunos reactivos de matemticas. La primera columna (entry number) se refiere al nmero de reactivo, la segunda (data code) es la opcin de respuesta incluyendo las no contestadas (en blanco) y las que tienen errores de codificacin (asteriscos). La tercera columna es el valor asignado a la respuesta (1 para la respuesta correcta y 0 para las dems). Siguen varias columnas con informacin diversa, hasta la columna que aqu interesa: PTBSE CORR. Esta es la correlacin punto-biserial entre la opcin correspondiente y el total. El ejemplo es interesante porque pueden detectarse varias cosas. En particular destaca el reactivo con el nmero 9. Puede verse que a la opcin E tiene como valor 1, lo que indica que se trata de la respuesta que codificamos como correcta. Al parecer, se trata de un reactivo difcil (apenas el 8% lo responde correctamente). Sin embargo, hay que notar que la opcin C muestra una correlacin positiva mucho ms alta (0.42), lo que indica que los sustentantes con calificaciones ms altas tienden a contestar esta opcin. An ms, la opcin que supuestamente es la correcta tiene una correlacin negativa (-0.09) que, aunque muy pequea, sugiere que hay alguna confusin entre quienes logran mejor desempeo. Como conclusin, debe verificarse un posible error de codificacin de las opciones de respuesta. En otro ejemplo, el reactivo marcado con el nmero 7 presenta distractores muy dbiles; tres de ellos apenas atraen a entre 1 y 2 por ciento de los sustentantes cada uno. En contraste, entre la opcin marcada como correcta E y el distractor B se quedan con el 95% de las respuestas. Todos los distractores tienen correlaciones negativas, como se espera. De hecho, el reactivo en conjunto funciona bastante bien, por lo que un cambio no es recomendable. Sin embargo, siempre se puede aprender algo, y una revisin del reactivo por parte del elaborador puede guiar el criterio para ver por qu funciona o no funciona un dis92
Cuaderno tcnico
Tabla 10. Anlisis de distractores en Winsteps
93
tractor. Adems, tantas opciones de respuesta parecen superfluas en este caso. Claramente podra eliminarse algn distractor, y as hacerle ahorrar tiempo y esfuerzo al sustentante, sin que el reactivo perdiera gran cosa. Por ltimo, est el reactivo 21, que muestra dos opciones de respuesta con correlaciones positivas. La respuesta correcta C tiene una correlacin temtotal moderadamente buena, lo que indica que el reactivo se comporta como se espera en trminos generales. Sin embargo, el distractor E tiene una correlacin positiva, aunque ciertamente baja, lo que sugiere que atrae ms a sustentantes de mejor desempeo. Qu hacer? En principio, puede no hacerse nada, ya que el reactivo parece comportarse bien y la correlacin del distractor no es tan alta (y es menor a la de la respuesta correcta). Ciertamente, valdra la pena echar una mirada al reactivo y tratar de averiguar la causa de este comportamiento, a manera de comprobacin y para garantizar que no haya nada incorrecto. Pero, y esto hay que subrayarlo bien, el anlisis no indica que el reactivo est necesariamente mal; s debe revisarse y con cuidado, pero existen casos en los que es aceptable que una opcin de respuesta incorrecta pueda atraer a sustentantes de buen desempeo sobre los de un desempeo menor sin que el contenido o las caractersticas psicomtricas del reactivo sean inapropiadas. De hecho, ese es el sentido de incorporar distractores: precisamente distraer. Y para eso se incluyen varios distractores: para atraer a distintos grupos de sustentantes. Anlisis de funcionamiento diferencial Existen diferentes mtodos estadsticos para detectar reactivos con funcionamiento diferencial. La propiedad de invarianza de grupo de la TRI, por ejemplo, facilita la deteccin de reactivos con sesgos, cuando en un grupo se muestran diferencias con respecto a otro. Algunas veces basta con graficar los parmetros estimados con una poblacin contra los de la otra y hacer una inspeccin visual de las estimaciones para detectar los reactivos que se salen notoriamente del patrn esperado.
94
Cuaderno tcnico
Un mtodo general basado en puntuaciones observadas en el reactivo es el mtodo Mantel-Haenszel. Compara la razn de momios de respuesta correcta de los dos grupos de inters para diferentes intervalos de habilidad y puede calcularse e interpretarse de acuerdo al siguiente procedimiento: De los dos grupos de sustentantes que se quieren comparar (por ejemplo mujeres y hombres) se define uno como grupo de referencia (R) y como grupo focal (F). Se agrupan los sustentantes de los dos grupos en i intervalos (entre tres y cinco), de acuerdo al puntaje observado en la prueba. Para cada intervalo i se construye una tabla de contingencia como la siguiente:
Tabla 11. Tabla de contingencia para el intervalo i
donde: R = Grupo de referencia F = Grupo focal ai = Nmero de sustentantes en el grupo de referencia que contestaron correctamente el reactivo bi = Nmero de sustentantes en el grupo de referencia que contestaron incorrectamente el reactivo ci = Nmero de sustentantes en el grupo focal que contestaron correctamente el reactivo di = Nmero de sustentantes en el grupo focal que contestaron incorrectamente el reactivo
95
Se calcula la razn de momios para la probabilidad de respuesta correcta entre los dos grupos (R y F), de acuerdo con la siguiente frmula.
donde: = Razn de momios para el intervalo i i pRi = Proporcin de sustentantes en el grupo de referencia que contestaron correctamente el reactivo pFi = Proporcin de sustentantes en el grupo focal que contestaron correctamente el reactivo qRi = Proporcin de sustentantes en el grupo de referencia que contestaron incorrectamente el reactivo qFi = Proporcin de sustentantes en el grupo focal que contestaron incorrectamente el reactivo La razn de momios indica si hay diferencias en el rendimiento de los dos grupos al contestar el reactivo. De tal forma que si i = 1, no hay diferencia en el rendimiento de los dos grupos y, por lo tanto, no hay funcionamiento diferencial del reactivo en el intervalo i. Si i > 1, el rendimiento del grupo de referencia fue mejor al mostrado por el grupo focal; cuestin que se revierte si i < 1. Hasta el momento se calcul la razn de momios para cada intervalo de habilidad. El mtodo Mantel-Haenszel estima un estadstico conjunto para todos los intervalos mediante una suma ponderada de las i.
96
Cuaderno tcnico
donde: = Estadstico de Mantel-Haenszel Ti = Nmero total de sustentantes en el intervalo i Este estadstico toma valores de cero a infinito positivo. Por tal motivo suele transformarse a una escala simtrica en la que el valor de cero indica que no existe funcionamiento diferencial del reactivo. Esta escala es conocida como delta ( ) y se define de la siguiente manera: = 2.35*ln( ) La escala delta es directamente comparable con la escala de dificultad para los reactivos que utiliza el Educational Testing Service (ETS). La escala revierte la interpretacin del estadstico, de tal modo que valores positivos de delta indican que el reactivo funciona a favor del grupo focal, mientras que valores negativos indican que el reactivo desfavorece a este grupo. El ETS interpreta los valores delta de la siguiente manera (Zieky, 2003):
Tabla 12. Interpretacin del estadstico delta de Mantel-Haenszel para funcionamiento diferencial
Categora DIF del ETS Sin importancia Leve a moderada Valor de delta 1 | | < 1.5 1.5 | | | |<1
Moderada a alta
97
n este anexo se presentan, a manera de manual, los pasos necesarios para un anlisis bsico de reactivos. El objetivo es analizar el comportamiento estadstico de 20 reactivos de opcin mltiple (con cinco opciones de respuesta) pertenecientes a una misma rea de conocimiento. Estos reactivos se aplicaron en un ejercicio de piloteo a una muestra representativa de la poblacin objetivo de 500 sustentantes. En una primera fase se calcularn y analizarn los principales estadsticos postulados por la teora clsica de los test (TCT), utilizando la hoja de clculo de Microsoft Excel. Este anlisis tiene la ventaja de utilizar una herramienta computacional de uso comn y de fcil acceso, pero tiene la desventaja de restringir el tamao del ejercicio de calibracin a las capacidades del programa (mximo 256 reactivos y 65,536 sustentantes, aproximadamente). En la segunda fase se calibrarn los mismos 20 reactivos en el programa BILOG-MG (Zimowski et al., 2003), se analizarn los estadsticos de la TCT y los correspondientes a la teora de la respuesta al tem (TRI) y se revisarn algunas de las grficas de este programa. Ejercicio de calibracin 1: Excel Datos necesarios para el anlisis En la hoja Observaciones del archivo Anlisis1.xls se encuentran las respuestas de 500 sustentantes a cada uno de 20 reactivos de una prueba. Cada rengln representa un sustentante y cada columna un reactivo.
Captulo 4 Prctica de calibracin y anlisis de reactivos
99
Hoja 1: Observaciones
Sustentantes
Reactivos
En la hoja Correctas del archivo Anlisis1.xls aparecen las claves de respuesta correcta a cada uno de los 20 reactivos. Hoja 2: Correctas
Reactivos
Anlisis de datos faltantes Antes de comenzar con el anlisis de reactivos es necesario revisar la calidad de las observaciones para evitar la presencia de registros con un exceso de datos faltantes; esto es, sustentantes que hayan dejado una cantidad importante de preguntas sin contestar. Este tipo de casos pueden interferir en la estimacin de los estadsticos de anlisis, incorporando sesgos importantes en el resultado final. En este caso se buscarn y en su caso se eliminarn del anlisis los registros que contengan seis o ms reactivos sin respuesta (ms del 30% del total de los reactivos del rea). En la hoja Observaciones inserte la variable Faltantes, por medio de la cual se identificarn los registros que contengan seis o ms preguntas sin contestar (en blanco). Introduzca la siguiente frmula para que el programa asigne un valor de 1 a estos casos y un valor de 0 a los sustentantes con datos suficientes de acuerdo con el criterio establecido. Copie la frmula para cada sustentante (hacia abajo) y utilice la funcionalidad de Autofiltro para seleccionar todos los sustentantes que tengan un valor de 1 en la variable Faltantes (para activar el autofiltro, seleccione la opcin Autofiltro en el submen Filtro del men Datos).
100
Cuaderno tcnico
=SI(CONTAR.BLANCO(B2:U2)>=6,1,0)
En este caso solamente el sustentante identificado con el folio S407 present un nmero excesivo de respuestas en blanco, por lo cual se eliminar del anlisis (seleccione la fila completa y elimnela).
101
Despus de esta operacin y una vez desactivado el Autofiltro, se podr comenzar con el anlisis de reactivos. Calificacin de la prueba Los estadsticos de la TCT se basan en las puntuaciones de los sustentantes en la prueba completa (rea) y en cada uno de los reactivos que la componen. Por tal motivo, el primer paso en el anlisis de reactivos consiste en transformar los datos observados en puntajes, a travs de la comparacin de las respuestas de los sustentantes con las claves de respuesta correcta; de forma que si la respuesta a determinado reactivo coincide con la respuesta correcta, se otorgar al sustentante un punto; de lo contrario, el sustentante no recibir ningn punto por el reactivo.4 En la hoja TCT del archivo Anlisis1.xls copie los nombres de los reactivos (primera fila) y los nmeros de folio de los sustentantes (primera columna) en el mismo orden en el que aparecen en la hoja Observaciones.
La siguiente frmula compara la respuesta del primer sustentante al primer reactivo con la respuesta correcta correspondiente, y asigna un 1 si estas coinciden o un 0 en el caso contrario. Introduzca la frmula. La respuesta del sustentante S001 al reactivo 1 se encuentra en la celda B2 de la hoja Observaciones, mientras que la clave de respuesta correcta de este
4
Se est suponiendo que todos los reactivos en la prueba tienen el mismo valor (mismo peso).
8
102
Cuaderno tcnico
=SI('Observaciones '!B2=Correctas!B$2,1,0)
reactivo se encuentra en la celda B2 de la hoja Correctas. Adems, se ha utilizado el signo $ para fijar la referencia de rengln de las respuestas correctas y poder copiar la frmula para los casos restantes. Copie la frmula a todas las celdas restantes.
De esta forma se puede observar, por ejemplo, que el sustentante S001 respondi de manera correcta los reactivos: 2, 3, 4, 6, 7, 8, 9, 10, 11, 12, 13, 16, 17 y 19. Y lo hizo de manera incorrecta para los reactivos 1, 5, 14, 15, 18 y 20. Hasta este punto se ha obtenido la calificacin de cada sustentante a nivel de reactivo. Ahora es necesario obtener su puntaje en la prueba completa (rea); en este caso, el nmero de reactivos contestados correctamente. En la hoja TCT defina la variable Puntaje en la que se calcular el puntaje observado de cada sustentante en la prueba. Escriba la siguiente frmula para el primer sustentante.
103
=SUMA(B2:U2)
Copie la frmula para todos los sustentantes (hacia abajo) y con ello se obtendrn todos los puntajes y se dar por terminada la calificacin de la prueba.
Anlisis de reactivos
Estimacin del grado de dificultad de los reactivos Una vez calificada la prueba, es posible calcular el grado de dificultad de los reactivos como el porcentaje de respuestas correctas observado para cada uno de ellos. Vaya al final de la tabla y escriba la siguiente frmula para el primer reactivo. La frmula calcula el porcentaje de respuestas correctas al reactivo 1 (considerando que se tienen las respuestas de 499 sustentantes). Despus de copiar la frmula para todos los reactivos (a la derecha), identifique los reactivos que no cumplen con los criterios de aceptacin establecidos en este cuadernillo para el grado de dificultad.
104
Cuaderno tcnico
=SUMA(B2:B500)*100/499
El grado de dificultad del reactivo 20 (13.83) result ms bajo que el mnimo recomendado (20%); por lo tanto, este reactivo tendr que ser revisado y no podr formar parte del banco de reactivos hasta que no sea corregido y probado nuevamente. Estimacin de la correlacin punto biserial La correlacin punto biserial se utiliza como indicador del nivel de discriminacin de los reactivos. En este ejemplo se calcular utilizando la frmula de Excel
105
para la correlacin de Pearson entre los puntajes de cada reactivo y los puntajes totales de la prueba. As, para calcular la correlacin punto biserial del reactivo 1, vaya al final de la tabla y escriba la siguiente frmula:
=PEARSON(B2:B500,$V$2:$V$500)
Se han incorporado signos $ en las referencias de rengln y columna para los puntajes totales de la prueba, con la finalidad de poder copiar la frmula para todos los reactivos (a la derecha) sin modificar el sentido del clculo. Despus de copiar la frmula, identifique los reactivos con una discriminacin ms baja de lo establecido como lmite inferior para este indicador (0.15).
106
Cuaderno tcnico
En este caso todos los reactivos cumplen con los criterios de aceptacin de discriminacin. Estadsticos de la prueba (versin) Adems del anlisis del funcionamiento estadstico individual de los reactivos, en este apartado se calcular el coeficiente de consistencia interna alfa de Cronbach (como una estimacin de la fiabilidad de la prueba); y se estimar el error estndar de medida de la prueba. Fiabilidad (coeficiente alfa de Cronbach) Para el clculo del coeficiente alfa de Cronbach se requiere estimar la varianza de los puntajes observados en los reactivos y en la prueba. Vaya al final de la tabla y escriba la siguiente frmula para estimar la varianza de los puntajes del reactivo 1.
=VAR(B2:B500)
Copie la frmula para todos los reactivos y para el puntaje total (a la derecha hasta la columna V).
107
Con esta informacin se podr calcular el ndice de consistencia interna alfa de Cronbach. Vaya al final de la tabla e introduzca la frmula para el clculo del coeficiente alfa, tomando en cuenta que la prueba tiene 20 reactivos.
=(20/19)*(1-(SUMA(B506:U506)/V506))
En este caso se obtuvo un valor de 0.702 para alfa. Esto quiere decir que, al menos, el 70% de la varianza de las puntuaciones observadas se debe a la varianza de las puntuaciones verdaderas y el 30% restante es atribuible a errores de medicin. Aumentar el nmero de reactivos y mejorar su calidad puede aumentar la fiabilidad de la prueba. Error estndar de medida Tomando el coeficiente alfa como coeficiente de fiabilidad de la prueba, es posible calcular el error estndar de medida de acuerdo con la frmula descrita en este cuaderno tcnico. Dirjase al final de la tabla y escriba la siguiente frmula:
108
Cuaderno tcnico
=RAIZ(V506)*RAIZ(1-B508)
En este caso, la TCT indica la presencia de un error de medida de cerca de dos puntos en cualquier regin de la escala (para cualquier puntaje observado). Esto quiere decir que la puntuacin verdadera de un sustentante que obtuvo una puntuacin observada de X est en el intervalo (X - 3.86 , X + 3.86).5 Ejercicio de calibracin 2: BILOG-MG En este apartado se calibrar la misma prueba analizada en la primera seccin de este anexo, por medio del modelo de Rasch. A diferencia del anlisis por TCT, los modelos de la TRI requieren de la aplicacin de algoritmos ms complicados para la estimacin de los parmetros; por tal motivo, en este ejercicio se utilizar el programa especializado BILOG-MG como herramienta computacional.6 El ejercicio se centrar en la descripcin de los archivos de entrada, incluyendo la explicacin de los comandos bsicos de la sintaxis, as como en la interpretacin y anlisis de los resultados principales.
5 6
Intervalo de confianza con = 0.5, suponiendo que los errores se distribuyen de manera normal. En la siguiente liga podr descargar una versin de prueba del programa BILOG-MG para Windows: http://www.ssicentral.com/irt/downloads.html
109
Datos necesarios para el anlisis Para un anlisis bsico en el programa BILOG-MG se requiere de tres archivos de texto plano (.txt) como insumo, que pueden ser construidos o modificados en el bloc de notas de Windows: Archivo de datos (respuestas de los sustentantes) (*.DAT) Archivo de respuestas correctas (*.KEY) Archivo con la sintaxis de Bilog (*.BLM) Por convencin del programa, cada uno de los archivos ser identificado por la extensin sealada; adems, se recomienda que estn localizados en el mismo directorio. Descripcin del archivo de datos Los campos (columnas) en el archivo de datos son ledos de la siguiente manera: El folio o clave de identificacin del sustentante (con un mximo de 30 caracteres) El nmero de versin (si se van a calibrar dos o ms versiones) El nmero de grupos (si es necesario) El peso muestral de cada sustentante (si es necesario) Las respuestas a cada uno de los tems En el caso de este anlisis, los campos 2, 3 y 4 no sern necesarios. En el archivo Anlisis2.DAT encontrar los datos7 requeridos para el anlisis de acuerdo con el siguiente esquema:
Folio o identificador del sustentante Respuestas a los 20 reactivos
Se ha eliminado el sustentante detectado en la fase 1 con un nmero grande de respuestas omitidas.

Cuaderno tcnico
110
Descripcin del archivo de respuestas correctas El archivo de respuestas correctas contiene la clave de respuesta correcta de cada uno de los reactivos incluidos en el anlisis. En el caso de tener ms de una versin, se deber incluir un rengln de respuestas para cada versin. Este archivo debe tener el mismo formato de columnas que el archivo de datos, es decir, la respuesta a la pregunta 1 estar ubicada en la misma columna que en el archivo de datos. Para construir el archivo de respuestas de este anlisis, abra un documento en blanco en el Bloc de notas y escriba la siguiente cadena de respuestas correctas: BDBBCCDEABDBACCBDEAA, tal y como se muestra en la siguiente figura:
5 espacios en blanco (4 del folio + guin)
Respuestas correctas de los 20 reactivos
Una vez ubicadas las claves de respuesta correcta en el lugar indicado, guarde este archivo con el nombre Claves.KEY en el mismo directorio en el que se encuentre localizado el archivo Anlisis2.DAT. Descripcin del archivo de sintaxis de BILOG El tercer archivo de entrada contiene las instrucciones necesarias para que el programa realice la calibracin de los reactivos. Este archivo puede ser construido directamente en el programa BILOG-MG, pero tambin podra desarrollarse y editarse en un editor de texto plano, como el Bloc de notas de Windows. Para construir este archivo con la ayuda del programa BILOG-MG siga los siguientes pasos: 1. Abra el programa BILOG-MG. 2. Presione el icono para crear un documento nuevo o seleccione la opcin New en el men File.
111
3. Aparecer la ventana Abrir. Asigne el nombre Anlisis.BLM al nuevo archivo de sintaxis y gurdelo en el mismo directorio en que se encuentran los archivos Anlsis2.DAT y Claves.KEY. Presione el botn Abrir para regresar a la ventana principal de BILOG-MG.
4. En la pantalla se desplegar un documento de texto en blanco. Si el usuario tiene experiencia previa con los comandos de la sintaxis y su estructura, podra teclear directamente el texto en esta hoja. Sin embargo, en este caso se construir la sintaxis con la ayuda de los mens del programa. 5. Note que se han desplegado varias opciones en la barra del men principal. Para este ejemplo se utilizarn los mens Setup, Data, Run y Output.
112
Cuaderno tcnico
6. El men Setup se utiliza para describir el modelo de la TRI que se utilizar para el anlisis. Primero, seleccione la opcin General de este men.
7. La ventana General cuenta con cuatro pestaas; en ellas se podr elegir entre diferentes opciones para el anlisis. En la pestaa Job description indique que el nmero de reactivos en la prueba (Total number of Items) es igual a 20.
113
8. En la pestaa Model especifique que el modelo que se utilizar en el anlisis es el de 1 parmetro (1-Parameter Logistic (1PL)) y elija la mtrica logstica (Response Function Metric = Logistic).
9. Presione el botn Aceptar para regresar a la pantalla principal. 10. Se especificarn los reactivos que sern calibrados. Esto se hace por medio de la opcin Item Analysis del men Setup.
11. Aparecer la ventana de Item Analysis. Cambie el valor del tamao de la subrea (Subtets Length) a 20, seleccionando la casilla en cuestin y escribiendo 20. Con esto, los 20 reactivos de la prueba sern analizados. Presione el botn Aceptar cuando haya terminado.
114
Cuaderno tcnico
12. Esto completa la especificacin del modelo. Lo que falta es declarar la informacin sobre los datos y las claves de respuesta correcta. Para hacer esto, se utilizar el men Data. En primer lugar se especificarn las caractersticas del archivo de datos Anlisis2.DAT. Seleccione la opcin Examinee Data del men Data.
13. Se abrir la ventana Examinee Data. Establezca en 4 el nmero de caracteres del folio (Number of Case ID Characters = 4).
115
14. Para proporcionar la informacin sobre el nombre y el formato del archivo de datos, seleccione la pestaa Data File: Inserte el nombre del archivo de datos Anlisis2.DAT en el cuadro de texto Data file name. Complete la tabla Read as Fixed-Column Records, capturando el valor de 1 en la casilla marcada como First correspondiente a Case ID. Con esto se est indicando al programa que el identificador (folio) del sustentante comienza en la primera columna del archivo de datos. Despus escriba el nmero 4 en la casilla Last de Case ID para indicar que el identificador del sustentante termina en la cuarta columna. Note que los campos: Form number, Group number, etctera, se encuentran deshabilitados, debido a la informacin proporcionada previamente en el men Setup sobre el nmero de versiones, el nmero de grupos, etctera.
116
Cuaderno tcnico
La respuesta al primer reactivo se encuentra en la sexta columna del archivo de datos, por lo que deber ingresar 6 en la casilla marcada como First del campo Response String. La respuesta al ltimo reactivo se encuentra en la columna 25, entonces ingrese 25 en la casilla Last del mismo campo. BILOG-MG asume por defecto que en el archivo de datos contiene una lnea para cada sustentante. Lo cual es aplicable a nuestro ejemplo y a la mayor parte de los datos que se trabajan en el Ceneval. Presione el botn Set Format para escribir una declaracin de formato en el campo Format String. Presione el botn Aceptar para regresar a la pantalla principal de BILOG-MG.
15. Ahora se debe indicar al programa cul es el archivo de claves de respuesta correcta. Seleccione la opcin Item Keys del men Data.
117
16. Escriba el nombre del archivo de respuestas correctas (Claves.KEY) en el cuadro de texto Item Key File Name y presione el botn Aceptar para regresar a la pantalla principal de BILOG-MG.
17. Despus de completar las especificaciones en trminos del modelo y de los datos, se deber crear el archivo de sintaxis; seleccione la opcin Build Syntax en el men Run.
118
Cuaderno tcnico
18. La sintaxis creada por el programa se desplegar en la ventana principal, como se muestra a continuacin. Note que los comandos ITEMS y SCORE, de la sintaxis, no tienen ninguna opcin especificada, lo que indica que se utilizarn las opciones que por defecto tiene el programa en estos dos casos.
19. Para indicar que se requiere que el parmetro de discriminacin se fije en 1 (modelo de Rasch) y no en un valor determinado por el programa para lograr un mejor ajuste, es necesario escribir la opcin Rasch despus del comando CALIB, dentro de la sintaxis.
119
Tambin es posible insertar esta opcin con la ayuda de los mens del programa. Vaya al men Technical y seleccione la opcin Calibration Options. Se desplegar una ventana en donde deber seleccionar la casilla One Paramater Logistic Model y presionar el botn OK.
Reconstruya la sintaxis con la opcin Built Syntax del men Run y la opcin Rasch se insertar de manera automtica en el comando CALIB de la sintaxis. 20. Salve la sintaxis seleccionando la opcin Save en el men File. Con esto se ha terminado la construccin de los archivos de entrada requeridos por el programa BILOG-MG
120
Cuaderno tcnico
Calibracin de reactivos (ejecucin del programa) Una vez que se han construido los tres archivos de entrada para el programa BILOG-MG, se llevar a cabo la calibracin y el anlisis de reactivos. Aun cuando el programa puede ejecutarse fase por fase por medio del men Run (utilizando las opciones Classical Statistics Only, Calibration Only y Scoring Only), las tres fases pueden producirse en secuencia seleccionando la opcin Stats, Calibration and Scoring de este men. Ejecute las tres fases del programa.
121
Despus de completar exitosamente las tres fases del anlisis, aparecer un mensaje en la pantalla reportando esta situacin. Si se encontrara algn problema durante el anlisis, este mensaje indicara que no fue posible completar de manera exitosa todas las fases y se deber revisar el procedimiento de construccin de los archivos de entrada.
Presione el botn Aceptar. Resultados del anlisis Para acceder a los archivos de salida del anlisis se utilizar el men Output. Las estadsticas de la teora clsica se encuentran en el archivo con extensin *.ph1.
122
Cuaderno tcnico
En este archivo (Anlisis.ph1) se incluye una tabla con los siguientes estadsticos clsicos (se sealan los mencionados en este manual):
Nmero de sustentantes que respondieron el reactivo Nmero de respuestas correctas Grado de dificultad Correlacin punto biserial ajustada
Con la informacin contenida en la tabla se puede concluir que el nico reactivo que no podra formar parte del banco es el reactivo nmero 20, debido a que su grado de dificultad y su correlacin punto biserial estn por debajo de los criterios propuestos. Como podr notar, la correlacin punto biserial reportada en esta salida y la calculada en el ejercicio de calibracin 1 es diferente para todos los reactivos, esto se debe a que el programa BILOG-MG realiza un ajuste en el clculo de esta correlacin, al sustraer el puntaje del reactivo analizado de la puntuacin total. Con esto se busca remover la influencia directa del reactivo en el puntaje global, impidiendo que el valor de la correlacin sea sobreestimado (sobre todo en pruebas con pocos reactivos). En el archivo *.ph2 se encuentra la informacin de la calibracin de los reactivos por el modelo de la TRI especificado (en este caso Rasch).
123
El archivo Anlisis.ph2 incluye una tabla con la estimacin de los parmetros de los reactivos (a, b y c), adems del estadstico ji-cuadrada para el ajuste del reactivo a los datos. A continuacin se muestra la primera parte de la tabla y se sealan los estimadores descritos en este cuadernillo.
Parmetro a Parmetro b Parmetro c Ji-cuadrada (p-valor para la prueba de bondad de ajuste)
En el caso del modelo de Rasch, el parmetro de discriminacin a se fija en un valor de 1 y el parmetro de pseudo-adivinacin c se fija en un valor de 0. En este ejemplo, todos los reactivos muestran un parmetro de dificultad b dentro
124
Cuaderno tcnico
de los lmites de aceptacin; sin embargo, los reactivos 7, 16 y 18 exhiben un desajuste entre el modelo y los datos de acuerdo con la prueba ji-cuadrada.
Adems de los resultados numricos de la calibracin, el programa grafica las curvas caractersticas y las funciones de informacin de los reactivos, as como la funcin de informacin y el error estndar de medida de la prueba. Para ingresar al asistente de grficos, seleccione la opcin Plot en el men Run.
Se desplegar la pgina principal del asistente de grficos.
125
Presione el botn ICC para desplegar la curva caracterstica de cada uno de los reactivos. A continuacin se muestra la curva caracterstica del reactivo 1.
126
Cuaderno tcnico
La dificultad de este reactivo es igual a -1.254; por lo tanto, la curva caracterstica indica que la probabilidad de que un sustentante con habilidad igual a -1.254 responda correctamente este reactivo es igual a 0.5.8 Verifique este resultado en la grfica. Presione el botn Main Menu para regresar al men principal y seleccione el botn Information para desplegar la funcin de informacin de cada uno de los reactivos. A continuacin se muestra la funcin de informacin del reactivo 1.
Como podr observar, el punto de mayor informacin se da justamente en el valor del parmetro de dificultad b del reactivo (-1.254 para el reactivo 1). Para corroborar esto, regrese al men principal presionando el botn Main Menu y seleccione el botn ICC and Info. En la pantalla aparecern, de forma simultnea, la curva caracterstica y la funcin de informacin de cada reactivo. A continuacin se muestran los grficos correspondientes al reactivo 1.
Este resultado no es aplicable para el modelo de tres parmetros.

127
Revisando las curvas de los reactivos de la prueba, tambin podr corroborar que todos ellos alcanzan su mximo de informacin en el mismo nivel. Esto se debe a que el modelo de Rasch supone que todos los reactivos tienen un parmetro de discriminacin igual a 1 y un parmetro de pseudo-adivinacin igual a 0. Regrese al men principal y presione el botn Total Info. En la pantalla se desplegar la funcin de informacin de la prueba, as como el error estndar de medida en cada punto de la escala.
128
Cuaderno tcnico
Debe notar que la prueba presenta mayor informacin (es ms precisa) en el centro de la escala de habilidad (el programa BILOG-MG establece, por defecto, la habilidad media de los sustentantes en el valor cero de la escala); adems, la informacin disminuye simtricamente mientras se aproxima a los valores extremos de la escala. La informacin de la prueba puede leerse en el eje vertical del lado izquierdo y el error estndar en el eje vertical del lado derecho. Esto se debe a la distribucin de las dificultades de los reactivos de esta prueba. Otras distribuciones darn como resultado curvas de informacin diferentes. Regrese al men principal y elija la opcin Matrix Plot. En la pantalla aparecer una tabla con las curvas caractersticas de todos los reactivos de la prueba.
Esta grfica permite comparar las caractersticas de todos los reactivos. En este caso, la mayora de los reactivos funcionan en la zona media de la escala mientras muy pocos de ellos lo hacen en los extremos (situacin que se refleja en la funcin de informacin de la prueba). Una cuestin que es importante revisar grficamente es el ajuste de las curvas caractersticas de los reactivos a los datos, en especial en el caso de los reactivos que se han sealado con un desajuste significativo de acuerdo al estadstico Jicuadrada. Para visualizar el ajuste ser necesario modificar la sintaxis y volver a
129
calibrar la prueba. Seleccione la opcin Exit en el men principal del asistente de grficos para cerrar el asistente. Introduzca la instruccin Plot = 1.0 en el comando CALIB directamente en la sintaxis.
Seleccione la opcin Stats, Calibration and Scoring en el men Run para calibrar nuevamente la prueba. Cuando se hayan completado satisfactoriamente todas las fases, abra nuevamente el asistente de grficos seleccionando la opcin Plot en el men Run y seleccione la opcin ICC para ver las curvas caractersticas de los reactivos.
130
Cuaderno tcnico
Con la modificacin de la sintaxis, en estas grficas se ha incorporado la informacin sobre el ajuste de la curva caracterstica a los datos. En la grfica se muestra el porcentaje de respuestas correctas observado para diferentes grupos de habilidad, adems de intervalos al 95% de confianza para este porcentaje (suponiendo que la probabilidad predicha por el modelo es correcta). Esto ayudar a analizar en qu regin de la escala de habilidad se presentan los desajustes detectados por las pruebas de bondad de ajuste. Utilizando los botones Next y Prev vaya a las grficas de las curvas caractersticas de los reactivos sealados con un desajuste significativo de acuerdo a la prueba Ji-cuadrada (Reactivos: 7, 16 y 18). En el caso del reactivo 7, el desajuste parece darse en la parte baja de la escala de habilidad.
Por el contrario, el reactivo 16 muestra un desajuste en la parte alta de la escala.
131
Finalmente, el reactivo 18 muestra un comportamiento ms errtico y difcil de ajustar por medio de una curva caracterstica.
En este caso sera conveniente buscar otros reactivos equivalentes, pero con un mejor ajuste, para incorporarlos en las versiones finales (sobre todo en el caso del reactivo 18).
132
Cuaderno tcnico
Otros modelos Si se utiliza un modelo diferente al de Rasch para analizar los reactivos, se deber hacer la siguiente modificacin en la sintaxis de BILOG-MG. Elimine la opcin Rasch que se encuentra despus del comando CALIB, en la sintaxis.
Modifique el valor de la opcin NPArm del comando GLOBAL a 2 si se van a calibrar los reactivos por el modelo de dos parmetros y a 3 si se quiere utilizar el modelo de tres parmetros. La sintaxis final para el primer caso quedar de la siguiente manera:
133
Seleccione la opcin Stats, Calibration and Scoring en el men Run para calibrar nuevamente la prueba. Realice otra vez el anlisis de los reactivos considerando el nuevo modelo. Conclusiones del anlisis En los dos ejercicios anteriores pudieron ponerse en prctica dos modelos de medicin para el anlisis de reactivos. Primero se utiliz el programa Excel para calcular los estadsticos de la TCT, despus se hizo un anlisis por medio del modelo de Rasch en el programa BILOG-MG. Estos ejercicios ejemplifican los procedimientos bsicos de anlisis que se emplean en el Ceneval. Se invita al lector a que guarde los archivos generados con el objetivo de que puedan servirle como gua en los anlisis propios. Ejercicio de calibracin 3: calibracin concurrente de versiones diferentes Una prctica comn en el Ceneval es la elaboracin de versiones diferentes de una misma prueba. A partir de ciertas especificaciones estadsticas y de contenido, se eligen distintos grupos de reactivos para conformar las versiones. En la mayora de las pruebas del Centro se requiere que las versiones compartan un porcentaje determinado de reactivos (reactivos ancla), con la finalidad de garantizar cierta estabilidad en su comportamiento y de contar con informacin adicional que permita corroborar su equivalencia y en su caso su igualacin. En el marco de la TCT, la puntuacin observada de los sustentantes depende de las caractersticas psicomtricas de los reactivos que conforman la prueba. Con la TCT pueden comparar las calificaciones de varias versiones, a partir de la equiparacin de las puntuaciones observadas de las pruebas. Para esto es menester que las pruebas sean equivalentes en sus contenidos y caractersticas mtricas. En contraste, los modelos de la TRI permiten obtener estimaciones precisas a nivel de los reactivos, aunque estn repartidos en varias versiones.
134
Cuaderno tcnico
Con la TCT podemos contar con un banco de pruebas; con la TRI se puede tener un banco de reactivos. La diferencia no es menor, en la medida que con un banco de reactivos pueden ensamblarse y aplicarse versiones sustancialmente distintas y an as hacer las calificaciones estrictamente comparables. En la TCT se igualan las versiones; en la TRI el requisito es que los reactivos se expresen en la misma escala. Por ello, antes de establecer los valores finales de los parmetros es necesario realizar un procedimiento de escalamiento. Supngase, por ejemplo, que a principio del ao se aplica la versin A de un examen a un determinado grupo de sustentantes, se realiza la calibracin de los reactivos y se establecen los parmetros respectivos. Dos meses despus se administra la versin B del mismo examen a otro grupo de sustentantes, la calibracin independiente de estos reactivos requerir entonces de un proceso de escalamiento que permita hacer comparables los parmetros estimados a los correspondientes de la primera versin. En este punto los reactivos comunes en las dos versiones juegan un papel muy importante, ya que a partir de este factor comn pueden igualarse las escalas de los reactivos. Hay varias maneras de garantizar que los reactivos estn expresados en la misma escala. El programa BILOG-MG (Zimowski et al., 2003) permite la calibracin conjunta (concurrente) de las distintas versiones de un examen y hace uso de los reactivos comunes para establecer una escala comn para todo el ejercicio. A continuacin un ejemplo en el que se calibrarn de manera conjunta dos versiones de una misma prueba (rea); cada versin est compuesta por 16 reactivos, cuatro de los cuales son comunes a las dos. La construccin de este ejercicio es muy similar a la mostrada para el ejercicio de una sola versin, motivo por el cual en este caso slo se har nfasis en los cambios particulares de este ejemplo. Datos necesarios para el anlisis Al igual que en el anlisis bsico, en este caso el programa BILOG-MG requiere de tres archivos de texto plano (.txt) como insumo; estos pueden ser construidos o modificados en el bloc de notas de Windows:
135
Archivo de datos (respuestas de los sustentantes) (*.DAT) Archivo de respuestas correctas (*.KEY) Archivo con la sintaxis de Bilog (*.BLM) Por convencin del programa, cada uno de los archivos ser identificado por la extensin sealada; adems se recomienda que estn localizados en el mismo directorio. Descripcin del archivo de datos En este caso el archivo de datos contendr la siguiente informacin: El folio o clave de identificacin del sustentante El nmero de versin (01 o 02) Las respuestas a cada uno de los 16 reactivos de la prueba En el archivo 2versiones.DAT encontrar los datos requeridos para el anlisis, de acuerdo al siguiente esquema:
Identificador de la versin Respuestas a los reactivos comunes
Respuestas a los reactivos especficos de la versin 1
Folio o identificador del sustentante Respuestas a los reactivos especficos de la versin 2
136
Cuaderno tcnico
En este caso se opt por conformar las respuestas de los reactivos de forma que se tuvieran las respuestas de los reactivos comunes en las mismas columnas, pero esto no es requisito del programa. Descripcin del archivo de respuestas correctas El archivo de respuestas correctas contiene la clave de respuesta correcta de cada uno de los reactivos incluidos en el anlisis. En este caso se deber incluir un rengln de respuestas para cada versin. Este archivo debe tener el mismo formato de columnas que el archivo de datos, es decir, la respuesta a la pregunta 1 estar ubicada en la misma columna que en el archivo de datos. Para construir el archivo de respuestas de este anlisis, abra un documento en blanco en el Bloc de notas y escriba la cadena de respuestas correctas DBDEBEBAECCDABDD para la versin 1 (rengln 1) y la cadena de respuestas correctas DBDEABBCCBCEDABA para la versin 2 (rengln 2), tal como se muestra en la siguiente figura:
8 espacios en blanco (5 del folio + guin + 2 de la versin) Respuestas correctas a los 16 reactivos (rengln 1 para la versin 1 y rengln 2 para la versin 2
Una vez ubicadas las claves de respuesta correcta en el lugar indicado, guarde este archivo con el nombre 2versiones.KEY en el mismo directorio en que se encuentre localizado el archivo Anlisis2.DAT. Descripcin del archivo de sintaxis de BILOG El tercer archivo de entrada contiene las instrucciones necesarias para que el programa realice la calibracin de los reactivos. Este archivo puede ser construido
137
directamente en el programa BILOG-MG, pero tambin podra desarrollarse y editarse en un editor de texto plano, como el Bloc de notas de Windows. Para construir este archivo con la ayuda del programa BILOG-MG siga los siguientes pasos: 21. Abra el programa BILOG-MG. 22. Presione el icono para crear un documento nuevo o seleccione la opcin New en el men File.
23. Aparecer la ventana Abrir. Asigne el nombre 2versiones.BLM al nuevo archivo de sintaxis y gurdelo en el mismo directorio en que se encuentran los archivos 2versiones.DAT y 2versiones.KEY. Presione el botn Abrir para regresar a la ventana principal de BILOG-MG.
24. En la pantalla se desplegar un documento de texto en blanco. Si el usuario tiene experiencia previa con los comandos de la sintaxis y su estructura, podra teclear directamente el texto en esta hoja. Sin embargo, en este caso se construir la sintaxis con la ayuda de de los mens del programa.
138
Cuaderno tcnico
25. Note que se han desplegado varias opciones en la barra del men principal. Para este ejemplo se utilizarn los mens Setup, Data, Run y Output.
26. El men Setup se utiliza para describir el modelo de la TRI que se utilizar para el anlisis. Primero, seleccione la opcin General de este men.
27. En las cuatro pestaas de la ventana General se podrn elegir elegir diferentes opciones para el anlisis. En la pestaa Job description indique que el nmero de reactivos por calibrar (Total number of Items) es igual a 28 (cuatro reactivos comunes y 12 reactivos especficos de cada una de las dos versiones) y que el nmero de versiones (Number of Tests Forms) es igual a dos.
139
28. En la pestaa Model especifique que el modelo que se utilizar para el anlisis es el de un parmetro (1-Parameter Logistic (1PL)) y elija la mtrica logstica (Response Function Metric = Logistic).
29. Presione el botn Aceptar para regresar a la pantalla principal. 30. A continuacin se especificarn los reactivos que sern calibrados. Esto se hace por medio de la opcin Item Analysis del men Setup.
31. Aparecer la ventana de Item Analysis. Cambie el valor del tamao de la subrea (Subtest Length) a 28, seleccionando la casilla en cuestin y escribiendo 28. Con esto, los 28 reactivos de sern analizados como una sola prueba.
140
Cuaderno tcnico
32. Abra la pestaa Form Items para seleccionar los reactivos correspondientes a cada versin. Utilice el botn Select para marcar del ITEM0001 al ITEM0016 como reactivos de la versin 1 (Form1) e ITEM0001 al ITEM0004 y del ITEM00017 al ITEM0028 como reactivos de la versin 2. Note que esta seleccin est respetando la estructura de los datos, en cuanto a que existen cuatro reactivos comunes y que estn ubicados en las primeras cuatro posiciones. Presione el botn Aceptar cuando haya terminado.
141
33. Esto completa la especificacin del modelo. Lo que falta es declarar la informacin sobre los datos y las claves de respuesta correcta. Para hacer esto, se utilizar el men Data. En primer lugar se especificarn las caractersticas del archivo de datos 2versiones.DAT. Seleccione la opcin Examinee Data del men Data.
34. Se abrir la ventana Examinee Data. Establezca en 5 el nmero de caracteres del folio (Number of Case ID Characters = 5).
142
Cuaderno tcnico
35. Para proporcionar la informacin sobre el nombre y el formato del archivo de datos, seleccione la pestaa Data File: Inserte el nombre del archivo de datos 2versiones.DAT en el cuadro de texto Data file name. Complete la tabla Read as Fixed-Column Records, capturando el valor de 1 en la casilla marcada como First correspondiente a Case ID. Con esto se est indicando al programa que el identificador (folio) del sustentante comienza en la columna uno del archivo de datos. Despus escriba el nmero 5 en la casilla Last de Case ID para indicar que el identificador del sustentante termina en la quinta columna. Capture el valor de 7 en la casilla marcada como First correspondiente a Form number, con esto se est indicando al programa que el identificador de la versin comienza en la columna siete del archivo de datos. Despus escriba el nmero 8 en la casilla Last de Form number para indicar que el identificador del sustentante termina en la octava columna. La respuesta al primer reactivo se encuentra en la columna 9 del archivo de datos, por lo tanto deber ingresar 9 en la casilla marcada como First del campo Response String. La respuesta al ltimo reactivo se encuentra en la columna 24, entonces ingrese 24 en la casilla Last del mismo campo. BILOG-MG asume por defecto que en el archivo de datos contiene una lnea para cada sustentante. Lo cual es aplicable a nuestro ejemplo y a la mayor parte de los datos que se trabajan en el Ceneval. Presione el botn Set Format para escribir una declaracin de formato en el campo Format String. Presione el botn Aceptar para regresar a la pantalla principal de BILOG-MG.
143
36. Ahora se debe indicar al programa cul es el archivo de claves de respuesta correcta. Seleccione la opcin Item Keys del men Data. 37. Escriba el nombre del archivo de respuestas correctas (2versiones.KEY) en el cuadro de texto Item Key File Name y presione el botn Aceptar para regresar a la pantalla principal de BILOG-MG.
144
Cuaderno tcnico
38. Despus de completar las especificaciones en trminos del modelo y de los datos, se deber crear el archivo de sintaxis. Seleccione la opcin Build Syntax en el men Run.
39. La sintaxis creada por el programa se desplegar en la ventana principal como se muestra a continuacin. Note que los comandos ITEMS y SCORE, de la sintaxis, no tienen ninguna opcin especificada, lo que indica que se utilizarn las opciones que por defecto tiene el programa en estos dos casos.
145
40. Para indicar que se requiere que el parmetro de discriminacin se fije en 1 (modelo de Rasch) y no en un valor determinado por el programa para lograr un mejor ajuste, es necesario escribir la opcin Rasch despus del comando CALIB, dentro de la sintaxis.
Tambin es posible insertar esta opcin con la ayuda de los mens del programa. Vaya al men Technical y seleccione la opcin Calibration Options. Se desplegar una ventana en donde deber seleccionar la casilla One Paramater Logistic Model y presionar el botn OK.
146
Cuaderno tcnico
Reconstruya la sintaxis con la opcin Built Syntax del men Run y la opcin Rasch se insertar de manera automtica en el comando CALIB de la sintaxis. 41. Salve la sintaxis seleccionando la opcin Save en el men File. Con esto se ha terminado la construccin de los archivos de entrada requeridos por el programa BILOG-MG.
Calibracin de reactivos (ejecucin del programa) Una vez que se han construido los tres archivos de entrada para el programa BILOG-MG, se llevar a cabo la calibracin y el anlisis de reactivos. Aun cuando el programa puede ejecutarse fase por fase por medio del men Run (utilizando las opciones Classical Statistics Only, Calibration Only y Scoring Only), las tres fases pueden producirse en secuencia seleccionando la opcin Stats, Calibration and Scoring de este men. Ejecute las tres fases del programa.
147
Despus de completar exitosamente las tres fases del anlisis, aparecer un mensaje en la pantalla reportando esta situacin. Si se encontrara algn problema durante el anlisis, este mensaje indicara que no fue posible completar de manera exitosa todas las fases y se deber revisar el procedimiento de construccin de los archivos de entrada.
Presion el botn Aceptar. Resultados del anlisis Para acceder a los archivos de salida del anlisis se utilizar el men Output. Las estadsticas de la teora clsica se encuentran en el archivo con extensin *.ph1.
148
Cuaderno tcnico
En este archivo (2versiones.ph1) se incluye una tabla con los siguientes estadsticos clsicos:
Note que los primeros cuatro reactivos se calibraron con las respuestas de los 1000 sustentantes (versin 1 + versin 2), mientras que el resto de los reactivos slo se calibraron con los sustentantes de cada una de las versiones por separado.
149
En este caso no hay reactivos con dificultades extremas, pero s hay muchos con correlacin punto biserial muy baja. En el archivo *.ph2 se encuentra la informacin de la calibracin de los reactivos por el modelo de la TRI especificado (en este caso Rasch).
El archivo Anlisis.ph2 incluye una tabla con la estimacin de los parmetros de los reactivos (a, b y c), adems del estadstico ji-cuadrada para el ajuste del reactivo a los datos. A continuacin se muestra la primera parte de la tabla.
150
Cuaderno tcnico
En esta tabla se presentan los parmetros de los reactivos en una mtrica comn, por lo que es vlido hacer comparaciones entre los 28 reactivos del anlisis, incluso cuando algunos de ellos se calibraron con informacin especfica de cada versin. El resto del anlisis puede realizarse de la misma manera en que se hizo para el ejemplo con una sola versin. Anlisis factorial Aunque no es el objetivo de este trabajo -y en realidad su utilidad es controvertida cuando se tienen variables dicotmicas-, vale la pena hacer un pequeo parntesis entre las principales teoras de los tests para explicar un poco el anlisis factorial y su uso en el anlisis de las pruebas y de los exmenes. En principio, el anlisis factorial es una forma de anlisis estadstico cuyo objetivo es resumir la informacin de un conjunto de variables al menor nmero de ellas, a las que generalmente se denomina factores. En cierto sentido, el anlisis factorial tiene similitudes importantes con la TRI, ya que busca identificar variables latentes en los datos para explicarlos mejor. El anlisis factorial y algunas extensiones ms complejas tienen su mayor utilidad en el anlisis y validacin de los contenidos de las pruebas. En el caso de la TRI, en ocasiones tambin se aplica como medida para corroborar que los datos se acercan al supuesto de unidimensionalidad de la teora. Como herramienta en el anlisis de los reactivos, tambin puede ser usada. A continuacin, un ejemplo sencillo. Con las mismas variables del ejemplo de las pginas 57 y 58 (de a1 a a10 y la variable aadida n), se utiliz el programa SPSS para hacer el anlisis factorial. Debe advertirse, sin embargo, que se trata de una simplificacin. En un anlisis real generalmente se llevan a cabo procedimientos adicionales que aqu se obviaron, aunque los resultados evidencian que para efectos de ejemplo (y tal vez para un anlisis sencillo) esto puede ser suficiente.
151
El comando ejecutado fue:

FACTOR /VARIABLES a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 n /MISSING LISTWISE /ANALYSIS a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 n /FORMAT SORT /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PAF /ROTATION NOROTATE /METHOD=CORRELATION.
Como resultado, se obtuvo la salida siguiente:
152
Cuaderno tcnico
En la grfica se puede ver, del lado izquierdo, un punto que sobresale de los dems, haciendo un notorio doblez en la lnea que los une. Suele interpretarse esto como la evidencia de un factor preponderante, una dimensin que es comn a todos los reactivos y que explica la varianza total. El resto de los factores es mucho ms pequeo. Con algunas prevenciones, podra incluso decirse que en este caso hay evidencia de una cierta unidimensionalidad en el constructo. Cada reactivo aporta algo a ese total. En la tabla siguiente se hace explcito el peso de esta aportacin.
El programa muestra dos factores debido a la orden /CRITERIA MINEIGEN(1). Dos factores resultaron con un eigenvalor o autovalor mayor a 1. Como quiera que sea, si nos concentramos en la columna 1, nos podremos percatar que todos los reactivos tienen un peso significativo en su aportacin (todos mayores a 0.3). En realidad, todos menos uno. Una vez ms, la variable aleatoria n evidencia su desajuste con un peso insignificante e incluso negativo.
153
Bibliografa
American Educational Research Association, American Psychological Association & National Council on Measurement in Education. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association. Baker, F. (2001). The Basics of Item response Theory. Washington, DC: Education Resources Information Center. Recuperado el 3 de agosto de 2008, de http://echo.edres.org:8080/irt/baker/. Crocker, L. y Algina, J. (1986). Introduction to Classical & Modern Test Theory. Belmont, CA: Wadsworth. Downing, S. y Haladyna, T. (2006). Handbook of Tests Development. Mahawah, NJ: Laurence Erlbaun Associates.. Educational Testing Service (2000). ETS Standards for Quality and Fairness. New Jersey, Princeton, NJ: Educational Testing Service. Embretson, S. y Reise, S. (2000). Item Response Theory for Psychologist. Mahawah, NJ: Laurence Erlbaun Associates. Hambleton, R. y Swaminathan, H. (1985). Item response theory : principles and applicactions. Boston, MA: Kluwer Academic Publishers. Hambleton, R. et al. (1991). Fundamentals of Item Response Theory. Newbury Park, CA: SAGE Publications. Holland, P y Weiner, H. (1993). Differential Item Functioning. Mahawah, NJ: Laurence Erlbaun Associates. Karabatsos, G. (2002). A comparison of 36 person fit statistics of item response theory. Paper presented in a session entitled Rash Mersin Fit Analysis. George Karabastos chair in the International Objetive Meassurement Workshop conference, New Orleans, Louisiana. Linacre, J.M. (2008). Winsteps (Version 3.65.0) [Software de cmputo]. Chicago: www.winsteps.com
155
Linacre J. y Wright B. (1989). Mantel-Haenszel DIF and PROX are Equivalent! Rasch Measurement Transactions, 3:2 p.52-53. Recuperado el 26 de febrero de 2009 de http://www.rasch.org/rmt/rmt32a.htm Martnez. R. (1996). Psicometra: Teora de los tests psicolgicos y educativos. Madrid, Espaa: Sntesis. Nunnally, J. y Bernstein, I. (1994). Psychometric Theory. New York: McGraw-Hill. Van der Linden, W. y Hambleton, R. (1997). Handbook of Modern Item Response Theory. New York: Springer. Wainer, H. et al. (2007). Testlet Response Theory and Its Applications. New York: Cambirdge University Press. Ziecky, Michael (2003). A DIF Primer. ETS, New Jersey. Tomado el 12 de marzo de 2009 de https://www.ets.org/Media/Tests/PRAXIS/pdf/DIF_primer.pdf. Zimowski, M. et al. (2003). BILOG-MG (Versin 3.0.2327.2) [Software de cmputo]. Lincolnwood, IL, EU: Scientific Software International, Inc.
156
Cuaderno tcnico
El Centro Nacional de Evaluacin para la Educacin Superior es una asociacin civil sin fines de lucro constituida formalmente el 28 de abril de 1994, como consta en la escritura pblica nmero 87036 pasada ante la fe del notario 49 del Distrito Federal. Sus rganos de gobierno son la Asamblea General, el Consejo Directivo y la Direccin General. Su mxima autoridad es la Asamblea General, cuya integracin se presenta a continuacin, segn el sector al que pertenecen los asociados, as como los porcentajes que les corresponden en la toma de decisiones: Asociaciones e instituciones educativas (40%): Asociacin Nacional de Universidades e Instituciones de Educacin Superior, A.C. (ANUIES); Federacin de Instituciones Mexicanas Particulares de Educacin Superior, A.C. (FIMPES); Instituto Politcnico Nacional (IPN); Instituto Tecnolgico y de Estudios Superiores de Monterrey (ITESM); Universidad Autnoma del Estado de Mxico (UAEM); Universidad Autnoma de San Luis Potos (UASLP); Universidad Autnoma de Yucatn (UADY); Universidad Nacional Autnoma de Mxico (UNAM); Universidad Popular Autnoma del Estado de Puebla (UPAEP); Universidad Tecnolgica de Mxico (UNITEC). Asociaciones y colegios de profesionales (20%): Barra Mexicana Colegio de Abogados, A.C.; Colegio Nacional de Actuarios, A.C.; Colegio Nacional de Psiclogos, A.C.; Federacin de Colegios y Asociaciones de Mdicos Veterinarios y Zootecnistas de Mxico, A.C.; Instituto Mexicano de Contadores Pblicos, A.C. Organizaciones productivas y sociales (20%): Academia de Ingeniera, A.C.; Academia Mexicana de Ciencias, A.C.; Academia Nacional de Medicina, A.C.; Fundacin ICA, A.C. Autoridades educativas gubernamentales (20%): Secretara de Educacin Pblica. Ceneval, A.C., EXANI-I, EXANI-II son marcas registradas ante la Secretara de Comercio y Fomento Industrial con el nmero 478968 del 29 de julio de 1994. EGEL, con el nmero 628837 del 1 de julio de 1999, y EXANI-III, con el nmero 628839 del 1 de julio de 1999. Inscrito en el Registro Nacional de Instituciones Cientficas y Tecnolgicas del Consejo Nacional de Ciencia y Tecnologa con el nmero 506 desde el 10 de marzo de 1995. Organismo Certificador acreditado por el Consejo de Normalizacin y Certificacin de Competencia Laboral (CONOCER) (1998). Miembro de la International Association for Educational Assessment. Miembro de la European Association of Institutional Research. Miembro del Consortium for North American Higher Education Collaboration. Miembro del Institutional Management for Higher Education de la OCDE.
La publicacin de esta obra la realiz el Centro Nacional de Evaluacin para la Educacin Superior, A.C. Se termin de imprimir el 17 de abril de 2009 en los talleres de IXP, S.A. de C.V., Ahumada Villaln 36, Col. Lomas de Virreyes, C.P. 11000, Mxico, D.F., con un tiraje de 1,000 ejemplares

08 Procedimientosbasicos

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

08 Procedimientosbasicos

Caricato da

Copyright:

Formati disponibili

Procedimientos bsicos para el anlisis de reactivos Cuaderno tcnico 8

Tabla 2. Criterios para la seleccin de reactivos por el ndice de discriminacin . . . . . . . . . . . . . . . . . . . . . . .41

Figura 9. En el modelo de Rasch no hay cruzamiento de la CCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .66

Figura 13. Reactivo con discriminacin negativa . . . . . . . . . . . . . . . . . . .69

Figura 19. Informacin del reactivo (b=0) . . . . . . . . . . . . . . . . . . . . . . . .77

Figura 23. Funcin de informacin de la prueba (ejemplo 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .80

Figura 24. Funcin de informacin de la prueba (ejemplo 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81

Figura 28. Propiedad de invarianza de grupo de la TRI . . . . . . . . . . . . . . .85

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Captulo 1 Qu es el anlisis de reactivos?

Procedimientos bsicos para el anlisis de reactivos

Captulo 2 Pasos para el anlisis de reactivos

Los pasos para el anlisis cuantitativo de una prueba nueva son:

Teora de la respuesta al tem:

Procedimientos bsicos para el anlisis de reactivos

0.7 Infit 1.3 0.7 Outfit 1.3

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Captulo 3 Fundamentos tcnicos del anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Figura 6. Ajuste de una CCI a la proporcin de respuestas correctas

Figura 7. Reactivos con diferente parmetro de dificultad b

Figura 8. El parmetro de dificultad b define un umbral para la probabilidad

Procedimientos bsicos para el anlisis de reactivos

Figura 9. En el modelo de Rasch no hay cruzamiento de la CCI

Procedimientos bsicos para el anlisis de reactivos

Figura 12. Reactivos con discriminacin extrema

Figura 13. Reactivo con discriminacin negativa

Figura 14. Cruce de CCI

= Pseudo-adivinacin del reactivo i = Nmero de reactivos en la prueba = 2.718

Procedimientos bsicos para el anlisis de reactivos

Figura 17. Parmetros de los modelos de la TRI

Tabla 7. Parmetro de dificultad de 10 reactivos de una prueba

Calcule el puntaje verdadero para un sustentante con habilidad

Figura 18. Curva caracterstica de la prueba (puntaje verdadero)

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

a) Recta de regresin ajustada a un subconjunto de datos de la parte baja de la escala

b) Recta de regresin ajustada a un subconjunto de datos de la parte alta de la escala

a) Recta de regresin ajustada a todos los datos

a) CCI estimada a partir de un grupo de sustentantes de habilidad alta

b) CCI estimada a partir de un grupo de sustentantes de habilidad baja

c) CCI estimada a partir de los dos grupos de sustentantes

Procedimientos bsicos para el anlisis de reactivos

29.6 26.0 21.8 14.3 2.6

17.4 32.4 83.5 54.5

29.8 26.3 18.3 7.4

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Tabla 10. Anlisis de distractores en Winsteps

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Captulo 4 Prctica de calibracin y anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Procedimientos bsicos para el anlisis de reactivos

Se ha eliminado el sustentante detectado en la fase 1 con un nmero grande de respuestas omitidas.

5 espacios en blanco (4 del folio + guin)

Respuestas correctas de los 20 reactivos

Procedimientos bsicos para el anlisis de reactivos