Sei sulla pagina 1di 19

~'il~-"

P ru e ba S~~lt
.,'SfB" ,]rot'?:";I:~ás a OraCIOf)'" 'e~"~l1ue
,.as

Una In ro':" U.CC'IO"n.'{,;".".ra'Clca ..... ,.


e
"J. ',~
', ..•.
".

;~
.. •..",",'
:-:•... , .
'o ,c

<.: /<:';,!;',~:,'::C<~"",~'.•.'.~.!.:.,.'
:',;;
;' ?::;,;:'::•.•.
-, ,.'......
;.:.,:'.,'.:.':,;.',::,!.',:.'.~.;~.~.'.';~.~.: ..:..:,~ .....•. ;;'.':,:".:;.;.~;;;1~~
: ...;.'.~~:,.,'~ ....'".•.,',....;

)f.~..
:~i-.:.:~
if;;'{¡¡s:\i"'Y~;,;S
..:;/~.'.';.~':, ,. ,.:::::;.:: ..'-'... .

.":,~;th:'om'asJ~.>H~gan
.','-'
. , '.',",,' .- ,,',' ,:'-
1"."";
'.:'",
" •.•.. ,<' "
/-."

~'," . ,r,.

.'UniversityofScranton

1, Presentar una lista de los pasos relacionados a la elaboración de una prueba,


Traducción:
Lic. José Luis Núüez Herrejón 2, Identificar los aspectos que deben abordarse en el diseño preliminar de una prueba.
IFAL
3. Conocer ejemplos comunes de reactivos de selección' de respuesta.

Editora responsable: 4. Reconocer algunos reactivos de construcción de respuesta.


Psic. Ma. Magdalena Ramos Tejeda
Editorial El Manual Moderno S. Mencionar algunos de los modelos que se utilizan para calificar los reactivos de construcción de respuesta.

6. Exponer los méritos relativos de los reactivos de selección de respuesta y de construcción de respuesta.

7. Presentar ejemplos de algunas de las reglas para la redacción de reactivos de selección de respuesta y
luego reactivos de construcción de respuesta.

8. Identificar los dos tipos principales de estadísticos tradicionales de los reactivos.

9. Describir las características de una curva característica del ítem .


Editorial El rfianual moderno .- 155
méxico, OF- Santafé de Bogotá

(

• •• Elaboración de pruebas y análisis de reactivos • /57
.''1-'i;l;

~;~~t .
-
iitt'
,;!l¡¡ ,
Cuadro 6-1. Planteamientos de finalidad de varias pruebas de uso muy generalizado
¡:.".
156. Pruebas psicológicas. Una introducción práctica (Capítulo i{t • -- Piers-Harris Children's 5eff-caneept Scale (Escala de Autoconcepto para Niños de Piers-Harris) [oo.] es un instrumento de
'La
autorr eporte breve diseñado para ayudar en la evaluación del autoconcepto en niños y adolescentes," (Piers, 1996, p. 1)

1: -
K NEO Personality Inventory Revised (NEO PI-R; Inventario de Personalidad NEO Revisado) {...] es un instrumento conciso
El sirve para medir las cinco dimensIones principales, o dominios, de la per~onalidad y algunos de los rasgos o facetas más
10. Definir lo que se entiende por funcionamiento diferencial del reactivo. ~ue rtantes que definen cada dominio. En coniunto, las cinco escalas de dominio y las 30 escalas de las facetas del NEO PI-R
ImPO l'ten hacer una evaluación completa de la personalidad adulta." (Costa y McCrae. 1992, p. 1)
perm
11. Mencionar las pautas para la selección de reactivos. ~L Wechsler Memory Scale-Revised (Escala Wechsler de Memoria.Revisada) es un instrumento clínico de aplicación indivi.
.~~~~
12. Resumir la serie de materiales que debe disponerse en la publicación de una prueba.
'
,;\ ID .• dU~1que sirve para valorar las dimensiones principales del funcionamiento de la memoria en adolescentes y adultos." (Wechsler,
1987, p. 1)

-
:1,;1 ('¡'

.',~~ -El Inventario Multifásico de la Personalidad Minnesota.2 (MMPI-2) es una prueba de banda ancha diseñada para evaluar
.:,;~ muchos de las pautas principales de los trastornos de personalidad y emocionales," (Hathaway, McKinley, 1989, p. 1)
_ "Ji -La Otis.Lennon School Ability Test (OLSAT; Prueba de Capacidad Escolar Otis-Lennon), séptima edición [...] está diseñada
~>~ para medir las c~p~cid,~de~ de razonamiento verbal, cuantitativo y figurativo más estrechamente relacionadas con el aprove-
INTRODUCCiÓN ,~'l¡ un claro.
DEFINICiÓN DE LA FINALIDAD
DE LA PRUEBA
. ,~ :nto, que
chamiento academlco. (OtIS, Lennon, 1997, p. 1)

ledirá(n) -El Edwards Personal Preference Schedule (EPPS; Programa Edwards de Preferencias Personales) se diseñó principaJmen.
::.~
.
:amiento le como instrumento para fines de investigación y asesoría psicológica, para que proporcionara mediciones rápidas y conve-

En este capítulo se resumen los pasos que por lo co-


}g~
~~
terpreta- .
;\,
nientes de diversas variables de la personalidad normal relativamente independientes [que tienen} su origen en una lista de
necesidades manifiestas presentadas por H, A. Murray y colaboradores." (Edwards, 1959, p. 5)
a laolas
mún se dan en la elaboración de una prueba. El título La elaboración de una prueba comienza Con un claJ~ 1 apare.
del capítulo alude en especial al "análisis de reactivos", planteamiento de la finalidad del instrumento, que';; pruebas
debido a que estos procedimientos analíticos desem- consiste en delinear el (o los) rasgo(s) que se medirá(nf~ ,.. Hos Sue~
peñan una función crucial en la elaboración de prue- si ya existe una prueba apropiada. Utilizar las fuentes
y la audiencia meta de la prueba. El Planteamiento;¡,' 1 un solo
bas. Sin embargo, los procedimientos de análisis de de información resumidas en el capítulo 2, ayuda a ASPECTOS DE DISEÑO PRELIMINARES
debe formularse atendiendo a la clase de interpreta;'~;'. tomaresta determinación. Elaborar una prueba nueva
reactivos sólo forman una parte de la empresa general ción que se pretende dar en última instancia a la o lag';;, le que se
-al menos una buena- es una labor prolongada,
que supone la elaboración de pruebas. Hay seis eta-
pas principales en la elaboración de pruebas, J que se
puntuaciones de la prueba. En el cuadro 6-1 apare-!L
. . .
cen los planteamIentos ele finabdad ele vanas pruebas;"
~,.~ : la prue.
Iborar el
difícily costosa. Quepa una advertencia: es necesario
tomarse tiempo para detenninar si una prueba exis-
resumen en la figura 6-1. En este capítulo se descri- de uso muy generalizado; estos planteamientos sue~t . terminar En las primeras etapas de la elaboración de una prue-
birá cada una de estas etapas, las cuales no siempre tenteservirá para la finalidad que se tenga en mente, ba. el autor debe tomar varias decisiones sobre el di-
len ser muy sencillos y a menudo consisten en un solo{~" antesde tratar de elaborar una nueva,
están del todo diferenciadas; en la práctica siempre enunciado. .':~}: seño del instrumento, las cuales se basan en la finalidad
habrá cierto traslape y reciclaje entre ellas. Esto es Desde un punto de vista práctico, luego de que,;;': de la prueba y en las interpretaciones que se busca dar
cierto en especial entre las etapas 1 y 2, Y 3 Y4, como ha establecido con toela claridad la finalidad de la prue<"i.• a las puntuaciones, así como en consideraciones de
quedará de manifiesto en la descripción que se pre- iINTÉNTELO!
ba, uno no debe proceder de inmediato a elaborarel.~t orden práctico. En consecuencia, deben abordarse los
senta en este texto; no obstante, esta lista de etapas da instrumento. La etapa siguiente debe ser determinat:t siguientes aspectos de diseño:
el progreso lógico y el orden cronológico caracterís- Elijaun rasgo que sea de su interés, suponga que va a desa-
rrollaruna prueba para medir ese rasgo. Formule el plantea.
tico e1eltrabajo de elaboración de pruebas.

"El proceso de elaboración de prueb9.s educativas y


Deánir l~ fina,lidad de la . ,
~f
,,;l
miento de la finalidad de su prueba. En éste, haga referencia
a la población meta del instrumento.
• Modo de aplicación. ¿La prueba se aplicará
ma individual o a un grupo? La aplicación colecti-
va será más eficaz, pero la individual permitirá una
en for-

pSicológicas comienza por lo común con un plantea~


miento sobre el o los propósitos de la prueba y el
:, ~>

"'¡'í' mayor adaptabilidad en los formatos de los reactivos


y la observación c1fnica del examinado.
constructo o ámbito de contenido que habrá de me- Ji j, • DuracióIL ¿Aproximadamente cuánto durará la prue-
dirse." Estándares ...
2.~::::ctos dediseño '~~!í ,•
ba? ¿Será breve, con un periodo de aplicación de unos
'(AERAlAPAlNCME, 1999, p.37) "''':.-.-'"preliminares . . ,. .~.. '''\
',f
,,
, i

,f I
Resumen de puntos clave 6-1

Las dos primeras etapas fundamentales


15 minutos, o prolongada, de hasta 45 minutos o in-
cluso varias horas? Una prueba breve es desde luego
más eficaz, pero es posible que se traduzca en una

3; ,Preparación pe /-
.reactivos .' .
~:J
:¡J
en la elaboración de una prueba confiabilidad muy limitada y una sola puntuación.
La duración no es sólo un asunto de la cantidad de

I reactivos de la pnleba y el tiempo de evaluación, sino

J-
1. Definir con toda claridad la finalidad: variable(s)
""1 ¡ meta y grupo mela que se relaciona estrechamente con la cuestión de
Esta lista difiere un poco de la: que se ofrece en los ¡ qué tan sensible será la pnleba. ¿La prueba será un
I

Standards for Educational ellld PsycllOlogical TesTs ...~;;~',Análisis' d~.re~~tiv~s ,~,.. , 2. Considerar los aspectos de diseño prelimina-
instmmento general del rasgo que se someterá a pnle-
(Estándares para las pruebas educativas y psicológicas)
.' ":
. •.. "

r.':
'; •..,1.~ ~ res, incluidos aspectos como:
Modo de aplicación, duración, formato de los
ba? O bien, ¿ofrecerá un fundamento para un análi-
(AERA/ APA/NCME, j 999). Los Estándares incluyen
cuatro etapas, las primeras dos son en esencia idénricas a
.¡,~;'Programas'de estandarizadó
f

.¡ 1, I r~activos, capacitación, cantidad de puntua-


Ciones e informes de las puntuaciones,
sis de diagnóstico sensible del rasgo?
• Formato de los reactivos. ¿ Qué formato se utiJiza-
que las que aquí se lItiJizan, y combinan las etapas 3 y 4
de este texto, en una sola. AqUÍ, el autor presenta una lista '.. 6 investiga.~iÓn'secundarios .:'e,
a prueba. l_ - -- - -- -~-- -~._- -- _.
rú para los reactivos: opción múltiple, verdadero o
¡
-
falso. acuerdo () desacuerdo, construcción de res-
de estas erapas por separado, en virtud de que son muy
distintas lógicn y cronológicamente. Es inexplicable que
T ,.
.,--:,.-{

lo.s Estándares no incluyan la et'apa 5, aunque remiten del 6> Preparación de los materia- ;.,[
capítulo sobre elaboración de pruebas a los capÍiulos so- <"',
les finales y publjc_ac_ión'._,~: ií
-,",,,,,-!
bre normas. validez y confiabilidad. La etapa 4 de los ~~
Estándares es idéntica a la etapa 6 que aquí se presenta.
• <

•••
Elaboración de pruebas y análisis de reactivos • ]59

-
. ~;: )i,

'yi¥!'
:i;;j
'1"'-"

158. Pruebas psicológicas. Una introducción práctica (Capítulo 6)tl


-r
:~tt:~,
'1 W dworth Personal Data Sheet (Hoja de Datos Per-
o~es Woodworth), prototipo de muchas pruebas de
Test (ACT; Prueba de Ingreso a las Universidades
Estadounidenses) están bajo una revisión más o me-
---.. :,'~' ,11
~S"; 1 son onalidad posteriores. El Inventario Multifásico de nos continua. La Escala Wechsler de Inteligencia para

puesta? Un formato de construcción de respuesta


permite una respuesta más rica y una mayor flexi-
ello ~ue. en la figura 6-1 aparece una flecha que va
sentIdo I~verso de la etapa 2 a la etapa l. ~or ejemPlo;¡f¡',j'
e~~rl~1
)~.:'
j
. f"~ersonalidad Minnesota (MMPI) se inventó para
a dar en la clasificación de los pacientes mentales,
aY~apráctica clínica de los hospitales de la Universi-
el Nivel Escolar (WISC) era una extensión descen-
dente de la escala Wechsler para adultos que conser-
vó muchas características de su instrumento madre
bilidad, pero con certeza casi siempre será más di- la declSlon de hacer que la prueba sea mas breve que ii ~nd de Minnesota. La Scholastic Assessment Test pero que, resulta obvio que necesitaba nuevos reactivos
fícil de calificar y, por tanto, su uso resultará más larga pue~e gener~r un plant~amiento más restrictivo,") ,1 (;AT; prueba de Evaluación Académica) se creó en y normas. Posteriormente, la Escala Wechsler de In-
costoso. Estos aspectos se abordarán con mayor de- de la finalIdad, o bien, es pOSIble que las conversacio~;~ J respuesta al interés de una reducida cantidad de uni- teligencia para los Niveles Preescolar y Primario
talle posteriormente en este capítulo. nes con los practicantes conduzcan a una ampliació"'if'~ :¡ versidades selectas para pasar por alto a algunos estu- (WPPSI) fue una extensión descendente de la WISC.
• Cantidad de puntuaciones. ¿Cuántas puntuacio-
nes generará la prueba? Esta pregunta no necesa-
de la audiencia meta que se busca con la prueba. ',~ J diantes brillantes de bachIlleratos medIOcres en el
inQtesoa esas universidades, debido a que no habían
Hay también esfuerzos que se ubican en la cate-
goría de las revisiones de pruebas existentes y que
riamente se relaciona con la interrogante sobre la esfadoexpuestos a un plan de estudios complejo que conservan lo más posible la estructura fundamental
duración de la prueba. Más puntuaciones permiten iINTÉNTELO ,ifi¡,l
. . ~l
. . . . .' . . . . . . . . . '~¡~;:;"~' los preparara para la universidad. Por supuesto, la del instrumento, pero que lo modifican para pobia-
interpretaciones adicionales, pero también exigen enorme cantidad de trabajo dirigido al desarrollo de ciones especiales. Como muchas pruebas que en su
más reactivos y, en consecuencia, más tiempo de De la prueba cuya finalidad el lector expuso en el anteri~~' ;j las pruebas de aprovechamiento para su uso en las origen se crearon en inglés y ahora es!án disponibles
prueba. ejercicio de iINTÉNTELO!,ahora responderá a las pregun:~;) escuelas y la industria también tiene una orientación en español u otros idiomas: tal modificación suele
• Informes de las puntuaciones. ¿Qué clase de re- tas siguientes sobre su diseño, :,~,¡>,:l altamente práctica. Se trata sólo de algunos ejemplos entrañar mucho más que una simple traducción de los
portes de las puntuaciones se producirán? ¿Habrá ¿Cuántos reactivos tendrá la prueba?"~l >1 del hecho de que muchas pruebas se originan en res- reactivos e instrucciones de la prueba. También hay
un registro simple, escrito a mano, de la puntua- puesta a una necesidad muy práctica. En estos casos, adaptaciones de los instrumentos para personas que
ción o un conjunto elaborado de informes genera-
¿Cuántas puntuaciones informará? !d¡r.. '} la elegancia teórica y la bibliografía sobre la investi- padecen diversas discapacidades, auditivas, visuales
dos por computadora, que posiblemente tal vez ¿Se aplicarán en forma individualo a grupos?&li .::. gación existente no son intereses primarios, en reali- o motrices. Por tanto, la elaboración o adaptación de
\;~~:Ii;~
.';
incluyan reportes narrativos? ¿Con exactitud, qué ¿Alrededor de cuántos minutos se llevaráterminarla? ',",,'~' dad,investigaciones posteriores con estas pruebas han las nuevas versiones de las ediciones existentes de las
se informará: sólo una puntuación total de la prue-
ba o también el desempeño en conjuntos de reac-
¿Con qué tipo de reactivos contará (p. ej., de opción múlét \' demostrado a menudo que tenían problemas teóricos pruebas constituyen una tercera fuente importante de
esfuerzos en la creación de las pruebas.
pie. de construcción de respuesta)? _~ ...• considerables.


tivos?
Capacitación del aplicador. ¿Cuánta capacitación .....
" :"

:\;~ :VAS
',f •..,.,
Algunas pruebas se forjan a partir de un funda-
mento teórico, como el Test de Apercepción Temáti-
se necesitará para la aplicación y calificación de la ;l.". ca (TAT), que se ideó con la finalidad de ofrecer un
prueba? ¿Quienes implementen la prueba requie- ,\Ns, '.
";";'. indicador de la personalidad en función de la teoría a
ren un adiestramiento profe_sional exhaustivo para :'1/'.;;' : este respecto propuesta por Murray. Así sucedió tam- PREPARACiÓN DE LOS REACTIVOS
aplicar, calificar e interpretar el instrumento? Si se
precisa entrenamiento exhaustivo, ¿cómo se pro-
porcionará?
ORIGEN DE LAS PRUEBAS NUEVAS:
1"r¥;j '
l elabora-
¡ eocesode
:tenerse a
bién con el Edwards Personal Preference Schedule
(EPPS; Programa Edwards de Preferencias Persona-
les), que genera 15 puntuaciones correspondientes a
• Investigación de antecedentes. En la etapa de di- ,f¡~
simple y "necesidades" en el sistema de Murray. Las Matrices La preparación de los reactivos incluye tanto la re-
seño prelirninar, es posible que se necesite realizar Antes de pasar a la etapa siguiente en el proceso de:r
leetos; no progresivas (RAVEN) se crearon como un instrumento dacción de éstos como su revisión. Esta redacción no
una investigación de antecedentes sobre el ámbito elaboración de la prueba, es importante detenerse a" :
:es señala directo para medir el factor "g" (inteligencia general) debe realizarse hasta que se haya definido la finalidad
que se probará, a menos que el profesionista ya esté considerar esta interrogante: ¿qué motiva la elabora~':;-:':
' llTollode de la teoría de Spearman sobre la inteligencia. La de la prueba y explorado de manera minuciosa las
completamente familiarizado con ese ámbito. Esta ción de pruebas nuevas? No hay una lista simple' Y ~ ¡ las prue- i Primary Mental Abilities Test (Prueba de Capacida- consideraciones de diseño preliminares; suponiendo
investigación debe incluir una búsqueda bibliográ- definitiva de motivaciones sobre dichos proyectos; OÓ.: :spuestaa ,, des Mentales Primarias) de Thurstone, prototipo ele que estas dos primeras etapas se hubiesen realizado
fica estándar. Si la prueba está pensada para una obstante, un análisis de las pruebas existentes señala .'. teligencia : muchas evaluaciones de inteligencia multifactoriales de modo satisfactorio, empieza la preparación de los
aplicación práctica generalizada, la investigación tres fuentes pl'incipales de trabajo de desarrollo de;; . :elligence. .8 posteriores, se diseñó con la intención de sustentar la reactivos. Quizá sea útil empezar esta sección con la
también debe incluir conversaciones con los practi- pruebas. La primera señala que muchas de las prue.'" t), se creó j teoría de Thurstone sobre las inteligencias múltiples. pregunta: ¿exactamente qué es un reactivo de una prue-
cantes (p. ej., clínicos, consejeros psicológicos, psi- bas de uso más generalizado se origina en respuesta a : ; de parís ~ Una vez más, se trata sólo de ejemplos que ilustran el ba? El reactivo de una pmeba posee cuatro paltes (fi-
cólogos escolares, etc.) en los campos en que podría cierta necesidad práctica. La prueba de inteligencia."~ nina edu- ~ hecho de que las teorías a menudo generan nuevas gura 6-2): el estímulo al que responde el examinado,
utilizarse la prueba. .. Binet, precursora de la Stanford-Binet Intelligence':, . : concibió
Scale (Escala de Inteligencia Stanford-Binet), se creó.:' Binet que
_:s1 pruebas, las cuales suelen utilizarse primero tan solo
para fines de investigación, pero después se emplean
el formato (o método) de respuesta, las condiciones
que rigen cómo se da la respuesta al estímulo y, los
para identificar a los niños de las escuelas de París',: unque 1>5 ~ en contextos aplicados. procedimientos para calificar la respuesta, denomi-
Muchos tratamientos de la elaboración de las pruebas 1)

empiezan con la "redacción- lIie los reactivos", sin que podían necesitar lo que ahora se denomina edu-,~ . :aducción ~ Finalmente, una gran cantidad de trabajo de ela- nados en ocasiones "rúbricas de respuesta". A conti-
embargo, ésta no puede (o, al menos, no debe) ini- cación especial; la Stanforcl-Binet misma se concibió.: le Intelli- ~ boración de pruebas se dedica a revisar o adaptar nuación se da una breve descripción de cada uno de
ciarse hasta que estas consideraciones de diseño pre- con la idea de proporcionar una escala tipo Binet que. f lnteligen- ¡ las pruebas existentes. Por ejemplo, cada una de las estos componentes.
liminares hayan sido exploradas al detalle. Las pudiera utilizarse con los estadounidenses, aunque las. r Wechsler, ~ pnnclpales baterías de aprovechamiento (véase el ca- El estímulo, denominado a menudo la base del
consideraciones de diseño determinarán qué clase y revisiones llegaron más allá de la simple traduccióo eba de in-
del francés al inglés. La Wechsler-Bellevue Intelli',,' lineL Las
I ~ pítulo 11) presenta una nueva edición cada 5 a 10 años.
~ En casi todos los casos, la reciente edición es una prue-
reactivo, puede ser una pregunta, COlTIO
ilustran en el cuadro 6-2. La primera corresponde
las que se
a
qué cantidad de reactivos se redactarán. Las malas
decisiones concernientes al proceso de diseño origi- gence Scale (Escala Weehsler-Bellevue de Inteligeo' . .-cantidad. ~ ba por completo nueva, que atraviesa por todos los una prueba de inteligencia. la segunda a una de apro-
nal de la prueba no pueden remediarse en las etapas cia), que dio origen a la colección de escalas Wechsler,': ndiaL Lo ¡ "
q procesos de elaboración de pruebas resumidos en este vechamiento. la tercera a un estudio de actitudes y la
de redacción o análisis de los reactivos del desarrollo se forjó con la intención de ofrecer una prueba de io-
teligencia más adecuada que la Stanford-Binet. Las
eollode la
£
'1 capítulo. Pruebas como la SAT y la American College cuarta a un inventario de personalidad. El estímulo
de la prueba.
Las deliberaciones sobre estos aspectos de dise- pruebas OlIS Iban en funCIón de la enorme pnlIdad;:. •t
ño preliminares pueden conducir a una depuración en de reclutas durante la Primera Guerra Mundial. Lo ¡
el planteamiento de la finalidad de la prueba. Es por que también fue la motivación para el desarrollo de la I
!,
• •
., ~.
;j¡lli
..~.. ':~l~
:JL ':%:'
Elaboración de pruebas y análisis de reactivos' 161

-
'pítulo 6) :
160. Pruebas psicológicas. Una introducción práctica (Capítlllo óti: ----...:.
':~>
ESTíMULO
1F
en tanto
no particularmente buena recibe un punto, en tantb~?~ proced~'::'
que una incorrecta no obtiene ninguno. Los prOcedi,'.l técnie~>"
.,i:'

--
Cuadro 6-3. Ejemplos de reactivos de opción múltiple y Verdadero o Falso
en una prueba de aprovechamiento
Reactivo de opción múltiple
mientas para calificar las respuestas a las técnicai~. í que '
CONDICIONES ¿cuál de éstos es un método para determinar la confiabilidad de una prueba?
proyectivas pueden ser muy elaborados, así que d¿~J 1reactivo
FORMATO DE RESPUESTA OUE RIGEN
{ ben especificarse y entenderse al considerar el reacti~Q~ " ....,," A. test-re test B. estanina C. validez D. relacionado con el criterio
LA RESPUESTA
de una prueba. !~~~¡
":;f1~~
.~~~- Reactivo de Verdadero o Falso
.1 ~::\
PROCEDIMIENTOS
DE CALIFICACiÓN La estanina es un método para determinar la confiabilidad de una prueba.
.. v F

Figura 6-2. Anatomía de un reactivo de prueba.


TIPOS DE REACTIVOS DE LAS PRUEBA~f
y actitudes; por ejemplo, el Strong Interest Inventory CÓMO CALIFICAR LOS REACTIVOS
también puede ser una iUlagen, acompañada por una .".":.1<,:(..
?~~::... :. (SIl; Inventario de Intereses Strong) emplea "Agra- DE SELECCiÓN DE RESPUESTA
do", "7" Y "Desagrado" para la mayoría de sus reac-
pregunta oral, por ejemplo, la prueba Rorschach pre- i~" 3DesenenOf\:.
tér-' tivos; el MMPI-2 emplea un formato de verdadero- En el campo de las pruebas de capacidad y aprovecha-
senta una imagen junto con una pregunta sobre lo que La variedad de los reactivos de las pruebas es enoh'f'.
el examinado ve. El estímulo también puede ser un ,tivos, el falso. El cuadro 6-4 ilustra los reactivos de opción miento, la mayor parte de los reactivos de selección de
me. Los reactivos con frecuencia se clasifican en te.'T:j.l.,
aparato como el dinamómetro manual, pero el "reac- baques,", múltiple y de verdadero-falso para inventarios de in- respuesta se califican como correctos o incorrectos; se
minos del formato de respuesta a los reactivos, ef< >

tivo" está incompleto si carece de una instrucción, segundo componente del reactivo de la prueba que sé"f general,: tereses y personalidad. concede un punto o cero a una respuesta correcta o
como sería "Tómelo con su mano derecha y apriételo n de res. Otro caso especial de formato de selección de res- incorrecta, respectivamente, luego, se califica la prue-
consideró con antelación. En un nivel muy generat,~yt
lo más fuerte que pueda".
El formato de respuesta incluye factores, res-
los reactivos se clasifi:~n como de sele~ción de re~J!,' ~ontinu~~
) de estos ¡.
puesta que se emplea en muchas pruebas de actitudes
es el formato Likert;' el cuadro 6-5 ilustra este tipo
ba contabilizando la cantidad total de aciertos. Sin
embargo, hay otras formas de calificar estos reactivos,
puesta o de construcClon de respuesta. - A continua~'~:t
pecto de si éste es un reactivo de opción múltiple o de sus apli- de reactivos donde se emplea la escala de cinco pun- una de ellas consiste en conceder un crédito parcial por
ción se presentan los ejemplos más comunes de estos'"'-r ',.
construcción de respuesta. Por ejemplo, cualquiera dos tIpOS, con un COITlentario sucinto sobre sus apli.li tos que va de "Completamente de acuerdo" a "Com- elegir una opción que no es la mejor respuesta posible,
de los estímulos que aparecen en el cuadro 6-2 podría
tener una serie de elecciones o exigir la construcción
caciones usuales, fortalezas y deb.hdades. ":ll pletamente en desacuerdo" en cada respuesta.
prueba podrían usarse 3, 9 o cualquier cantidad finita
En una pero que no está del todo equivocada. Otra variante
supone otorgar una ponderación adicional a los
depuntos. En una variante, las respuestas pueden Inar- reactivos que son muy importantes; por ejemplo. para
de una respuesta. En la siguiente sección, se verán. '!~X carse en cualquier parte a lo largo de un continuo en- calcular la puntuación total en la pnleba. una respuesta
más a fondo diversos formatos de respuesta. REACTIVOS DE SELECCIÓNxj':
Tal vez no tan evidente COlno los dos primeros
componentes de un reactivo, el tercero es crucial para
DE RESPUESTA ';f~1
caminado
tre dos polos, después, las marcas se convierten
forma numérica. Este procedimiento. denominado en
en con'ecta a ciertos reactivos podría valer tres puntos, a
otros dos puntos y uno a los restantes. Otra variante
entender la naturaleza de un reactivo. Entre las con-
diciones que rigen la respuesta se hallan variables
En los reactivos de selección de respuesta, al examinado': i
una razo-
lalesdebe
se le presentan al menos dos, pero no más de una razo-'~-rc )0 de res-
ocasiones escala de calificación gráfica (Guilford.
1954) o escala visual análoga (Barker, Pistrang, Elliott,
para calificar reactivos para los que hay una respuesta
correcta consiste en aplicar una corrección por adivi-
1994), se presenta en la figura 6-3. El entrevistado nación (véase el capítulo 3, pp. 55-56). Las compara-
como el límite de tiempo para responder o si quien nable y pequeña cantidad de opciones, de las cuales debe':':~ respuesta, puede marcar en cualquier parte de la línea, después, ciones del método de calificación simple de cero o uno
aplica la prueba puede sondear las respuestas ambi- elegir una respuesta. Los reactivos de selección de res~_:'ir ;a. lasrespuestas se convierten en fOlma numérica (1-10 con estos métodos más complicados han sido materia
guas y cómo se registra exactamente la respuesta, por puesta también se denominan reactivos de respuesta'~::w. el esque~ en este ejemplo) aplicando la escala que se muestra. de muchas investigaciones; la duda radica en si los sis-
ejemplo, en una hoja de respuestas o en el cuadernillo múltiple, opción múltiple o de elección forzada.
, •
.'t~;t
. -;"Ll'-j':
's el más Unaaplicación interesante de este fafilata de respues~ temas de calificación más complicados generan pun-
de la prueba. En las pruebas de uso mas generalIzado, el esque;Áf:t apacidad ; ta es el diferencial
¡ semántico, en el cual se califica a tuaciones más confiables y válidas o alguna de ellas,
Por último, el procedimiento para calificar ma de selección de respuesta es a todas luces el más':;l :iliza una •, en comparación con los más simples sistemas de califi-
es una parte fundamental del reactivo. En el caso de , un objeto (p. ej., idea, persona u organización) en una
popular. En la mayor p311ede las pruebas de capacidad.'i¡ iones por ,•, serie de escalas catalogadas con adjetivos contrarios cación de cero o uno. La respuesta se divide en dos,
una prueba de opción múltiple de capacidad o apro- y aprovechamiento aplicadas a grupos, se utiliza una]!. i familia- o polares como "duro-blando", "hostil-amigable", "cá- pol' una parte, los sistemas más complicados suelen ge-
vechamiento, cada reactivo podría calificarse como estructura de opción múltiple con 4 o S opciones por::;¡- ,ecial del "l,
lido-frío" y "competente-incompetente"4 En la figu- nerar sólo puntuaciones un tanto mejores (más
correcto o incorrecto. Otra posibilidad es que se dé. cada reactivo; con seg'uridad todo lector estará familia~)~e , dos op- l ra 6-4, se exhibe este método. confiables o Dlás válidas). En cuanto a la segunda parte
un crédito parcial por elegir ciertas opciones. En al- •
rizado con este tipo de preguntas. Un caso especial del.Jf ro 6-3 se ~ de la respuesta, los autores difieren, hay quienes afir-
gunas secciones de la Escala Wechsler de Inteligencia reactivo de opción múltiple pero con tan solo dos op-:.~1 Verdade- !
para Adultos-lII (WAIS-III), los reactivos de construc-
ción de respuesta merecen dos puntos si se ofreció'
ciones, es el de Verdadero o Falso. En el cuadro 6-3 se lf
J.
o
I
~
man que con esas ganancias marginales, no vale la pena
molestarse en utilizar los sistemas más complicados
ilustran los reactivos de opción múltiple y de Verdad~-,~,:t~. son más (véase, por ejemplo, Nunnally, Bernstein, 1993); otros
una muy buena respuesta, una respuesta aceptable pero ro o Falso de una prueba de aprovechamiento. :'..
Los fon.natos de selección de respuesta son más_t:~ l amplia-
::~J
apacida-
¡
S
3 Técnicamente. el formato Likert alude al método de ela-
boración de la escala completa. Sin embargo. es común
comentan que con la facilidad que ofrecen los sistemas
modernos de calificación por computadora. las llama-
referirse al formato de respuesta mismo como formato
Cuadro 6-2. Ejemplos de las partes de estímulos familiares en e~ám~ito de la evaluaci?~l de capaci~a~_~f' intereses ! das "complicaciones" son triviales, de macla que cual-
Likert. Para un análisis adicional sobre este tema, véase el
en los reactivos de una prueba des y desempeno, SIn embargo, tambIen son ampha-,.~~~
mente utilizados en pruebas de personalidad, interesesH
,
! capítulo 14. quier ganancia en confiabilidad o validez merece la
pena. Para una descripción de algunos de estos proce-
¿Qué significa "pródigo"? 's aItemos ~ 4 En ocasiones se alude al diferencial semántico como si se
Despeje x: si 6x+ 10 = 14, x= _
¿Le gusta reunirse con personas nuevas?
2 Como se.señaló en el texto, hay diver~?s témlinos nlternos';+:i
para desIgnar los fonnatos de seleccwl1 de respuesta y
. Xl
d~id
uesta y de
términoS
1 Psycho'
~ i
•,
tratara de una prueba específica. Pero como se señala en
estetrabajoclásico sobre el tema (Osgood. SucioTannenbaum.
1957),el diferencial semnntico denota una técnica gene-
dimientos de ponderación de reactivos y opciones. véase
Millman y Greene (1993).
La calificación de los reactivos de selección de
construcción de respuesta. AqUÍ se adoptó los términos'i~ ral y no una prueba en particular. ~ respuesta en las pruebas de personalidad, intereses y
Complete este enunciado: Hoy me siento especialmente
empleados en los Stell1dnrdsfor Educntiol10/ (md Psycho- ,;i
logical Tests (AERA/APA/NCME, 1999). ~~¡
-!
'Jítulo 6) ';
162 • Pruebas psicológicas. Una introducción práctica
----.:.
- Elaboración de pruebas y análisis de reactivos .' 163

Cuadro 6-4. Ejemplo de reactivos de opción múltiple y de Verdadero o Falso


de una prueba de intereses y de personalidad
Reactivos de opción múltiple
--, Marque en cualquier parte a lo largo de la línea, para mostrar cómo califica a este maestro.

Horrible Grandioso

1:
En cada reactivo, marque si le Agrada (A), le Desagrada (D) o No está seguro (?) con relación a la actividad. [_-o

Trabajar con números


Resolver problemas de restas
A
O
O
?
O
O
o
O
O
L[----/ / / / /
scala

1
/----/
utilizada para convertir

2
las marcas en forma numérica.

3 4 5 6 7 8 9
/-.-:J'.
10

:i:~~~:;.;,:' -----------------------
Reactivos de Verdadero o Falso .,);:t:t
~,¡).t~.
~~,. :1. usted. Figura 6-3. Ilustración de una escala de calificación gráfica.
En cada reactivo, marque si es Verdadero (o en su mayor parte verdadero) o Falso (en su mayor parte falso) para us1ed.:.j-~':
j~~'
,.,21; ,x
v
V
F
F
Me siento deprimido(a) la mayor parte del tiempo.
Las cosas me han ido muy bien últimamente. ¡Ir :¡ -----
z:;oa. •
de ir de unos cuantos enunciados a varias páginas de
texto. La pnleba de ensayo podría considerarse como
un ejemplo de la categoría más general de la evalua-
minado tiene una libertad considerable para construir
una respuesta. En el capítulo 13, se abordan estas téc-
nicas con mayor detalle.
. .)i~~.!;:~'. ~ creara ción del desempeño, en la cual se supone que el estÍo
actitudes se da de diversas maneras. En algunas apli- Tanlbién es posible clasificar ciertas pruebas
elegir un conjunto fijo de respuestas; él debe crear,~~~' :.~ tro nom. muloes una situación realista, como seria un problelna
caciones, cada reactivo se califica con uno o cero en conductuales en la categoría del formato de construc-
construir la respuesta, Respuesta libre es otro noñíY ;: ; aunque de ciencias. una tarea en la biblioteca o una produc-
forma análoga al procedimiento de respuesta correcta ción de respuesta. La técnica de grupo sin líder y la
bre COlnún con que se designa este formato; aunq6~;~',1 ,ntido de ción artística. La respuesta consiste en resolver el pro-
o inconecta de las pruebas de capacidad; pero esta de cesta son de construcción de respuesta. En la pri.
la respuesta del examinado es "libre". en el sentido de':!:.,. mes, hay blema, realizar la tarea o producir una obra. En la mera, se coloca a la persona en una situación (p. ej ..
calificación no supone una respuesta conecta o inco- que no está limitado a una serie fija de opciones, hay'q. 'urre con actualidad, estas evaluaciones reciben mucha atención
rrecta, sino una respuesta en cierta dirección, por ejem- una reunión de comité) que carece de líder o estructu-
condiciones que rigen la re.spuesta, como Ocurre conU."f.!." entro de en el ámbito educati va, como alternati va a las prue- ra de autoridad patentes; la pregunta es cómo se com-
plo, que la persona está más ansiosa, más deprimida, aquellas que deben darse de manera oral dentro de .. , ensayo, bas de aprovechamiento en formato de opción múlti.
mejor adaptada o más interesada en cierta actividad. portará la persona en esta situación; un observador
cierto periodo o bien por escrito, a guisa de ensayo:~~ n de ma. pIe. Una aplicación popular de la evaluación del califica dicho comportamiento. La técnica de cesta
Además, no es infrecuente asignar diversas cifras En la.s p:u~bas de inteligencia que se aplican de m~~1;&. fonnato .. desempeño es el uso de los portafolios. Corno señala presenta al individuo'(por lo común el aspirante a un
.a las distintas respuestas a los reactivos en las pruebas nera mdIvIdual, muchas veces se emplea un forrnat9'>' 1 un exa. su nombre, el portafolio es en esencia un conjunto de puesto laboral) el contenido de una cesta, la persona
de personalidad, intereses y actitudes, En la escala de
"Me agrada- ?-Me desagrada", podrían asignarse pun-
d~ construcci ...
ón de, resp~uesta, de m?d? q~e a un ~x~~{;l a 'pródi. trabajos de una persona, podría elaborarse a partir indica cómo debe manejarse cada documento u otros
mI~~~o p~dn~, p~egunta:s~le, "¿Que slgm~ca 'prod~~;:r{ 1 compra de los trabajos escritos o de los proyectos dellaborato- elementos; aquí también alguien necesita calificar el
tuaciones de 3, 2 Y 1 0+1, O Y -1 a diversas respuestas. go ? , O bIen, SI cada laplz cuesta 15i1y Jan compra' ¡ :xamina. fiode ciencias o de los análisis estadísticos realizados manejo que la persona hace de los elementos o reac-
En la escala de cinco puntos de "Muy de acuerdo-Muy 5 lápices, ¿cuánto paga?". En cada caso, el examinaoH la puede por una persona. La recopilación de los trabajos pue- tivos.
en desacuerdo", quizá se adjudiquen calificaciones de do construye una respuesta "desde cero" y la puedeií
.$lr
DUY sen. de llevarse unos cuantos meses o algunos años. Como
5,4,3,2 Y 1, o bien, +2, +1, O, -1 Y -2 puntos a las plantear en forma oral o escrita. Una versión muy se~:'h{ sta es el sucede con otras evaluaciones del desempeño, el con-
diferentes respuestas. Observe que sería posible asig- cilla de reactivo de construcción de respuesta eseU] londe se tenido del portafolio se convierte en un instrumento CALIFICACiÓN DE lOS REACTIVOS
nar una puntuación de uno a las respuestas de "Muy de formato de llenar el espacio en blanco, donde se.:0~' ado para
ntes, por
de evaluación cuando su calidad se juzga en función DE CONSTRUCCIÓN DE RESPUESTA
acuerdo" o "De acuerdo" y cero a todas las demás res- omIte un palabra o frase clave de un enuncIado para:<,:\i de alguna dimensión importante.
puestas. Las consideraciones de diseño preliminares a que el examinado coloque las palabras faltan tes, por;¡~ ntuación El formato de construcción de respuesta se utili. Dicha calificación plantea desafíos especiales, debi-
la elaboración de la prueba determinan en parte el mé- ejemplo',,"las eS,taninas son un tipo de PUnlUaCi?n,;¡I: ;omo és- za mucho en las pruebas de personalidad. El cuadro do a que las respuestas pueden ser muy diversas; en
todo de calificación de estos reactivos. ____ . AdvIertase que, para preguntas como eS::1,l -; ~ tisma io- 6-ó ilustra dos ejemplos un tanto sencillos de reactivos casi todos los casos, la calificación exige cierto jui-
tas, sería más fácil utilizar con exactitud la mismain~:.n g ¡elección : de este tipo. Por supuesto, los ejemplos clásicos de cio. Hay dos factores clave para crear puntuaciones
tenogante del reactivo que con un formato de selecció~'.'~.'l~'. 1 2;; Pdruebasde personalidad con formato de construcción útiles a los reactivos de construcción de respuesta: el
REACTIVOS DE CONSTRUCCiÓN de respuesta.~,,~., ~ esquema :: e respuesta son las técnicas proyectivas, como se- primero consiste en asegurar la confiabilidad entre
DE RESPUESTA , ensayo, -
l rían el Rorschach y el TAT En estos instrumentos,
Uno de los ejemplos más familiares del esquema.';!, " calificadores; el segundo es concebir un esquema de

En el reactivo de construcción de respuesta se presen-


de construcción de respuesta es la prueba de ensayo:,~
En el reactivo de la prueba se presenta una situación ~.•"'.".'
..:.' ~
uacióno
que pue.
i , cada reactivo presenta un estímulo anlbiguo y el exu- calificación.

ta un estímulo, pero no ,se restringe al examinado a tema, y el examinado escribe una respuesta que pue~<~;,. & f ,- -- - -- -.-- ----- ---'----1
,, j
Cuadro 6~5. Ejemplo de formato Likert para reactivos de actitudes _';:'1 1 :uerdo
- &

J
Califique esta escuela en cada una de las escalas que aparecen abajo. Ponga una marca en cualquier parte a lo
largo de la línea.
I

MA == Muy de acuerdo A = De acuerdo ? == No sé O == Desacuerdo MD == Muy en desacuerdo :>1 ~ D


~ [CÁLIDA FRíA]
MA A ? o MD ;"1
.i r.
E
~
[AMIGABLE _. HOSTlll
I
Me gusta .el álgebra. [COMPETENTE INCOMPETENTE)
O O O

'~¡
O O
Las raíces cuadradas son fantásticas.
Ya quiero llevar estadística.
O
O
O
O
O
O
O
O
O
O
!
.-~Ii
[ÁSPERA SUAVE)
I
Los problemas de aritmética son divertidos.
Me gusta la geometría.
O
O
O
O
O
O
O
O
O
O
_c~.r¡
' C' 1.,' ~
1;;
Figura 6-4. Ejemplo de modelo de diferencial semántico.

-¡,
.
.< .le

'.
Elaboración de pruebas y análisis de reactivos • 165

----

Cuadro 6-6. Ejemplos de reactivos de construcción de respuesta para medir la personalidad


r- --- -------.
. ~'Resumen de puntos clave 6-2
., "~étodOS para calificar los ensayos y
, otroS productos
l nominados sistemas de calilicación automatizada-
para calificar la construcción de respuestas. Ahora
bien no debe confundirse la calificación automatlza-
da c~n la simple calificación mecánica de respuestas
a reactivos de opción múltiple en forma de "burbuja" .
La calificación automatizada, según el desarrollo que
Asociaciones de palabras ha tenido el término en la bibliografía, supone el de-
11:».';;"
Diré una palabra y tú dirás la primera palabra que te venga a la mente. sarrollo de programas de cómputo complejos que si-
Caliente .. Holística
Analítico
mulan el proceso de aplicación del juicio humano, a
Escuela ...
Rasgo primario los reactivos de respuesta libre. Así. en un proyecto se
Verano ..
Sistema de puntos aplicaron sistemas de calificación automatizada para
Madre ..
una evaluación del desempeño de habilidades para el
--------------
Enunciados incompletos

Completa cada enunciado,


-
.~~ Un último método para calificar los ensayos es el
manejo de pacientes de un grupo de médicos (Clauser,
Swanson, C1yman, 1999), y en otro se aplicó un siste-
ma de calificación automatizada para evaluar la res-
Mi juego favorito es ..,
Las familias "Son.; ensayo se:: sistema de puntos, Aquí hay ciertos puntos que de- puestas de un grupo de arquitectos a un problema
El problema más grande es...
-, oigequesé'
importari~
benincluirse en una respuesta "perfecta". El califica-
dortan solo determina la presencia o ausencia de cada
punto.El caso más sencillo del sistema de puntos es
arquitectónico con formato de construcción de res-
puesta (Williamson, Béjar, Hone, 1999). Uno de los

Dado que la calificación de los reactivos de cons- En la calificación analítica, el mismo ensayos~".'.
:5~J nes qUeSe
realizarlas
) por cada..
unaprueba de memoria pura, por ejemplo, "Enuncia
los10mandamientos" y se concede un punto por cada
primeros trabajos que siguieron estos lineamientos
fueron las calificaciones generadas por computadora
de Ellis Page para evaluar la calidad de la redacción
trucción de respuesta de manera habitual exige jui- valora en varias dimensiones diferentes y exige que se:'. inglés, por. mandamiento. Desde luego, incluso en el sistema de manifestada en los ensayos. Wresch (1993) ofrece un
cio, el grado de acuerdo entre los calificadores (quie- especifique con antelación las dimensiones importai1_~r funciónde puntos,salvo en el caso de los ejemplos más triviales, recuento histórico de estos esfuerzos, para una reseña
nes emiten el juicio) es crucial. Si hay un acuerdo tes de la calidad del ensayo. Las calificaciones que sé': iónyc)ei es necesario el juicio del calificador. ¿ "Ir a la iglesia semipoplllar de la obra actual de Page con el Proyect
deficiente entre los calificadores, entonces no se des- dan por separado a estas dimensiones puede realizadaS:';' evalúepo( losdomingos" califica acaso como respuesta correcta ESSGYGrade (PEO), véase Page y Pe tersen (1995). El
prenderán puntuaciones significativas de la prueba. el mismo evaluador u otros diferentes, uno por eact¡{l ;tóricost-l~' del tercer mandamiento? ¿Los mandamientos deben interés fundamental en todos estos proyectos es de-
Por supuesto, la confiabilidad entre calificadores no dimensión. El ensayo de composición eu inglés, por,' .,. calidadde darseen el orden tradicional? terminar si el sistema automatizado se aproxima al
establece la validez de las puntuaciones, ni siquiera ejemplo, podría calificarse por separado en función de.'..'[ n, la califi- Los diversos métodos que hay para calificar los juicio humano especializado. En el futuro próximo,
otros tipos de confiabilidad, por ejemplo, la confia- a) la corrección gramatical, b) la organización y Cle.(' , :pendencia ensayos también se aplican a diversas evaluaciones tal vez surjan desarrollos importantes en los sistemas
bilidad test-retest. Sin embargo, cuando no hay con- uso de vocabulmio; el de. historia quizá se evalúe por-::: en este es. deproductos. de hecho, los ensayos son solo un tipo de calificación automatizada.
fiabilidad entre calificadores todo lo demás se pierde; 1, tal inde- de producto. Los métodos se aplican a las evaluacio-
cabe resaltar que la confiabilidad entre calificadores
es un problema especial de los reactivos de construc-
separado, en función del uso de hechos históricos, la .~[:
identificación de los principales temas y la calidad d.e:.•
la reclacción. Desde la óptica de la medición, la califi:' "
'I~ ;eñalan las
je diversol.
nes de desempeño de obras artísticas, proyectos de
ciencias. la habilidad para hablar en público y mu-
En el campo de las pmebas de personalidad, las
técnicas proyectivas ofrecen ejemplos clásicos de
reactivos de construcción de respuesta. En el capítulo
ción de respuesta. cación analítica supone que hay cierta independenci~.;'.,;. sistema de chosotros productos. Para calificar un portafolio debe 13, se expondrán las técnicas proyectivas en forma
.ciertogrn- tomarseuna decisión no sólo sobre el método de cali-
Concebir un esquema para calificar reactivos es significativa entre los.rasgos especificados en este es~i;,J ficación, sino también sobre la característica del por-
más sistemática. aquí sólo se ilustran algunas de las
un desafío aún mayor, las modalidades de los esque- quema de caliíIcación pero, con frecuencia, tal inde,,;.í técnicas que se erllplean para calificarlas.
.bilidad d, tafolioquc habrá de calificarse. Quizá se caliliquen Los métodos comunes para calificar el Rorschach
pendencia parece estar ausente, como lo señalan las~;-!
mas varían mucho; por tal razón, no es factible ofre-
cer aquí una lista completa; no obstante, se verán correlaciones tan elevadas entre las escalas de diversoS': r nario.5 Se 1todaslas entradas en el portafolio, sólo las mejores o se basan en la especificación de categorías. contar la
una deter- ~ lacantidad de progreso que se muestra de las prime- cantidad de respuestas que entran en esas categorías y
algunos ejemplos del campo de las pruebas de apro- esquemas analíticos. Antes de adoptar un sistema_des:~ I rasa las últimas.
leto escrito luego formar razones entre estos recuentos. En el cua-
vechamiento para luego volver la atención hacia las
pruebas de personalidad.
calificación analítica, es necesario establecer cierto gra,; ..'
do de independencia entre las escalas. .. "cH
f.".
a tarea po- I Se ha insistido ya varias veces en que calificar dro "6-7, aparece una categoría que se utiliza de ma-
Se han desarrollado varios métodos diferentes
para calificar los ensayos. Una distinción común es
Otro método creado .para medir la habilidad
5
d';J . : se solicita
lctada para
ll I~sreactivos de construcción
¡ de respuesta exige jui-
Cto,esto consume tiempo, es costoso y está lleno de'
nera común: la ubicación de la tarjeta utilizada como
punto de referencia para la respuesta. El calificador
redacción es la calificación de rasgo primario. Se~f ~ :nunciados
entre la calificación holística y la analítica. En la considera que cada ejercicio escrito tiene una det~r,:>_ f~ charse con
1 posibles problemas de contiabilidad del calificador.
Losinvestigadores estudian en la actualidad la apli-
(muy a menudo el clínico que aplicó la prueba) clasi-
fica cada respuesta a cada tarjeta según estas catego-
halística, el lector -la persona que califica el ensa-
yo- se forma un juicio holístico (ofrecer una mejor
minada finalidad, el grado en que un producto escnto'"t ~
logra esa finalidad es su rasgo primario. La tarea~o;/f;~
npero, una
10 se espe-.
tcaciónde sistemas de cómputo especializados -de- rías. El esquema conceptual aquí consiste en: a) la
explicación, el término definido no debe entrar en la
definición) general sobre la calidad del ensayo; la pun-
tuación asignada al ensayo refleja ese juicio general.
dría consistir en escr,ibir una carta en la ql1e se soliCIt.~:,I'f
cierto modelo de videojuego: una carta redactada para, i!-, ¡
este fin quizá lleve faltas ele ortografía y enunciadosa !
~ a que debe.
l Cuadro 6-7. Ejemplos de categorías para calificar las respuestas
a una tarjeta del Rorschach
de "ubicación"

La escala de calificación puede tener cualquier cantidad


de puntos, 1-4, 1-1 O o 1-100 y la lectura suele reali- base en la carta, ésta es entonces exitosa; empero, una
¡t
incompletos, pero si el pedido logra de.spacharse con....••..
j
¡
~
5USorígenes
I
1
Determine la ubicación

Todo
en la tarjeta utilizada

Toda la mancha
como punto de referencia

de tinta usada
para la respuesta:

para formular la respuesta


zarse con rapidez, sin cOlTecciones o anotaciones es- carta elegantemente redactada, en la que no se espe-. ; la National Detalle Común Una parte bien definida que se ve comúnmente
critas en el documento. ¿Qué calidad del ensayo se cifica el modelo deseado ni la dirección a la que debe,: j
'~,t!
describe en 1 Detalle inusual Se utiliza una parte inusual
califica? Esto depende de la aplicación de que se trate:
el ensayo puede calificarse en términos de la calidad
de la expresión escrita en una prueba de cOlnposición
enviarse el artículo resulta fallida.

fJ
s programas
plic<lciones.
- Espacio Respuesta definida por un espacio en blanco

en inglés o de los conocimientos sobre la materia en 5 La calificación del ra~g.oprimario se c:~óen sus orí~enes_IH
el caso de una prueba de historia. La característica como prueba de habilIdad de redaccwn en la NatI~:mal::;~,~
fundamental de la calificación holística consiste en Assessment of Educational Progress, que se describe e~TI~
que sólo hay una calificación. general sobre la calidad la p. 465; el método luego se amplió a algunos progra¡nas f;¡
TnT<'llelel f'nsavo. de eVall111Ción Dsicornétricn E""T;lt~lE'sv ()tl":'1'" nnlicaciones: t
--------------------------
..

Elaboración de pruebos y análisis de reactivos • 167

166. Pmebas psicológicas. Una introducción práctica


.~~';::'
(Capítllloó/.
- facilidad complctar 30 reactivos de vocabulario mn sianificativa en las evaluaciones futuras. sobre las
n ventajas y desventajas relativas de los reactivos de
-...:; . co f rmato de opción múltiple, pero sólo 10 en foro
~~M-J- en o de construcción de respuesta; en una prueba de
lIlato .
echamiento, en 20 mlllutos una persona po na
d '
selección y de construcción de respuesta.
lista de las categorías, b) la noción de conteo de enun- VENTAJAS Y DESVENTAJAS aprovletal' un ensayo en comparacIon
ciados y c::) la formación de razones. Por supuesto,
corresponde a los estudios de validez determinar si
DE LOS REACTIVOS DE SELECCiÓN
Y DE CONSTRUCCiÓN DE RESPUESTA
;,~ ':,
-:-?,¡
:~ ~ccióny"
manera
rol :ometría
cornp'vos de opclOn
reac t 1
. " mu"l'tIP 1e que rea l'"
. .
. , con 1os 30
Izana, E n va. tu d
deque la confiabI!ldad por lo general aumenta en un-
f
SUGERENCIAS PARA REDACTAR
LOS REACTIVOS DE SELECCIÓN
alguna de estas razones se relaciona con característi- <>~- coso He . 'n de la cantidad de reactIvos, esta segunda ventaja DE RESPUESTA
cas de personalidad o condiciones patológicas. Los llléritos reIativos de los reactivos de selecciór~l'... clO
_al igual que la pnmera~ .
se re d uce a un asuo t o d e
de est~.'
El ROller Incomplete Sentences Blank (RISB; construcción de respuesta se han refutado de mané,!.' nfiabilidad. Además, las ventajas mencionadas tam- Hay numerosas listas de sugerencias para redactar los
" de los'
Formulario de Frases Incompletas de Rotter) (Roller, vehemente, tanto en los estudios sobre ~sicome~: ~~énse vinculan con la validez, debido a la relación reactivos de selección de respuesta, sobre todo los de
mración
Lah, Rafferty, 1992) consti!uye otro ejemplo de es- como en los medIOs de comUI1lCaCIÓn publicas. fl' 1 prime. existente entre confiabilidad y validez. opción múltiple de las pruebas de aprovechamiento.
quema conceptual para calificar una prueba proyectiva.
El RISB consiste en 40 enunciados incompletos, si-
aquí un resumen de los
. aspectos principales de eSlo~.
argumentos. Al anahzar los "pros y contras" de lo'
, uesta no ' La tercera ventaja de los reactivos de selección Haladyna y Downing (1989a, 1989b) prepararon una
::ación a de respuesta es la eficacia de la calificación, un em- taxonomía de estas reglas, conocidas como reglas para
milares a los que aparecen en el cuadro 6-6. ¿ Qué se reactivos de selección de respuesta en comparaciÓ:. , ) que el pleado o un escáner electrónico pueden calificar es- la redacción de reactivos, recogidas de un estudio de
hace con las respuestas a esos reactivos? Cada res- con los de construcción de respuesta, advierta prime:- .cterísli. toS reactivos de manera veloz. Esta ventaja fue el 46 libros de texto y fuentes similares; tiempo después,
puesta se evalúa en una escala de seis puntos para ro que esta distinción en los formatos de respuesta no os; pero principal estímulo para el desarrollo de las primeras Haladyna (1994,1999) dedicó todo un libro a la ela-
determinar con ello el grado de inadaptación mani- es igual a la que existe entre pruebas de aplicación { también pruebas de capacidad mental y personalidad aplica- boración de estas reglas e investigaciones sobre su
fiesto, después, las calificaciones a los 40 reactivos se grupos y de aplicación individual. Es cierto que ,l. en muo das a grupos durante la Primera Guerra Mundial. validez. La edición actual de esta obra es con mucho
suman para generar una puntuación total de adapta- formato de selección de respuesta resulta característi: emplea Observe que este factor es independiente de la confia- la mejor fuente de recomendaciones sobre cómo re-
ción. El manual del RISB da instrucciones específi- co de las pruebas que se adlninistran a grupos; pe~, lbién es bilidad del calificador. dactar reactivos de selección de respuesta y si las su-
cas respecto de los indicadores de adaptación o cualquier prueba que se aplique a un grupo tambié~- llicación" En el caso de los reactivos de construcción de gerencias marcan alguna diferencia en cuanto a la
inadaptación, por tanto, el esquema conceptual con- puede hacerse en forma individual. Aunque en mu~-: pueden respuesta, suelen mencionarse tres ventajas; una es calidad de los reactivos; cualquiera que necesite ayu-
siste en considerar las respuestas en términos de indi- chas evaluaciones de aplicación individual se emplea Jruebas quepermiten una observación más sencilla del com- da para redactar reactivos de selección de respuesta
caciones de adaptación, caliticar las respuestas en una el formato de construcción de respuesta, también" , ser ad. portamiento y los procesos al realizar la prueba. En debería consultar este libro. En el cuadro 6-8 se pro-
escala numérica simple y luego sumar estas califica- posible utilizar este formato en las pruebas de aplicación stas a la cierto sentido, esto se relaciona más con la modalidad porciona la lista de Haladyna (1999, p. 76), ella seña-
ciones para obtener una puntuación total. a grupos. Por ejemplo, las pruebas de ensayo pueden de aplicación (individual en lugar de grupal) que con ló "Quienes redacten reactivos deberían aplicar estas
emplearse en grupos grandes; hasta las pruebás poseen el formato de respuesta. Sin embargo, el formato de reglas juiciosa y no rígidamente. ya que la autentici-
proyectivas, como la TAT, son susceptibles de ser ad~. abilidad construcción de respuesta facilita observar en el exa- dad de algunas directrices al parecer aún es cuestio-
ministradas a grupos, siempre que las respuestas aJa";, ge poco minado su motivación, ansiedad, forma de abordar los nable". De hecho, algunos autores concluyen sus listas
iINTÉNTELO! "historia" sean por escrito y no verbales. ¡:f~.' es fuen. problemas y otros, en formas que los reactivos de se- de reglas para la redacción de reactivos con el siguiente
Los reactivos de selección de respuesta poseeri. tre cali. lección de respuesta no permitirían, aun cuando estos precepto: ignoren cualquiera de estas reglas cuando
ElRISB se calificaen función del grado de inadaptación que tres principales ventajas: la primera es la cOllfiabilidad-. ta en el últimos se aplicaran en forma individual. parezca haber buenas razones para hacerlo.
indican las respuestas. ¿Imagina usted algún otro esquema de la calificación. Dado que la callficación exige poco. ' osta. En Una segunda ventaja del formato de construcción La mayor parte de las reglas que aparece en el
conceptual que pudiera utilizarse para calificarlas? ° ningún juicio, se elimina una de las principales fueD~'~. lores de de respuesta. sobre todo en el campo de las pruebas cuadro 6-8 se explican solas. algunas se ilustrarán con
tes de varianza inestable. La confiabilidad entre cáliJ':' Jizá sea de personalidad, consiste en que permite explorar este ejemplo de reactivo:
ficadores o entre jueces es en esencia perfecta en el" ' I por la áreas inusuales que probablemente tal vez nunca
caso de los reactivos de selección de respuesta. En:: o de las ~ aflorarían con uno de selección de respuesta. Desde La validez de la prueba _
comparación, la confiablhdad entre calificadores de pruebas ~ luego, la pel1inencia de este argumento depende de
En algunas aplicaciones del campo de la personali-
los reactivos de construcción de respuesta quizá se~~
XX, las 1 qué tan completa sea la prueba de selección de res-
dad, los reactivos de construcción de respuesta no se A. Es la característica aislada más importante de
un problema sustancial. Esta preocupación por la: uarlas a • puesta pues si en realidad lo es, por definición debe . una prueba.
califican de manera formal. Las respuestas se consi-
deran simplemente puntos de partida para conversa- confiabilidad fue él estímulo para el desarrollo de las' . ele pen° 1
sacar a la luz toda la información importante. La pre-
,alificar ¡ gunta es si tales pruebas son, de hecho, completas en
B. Determina de una sola manera.
ciones entre clínico y paciente, o para dar al clínico primeras versiones de opción múltiple de las pruebas.; C. ps lo mismo que la confiabilidad.
de aprovechamiento a principios del siglo XX, l.as:/
opción ~ cuanto a la medición que hacen de la personalidad. D. Todas las anteriores .
ideas sobre temas que es factible explorar con mayor lebidoa '
detalle. Aún así, las aplicaciones más frecuentes su- cuales no se crearon con la finalidad de adecuarlas a. En el campo de las pruebas de aprovechamiento,
e los de .:1 algunos autores consideran que el tipo de reactivos de
.ponen una ~alificación formal. Los procedimielHos de un sistema de calificación nlecánico, como suele pen- Este reactivo infringe varias de las reglas: la IS, en el
istórico ~ la prueba que se utilizan innuye en el desarrollo de
sarse (en realidad, no había máquinas para calificar...
calificación pueden ser muy sencillos o nluy elabora-
dos. La característica medular de estos procedimien- las pruebas en ese entonces). El reactivo de opción
) de las i loshábitos de estudio de los estudiantes, De mane-
mato de E ra más concreta, se piensa que el uso de los reactivos
sentido de que carece del contenido suficiente; la 24, ya
que la respuesta conecta CA)destaca por su extensión; la
tos consiste en codificar los elementos de las respuestas múltiple se convirtió en el formato preferido debido, 25, al incluir la opción D. Si alguien puede detemünar
que generaba puntuaciones 111ásconfiables que los de ~ de opción múltiple promueve la memorización y una que sólo una de las opciones es incorrecta o falsa, enton-
en relación con aIguna dimensión bien definida. =activos € aproximación atomista al aprendizaje de las materias.
El manual de la prueba desempeña una función construcción de respuesta. Para un recuento histórico ces "todo lo anterior" puede eliminarse como posibili-
)ral. En ~ en tanto que los reactivos de construcción de respues-
esencial a fm de garantizar que los reactivos de cons- de los factores que condujeron al desarrollo de las dad. El reactivo también inflinge la regla 27c, ya que la
minado , ta fomentan una aproximación más holista y signifi-
trucción de respuesta generen puntuaciones signifi- primeras pruebas de aprovechamiento con fonnatod~ ~ catIva al estudio. opción B no completa un enunciado gramaticalmente
ivos de ~~ "

cativas, pues debe especificar con .toda claridad qué opción múltiple consulte Ebel (1979).
La segunda
.,.
ventaja impOItante de los reactivoS
'esplles- •
l} Los desalTollos actuales en los sistemas de califi-
con'ecto, de modo que no puede ser la opción con'ecta,
aun cuando el examinado tal vez no sepa si la validez se
tipo de capacitación se requiere para calificar los ) podria
de selección de respuesta es su eficacia temporal. En cación automatizados probablemente intluirán en for- detelmina o no de una sola manera.
reactivos. También es preciso que explique los funda-
mentos para la calificación de los reactivos. Debe ofre- una determinada cantidad ele tiempo, el examina~o._;,
cer ejemplos de la aplicación de los fundamentos y puede responder por lo general a más reactivos d~
dar cuenta de los resultados de los estudios de confia- selección de respuesta que de construcción de respue:'-
bilidad entre calificadores. tao Por ejemplo, en 20 minutos, un examinado podría 1

I
". ,;


.':,¡,
.~~: •
$,
,~

168. Pruebas psicológicas, Una il1lroducción práctica ?ilUlo 6)' Elaboración de pruebas y Clnálisis de reactivos • 169
---"';¡'¡

,::tJ
'"
No deseo inventar otra lista más de reglas para la y validez de la medición por lo general se satis-
Cuadro 6-8. Directrices para la redacción de reactivos de selección de respuesta dacción de reactivos, pero sí afirmo que casi todas facen mejor al incluir más reactivos. Si sólo hay
Consideraciones sobre el contenido re reglas existentes se reducen a estas tres: elaborar
la uno y, por alguna razón, el examinado no lo
'1 no reve ar la respuesta co-
rrectamente el conte:udo,
1. ~asar cada reactivo en'contenido específico y en un tipo de comportamiento mental. ;1', entiende o "toma la vía equivocada", no hay
2. Hacer que el contenido específico de los reactivos se mantenga independiente uno de otro. ,~
,'~'J:.
"'!?~.
:ecta, y mantener la sencillez y la claridad. Además, forma de contrarrestar la situación con respues-
::,'$" las dos primeras se lmutan a las pruebas de capacIdad tas a otros reactivos. Aunque el formato de cons-
3. Evitar información demasiado específica o muy general. \t',~I
4. Enfocar cada reactivo en un sQlo comportamiento y no en una serie de ellos.
,,,Ki'
'~;;¡.. .
y aprovechamiento, lo que deja sólo la tercera para las trucción de respuesta suele permitir menos
pruebas de personalidad, intereses y actitudes.
5. Evitar los reactivos fundados. 'en opiniones. X!k~;"
:,-~'!, .
reactivos que el formato de selección de res-
puesta, el especialista debe tender a más y no a
6. Eludir los reactivos engañosos.
:~
~,'~~
,~,.¡itt~. SUGERENCIAS PARA REDACTAR
menos reactivos al utilizar reactivos de cons-
," trucción de respuesta.
:'cli: REACTIVOS DE CONSTRUCCION
Consideraciones sobre el formato f~JV~
;¡.
le opciÓn" DE RESPUESTA
7. Utiliz~r los formatos recomendados en el capítulo 3; evadir los formatos de Verdadero o Falso y los formatos de op~¡~.'
múltiple complejos. . :5.~1.' CONSIDERACIONES PRÁCTICAS
4,,,,-,
Como ya se señaló. los libros de texto y los artículos PARA REDACTAR LOS REACTIVOS
8. Formar el reactivo en posición vertical y no horizontal. >Bf. :'. están llenos de sugerencias sobre cómo formular los
'::':fl
...'.:~'.
.~;t
"

reactivos de selección de respuesta. Sin embargo, las Aquí se consideran algunos asuntos prácticos sobre la
Consideraciones sobre el estilo <~~,..
.1'. sugerencias para redactar reactivos de construcción redacción de reactivos para las pruebas. Si el investiga-
9. Editar y probar todos los reactivos. d.li" ,', terá a la
de respuesta son más limitadas; tal vez la misma na- dor está preparando un conjunto de reactivos de prue-
10. Hacer que el nivel de vocabulario mantenga su sencillez en función del grupo de estudiantes que se someterá ~:, turaleza abierta de estos reactivos dificulte la formu- ba, ¿cuántos deben redactarse? No hay una respuesta
prueba. "~~\g 1" lación de recomendaciones específicas. Resulta definitiva a esta pregunta, pues depende en parte de que
11. Emplear correctamente la gramática, puntuación, ortografía y las mayúsculas. ,tM~: curioso que el primer atisbo de recomendación que se tomen las decisiones adecuadas en la etapa de dise-
12. Reducir al mínimo lá cantidad de lectura en cada reactivo. ~~:1;¡;: dan casi todos los elaboradores de pruebas experimen- ño preliminar, por ejemplo, sobre el tipo de reactivo
'f¡t~t. tados consiste en tratar de evitar los reactivos de cons- apropiado que se empleará e investigar de modo con-
~">:1';': trucción de respuesta y utilizar, en can1bio, los de cienzudo el área que se evaluará. La respuesta depende
Redacción del reactivo 11
'<>1
;;,\ti.;' "
selección de respuesta. Dicho lo cual, se ofrecen las también de que se haga una labor razonable de prueba
13. Utilizar una pregunta o _un en~,~ciado parcia! en la interrogante con que se abre el reactivo. ~il;t-/ ~ recomendaciones siguientes sobre cómo preparar los informal, para asegurarse de que funcionen los prototi-
14. Asegurarse de que las instrucciones
15. Incluir la idea central en la interrogante
en la interrogante del reactivo sean muy claras.
del reactivo y no en las opciones ..
1~l~: reactivos de construcción de respuesta. pos de los reactivos buscados. Con estas consideracio-
nes en mente, una regla práctica consiste en preparar
<",': 1) Asegúrese que la tarea sea clara. Con los
16. Evitar el lucimiento (la verborrea excesiva). -l"eti: ' entre 2 y 3 veces más reactivos de los necesarios para
.~,~ ,
reactivos ele selección de respuesta, la labor e1el la prueba final. Así que, si la prueba final contará con
17. Formular la interrogante del reactivo en forma positiva, soslayar las formas negativas como NO y EXCEPTO.
~:i
m:r
examinado se esclarece al considerar las posi-
bles respuestas. Tal orientación está ausente en
50 reactivos, uno debería preparar entre 100 y 150 para
'kl- probarlos. Considere las siguientes desviaciones extre-
Redacción de las opciones ~t1:i' el reactivo de construcción de respuesta, por tan- mas a esta regla práctica: si la prueba final tendrá 50
18. Utilizar tantas opciones adecuadas como sea posible, aunque tres parece ser el límite natural. l:g, to, se necesita un mayor cuidado para formular y reactivos y sólo se someten a prueba 55, es casi seguro
~ft1.¡
19. Cerciorarse de que sólo una de estas opciones esté en la respuesta correcta.
20. Variar la ubicación de la respuesta correcta en función de la cantidad de opciones.
21. Colocar las opciones en orden lógico o numérico.
ri~'
'Y-,f

-f"
, .&
aclarar las instrucciones de estos reactivos.
2) Especifique el sistema de calificación, cuan-
do el reactivo esté preparado. Una práctica
que el análisis de los reactivos revele más de 5 reactivos
con caractelisticas indeseables, si la perspectiva es des-
echar sólo S reactivos, se verá obligado a incluir en la
,C;} ¡ común en el formato de construcción de res- prueba tinal algunos que no sean muy buenos. En el
22. Mantener independientes las opciones, éstas no deben trasJaparse.
:".,;,; puesta consiste en preparar el reactivo, aplicar- extremo opuesto, si prepara 500 reactivos para probar-
23. Mantener la homogeneidad en el contenido de las opciones. lo y suponer que el método de calificación se los, en primer lugar, evidentemente, elaborar 500 reac-
24. Conserve la .extensión de las opciones casi del mismo .tamaño. ~, aclarará posteriormente. Esta estrategia es una tivos sobre casi cualquier tema es una tarea difícil, pero

1i;
.f:UI
25. Evitar el uso de "Ninguna de las anteriores", ''Todas las anteriores" o "No sé". invitación al desastre psicométrico. La forma en más importante aún, si va a elegir SO reactivos de una
26. Plantear las opciones en forma positiva; evitar formas negativas como NO. ¡ que se cuantificará el reactivo, de preferencia, reserva de 500, es muy probable que el especialista apro-
27. Prescinda de dar1ndicios sobre la respuesta correcta, como: :;~:f ~
con muestras de respuesta, debe ser clara antes veche algunos factores fortuitos que no sobrevivan a
~ de aplicar el reactivo. Esto aplica al margen de un proceso de validación cruzada (véase más adelante.
"'.

a. Determinantes específicos 'que incluyan "siempre", "nunca", "completamente" y "absolutamente". ; ~ 10,


b. Asociaciones sonoras, opciones idénticas o que se parezcan a las palabras de la interrogante del reactivo.
,< la generalidad de la respuesta y es igual de im- bajo el subtítulo Validación cruzada y disminución de
•¡ portante para calificar los reactivos que consis- la validez); si se requiere probar 500 reactivos para ob-
c. Inconsistencias gramaticales que den indicios sobre la opción correcta, a quien se somete a la prueba.
d. Opciones correctas obvias.
'~;¡:1.s': ~E ten en llenar espacios en blanco, como para en- tener 50 útiles, probablemente sea necesario recon-
sayos largos, evaluaciones de desempeño o téc- siderar la forma en que se está abordando la prueba.
e. Pares o tercias de opciones que den indicios sobre la opción correcta a quien se somete a la prueba. .~i~ ~ nicas proyecti vas.
f. Opciones que con claridad'son absurdas y ridículas.
:n. g 3) Utilizar una cantidad suliciente de reactivos.
-.r,•••• ¡¡¡
28. Hacer que todos los distractores sean verosímiles. Con los reactivos de construcción de respuesta EDICiÓN Y REVISiÓN DE REACTIVOS
,:~""1~ existe la tendencia a consumir todo el tiempo
29. Utilizar los errores comunes de los estudiantes;
30. Evitar las opciones graciosas.
Fuente: Haladyna (1999, p. 77).
para redactar los distractores.
~-:
..~
~

J
I<.r

!; - de evaluación disponible en unos cuantos


reactivos. tal vez sólo en uno. La contiahilidad
En los principales proyectos de elaboración de prue-
h<ls. lIn~ Vf''7 Ollf' h:1n
<;';;f' ,',...d~rl''"Ir-In ln(' ,-p.~,'t;,'n<, ",...
.• .

".¡
..;~"~~
'~:A!

170 • Pruebas psicológicas. Una introducción práctica (Capítulo


I
dF ,". ,,\
.~

J':'

Elaboración de pruebas y análisis de reactivos • 171
---.......(
1~'!&:
DltUI~!h
"Mi,
ji.
-
someten a una revisióh desde varias perspectivas. Pri~ son como los bloques de una construcción, los e~~~~ los espe~~l .quiera se califican de manera formal. A los indivi- El procedimiento de análisis continuo exige que
mero se revisan en función de su claridad, corrección cialistas controlan .las características de una,rfUebaá{ lruebaaf' ~~osque realizan la prueba infonnal se les pide que se utilice en forma reiterada una prueba o reserva de
gramatical y conformidad con las reglas para la re- controlar los reactivos que la conforman. 51 se dese"1' se desea" omenten los reactivos y las instrucciones del instru- reactivos, a la cual se sumaD nuevos reactivos (de ma-
dacción de reactiv.os, ya expuestas. En segundo lugar, una prueba sencilla, se recurre a reactivos fáciles.}.': iciles; si'" ~ento; quizá se les proponga que "piensen en voz alta" nera habitual, sólo unos cuantos) en cada uso. Los
en el caso de los reactivos de las pruebas de aprove- se quiere una que tenga una confiabilidad de con;I;:'.':, ~ consis:> alresponder. Las pruebas de los reactivos en las que se nuevos reactivos están sujetos a un análisis de reac-
chamiento, se hace una revisión de la corrección del tencia interna elevada, se emplean reactivos que esté{;.' lue estén, iensa en voz alta pueden ser útiles de manera especial tivos, con base en el cual se retienen, modifican o des-
contenido (estas revisiones las realizan expertos en el muy con.elacionados. El análisis de reactivos es el 'os es el' ~ara el caso de formatos o métodos novedosos, pues cartan; y pueden o no contar en la puntuación de la
.campo temático de que se trate). . conjunto de procedimientos que permiten ejercerest, .'. ercer e~é contribuye a que el creador de la prueba identifique prueba. Es posible retirar de la reserva algunos reac-
En tercer lugar, en los últimos años se ha vuelto control. Además, en virtud de que las característiéai':.!,. :erísticaS" fonnulaciones ambiguas, interpretaciones inesperadas tivos utilizados con anterioridad, no por una estadísti-
una costumbre revisar los reactivos en busca de posi- de los reactivos determinan características importan~'\ nportan. Y

deunreactivo, confusión sobre los métodos de respuesta ca deficie-qte, sino para mantener fresca la reserva. Los
bles sesgos de género, raciales o étnicos, revisiones tes de una prueba, los manuales de las pruebas co~;." ,bas con,' y otras anomalías similares. No tiene sentido recopilar maestros con frecuencia recurren a este procedimien-
que por lo general son realizadas por individuos que frecuencia aluden a los resultados de este análisis; po;".' lisis; poi datosde varios cientos de examinados y realizar análi- to a fin de contar con información sobre la calidad de
representan a los grupos de referencia. La cuestión es tanto, para leer con conocimiento de causa los ma!:~ los ma: sisestadísticos elaborados sobre reactivos que, en prin- sus reactivos sin tener que utilizar exactamente la mis-
si algo en el reactivo perjudica o es injusto con algún nuales de las pruebas, es preciso familiarizarse con' arse con' cipiode cuentas, no se entienden. ma prueba una y otra vez.
miembro del grupo, por "injusto" se entiende que los los conceptos y las técnicas del análisis de reactivos' ~activos:, La prueba formal de reactivos supone aplicar los
.. ~'.;
nuevoSreactivos de la prueba a muestras de examina-
integraI).tes del grupo quizá respondan de manera .in-
adecuada, no porque tengan un nivel bajo en el rasgo ~t dos. Las muestras deben ser representativas de la po-
que se mide, sino por su pertenencia al grupo. Si se iINTÉNTELO! ... cI~ blaciónmeta del instrumento; por ejemplo, si la prueba
estáideada para usarse con niños normales de entre 3 ESTADíSTICOS DE LOS REACTIVOS
sospecha que un reactivo afecta de manera no equita- 1~
: ~r edición y 6 años de edad, la muestra debe ser representativa
tiva el desempeño en la prueba, la tendencia común Consulte la revisión de alguna prueba en cualquier edición
ediciones de este grupo, lo mismo que si está programada para
es eliminarlo de la reserva, incluso antes de probarlo. del Mental Measurement Yearbook (Anuariode Mediciones
:trónicao estudiantes que aspiran a ingresar a la universidad.
. Por ejemplo, suponga que la mayor parte de los Mentales) del Instituto Buros, ya sea en forma electrónica o:. laques,. Las muestras en la prueba de reactivos con fre- Buena parte del vocabulario empleado en el análisis
reactivos preparados para una prueba de lectura abor- impresa; explore la revisión de la prueba para ver lo ques~;,
,nto; esté cuencia no son tan grandes como las muestras utiliza-
da temas de un deporte predominantemente masculi- dice sobre el proceso de elaboración del instrumento;est{ i lOS, ¿cuá; das para establecq las normas de una prueba. No
de reactivos se origina en aplicaciones a las pruebas
de aprovechamiento y de capacidad, sobre todo para
no, como el fútbol americano, en la cual se incluyen atento en especial a los estadísticos de los reactivos, ¿cuj::::
obstante,las muestras deben ser lo suficientemente gran- reactivos de opción múltiple. En estos campos, hay
párrafos sobre formaciones de defensa, bloqueos y la les se mencionan? i:i# '; des como para generar datos estables. En general, las
pausa de los dos minutos. Las chicas podrían obtener
una calificación menor en la prueba, no porque ten-
:!tl,: muestrasde varios cientos de individuos son adecuadas
una opción correcta y varias incorrectas; sin embar-
go, los procedimientos de análisis de reactivos fun-
;~.~' cuando se aplican procedimientos de análisis de reac- cionan con las pruebas de otras áreas, como en las de
gan una capacidad de lectura deficiente, sino porque
no han pasado. las tardes de los sábados y los domin- .~J tivosclásicos, como se explica más adelante. La aplica-
ciónde procedimientos de la teoría de respuesta al ítem
personalidad o las encuestas de actitudes. La termi-
nología creada en el terreno cognitivo suele transferirse
gos escuchando cómo estos temas se analizan de ma-
nera interminable. Tales reactivos deben eliminarse o PRUEBA DE REACTIVOS
""i quizá exija muestras mucho más considerables. a estos otros ámbitos, aunque su uso es en ocasiones
'~f Hay tres prácticas comunes para realizar una prue- un poco más forzado. En la tlgura 6-S aparece el léxico
quizá equilibrarse con otros que operen en sentido
contrario. En secciones ulteriores de este capítulo, se
abordan algunos métodos estadísticos que sirven para
"jt
~~>t:
formal y
ba de reactivos formal, se las clasifica como procedi-
mientos de estudio independiente, de acoplamiento
y de análisis continuo. El priInero consiste en reali-
que más se emplea para tales reactivos.

examinar este mismo tema. Hay dos etapas en la prueba de reactivos, una formal;.:l,.• ::tivos se zar un estudio con la finalidad exclusiva de hacer un DIFICULTAD DEL REACTIVO
otra informal. Los datos del análisis de reactivos se.~ de reali.. ~ análisis de reactivos. Las muestras de examinados res-
basan en la prueba formal. Sin embargo, antes de reali.:~i. :abo una •
~ ponden a los reactivos en circunstancias que se aproxi- La prueba de reactivos formal genera un conjunto de
zar ést~, se acostumbra y es sensato llevar a cabo una J nto; esto : man a las condiciones buscadas para la prueba final; estadísticos sobre ellos. Los procedimientos tradicio-
;, entre 5

!..
prueba informal de los reactivos del instrumento; est~..~ .a pero la extensión de la prueba puede variar -ser más nales de análisis de reactivos, los que se derivan de la
ANÁLISIS DE REACTIVOS suele hacerse con tan solo unos cuantos casos, entreLt e se pre- =.~ largao más corta- y tal vez no haya límite de tiempo teoría clásica de la prueba, dependen de dos concep-
LCtiVOS ni ~ para asegurar que los examinados tengan oportuni- tos: los índices de dificultad y de discriminación del
y 10 individuos similares a aquellos a los que se pre;,.-.,
..
tende adlIunistrar la prueba. A menudo, los reactlvos~,.: ¡ dad de probar todos los reactivos. El modelo de estu- reactivo. El término dificultad del reactivo alude al
"1' : ~ dio independiente es la práctica más común para el
_
Ésta es una de las etapas cruciales en .la elaboración 1l análisis de reactivos. r--------------------,
de las pruebas, pues conlleva el análisis de los datos
obtenidos al someter a prueba los reactivos. Los reac-
,,?I
~ El procedimiento de acoplamiento consiste en in-
E cluir reactivos de prueba en la aplicación regular de ¿ Cuántas pulgadas
hay en un pie?
l Interrogante del reactivo
tivos se eligen para su inclusión en la pnleba final con ~'::,I!.J".: '
~ una prueba existente, por lo general a los examinados
base en este análisis, el cual consiste en realidad en de puntos clave 6-3 '.,$,,1 ... se les dice que la prueba contiene algunos reactivos
tres procesos muy relacionados: prueba de los reac- ~",. '.':'4' " .J
...:.~$~~: J "expeIimentales", pero no se les indica cuáles son. Los A.12
B. 10
f- Opción correcta o "clave" } Opciones o
alternativas
tivos, análisis estadístico y selección de reactivos. En Las tres fases del análisis de reactiVOS!:! ¡¡¡ reactivos de prueba no cuentan en la calificación regu- Distractores o contrastes
esta sección'se analiza cada uno de estos procesos.
;'Rt
¡¡¡, larde la prueba: este procedimiento suele utilizarse con
C.100
0.20
}

¿Por qué es importante el análisis de reactivos? 1. Prueba de reactivos ~ grandes programas de evaluación psicométrica a nivel
C01l10 ya se señaló, la gran mayoría de las pruebas 2. Análisis estadístico i:1~i
,.-,-.:0" ,.:~ ~ nacional, en los cuales las pnlebas se aplican sólo en
educativas y psicológicas consta de un conjunto de
reactivos individuales. Los reactivos de las pruebas
3. Selección de reactiyos
:;~~f unas cuantas fechas. Figura 6-5. Anatomía de un reactivo de opción múltiple.
..

Elaboración de pruebas y análisis de reactivos. 173

172 • Pruebas psicológicas. Ulla illtroduccióll práctica de discriminación, correlación reactivo-total o índice
1 cues~
. ferior.? Para completar el análisis, cuando se em-
¡nlean.25 27 o .33% superior e_ inferior. se acostumbra de validez del reactivo.
OS dos P ",minartamblen _ .
ponga el desempeno de los grupos mtenne-
porcentaje de examinados que responden de manera dos (o más) grupos diferenciados en el rasgo en cueL~:' o para . aunque el desenvo l"vllruento de estos grupos no m-
eX~'~ .
dIOS, ANÁLISIS DE DISTRACTORES
correcta en aquellos calificados como "correctos" o tión, según cierto criterio externo. Considere estos do~.'-:; Oindi_ sa al análisis de d'Iscnmll1aClon.
.. " (To dos los casos
"incorrectos", o responden en cierta dirección en ejemplos de grupos externamente definidos: SUpongar~ ~nósti_ gr~an en la determinación del índice dc dificultad.)
en Si bien la dificultad del reactivo casi siempre tie- Los principales productos de un análisis de reactivos
aquellos que no tienen una respuesta "correcta", por que se está elaborando un cuestionario diseñado para~' , se h~
accio_ sólo un indicador universal -el valor jJ-, la dis- son el índice de dificultad del reactivo (P) y el índice
ejemplo, .marcar "de acuerdo" en un reactivo de acti- medir la depresión; cuenta con dos grupos de 50 indio' ne.rninación del reactIvo
. se expresa de d'Iversas f armas. de discriminación del reactivo (O O r). Sin embargo,
tud. En el caso de los reactivos calificados como co- viduos cada uno, el primero ha recibido el diagnósti. '{ i l cHui_
los datos del análisis también se emplean para lo que
rrectos o incorrectos, la "dificultad" del reactivo es, ca de depresión por un equipo de psicólogos Y se h~'!: contar
tre es~
~Uy a menudo, el grado de disc.rimina~ión s~ re~r~-
senta mediante O (que denota diferenCia o dISCrImI- se conoce como análisis de "distractores".8 Un dis-
en realidad,. un índice de la "facilidad" del mismo, es identiticado que el otro grupo experimenta reaccio;.;;-
depn- nación) o por medio de r (la correlación entre el tractor es una opción incorrecta o no preferida en un
decir, el porcentaje que responde con acierto. No obs- nes fóbicas leves, pero sin ningún otro síntoma clíni.4 _
;e está desempeño en el reactivo y en el criterio externo o reactivo. Un análisis de reactivos suele ofrecer infor-
tante, el término "dificultad del reactivo" está muy ca de importancia. En la prueba, usted desea COntar';', .
de puntuación total en la prueba). D suele detlnirse como mación no sólo sobre el desempeño en la opción co-
arraigado en los estudios sobre psicometría. con reactivos que discriminen o diferencien entre es.1 ;;- 1S0
rrecta o preferida -esta información genera p y D o
Los niveles de dificultad del reactivo se denomi- : sirve la diferencia simple en porcentaje correcto en los gru-
tos dos grupos, es decir, que distingan al grupo depri/.} r-, sino también en cada una de las otras opciones
grupo pos "alto" y "bajo". En la práctica, uno se topa c~n
nan normalmente valores p, donde p significa por- mido del no deprimido. Ahora suponga que se está'; , del reactivo. Por supuesto, el análisis de distractores
de ca- varios diferentes tipOS de coeficientes de cOlTelaclOn
centaje o proporción, de modo que un reactivo con un elaborando una prueba de competencia en el uso de"~ '..
a otro Ir) para expresar las relaciones entre el reactivo y la tan solo se aplica a los reactivos que cuentan con más
valor p de .85 es sencillo, ya que 85% de los examina- Microsoft Access, un paquete de sofnvare que sirVe'~' de dos opciones.
jas en prueba, o entre el reactivo y el criterio. El tipo de r
dos lo respondieron correctamente, en tanto que si su para la creación de bases de datos; se tiene un grup,;"'1:' El análisis de distractores puede generar infor-
apaci- que se utilice depende de ciertas premisas que se es-
valor p es de .25 resulta muy difícil, pues sólo 25% de de 100 individuos que han realizado un curso de ca~.¡~ mación útil sobre la comprensión o malentendido en
ladis- tablecen en un determinado caso sobre la naturaleza
los exmninados respondieron acertadamente. pacitación durante tres semanas en Access y a oiro;<~. ~. relación con un reactivo. Algunos autores señalan que
de las variables asociadas; las r en el LISO común in-
grupo de personas que en general están versadas en~~: ., cluyen la l' biserial (I'b;,) Y la r biserial puntual (rpb")' el análisis de distractores podría constituir un funda-
~rupos
computación, pero que no han completado tal capaci,~' " ta me- En los estudios sobre psicometría. también se encuen- mento para la revisión de un reactivo. Una opción "in-
DISCRIMINACiÓN DEL REACTIVO tación. Se espera que los reactivos de la prueba dis,:'

La discriminación del reactivo alude a la capacidad


criminen entr~ ello~. ,,-~J, ,fica a
1 prue-
tran referencias a la correlación tetracórica (rtet) y al
coeficiente phi ($). También se halla el término "r co-
correcta" podría comportarse en realidad como una
opción correcta; lo que significa que más personas en
En el metada lOterno, usado para crear grupos..t .emisa rregida", que se emplea cuando la cOlTelación entre el el grupo "alto.' que en el "bajo" eligen la opción. Esto
de un reactivo para diferenciar en términos estadís- que tienen más o menos del rasgo que se intenta me':\' : ndica- reactivo y la prueba total se basa en una puntuación podría indicar que los integrantes del grupo alto están
ticos en una forma deseada entre los grupos de exa- dir, se califica toda la prueba, luego se identifica a.".+;; ta qué en la prueba total. que excluye al reactivo que se ana- interpretando la pregunta de manera ligeramente dis-
minados. El término "discriminación" aquí no se os que liza. Todos los métodos generan en buena medida la tinta a lo que pretendía el autor de la prueba. Tal vez
refiere a una discrimin.ación segregación sociológi- ba y a aquellos con una puntuación baja. La premisa'; ; pun- misma información sobre el poder de discriminación la interrogante o la opción del reactivo podrían modi-
ca o jurídica basada, por ejemplo, en razones de raza, consiste en que toda la prueba es un razonable indica.:;',:: de di- de un reactivo. Además de encontrar diversas formas ficarse para evitar ese malentendido.
género o religión. En virtud de la posible confusión dar válido del rasgo. Luego, se determina hasta qué',: s per- para determinar la discriminación del reactivo, tam-
sobre este aspecto, convendría emplear otro término punto un determinado reactivo diferencia entre los que'~"f: , pun- bién existen otras formas para denominar el índice.
para esta diferenciación estadística, sin embargo, obtuvieron calificaciones elevadas y quienes pun-.~:.:r. enden Al margen del método particular que se utilice para EJEMPLOS DE ESTADíSTICOS
como sucede con el término "dificultad del reactivo", tuaron bajo. En esencia, se determina el grado de di-.X, el ras- determinar el índice, éste puede denominarse índice DE REACTIVOS
es uoa frase que se encu~ntra muy arraigada en los ferenciación q.ue el reactivo estable~e entr~ las per¡,;•.."..•'¡",. . en la
estudios sobre psicometría y probablemente no deje sanas, de la mIsma manera en que dIferenCIa la pun. tr : ltemo En el cuadro 6-9 se presentan datos de cinco reactivos
de utilizarse. tuación total. Para muchos rasgos que se pretenden .'. ' erno. de una prueba de aprovechamiento, se examinarán
je va- 727% parecería una cifra extraña; pero hay una buena ra-
¿Qué clase de discriminación o diferenciación se medir se carece de un buen indicador externo del raS":~i~ zón para usarla. Al contrastar grupos, se desea optimizar estos datos para ilustrar lo que es posible aprender de
desea en el reactivo de una prueba? En general, se pre- go o resulta muy difícil obtener uno. Por ello, en 18';:(' l pun-
dos condiciones que en general operan en contra una de un análisis de reactivos. La columna izquierda, clasi-
tende que el reactivo diferencie entre los individuos que labor de elaboración de la prueba. el método interoo":: .i 15. Se ficada como "Reactivo", da el número del reactivo.
~ otra; por una parte, se quiere que los grupos sean lo más
tienen más del rasgo que se trata de medir de quienes se utiliza con mucha más frecuencia que el externo. .') c:
,
es to- diferentes posible. Según este principio, un contraste en- Hay tres entradas bajo "Estadísticos de reactivos":
poseen menos de ese rasgo. Como los reactivos son los En el método interno, puede hacerse una de va- '4 1 s gru- tre 5% superior e inferior, o 10% superior e inferior. sería Prop. correcta (proporción en que se contesta correc-
componentes de una prueba, aquellos que logran hacer
esta diferencia constituirán una buena prueba. Los pá-
... rias posibles divisiones entre quienes obtienen pun-'l~¡ i , infe-
ferior,
mejor que uno entre 50% superior e inferior. Ademús. para
obtener datos estables, se espera que los grupos sean lo
tamente el reactivo), Ind. Disc. (índice de discrimina-
tuuciones elevadas y quienes las reciben bajas. Se ."!I' .~,~ ción del reactivo). Biserial Punt. (coeficiente de corre-
lTafos siguientes descIiben: a) cómo detinir a los gru- empieza con la distribución de las puntuaciones to.~~~:.;= ue por más grandes posible; de acuerdo con este principio, los lación biserial puntual entre el desempeño en este
pos que tienen más o menos del rasgo y b) cómo rior e grupos de 50(:b superior e inferior son preferibles. En un
tales6 en la prueba. Luego, es p;:>sibledefinir a los gru' :;. .¡ reactivo y la puntuación total en la prueba del 27%
análisis famoso publicado primero en 1.928, pero cOlTegi-
expresar el grado de diferenciación del reactivo. pos "alto" y "bajo" como las mitades superior e infe- '" .[ superior e inferior de los casos).
ti? después, Trllman Kellcy (1939) demostró que la sol u-
Para determinar si un reactivo diferencia entre riar ele la distribución, los tercios supelior e inferior~..: j Cl?1l ó~tima a este problema era utilizar ese 27% superior
quienes tienen más o menos del rasgo que se quiere o los cuartos superior e inferior. Otra división que por-... e mferIor. Así que dicho 27% se convirtió en el "estLÍ.ndar
medir, es preciso identificar a los grupos que poseen lo común se emplea es el porcentaJ.e 27 supeIior e'" E versas de la industria" en el caso de las divisiones. El 25% o el
más o menos del mismo. Hay dos métodos que por lo ), pue- 33% superior e inferior se usan a menudo como aproxi- 8 La mayor parte de los diccionarios emplean "distracción",
~ los los
común se emplean para esta identificación: el méto. maciones razonables al 27%, con el heneficio adicional como la grafía correcta de esta palabra. Sin embargo. por
do externo y el método interno, el punto de referen- :~~
"1, <
] ICtivOS
Je.
d~ que permiten el análisis de LlIlOo dos grupos interme-
dIOSele igual tamaño a Jos grupos extremos.
alguna razón en los estudios psicométricos se prefiere la
opción "distractor ...
cia aquí para los términos "externo" e "interno" es la 6 En diferentes aplicaciones, es posible definir en diversas..:'~ ¡¡¡
prueba misma. En el método externo, la base para la
identificación de los grupos es externa a la prueba-
formas la puntuación total en la prueba. Por ejemplo, pue~&t ~
de basarse en todos los reactivos de la prueba, todos IOS_~.~ ~
en el interno, se encuentra dentro del mismo instru- reactivos excluyendo el que se analiza o todos los reactivos'f' ~
mento- y depende de que el investigador cuente con en un subconjunto dentro de una bmería más grande. .;
....1
í
,.

Elaboración de pruebas y análisis de reactivos' 175

174 • Pruebas psicológicas. Una introducción práctica

Cuadro 6-9. Ejemplo de datos de análisis de reactivos en una prueba de aprovechamiento'


- clO
rrecta. Aunque el reactivo muestra una discrimina-
cO'nexcelente, el hecho de que más estudiantes en el
rupo Alto que en e lB' aJo e l"19lcron 1a
guc uno se cuestione tal opción.
q
.,
0PClOll

El reactivo 28 es muy sencillo. Casi todos lo con-


4 hace
cierta dirección en una prueba de personalidad, inte-
reses o actitudes. La condición en el reactivo Se defi-
ne en términos de (e), como se expuso en el capítu-
lo 3. (La terminología de la TRI se originó sobre todo
en el trabajo con las pruebas de capacidad y aprove-
Estadísticos de reactivos Estadísticos de las opciones testaron de manera correcta. Es útil como validación chamiento. El léxico suele transferirse en directo, for-
de que los estudiantes aprendieron su contenido, pero zando en cierta forma el significado, a las pruebas de
Prop. Biserial Prop, de respaldo contribuye poco a distinguir entre quienes sabían más personalidad, intereses y actitudes. Por tanto, repre-
Reactivo correcta indo Disc, Punto Ope. Total Bajo Alto o menos del material, como lo señala su bajo índice senta una "capacidad", aun cuando el constructo sea
6
de discriminación de reactivo. la depresión o el interés en la política; el desempeño
.56 .50 .43 1 .56 .36 .87
El reactivo 29 es moderadamente difícil (valor p en el reactivo es "aprobatorio" aun cuando la respuesta
2 .26 .45 .07
3 .10 .09 .07
= .69), pero la distribución de las respuestas entre las sea "sr' o "Como". Algunos autores se valen de los
4 .05 .00 .00
opciones es desconcertante. El índice de discrimina- términos "rasgo" y "probabilidad de respuesta codifi-
ción y la correlación biserial puntual se acercan a cero. cada", que son más genéricos.) Los valores son algo
.62 .10 .04 1 .05 .00 .00 La división entre los grupos Alto y Bajo es casi la arbitrarios, pero por lo general oscilan entre -4.0 y
2 .62 .64 .73 misma en cada opción. Debería examinarse la redac- +4.0; donde los valores negativos y positivos repre-
3 .00 .00 .00 ción de este reactivo. sentan menos y más del rasgo, respectivamente. La
4 .31 .36 .27

23 .26 .40 .37 1 .03 .09 .00 iINTÉNTELO!


2 .08 .18 .00

!t~'\
3 ,26 .00 .40
4 .56 .55 .60
A continuaciónaparecen algunos datos de reactivos dispuestos de la misma manera que los datos en el cuadro 6-9. Ellector
• pondrá las ciíras faltantes de "Prop. correcta" e "ind. Disc:'.
28 .97 .09 .24 1
2
3
.00
.03
.00
.00
.09
.00
.OO'}'
.00
.00
."r .
:;!r;'
.
Estadísticas de reactivos Estadísticas sobre las opciones

4 .97 .91 1_00~r;; .. Prop. Prop. de respaldo

29 .69 .05 .03 .69 .55 .60 ,~~~~~


-
ackage,
:ido con
Reactivo

3
correcta índ. Disc. Pta. biserial Ope. Total Bajo Alto Clave
_._----
2
3
08
15
.
09
27
13
.20
" "!< •

'f/:" "
.48 1
2
.00
.15
.00
.36
.00
.13
4 .08 .09 .07 : [ 3 .85 .64 .87
lstante 4 .00 .00 .00
a El formato de estos datos se modIficó ligeramente con relación al listado de ITEMAN,TM un componente del Jtem andTesf Analys/s Package,
programa de análisIs de reactivos disponible en Circuitos comerciales, creado por la Assessment Syslems Corporatlon Reproducido con .¡ ya que
autorización. .:t.-t'. f ó tam-
_¥'}-r. grupo
Bajo "Estadísticos de las opciones", se hallan las a los gmpos Alto y Bajo. La opción 2 fue basta:tt¡[,' puede ESTADíSTICOS DE LOS REACTIVOS CCI es una línea de la relación entre estos dos
atractiva para los estudiantes del grupo Bajo, ya que:,. 15 aquí É EN LA TEORíA DE RESPUESTA
entradas siguientes: Ope. (opción o alternativa; en esta constructos.
pmeba cada reactivo tenía cuatro opciones); Prop. de casi la mitad de ellos la eligieron, lo cual ocurrió tam~'"[ a pun- !,. AL íTEM En la figura 6--6 aparecen cuatro CC!. Con nive-
respaldo (proporción de respaldo o de elección de cada bién con algunos ~pero sólo algunos- del grupo': 't o este
discri-
• les crecientes de 8 (es decir, desplazamiento de iz-
opción) de cada uno de los siguientes grupos: Total Alto. La correlación del biserial puntual (.43) no pued~~!. ~ En la sección anterior, el análisis de los estadísticos qUIerda a derecha a lo largo de la base de cada línea),
(todos los estudiantes), Bajo (aquellos con un 27%
inferior en la puntuación total) y grupo Alto (quienes
se ubican en el 27% superior en la puntuación total).
determinarse directamente a panir de los datos aquí~,

tuación total en la prueba y el desempeño en este,


,!
expuestos, pero se trata de la correlación entre la pun... ¡..... o ilus-

e difi-
6, una
~

~
¡
¡
de los reacti vos se basó en la teoría clásica de la prue-
ba (TCP). Los índices de dificultad del reactivo y de
discriminación del reactivo en la TCP se conocen
como estadísticos de reactivo tradicionales. En la teo-
la probabilidad de aprobar el reactivo se incrementa
en esos reactivos. Esto aplica a las cuatro CC!. Note
las líneas punteadas asociadas con la CC! del reactivo
Bajo "Clave" en la columna del extremo derecho, el' reactivo. La correlación biserial y el Índice de diseci-,'. A. La línea punteada horizontal indica por dónde atra-
asterisco (*) indica cuál de [as opciones se codificó minación normalmente serán similares, como lo ilUS' ...
d

[",
poder
e 64%
l fÍa de respuesta al ítem (TRI) también se utilizan es- viesa la curva en el punto de 50% de probabilidad de
como respuesta correcta, tran los ejemplos en el cuadro 6-9. '. '. ~ tadísticas, pero los conceptos y la terminología son aprobar. La línea punteada vertical señala dónde está
En el caso del reactivo 6, la proporción correcta El reactivo 10 tuvo casi el mismo grado de difi. ), sólo 1 algo diferentes que en la TCP. este punto en la escala (-1.5 en este ejemplo l. Esto
es de .56, lo que significa que 56% de los estudiantes cultad que el reactivo 6 (.62 en relación con .56, una ' 'oAlto j Un rasgo fundanlental del análisis de reactivo en
e cada
¡;;;
quiere decir, en teoría, que las personas en -1.5 en el
diferencia no muy grande), pero el 10 tuvo un poder, - la TRI es la curva característica de) ítem (CCI), la
respondió correctamente a este reactivo. Note que ésta
es la misma cifra que en el caso de la proporción de de discriminación mayor que el 6. Mientras que 64%
ue de-
sabre
j cual relaciona el deselupeño en un reactivo con la
rasgo tienen 50% de probabilidades de aprobar el
reactivo. En el reactivo A, las personas con una 8 de _
respaldo total de la opción 1, es decir, la proporción del grupo Bajo eligió la opción conecta (Opc. 2), sólo., • Condición en el rasgo o capacidad que subyace a la 2.5 poseen sólo cerca de 20% de probabilidades de
total del grupo que eligió la respuesta correcta. El ín- un porcentaje ligeramente mayor (73%) del grupOAlto ~ escala. El rendimiento en el reactivo se define como aprobar el reactivo. en tanto que quienes alcanzaron
"pon-
dice de discriminación del reactivo 6 es de .50; la di- eligió esa opción; cerca de una tercera parte de cada '"
i Ina de
~ la probabilidad de aprobar un reactivo. "Aprobar" sig- una e de 0.0 cuentan con alrededor de 95% de proba-
ferencia (con cierto error de redondeo) entre la grupo eligió la opción 4. Estos datos señalan que de...• ~ nifica aquí realizar la respuesta correcta en una prue- bilidades para aprobar el reactivo. Aquí se emplearon
lanera
proporción de respaldo Alto y la proporción de res- bería revisarse cuidadosamente el reactivo 10, sobre t ba de capacidad o aprovechamiento, o responder en los valores theta originales. En la labor práctica, se
paldo Bajo para la opción l. Por tanto, en este reactivo, todo la opción 4. ,t
87% de los estudiantes que obtuvieron la mejor pun- El reactivo 23 es muy difícil. A éste sólo respon"~f
tuación en la prueba en su conjunto, eligieron la op- dió correctamente 26% del grupo total; ninguno de:;
ción con'eeta. Este reactivo fue muy eficaz para separar los estudiantes en el grupo Bajo lo resolvió de manera~

¡
;
.. 'J"~
.{~ /~;>
"iqr,r~.•• :r!f.".
..,&:'

~~~' ,:'?).r ". '"


';.'I~'".J ,
'ji' ~~t:
~ ,'i~, .-"
'tulo 6)'1" t"'-- Elaboración de pruebas y análisis de reactivos • J 77
~. ;'~Ijj,'f!t

176. Pruebas psicológicas. Una introducción práctica


pme~~~
li
lITUento~(:.i,
,~.,~,
,::;~'"~
spectrci "\~
suele agregar una constante (p. ej., +5) para eliminar importante de las CC!: ayudan al creador de la pru~T
d'J~TW
¡;¡,t 0.8
las cifras negativas. a identificar los reacti vos que tienen un funcionamie~t m la fi'J~ ,
En los modelos TRl que se utilizan de manera más
común, el parámetro de dificultad del reactivo es el
diferente, en puntos distintos ti lo largo del espec;.O
de capael 'd a d . -o'
..,.¡,>
1~~6~~
.. o~!~ 0.6
I
punto en que la CCI atraviesa la marca de 50% de pro- Hay una tercera caractelistica de las CCI en la fi.
"' .•''1': al1llen~'~~
. . "i~ II
babilidades en aprobar el reactivo. El concepto es muy SInl~~,\~ ,':'
gura 6-6, el extremo inferior de las curvas de loS' ne un~:'~! OA Reactivo
similar al índice de dificultad del reactivo (valor p) en la reactivos A y C se alIana alrededor del nivel de 20%. ' • ;;:K:' 40
TCP, aunque el parámetro de dificultad en la TRl se re- ¡vo. En&i
sobre el eje y. En términos técnicos, este "alIanamien:, ¡bargo \
presenta mediante su valor e correspondiente.
.~'I','

to" se conoce COTI10 asíntota


inferior. Por tanto, sin im.'~ .;' '¡t,~ 0.2
OpclOn~...
Note las marcas de "visto" en las CCI de Jos portar qué tan baja esté una persona en e, tiene una" ;;' lCO que~¡
reactivos B, C y D de la figura 6-6, éstas muestran probabilidad cercana a 20% de aprobar el reactivo. En! 'Íc .~<~.
, O~~j:{-
dónde atraviesan las curvas el punto de 50% sobre el principio, esto parecería inexplicable; sin embargo' se adi.,,', O
.6 .4 .2
eje y. El reactivo B es más difícil que el A. Se necesita puede considerarse el caso de un reactivo de opci6~: .
,smtota/
.•.' '
O
Theta
2 4 6 Figura 6-7. Ejemplos de CCA de reactivos en los
que se utiliza el modelo Rasch.
un nivel más elevado de capacidad (e) para tener un múltiple con cinco opciones. Al margen de lo poco que' el cas"o-'~:
50% de probabilidades de aprobar el reactivo B, que se conozca sobre la materia a evaluar, hay algo así como" ,adiyi,,~ .
~~,

para acertar el reactivo A. Los reactivos C y D cruzan 20% de probabilidades de aprobar el reactivo si se adi." que el'!1 no, ya que tiene un parámetro de dificultad (b) de . tan inusual como pudiera parecer en principio que se
la marca de 50% en el mismo lugar, y resultan más vina. Algunos modelos TRI representan esta asínto~' IXlmaa,~',..' 2.70; el reactivo 352 es más difícil, con b ~ 1.67. dé la línea del reactivo G; en las situaciones prácticas,
difíciles que A y B. inferior con un parámetro de adivinación.9 En el caso'.' . -.~,ti'
) mflu~,~~ ésta es la clase ele línea que se presenta con las opcio.
Las CCI de la figura 6-6 no tienen la misma for- de un reactivo con 10 opciones, el parámetro de adivi.4 Itas s4~~~~ nes incorrectas en un reactivo de selección de respues-
ma. Las formas de la CCI de los reactivos A y C son nación podría estar en el nivel de 10%. Note que~l.' 100%')1; iINTÉNTELO! ta. Esto quiere e1ecir que conforme se incrementa el
muy similares, tienen una "forma de S" acentuada; se extremo infel;or de la CCI del reactivo B se aproximaa: l. (o en er';t,;~ nivel de capacidad, disminuye la probabilidad de ele.
elevan de manera aguda a la mi tad de la curva. Las cero sobre el eje y, lo cual ilustra que adivinar no infiu.'" ),~1 Conayuda de una regla, verifique que las CCI de la figura 6- gir una determinada opción incorrecta.
CCI de los reactivos B y D suben en fomla más suave, ye en todos los reactivos. En general, las asíntotas su.~ CI: di:~" 7 de la theta tengan .2.70 y 1.67 en "probabilidad de res. Los parámetros de la CCI pueden traducirse en
'J~
el término formal para designar esta acentuación es periores de las CCI se encuentran alrededor de 1000/;,' la TRI 't. puesta codificada" igual a .50. lo que se conoce como función de información del
pendiente. La pendiente de la curva indica con qué por lo que no se introduce un parámetro separado ener'. lificul: '¡' reactivo, la cual muestra dónde, en el continuo del
tanta claridad diferencia el reactivo entre las personas caso de las asíntotas superiores. ":;;.,, . "b" Y ':{ rasgo (8), un reactivo proporciona información perti- "
que tienen capacidades distintas (valores e). La refe- Se ha examinado tres parámetros ele una CeI: di~'Ili, ligmas~j . nente para fines de medición. La figura 6-9 presenta
rencia a la "diferenciación" recuerda el Índice de dis- ficultad, pendiente y adivinación. En la jerga de la TRI" . P: mo.~ Para favorecer la comprensión de las CCI, conven- dos funciones de informaCión hipotéticas. La función
criminación del reactivo de la TCP. De hecho, la
pendiente de la CCI corresponde estrechamente a la
el parámetro p.e~c1iel:~eo discri~inación, el ~e,difiCUl.~
tad y el de uchvmaclOn se claSIfican como .a" "b" Y~'~
,'.'. i lmeu"9
ma se "';l.
iri dría introducir algunos ejemplos que son pos:ibles
desde un punto de vista teórico, pero que no tienen
del reactivo B señala que éste ofrece una cantidad
moderada de información a lo largo del rango de 0.0-
noción de índice de discriminación del reactivo. "c", respectivamente. Éstos dan lugar a tres paradigmas~;~. ldi~nte..;~: probabilidades de oCUITir en la práctica; en la figura 3.0; la cantidad de información es más o menos uni-
El reactivo A señala una diferencia clara entre en la TRI, conocidos como modelos IP, 2P Y 3P: mo.:';l' ) cons. ~'1 6-8 aparecen dlchos ejemplos. El reactivo E muestra forme a la mitad de este rango. El reactivo A está con
casi -2.0 y -.5 en la escala e. El reactivo C cuenta con del os de l, 2 Y3 parámetros. El modelo de un parámetroJ opular':;
'l .
un caso en que todos los que se encuentran por deba. claridad enfocado en torno de 8 ~ - 1.0. La cantidad
la misma pendiente que el reactivo A, pero el C fun- sólo considera la dificultad (b), en este paradigma, se' ~ Ido así; ~ jo de cierto nivel de capacidad (8 ~ -2.0) fallan el
ciona mejor (es decir, discrimina con mayor claridad) 997) Y' \ reactivo y todos los que se hallan por encima de ese
en el rango de 1.0 a 3.0. Esto ilustra una característica
asume que ~od~sl?s r~~ctivos tienen l~ ~is~~ pendien.le.:.
(poder de dlscnmmacJOn) y que la adlvmaclon no cons,:. :
'r'.:..
forma 1 : nivel de capacidad lo aprueban. Desde muchos puno ~
100

tituye un factor significativo. El modelo más popular. ~pme~_] ~ tos de vista, se trata de un reactivo ideal; una serie de '"
ÜO 90

la difi- ",r ~ reactivos como éstos, pero en niveles e distintos ge- ~


de un parámetro es el modelo Rasch, denominado así,",~ ~ 6 80

en honor a su creador, George Rasch (Wright, 1997)y:i ' lación. 1:" ~ nerarÍan una prueba muy e:fieaz. En el reactivo F se ü
~ 70
100
::ultad,. 1, J'l
00
que es tal vez el modelo de TRI que se utiliza en forma ~ : ,¡ .. observa cómo difer'encia en t"orn13 positiva hasta cier-
~ ~ 60
'"
TI 90
~
o 80
". más generalizada en el trabajo de elaboración de prue-' i le dos
. r", '_~ to punto. luego pierde su poder de diferenciación y
o después se acelera de nuevo; en ocasiones aparece un
~
"~
Q.

~
so
E G
baso El tipo de dos parámetros considera tanto la difi. :: ¡;
u
00
70 cuJtad como la discriminación, pero no la adivinación,' ': r ~
la real, & esquema como éste, pero es probable que se trate más
"
'O 40

*" ; cadí. E de un asunto de fluctuaciones inestables en la mues- 'O


30
~ 60 F.inal.,m~nte,.el de tr~s .par~';letros involucra difiCUltad~'-'~I'.. ¡ 'oo
:g'"
Q.
00
50
chscnmll1acl6n y adlVmaClOl1. .~, 1 ~
~rupoS o.• E tra de los casos utilizados, que de un verdadero fenó. :o 20
anden 'e meno. El reactivo G indica el extraño caso en e,1que '"e
i"
"
'C 40
En la figura 6-7 se aprecian las CCl de dos'
reactivos de un proyecto de elaboración de prueba real, :'1
~
,~
o
sene}. ! disminuye
la probabilidad de acreditar el reactivo en realidad
.o
a.
10
'C

;g'" 30 en el que se utiliza el modelo Rasch. Las líneas codi- ,1.[: j .~:
con un incremento
¡¡:¡ en el nivel ele capaci- o .3 .2 .1 o 2 3
:o 20 licadas señalan el desempeño real de los sub grupoS' ¡, ~~ d~? lo que correspondería a un índice de discrimina-
"J '
.c: Clon del reactivo negativo en la TCP: más personas
Theta
D'"E'
a.
10 del programa de investigación, las CCI corresponde? li ' distin •.
:rior se ., ~ en el grupo inferior que en el grupo superior respon-
Q Figura 6-8., Algunas CCR teóricamente posibles, pero
a estos puntos empíricos. El reactivo 40 es algo sencl:,:~f ~
o lación. ~i 1 den de maner:.1correcta al reactivo. En realidad. no es improbables.
-4 -3 -2 -1 o 1 2 3 4 ';¡ •
Theta (capacidad) .t ~ !1
9 Puede haber una asíntota infelior por otras razones distin"~j ~
Figura 6-6. Ejemplos de curvas características del reactivo tas a la adivinación: por tal motivo. la aSlntota inferior se - ¥ ~
(CeR) en la teoría de respuesta al ítem. denomina en ocasiones parámetro de pseudoadivinacl '6 o.-: • i
¡
..
:~t~
.~.j.r:,¡,

-:i;1

'ítulo 6) '. Elaboración de pruebas y análisis de reactivos • 179
178. Pruebas psicológicas. Una introducción práctica (Capítulo6/.~; ----..;. " ,',
---...'~ ',' ..
•• ~ ¡';. .,.,].'
"¡i:~ ,O,:
'ja ca'.; Cuadro 6-10. Resultados parciales del análisis factorial de los reactivos
un mero asunto de conservación de una añeja c~~~~:~ icio les" en un inventario de intereses
o 2.5 tumbre, a los creadores de pruebas en ejercicio les'~: 'j: vos tra~,.
> Reactivo Factor I
tsro
~ 2.0
A
¡
B resultan valiosos los estadísticos de los reactivos tra~f;
dicionales y también los estadfsticos de la TRI. ".;,:
J.
centran -, " 111
Cargas de los reactivos.
IV

ID Las críticas formales a los modelos TRI se centrm;'t sta muy 1 10


."e 1.5
2 05
76 -07 06
en ;res consideraciones: a) desde un punto de vista muy" de lu, 16 10 73
<
'0
.¡¡ ,s, b) en '., 3 08 29
ro 1.0 practICO, obtener estImaCIones estables de los,~- 59 39
E 4 19 39
parámetros TRI exige muestras bastante grandes, b) en'::' ' , es uni~ 67 -05
.2 unidi.,t
r 5 51 26 47
E .5 el modelo TRI se supone que el rasgo medido es uni. 1
6 36 51
-11
,lo TRI. . 33 -31
dimensional, pero muchas pruebas no son unidi.~~.. ''le' 7 12 44 40
O
-4 -3 -2 -1 O 2 3 4 mensionales, por lo que no se aplica el modelo TRi:,; :unstan. 8 03 24 65
17

Rasgo (lhela) Por supuesto, podría argüirse que, en estas circunslan. "r entar la
y luego
9 09 06 55
-01
16
cias, el curso de acción adecuado sería fragmentar la" 10 58 45 23 01
Figura 6-9. Funciones de información del reactivo de dos I podría
prueba en varias subpruebas unidimensionales y luego' * Puntos decimales omitidos.
reactivos hipotéticos. 'adigma
aplicar el modelo TRI a cada una. e) También pOdría'
5a --en
señalarse que, si bien el modelo Rasch es el paradigma' . v'.

10 poder
de la TRI de liSO más generalizado, su premisa -eri" . materias escolares. Los reactivos cuyas cargas apare-
L en casi
género; no obstante, la interrogante fundamental puede
de información proporcionada por el reactivo A se cuanto a que todos los reactivos tienen el mismo podei',f. cen en negritas podrían elegirse para las escalas fina-
una crí. abordarse para cualquier grupo de comparaciones, por
aleja con rapidez de -1.0. de discriminación- resulta parcialmente falsa en cas(l, le,; en este proceso, las cargas de los reactivos en los
maUy y ejemplo, entre personas de diferentes edades, estatu-
todo proyecto de elaboración de pruebas. Para unacrí'" factores tienen una finalidad si mi lar a la de los Índi-
aproxi. ras o uso preferente de una de las manos, En el análi-
tica general de la metodología TRI, véase Nunnallyy::. ces de discriminación de reactivos (O). No obstante,
lS desde sis inicial de la preparación de los reactivos, se aludió
iINTÉNTELO! . Bernstein (1994); para una comparación de las aproxP: para determinar O se requiere una puntuación total a
'octante, a la revisión de los reactivos para eliminar el posible
maciones TCP y TRi a la elaboración de pruebas desd;1\ fin de dividir la muestra de prueba en grupos alto y
sesgo racial, étnico y de género (p. 169); esos proce-
bajo. En el modelo del análisis factorial no se cuenta
Con base en lo que ya sabe de las CCI, ¿podría esbozar lo la perspectiva de una editorial de pluebas importanre:l;j dimientos de revisión fueron sólo de juicio; los pro-
con ninguna puntuación total para iniciar el proceso;
que serían las CCIde los reactivos cuyas funciones de infor- véase Oreen, Yen y Burkett (1989). .~t~ . más bien, se generan factores y se determina la rela-
cedimientos FOR buscan detectar el sesgo mediante
mación aparecen en la figura 6-9? :~~,~
:A ción entre éstos y los reactivos.
análisis estadístico.

ANÁLISIS FACTORIAL COMO TÉCNICA ..


• t"i'5::i'
"'!Ji'

<~:1:1,
:.', Algunos autores dudan en aplicar un análisis
factorial a grupos de reactivos, en contraposición a Se dice que el funcionamiento diferencial del reactivo
DE ANÁLISIS DE REACTIVOS "I:1'f~' 11 como grupos de pruebas. Nunnally y Bernstein (1994), por
se da cuando quienes se someten a las pruebas tie.
Los modelos de la TRI tuvieron sus primeras aplica- 1it
~t '; la vatio nen aproximadamente igual capacidad en el cons-
ejemplo, expresan una gran preocupación Con respecto
ciones prácticas en el trabajo de elaboración de prue- En el capitulo 5 se describió el análisis factOlial como',; , ¡ción, la tructo meta ámbito de contenido, y difieren en sus
al clásico análisis factorial a nivel de reactivos.
bas durante el decenio de 1970-79; desde entonces un método utilizado para ayudar a demostrar la vali';"t :; jel aná.. Henryssen (1971) ofrece un tratamiento más benigno respuestas a un reactivo en función de su pertenen-
han cobrado cada vez más popularidad, en su origen, dez de constructo de una prueba. En esa aplicación, la 't, :ante, el cia a un grupo. Estándares ...
del tema. En lugar de auspiciar la adhesión al debate
con las pruebas de capacidad y aprovechamiento y, prueba ya estaba establecida y los resultados del aná..?: ' de aná.
sobre este punto, aquí simplemente se alude al análi- (AERNAPNNCME, 1999,p. 40)
de manera más reciente, con las pruebas de persona- lisis factorial indicaban su estructura. No obstante, el'" , prueba,
sis factorial como técnica de análisis de reactivos por-
lidad. Las investigaciones sobre las características análisis factorial también se emplea en la fase de aná.~ . án rela. 2 El aspecto más importante que debe entenderse en este
¡
, que, en realidad, se utí liza a menudo.
de los diversos modelos de la TRI y la concepción de lisis de reactivos dentro de la elaboración de pruebas? : cativas. ,
, análisis del funcionamiento diferencial del reactivo
nuevos modelos deben describirse como algo que co- para ayudar a elegir los reactivos que generarán rela-:'.':: ción de t
:
, es que una simple diferencia en las dificultades de un
bró un gran auge en los últimos 30 años. 10 El autor de tivas puntuaciones independientes y significativas.::; e ; que ,e o
FUNCIONAMIENTO ,DIFERENCIAL reactivo no por fuerza es indicio de sesgo en él. Con-
este texto propone que el tratamiento de las estadísti- Este método es muy socorrido en la elaboración de~,~ ; 1
<
,
DEL REACTIVO (FDR) , sidere el siguiente caso. Se examinará el desempeño
cas de los reactivos en la TRI será por fuerza breve. escalas de personalidad, intereses y actitudes que se. ,\' • , utiliza en el reactivo de una prueba -reactivo 23- en un
Para explicaciones más pormenorizadas, con ejem,. utilizan para 'medir diversos rasgos. .~~.' tinentes

¡i La etapa de análisis de reactivos en la elaboración de instrumento de aptitud académica. En el reactivo 23,
pIos inmejorables, véase Hambleton, Swaminathan y En esta aplicación del análisis factOl;al se utiliza') ] ¡ir a una ~
, una pmeba proporciona el contexto para el estudio 60% del grupo A responde de modo conecto" y 80%
Rogers (1991). una gran cantidad de reactivos que parecen pertinentes ~ mas en. del funcionamiento diferencial del reactivo, al que del grupo B lo hace en forma incorrecta. Esto no signi-
~
El valor relativo de los estadísticos de los reactivos en relación con los rasgos que se pretende medir a una _t
se iden.
I ,¡ suele aludirse por sus siglas FDn. El sesgo de reactivo fica que el reacti vo esté sesgado en contra del gmpo A.
de la TRI y la TCP es algo controvertido. Los creado- muestra de examinados. Las correlaciones inteIuas en- ~' ; luego, ! es un viejo término para designar este tema, pero en
1)

tre ellos se estudian mediante análisis factorial, se iden- J i1. s en los


res de pruebas más contemporáneos emplean los es- E I~bibliografía de los estudios actuales se prefiere el II Una vez más, la terminología básica proviene del campo
tadísticos de reactivos de la TRI, lo que sugiere que a tifican las dimensiones (factores) subyacentes., luego; i, ~ la cual l t~nnlIlO más natural y acaso más descriptivo de fun- de las pruebas de capacidad y aprovechamiento. pero los
los expertos les resultan valiosos los dalaS de la TRi. se eligen los reactivos que tienen cargas fuertes en los -:',! 1; los fac-
-elativa-
j J ,
CIonamiento diferencial del reactivo. El FOR aborda conceptos se aplican igual de bien a las pruebas de perso-
Aún así, los estadísticos de los reactivos tradicionales facrores, para su inclu~ión en la prueba final, la cual--~ ~ •
l~ intelTogante de si los reactivos de una prueba fun- nalidad. intereses y actitudes. Por tanto. no se sostiene

,i
(TCP) siguen utilizándose en los mismos proyectos genera puntuaciones separadas de cada uno de los fae. ...; g C'?nan en forma diferente en distintos grupos de exa- aquí que "responde con'ectamente", pero tambíén podría
tares con reactivos, que deben ser indicadores relativa- ultado' ser "responde en forma afirmativa" o "responde que SI'.
de elaboración de pruebas. Esto parece ser más que ¡¡¡
• mInados por otras razones aparte de las diferencias
)s dise- Observe que el planteamiento de los ESl<.'inuaresse refiere
mente puros y eficaces de los factores. ) ~ reales en el rasgo que se mide. De particular interés
El cuadro 6-10 muestra parte de los resultados ';! ¡1 varias son las diferencias de los grupos raciales, étnicos y de a "igual capacidad" pero, por extensión. significa "igual
en el rasgo".
10 Para conocer una historia de la metodología TRR Rasch, ~el análisis fact~rial d~ una reserva de r.e_activosdi~e-.' j
véase Wrighl, B. (1997). nadas para medu los Intereses de los nlllos en vanas --i
,
,
e

-.,
'. J~; •
'&;.'
':{f
-".w-',
',"":1 Dítulo 6Ji
-
Elaboración de pruebas y análisis de reactivos • J 81
~W'. ----.....;~}~:
',"~,¡:'J-' •
.
:l~~
.
',J' ,~
..••~\,;.
180. Pruebas psicológicas. Una introducción práctica ,{(,-
(Capítu/06¡", - b'gruP<Js•., Cuadro 6-11. Parte de la serie de datos para el análisis Mantel-Haenszel del FDR
_,,1
,'.~;,;:~ Ji l. COns¡:-
,~l'
ItervalO! ~rupo~~~uaci.ón total 1-10 11-20 21-30 31-40 41-50
Supóngase que en algún criterio externo del desem- diendo a los grupos de referencia y focal en sUbgru~'.,!: >recia en"'. ~mpeñO en el reactivo 23" + + - + - + - + -
peño en el rasgo se determina que el grupo B es, en con base en la puntuación total en la prueba. Con..' él detel1lli.f Grupo de referencia 14 16 30 30 56 28 62 22 10 2
realidad, sustancialmente superior que el grupo A en dere una prueba de 50 reactivos, divida en intervat:,; ¡j' refere.n;" Grupo focal 10 12 20 20 15 8 10
el rasgo. Por ejemplo, tal vez se sepa que el grupo A la puntuación total en la prueba, como se aprecia~s, 1 IITecta 'o-~' 4 2 O
tuvo un promedio de calificaciones de 2.75, en tanto el cuadro 6-11, después, para cada reactivo deteI1Ili:"j ;e deri~' :""+ = Correcto, - = incorrecto.
que el grupo B tuvo un promedio de 3.68; entonces, ne la cantIdad de mdIvlduos en los grupos de refere~, ,'i. ntervalo.'
se esperaría que el grupo B se desempeñara mejor que cia y focal que lo realizaron de manera correcta'o:' y 40, lo,' elFDR: la figura 6-10 ilustra esta aplicación. Las CCl renciación, aquellos reactivos que no cumplen con esta
el A en el reactivo 23. La diferencia de 60% en com- . incorrecta. El estadístico Mantel-H"enszel se deriva '¡' ; la inte:: que se traslapan, O que casi lo hacen, indican una au- función no sirven.
paración con 80% se tomaría como reflejo de una di- de este tIpO de sene de datos. Dentro de un intervalo- i'ctivo in:" sencia de POR, como lo señala el reactivo 19, El reac- Las pruebas con referencia al criterio buscan de-
ferencia real en el rasgo, sería desconcertante que de puntuación determinado, como entre 31 y 40, los 'ji;1 do larg~ tivo 27 muestra CC! muy diferentes (a saber, un POR terminar si se ha cumplido con un determinado crite-
los dos grupos se desenvolvieran de la misma manera LOadife.
dos grupos se consideran iguales en el rasgo; la irite~ 'ji sustancial). El reactivo 36 ilustra un reactivo con un rio, resulta irrelevante si la prueba diferencia entre las
en el reactivo 23. Por otra parte, suponga que, según rmitir el
rrogante es si su desempeño difiere en un reaetivojn.' ,,1 FDR notable en los niveles inferiores del rasgo (8), personas. Tal vez toda persona que se someta a la prue-
el criterio externo, los grupos A y B fueran iguales en " .:,1"
dividua!' Los grupos completos, combinados a lo largo lisiados. pero ninguna dife:e.l1~ia e~ lo.s niveles superiores. Se ba alcance una puntuación perfecta, en este caso, to-
el rasgo que se intenta medir: que ambos tuvieran un de todos los Intervalos, bIen pueden tener Una dife-:" eño pro, reiteraque este anallsls no mdlca nada sobre el desem- dos los Índices de discriminación de reactivos serían
promedio de calificaciones de 3.20. Entonces, no se rencia media en el rasgo y aún con ello permitir el' :) ¡ue en el peño general de los dos grupos, quizá la puntuación de cero, Tal resultado sería muy aceptable, siempre
esperaría que los grupos difirieran en el reactivo 23. análisis de las diferencias en los reactivos aislados,. ango de promedio de ambos grupos difiera en 20 puntos, que la validez de la prueba midiera el constructo de
Nadie se ~entiría inclinado a incluir ese reactivo en la En el cuadro 6-11, por ejemplo, el desempeño pro::, as en R. El análisis POR de diferencias raciales, étnicas y de interés, por tanto. desde una óptica teórica. se afirmaría
prueba fina!. medio es mayor en el grupo de referencia que enel' .,1 110s dos' génerosuele realizarse en la etapa de análisis de reactivos que los estadísticos de análisis de reactivos son irrele-
Se han propuesto numerosos métodos para estu- grupo focal. Aunque dentro de cualquier rango 'de' el rango al elaborar la prueba, Pero muchos estudios sobre el POR vantes para las pruebas con referencia al criterio.
diar el FOR. El campo no se ha decidido de manera puntuaciones, la razón de respuestas correctas en re~'" 's de res" se llevan a cabo después de que se ha publicado el ins- No obstante, el análisis de reactivos puede ser de
clara por un solo método que considere mejor. La co- lación con las incOlTectas es casi la misma en los dos" ,ente las. trumento. En algunos de estos estudios, se aplican méto- utilidad para pruebas con referencia al cliterio en dos
lección de trabajos editada por Berk (1982) constituye grupos, 12 El caso más evidente está dentro del rango s grupos dosFDR nuevos o revisados, en otros. se asignan metodo- circunstancias. En primer lugar, si la prueba mide los
una introducción excelente a diversos métodos, aun- de puntuaciones de 11 a 20, donde las razones de res- ; en este logías existentes a nuevos grupos. La cantidad de efectos de la capacitación o algún otro tratamiento, en el
.que en la actualidad está algo anticuada. Cale y Moss puestas correctas a' incorrectas son exactamente I~' , el valor subgrupos que puede analizarse es casi infinita. análisis puede utilizarse el modelo del criterio externo
(1993) ofrecen una revisión más reciente de los méto- mismas en los dos grupos. El 40 y 22% de los grupos' " entro d; ya desClito, donde el criterio externo es la exposición en
dos para estudiar el FOR, sin embargo, nuevos desa- focal y de referencia obtienen puntuaciones en est~. I
comparación con la no exposición a la capacitación o el
rrollos están apareciendo con rapidez en los estudios rango inferior, respectivamente, sin embargo, el valor' ':I ANÁLISIS DE REACTIVOS PARA PRUEBAS tralanuento. El ejemplo ya visto sobre la capacitación en
de investigación. Una revisión de todos los métodos o p del reactivo es de .50 en ambos grupos dentro de. CON REFERENCIA AL CRITERIO el uso de Microsoft Access ilustra este caso,
incluso de la mayor parte de ellos llevaría más allá del ese rango, En segundo lugar, incluso ante la ausencia de un
,.
objetivo de un texto de introducción a la psicometIía En los procedimientos de análisis de reactivos, tanto criterio externo pertinente, el criterio interno de la di-
como éste. No obstante, de manera breve se describi- ,6-11 de de la TCP como de la TRl, se da por sentado que la visión de la puntuación total en la prueba puede ser
rán dos de los métodos del FOR más populares. iINTÉNTELO! ra uno de finalidad de la prueba consiste en medir las diferen- de provecho. Es inusual hallar una aplicación en la
dividirel cias entre las personas. Los procedimientos ayudan a cual todos los examinados alcancen puntuaciones per-
'y"."del identificar los reactivos que contribuyen a esta dife-
g fectas (o de cero) en una prueba. Siempre hay cierta
lerales?
ilNTÉNTELOI ¡
•,,
Si el estudiante tiene acceso a un índice electrónico de los ,•• 100 A = grupo de referencia

estudios de investigación actuales en psicología, educación


uy pare.

,
,
• m
!E 90 F = grupo focal
o ciencias sociales, realice una búsqueda utilizandopara ello ~
, u
:CI), De. ~
las palabras clave FUNCIONAMIENTODIFERENCIALDEL
s princi.
•¡ D
U
80
REACTIVO.Observe la variedad de diferencias de grupos ¡ m
70
La descripción anterior señala un análisis muy pare- se crean !E
que se han estudiado. ~ ~
"
cido a una curva característica de reactivo (CeI), De compa. ! ~ 60
~
,•
Q.

hecho, la metodología de la TR! es una de las princi- ad, pen- "


~ 50
pales aproximacion';,s al FOR. En concreto, se crean.l' me para ~
'O
'O 40
En el ejemplo citado sobre los grupos A y B, se e"sta- CC! por cada reactivo para los grupos que se compa-..• ~ ro
;g
bleció, en ténninos de un criterÍo externo, la equiva- rano Los parámetros de estas curvas (dificultad, pen- l, .E 30
ro
lencia de los grupos en el rasgo. En las aplicaciones diente y adivinación) también pueden exammarse p~ ~ I-Haeszel 1 D

más comunes del FOR, la equivalencia de los grupos serie de ¡ e


Q.
20

se basa en la puntuación total en la prueba o rheca nalmente •l 10 Reactivo 19 Reactivo 27 Reactivo 36


estimada; por lo común, el grupo más grande o ma-
yoritario se denomina grupo de referencia, en tanto
"Enlélminos Iécn~cos,en el procedimiento Mantel-Haes,,; .1 dro 6-11
rgo de l' ,
~ O
-3
!
-2
!
-1
!
O
!
1
(
2
!
3 Figura 6-10. Análisis de FDR mediante CCI
se realIza un anahsls de ehl cuadrada sobre la sene d
que al más pequeño o minoritario se le conoce como datos. Los intervalos de las punlUuciones nOlmalmenti'i" Theta de dos grupos en lres reactivos.
focal, es decir, el que concentra la atención. Después serían más estrechos que los que figuran en el cuadro 6-f.€ ..
se examina el desempeño en los reactivos individua- y presentarse en intervalos de unidades a lo largo de la_
1."'<' FI nro("poimipnto Mnnt.pl-Hnpno::;u,t in;(''¡~rli\li_ r1i<::rrihllción . ¡
,", : ,.'~~~":'.
• . . :~I~£~.
;~
~'~Yt
:
~:'::""
"~

:i:~ la prueb"'ít
.~
- figura 6--11, la prueba A ilustra la distribución
Elaboración de pruebas y análisis de reactivos • 183

3. En general, se pretende que los reactivos ten-


182 • Pruebas psicológicas. Una introducción práctica (CaPít"lo.t~ ,tes 'l,.tti de las puntuaciones de un instrumento de esta gan índices de discriminación elevados. 14 Tales
Yo"
"~.,1 J, Seid~~~: índole, en ella, el despliegue de los casos es ma- reactivos contribuyen a la medición del rasgo.
'1\'[ , selecciÓQ{" yor en la parte inferior de la distribución, Este ¿Qué implica "elevado" en un índice de discri-
diferenciación. Cuando hay alguna diferencia en las sidera la finalidad y el diseño originales de la prueb 1 t oipios d~ tipo de distribución es el resultado de contar con minación? Si bien se suele considerar que una
puntuaciones, los procedimientos de análisis de las especificaciones de contenido pertinentes y lo~"j fiabilidad}, muchos reactivos que poseen valores p elevados. correlación "elevada" es de .80 o superior, los
reactivos generan información útil sobre el reactivo. datos del análisis de reactivos. A continuación, Seiden~: urre en~eC Por btra parte, tal vez se desee una prueba que índices de discriminación adecuados (elevados)
tificarán varias directrices del proceso de selecció' 'So. ú,~4 despliegue los casos en la parte superior de la no tienden a ser mayores a .50 y un índice de
de reactivos; éstas son producto de los principios ex', ,;\~li, distribución para elegir a los aspirantes a becas; .30 es muy respetable. Recuerde que un solo
VALIDACiÓN CRUZADA puestos en los capítu~os sobre normas, confiabilidad'l leba suele:': la distribución idónea en este caso se aprecia en reactivo tiene una'confiabilidad muy limitada,
Y DISMINUCiÓN DE LA VALIDEZ y valtdez. La selecclon de reactivos no Ocurre enei. I lte de'1¡," la figura 6--11, prueba B. Este tipo de distribu-

Considere este escenario. Un investigador evalúa 100


vacío, hay características que rigen el proc.eso. /~ll
~rale g¡U:'t
tas no sóti":' ,
ción se deriva de contar con muchos reactivos de
valores p bajos. En la tenninología de la estadís-
reactivos para obtener los 10 mejores para su prueba, L La cantidad total de reactivos en la prueba SÚ¡Ie~. '! leral, ¡'áq~; tica, la distribución de la prueba A está sesgada 14 Esta generalización tiene un límite. Si el rasgo que se
busca medir está definido de modo muy riguroso y enfo-
hay 20 casos en la muestra de prueba. En esta situa- ser el determinante más importante de sn" ! la se depe', negativamente o hacia la izquierda, en tanto que
ción -una muestra relativamente pequeña y un por- cado, entonces conviene tener ílldi,ces de discriminación
confiabilidad; por supuesto, a cualquiera le guS," lo obstab:' la distribución de la prueba B está sesgada posi-
muy elevados. Si la definición del rasgo es más amplia,
centaje reducido de reactivos que hay que elegir- ta una prueba corta, pero en general éstas no soñ' orecientit tivamente o hacia la derecha. Queda claro, en- difusa y compleja. son deseables entonces los índices de
sin duda influirán factores fortuitos en los datos de muy confiables. A manera de regla general, para', lctivos-fió: tonces, que no hay una regla rigurosa en el sentido discriminación moderados (pero alm claramente positi~
los reactivos de los 10 mejores. Es casi seguro que los aumentar la confiabilidad de una prueba se debe' i fiabilidad de que una prueba psicológica genere una distri- vos). En la práctica, pocas veces hay que preocuparse por
mejores reactivos 8, 9 Y 10 sean diferentes con una incrementar la cantidad de reactivos. No obst<ln:., d desea(b' . bución normal de puntuaciones. tener índices de discriminación demasiado elevados.
muestra de prueba distinta. Para hacerse una idea ade- te, hay un punto de rendimientos decrecient¿( ,.. untuacio.i}'; " ' .•,-Á'
cuada de los estadísticos verdaderos de los 10 reactivos donde la incorporación de nuevos reactivos"no:;1 t cantid,,,!,,
,''''-~ ~:
elegidos, deben ser evaluados una vez más en una se- aumenta de manera significativa la confiabilidad.": ;aque_~~t,
gunda muestra. Este proceso se denomina validación La consideración sobre la cantidad deseadi' untuac~~z.
cruzada. La pérdida en validez de los reactivos lleva de reactivos debe enfocarse en las puntuació'" tjuntos,ai~ ' Prueba A: prueba fácil
el peculiar nombre de disminución de la validez. En ''J'f-
nes que se informarán, no sólo en la cantidlÍd n 50 réact¡ El valor p promedio es elevado
el contexto del análisis de reactivos, la "validez" alu- total de reactivos de la prueba. Suponga queuM . :inco coi{:~' . -",,'l\'~l
de al Índice de discriminación del reactivo que, como prueba tiene 100 reactivos, pero las puntuaci,,: 3.1 vez ge:~\
ya se dijo, se denomina en ocasiones índice de vali- nes importantes se basan en seis conjunto~ de. los alIar'
dez del reactivo.'Sin embargo, en' el índice de dificul- reactivos, uno de los cuales cuenta con 50 reac:,~' , inestabliS"
tad del reactivo también pueden influir los factores tivos y con 10 cada uno de los otros cinco con.'.. :ho de que"
aquí considerados. Los datos de los reactivos en la juntos. El conjunto de 50 reactivos tal vez'ge.¡.- , bastaD!"
" ~H~
segunda ¡nuestra no' parecen tan favorables como en nere una puntuación confiable, pero los otroS'" ,i' .~r:i;ijf

la primera. La magnitud de este problema depende en


principio de dos factores: el tamaño de la muestra de
prueba y la razón de selección de los reactivos. Cuando
quizá produzcan puntuaciones muy inestable{t: na pniebi'
Opoco confiables. En este caso, el hecho de que'
la prueba total tenga 100 reactivos es bastanti': Lmadeltl~
I
7. Lapun.'
•• "Ji¡
Puntuación baja Puntuación de la prueba

M
t Puntuación elevada .

la muestra de prueba es grande, como de 200 o más irrelevante. i~tÉ


decirq6t
casos y la razón de selección no es menor a 25%, la 2, El grado de dificultad promedio de una prueb3t el valoip" 1 y
Discriminación máxima
reducción de la validez no debería ser un problema I tidad di'.. ,
está en función directa de sus valores p. La pu~1
significativo. Lo que resulta preocupante es cuando tuación promedio en la prueba es la suma del,,!.. se indi¿ó,~l - :
una muestra de prueba tenga menos de 50 casos e in- valores p, otra forma de expresarlo es decirqúl' acilidad:y~. g
forme datos de los reactivos carentes de validación la puntuación media en la prueba es el valQrJi. ) que paiá': ,¡
',,'1 ' E Prueba B: prueba difícil
cruzada. La validación cruzada y la reducción de la promedio multiplicado por la caiuidad de',. 1 que e~.,;. ¡ El valor p promedio es bajo
validez son aspectos importantes independientemen- reactivos del instrumento. Como ya se indic~;. osya'li.' ¡
te de los análisis de reactivos que se realicen. .. el valor p es en realidad un índice de facilidadí' 1 L rea~tivoS:. !
no de dificultad del reactivo, de modo que para 1 'f
,ea fácil6" ' ¡
obtener una prueba fácil se tendrían que effi' ! alidad del '~
e

SELECCiÓN DE REACTIVOS plear reactivos con valores p elevados y, a la:•.1 porciODa?l, t'

La fase final del proceso de análisis de reactivos es la


inversa, una prueba difícil, contendría reacti~~;:
con valores p bajos. Que la prueba sea fáctlo ¡ nes y una:' 1
I
emo infe~~ :;

selección de éstos. De todos los reactivos preparados difícil es algo que depende de la finalidad del .' imi~aci6n:. ~
y evaluados, se selecciona los que aparecerán en la i~strull1ento ..una prueba, sencilla proporciona., JI ón.Espo:' 1
prueba que se estandarizará. 13 En la selección se con- fa la mejor dlscnmmaclOn en el extremo lfife. t: a una eva~~ ,l Puntuación baja t Puntuación de la prueba Puntuación elevada

rior de la distlibución de las puntuaciones, y una j ,ñada p""'-,,,~ M Figura 6-11. Distribuciones resultantes de
prueba difícil ofrecerá la mejor discriminación 1 ¿
: los esw~- y la selección de reactivos con valores p ele-
I:¡
Cl
13 En algunas aplicaclones, el análisis de reactivos y la (M= puntuación media)
estandarización se realizarán en un solo programa de in- en el extremo superior de la distribución. EsPO--:j¡ ~ ura. En Discriminación máxima vados o bajos.

vestigación; sin embargo, no se trata de una práctica habi- sible que se desee una prueba fácil para unaeva:,; 1 I
tual. Combinar el análisis de reactivos y la estandarización luación de diagnóstico de lectura, diseñada p~ ~ ,I
exige un cuidado y experiencia excepcionales (y. acaso, o?tener jnfo~mación adecuada sobre los es,u-:"'l ~
suerte) para que su consecución resulte afortunada. dlantes que tienen problemas de lectura. Enla.~
¡,
'" .
• ., "

';if~ Elaboración de prllebas )' análisis de reactivos • 185
<~~~
t,.,\¡:
r:~.
/84 • Pruebas psicológicas. Una illlroduccióll práctica (Capítulo
~"
'~r; l,
si tcido;<
enton>
tre una puntuación perfecta y una fortuita. En
una prueba con reactivos de cinco opciones,
Los reactivos también podrían incluirse por
razones motivacionales. Es común empezar las
,
<,. '
':<
JO
. supe:'.. donde la puntuación fortuita sea de 20%, será pruebas de capacidad con planteamientos muy
por ende, no es probable que tenga una correla-
~T.i' leron de.
.

.50 el valor intermedio de p. 15 sencillos, para que los examinados tengan un buen
pos Alto y Bajo. Si p = 1.00, es decir, si todo'" Una vez considerada la relación entre p y
Posible~ comienzo. Los reactivos pueden tener un valor
ción muy elevada con ninguna otra variable. Sin respondieron correctamente al reactivo, enton~'. D, se retomará la distribución de los valores p
;pondie~. p de .99 y, con ello, un valor D cercano a .00. Sin
embargo, un conjunto de reactivos cuyos índi- ces también sucede que 100% del grupo supi.- deseados para la prueba. Dado que D puede
= .00; si. embargo, los reactivos aún sirven a un propósi-
ces de discriminación sean de .30 a .50 confor- rior y 100% del grupo inferior respondieron d{ maximizarse haciendo que p = .50 (o ajustarse
rción de- to útil en la prueba. En los inventarios de perso-
marán una muy buena prueba. Esta directriz se modo correcto; por tanto, D = .00. Es Posible'. e 1.00 y apropiadamente en forma ascendente por razo- nalidad y de intereses, los ítems en ocasiones se
aplica, al margen del método que se use para realizar un análisis similar si todos respóndi~~,~ lera una nes de adivinación), la recomendación es que repiten de manera intencional para revisar la
determinar la discriminación de los reactivos. ron de manera errada: valor p = .00 YD = .00;Si' , ia máXi~" esos reactivos con p = .50 se seleccionen para consistencia en las respuestas.
Los índices de discriminación negativos deben el valor p es de .50, entonces la proporción de e ¡ntere. la prueba. Ésta ha sido una sugerencia de peso
evitarse a toda costa. Los reactivos que tienen casos en el grupo superior puede ser de 1.0ü¡, examine' en el mundo de la psicometría que ayuda a ex-
índices de discriminación cercanos a cero no en el grupo inferior de .00, lo que genera uná , plicar por qué las pruebas de capacidad y apro- RETOMAR LA FASE DE PREPARACiÓN
contribuyen en nada a la medición del rasgo. máxima D = 1.00. Si P = .50, la diferencia máx¡.' vechamiento parecen tan difíciles para muchos DE LOS REACTIVOS
Como úna excepción a esta generalización, re- ma se obtiene entre ambos grupos. Si le intei-é::;,,', examinados: contestar incorrectamente la mi-
pase los comentarios que aparecen bajo el títu- sa confirmar la relación entre p y D, examine'"'-, tad de los reactivos en una prueba es una expe- El lector recordará que, en el resumen de las etapas
lo Análisis de reactivos en este capítulo, para otras combinaciones en el cuadro 6-12. ,.,'.f' riencia perturbadora. en el proceso de elaboración de pruebas (figura 6-1),
pruebas con referencia al criterio.
-~ .• '
'..p.. No todos los expertos concuerdan en el con- se planteó la posibilidad de revertir el curso entre la
Cuando se recurre al análisis factorial como ',,'f:''; [.
I '~. , sejo de seleccionar la mayor parte de los reac- etapa 3 (preparación de reactivos) y la 4 (análisis de
técnica de análisis de reactivos, la meta con fre- iINTÉNTELO! ;'0"
tivos con valores p = .50 Ytan solo la usan cuando reactivos). De hecho, al completar el proceso de aná-
::';'" 1
cuencia consiste en obtener varias pruebas co- '\};- desean aplicar la discriminación máxima a la
• \'.;,-' t
lisis, es posible que el autor de la pmeba decida pre-
rrespondientes a los factores, que constituyan Para asegurarse de que ha comprendido el cuadro 6~1f 'ciso ha- mitad de la distribución de las puntuaciones. parar más reactivos, quizá una cantidad insuficiente
indicadores relativamente "puros" de los facto- llene los valores faltantes a partir de 40. '!I:' ude a la Esto en ocasiones es deseable, pero no siem- de reactivos de gran calidad sobreviva al proceso de
res. Por tanto, se seleccionan reactivos que ten- , ,~'.~ 'p =.50 pre; en muchas situaciones de evaluación, se análisis O tal vez éste arroje luces que señalen rumbos
gan cargas fuertes en un solo factor y cargas s alto y desea una discriminación razonablelnente ade- nuevos para la elaboración de reactivos. Quizá esta
más o menos bajas en todos los demás factores. genera~ cuada en todo el rasgo evaluado, esto sugiere nueva información influya en el diseño general del
4. Hay una relación importante entre el valor p de ) puede dispersar los valores p de abajo hacia an-iba. Lo instrumento. Una práctica común consiste en proce-
un reactivo y el índice de máxima discrimina- ,d; pero que en esencia se busca con esta estrategia es der del análisis a la estandarización de reactivos. sin
ción posible (D). En concreto, D puede adqui- , de ela- obtener una discriminación razonablemente embargo, en ocasiones se regresa a la fase de prepara-
rir su valor máximo cuando 'p se encuentra en ión real buena en muchos puntos, sactificando la máxima ción de reactivos,
su punto intermedio. Observe los ejemplos en el discriminación en un solo punto. Este análisis,
cuadro 6~ 12 para un grupo total de 200 casos. el valor una vez más, ilustra la influencia que la finali-
Para estos datos, D se basa en una división del ado que dad de la prueba ejerce en la forma en que se
grupo total en dos mitades de 50%, una supe- ::tica, en elabora el instrumento.
rior y otra inferior, lo que da 100 casos en el Jer cier. 5. Los criterios estadísticos deben moderarse con PROGRAMAS DE ESTANDARIZACiÓN
grupo bajo y 100 en el grupo alto. El cuadro tipo de consideraciones no estadísticas en la selección Y DE INVESTIGACiÓN AUXILIARES
muestra la cantidad de casos en cada grupo que ,1 punto de los reactivos. Ciertos reactivos pueden in-
realizan de manera correcta el reactivo (No. edia en- cluirse en una prueba de aprovechamiento para
Correcto), luego traduce esta cifra en una pro- satisfacer las exigencias de las especificaciones
porción (Prop.) de cada grupo. El lector recor- de contenido del instrumento, es decir, para ga- El p-rbgrama de estandarización genera las normas de
dará que el índice de discriminación es la dife- rantizar la validez de contenido. El proyecto de la prueba, en ocasiones se le conoce como programa
rencia entre la proporción cOIl'ecta de los gru-
- la prueba. en el caso de un instrumento de ma-
temáticas, exige 10 preguntas sobre conceptos
y otras 10 sobre cómputo. Aun cuando las esta-
de estandarización y otras como programa de norma-
lización. En todo caso, se trata de un importante as-
pecto de la diligencia que se emprende al elaborar una
la O dísticas de los reactivos sean más favorables en pmeba y que inicia después de haber seleccionado

-
ble
O
o

1,
el caso de aquéllas que de éstas, no se exclui-
rían los reactivos de cómputo.
los reactivos en la fase final de la etapa de análisis de
éstos. La prueba que se estandariza debe ser la misma
que habrá de publicarse al final, deben fijarse todas
O
j las instrucciones, cantidad de reactivos, límites de
,l,
5 tiempo. etc.; de lo contrario, quizá se comprometan
No. correcto Prop. (p) No. correcto Prop. (p) No. correcto Prop. (p) O "En ana-l"lSIS como estos,
'd a por sentado que l'os exami-
se las normas que resulten de la estandarización.
200 1.00 100
150 .75 50
1.00
.50
100
100
1.00
1.00
3
l nados adivinan de manera aleatoria siempre que es posi-
ble. En realidad. a menudo no vaticinan al azar y tal vez
En el capítulo 3 se explicó la naturaleza de los
programas de estandarización en relación con el tra-
,
~
125
100
60
40
.625
.50
.30
25
O
O
.25
.00
.00
100
100
60
1.00
1.00
.60
-
)
no lo hagan en absoluto cuando desconocen la respuesta a
la pregunta.
tamiento de las normas, por 10 que no es necesario
repetir aquí tal exposición. tan solo se indica el lugar

O .00 O .00 O .00 .00


•• •

•. -. '"'
k:l •
_ .{t'
;~L Elaboración de pruebas y análisis de reactivos • 187
;~1~ ..
\i\~
~? ~;
.'~'S;,¡;t
'.•• "
';f~
',>

"l'.',l
..~
,~.
-
186 • Pruebas psicológicas. Una introducción práctica (Capít!l[~W " na escala' , luir también las directrices de interpretación de las
1 prueb~, m:ntuaeiones de la prueba. Es posible que algunas LAS 10 PRINCIPALES COSAS
Pruebas cuenten con todos estos temas en un manual,
~; una reVi~~'
~n tanto que otras 10 hagan en más de uno que abar-
QUE HOGAN HA APRENDIDO SOBRE
que ocupa la estandarización en el proceso de elabo-
mera Pie:' LA ELABORACiÓN DE PRUEBAS
"escalamiento" y genera el desarrollo de una ese]'" ue estos temas.
)s que se
ración de la prueba. continua que cubre tod~s los niveles de la Prueb:' q En la actualidad, muchas pruebas poseen elabo-
nes ante.'
, Ya sea que se dé como parte del programa de Tercero, slla prueba reClen estandanzada es unare~.'I"~ dos informes de puntuaciones que quizá inclu-
rar en dl,
estandarización o que ocurra casi al mismo tiempo sión de un instrumento estandarizado de manera ,p~~:. r:n una presentación gráfica de las puntuaciones y Durante casi toda mi carrera profesional he trabajado
1 las dela
que éste, habrá otros programas de investigación que via, tal vez convenga ofrecer cuadros en los que se )ara esta.' ~na traducción de puntuaciones numéricas a alguna de manera exhaustiva en proyectos de elaboración de
se ejecuten con la versión final de la prueba, pero an- haga corresponder las normas de las ediciones aiu{ forma narrativa o una de ellas. Las pruebas de apro- pruebas. Esta labor ha incluido proyectos tanto gran-
les Yedi.,
tes de su publicación, La índole y extensión de estos rior y nueva. Tales cuadros permiten comparar en di.: I alcance vechamiento Ycapacidad aplicables a grupos de uso des (multimillonarios y de varios años) como peque-
programas auxiliares dependen del alcance del ins- recto las puntuaciones de la vieja edición con laSdela 1 abund~ más generalizado arrojan reportes generados por ños, de empresas comerciales y no comerciales,
trumento; agur sólo se mencionan algunos de los pro- más reciente. Hay diversos procedimientos para esta:. computadora, no sólo de individuos sino también de pruebas cognitivas y no cognitivas. También ha com-
YHoover
gramas que podrían llevarse a cabo. blecer correspondencias entre formas, niveles yedi: " , texto es grupOS,por ejemplo, de salones de clase, planteles prendido cada fase de la elaboración de pruebas, des-
Algunos programas de investigación se realiza- ciones de pruebas, describirlos rebasaría el alcance' stigaéión escolares, sistemas escolares completos o incluso Es- de su concepción original hasta su publicación final e
rán mediante un análisis de los datos del programa de ¡:."
de este libro; los lectores interesados pueden abundat,. al- pro.; tados completos. investigación ulterior. De todas las experiencias, con-
normalización, los cuales son independientes del de- en estos temas en la obra de Petersen, Kolen y Hoovei':' Finalmente, la publicación puede abarcar diver- sidero que he aprendido algunas cosas que van aHen-
sarrollo de las normas -la finalidad principal del pro- (1993), Lo importante para los fines de este texto'" " t
, sos materiales suplementarios; por ejemplo, algu- de los tratamientos que se suelen dar en los libros de
grama de normalizaci6n-, pero no exigen ninguna que pueden darse muchos programas de investigaci6n~ ;',. nas pruebas ostentan instrumentos de "localización" texto al tema de la elaboración de pruebas. Es posible
recopilación nueva de datos. Con datos normativos COrl10parte del -o en forma concurrente al- prO:~ :. que ayudan a quienes aplican el instrumento a deter- que los estudiantes no aprendan estas cosas sin expe-
suele realizarse el análisis de las puntuaciones de la gran13 de estandarización. ,~,~Z;';
.. minar el nivel de una prueba de varios niveles que rimentar en carne propia una considerable labor de
prueba por género, raza, edad, región geográfica y ,,~
: sea más apropiado para un examinado específico. Al- desarroHo de pruebas, pero me sentiría mal si no pu-
otras clasificaciones demográficas. Es posible que se z ALES gunas pruebas ofrecen cuadernillos especiales sobre siera por escrito estas ideas con la esperanza de que
realicen estudios sobre la validez de la prueba, las re- • '~~ j
la interpretación de las puntuaciones para estudian- resulten de provecho para los estudiantes. Por tanto,
laciones de ésta con otros instrumentos o con califi- tes y padres. he aquí la lista de las "JO principales" cosas que he
caciones de supervisores, clínicos o maestros pueden En realidad, tal vez sea algo engañoso identificar aprendido sobre este tema.
obtenerse para las submuestras del gmpo normativo. PREPARACiÓN DE LOS MATERIALESi,:,., , la publicación como la última etapa en el proceso de
La estructura analítico factorial de la prueba puede FINALES Y PUBLICACiÓN ,;i'¡ la prueba elaboración de pruebas, el proceso nunca está com- 1) La concepción original es más importante que
determinarse con.los datos normativos.
En esta fase, pueden llevarse a cabo varios tipos
de estudios sobre confiabilidad, como los de test-retest,
En general, no es factible hacer un análisis de este tipo La etapa final del proceso de elaboraciónde la pru!}!.
i'!
blica? Eo
, se suele
prueba o
le la TAl
pleto. Al momento de su publicación, no hay prueba
para la que se haya hecho una demostración exhausti-
vade su validez; además, siempre surgen interrogantes
sobre su aplicación a diversas poblaciones especia-
la labor técnica o estadística. Los tratamien-
tos que en los libros de texto se dan al tema de
la elaboración de pruebas suelen concentrarse
en los procesos de redacción y análisis de
Con todos los integrantes del grupo normativo. Sin es su publicación, ¿Con exactitud, qué se publica? En ., ométrico les.Y, al margen de qué tan perfecto haya sido el pro- reactivos. En algunos libros ni siquiera se men-
embargo, podría probarse de nuevo a una suhmuestra el uso cotidiano del término "publicación", se suele'i: , también grama de normalización, las normas están sujetas a cionan las etapas previas de definición de las
de dicho grupo en una fecha posterior. Dado que los pensar en la impresión de un cuaderni,llo de pmebao.:~ ¡retación, los rigores del tiempo, por tanto, surge la preocupa- finalidades de la prueba y las consideraciones
estudios test~retest son onerosos, tal estudio podría rea- un conjunto de estímulos, como las tUljetas de la TAT.'~ 3.cionesy ción de si éstas han perdido vigencia debido a cam- de diseño. La concepción original de la prueba
lizarse con una muestra independiente del gmpo nor- Pero la publicación de un instrumento psicométrico-. ~ ; pruebas bios en la población meta. Por todas estas razones, es, con mucho, más importante que la labor téc-
mativo. Si la prueba tiene más de una forma, también constituye algo más que eso, tiene que ver tambiéJi,:, de mate. ~ una prueba publicada está sujeta siempre a investiga- nica o estadística. Si carece de un claro concep-
podría llevarse a cabo un estudio de confiabilidad de la 1 de prue. ~ ciones adicionales, incluso después de su publicación. to desde sus orígenes, no habrá refinamiento en
con las instrucciones de aplicación e interpretación;,' .
forma alterna, junto con el programa normativo o en los manuales técnicos, los reportes de puntuacionesy; O páginas : Algunas de estas modificaciones provendrán de los la redacción de los reactivos o experiencia en
un análisis independiente casi al mismo tiempo que el otros materiales complementarios. Para las pruebaS tración y i autores de la prueba y la editorial, otros usuarios inte- estadística que salve el proyecto.
programa normativo. Las mediciones de consistencia muy sencillas cuyo uso es limitado, la serie de malé."',",' énel caso ~ resadas también emprenderán estudios sobre el ins- 2) Se requiere dedicar mucho tiempo a estudiar
interna, por ejemplo, el coeficiente alfa, se realizan con riales puede ser muy modesta: un cuadernillo de prue- generali. ~ trumento; algunos de estos estudios aparecerán en el área, antes de empezar redactar reactivos.
facilidad sobre la muestra normativa en su conjunto;
esto es un análisis estadístico que no exige ninguna re::.
ba, una clave de calificación y un manual de 20 págin~,r
que con~prende las instrucciones de administracióp,y' [
~osamen.
tipos de
tentarios,
f
~ ediciones periódicas dedicadas a la psicometría, como
ya se vio en el segundo capítulo.
Conocer todas las etapas de la construcción de
una prueba -incluso dominarlas a la perfec-
ción- no faculta al investigador para empezar
copilación nueva de datos, las características técnicas del instrumento. En el cas.Q,k' ~
Hay tres tipos de programas de equivalencia que de las pruebas complejas de aplicación muy generah- f
cómputo Las pruebas y los documentos que las sustentan [...] a redactar una prueba, es esencial que dedique
podrían realizarse como parte o, cuando menos, al
nlismo tiempo que el programa de estandarización.
zada, la serie de materiales puede ser asombrosamen-:
te grande, el conjunto puede incluir varios tipos de.~
os y ver.
::ionesen
i se revisan en forma periódica para determinar si se
necesitan revisiones. Las revisiones o correcciones
tiempo a estudiar el área que desea evaluar. Si
ésta es la habilidad para la lectura, entonces
Primero, si la prueba tiene formas alternas, para que manuales, luateriales interpretativos suplementarios, l. son necesarias cuando nuevos datos de investiga- necesita saber lo que los estudios de investiga-
nual téc. ción, cambios significativos en el campo o nuevas con. ción y los expertos en el campo opinan sobre
las normas se apliquen a todas las formas, éstas deben informes técnicos especiales, programas de cómpuln,
lental so. diciones de uso e interpretación de la prueba pudieran eHa; si desea evaluar la ansiedad, habrá de co-
corresponderse. En ocasiones, todas las forn13s se complejos para calificar e informar resultados y ver- f
normalizan de manera directa, pero es más común que
,ura de In mejorar la validez de las puntuaciones del instrumen- nocer la bibliografía sobre la materia.
siones del instrumento en otros idiomas, edicioneseo ..'~
se normalice una forma y se establezca una corres- letras más graneles o en Braille.
,
;.:!
" ión acer- to o indicar que éste ya no es adecuado para el uso 3) En la etapa de diseño original, es necesario
, I liento de deseado. Estándares .. pensar en los informes de las puntuaciones
pondencia entre ésta y las otras en un programa de Una prueba publicada cuenta con un manual tec"1
Jal debe
.investigación por separado. Segundo, si el instrumen- nico que es la fuente de :información fundamental sO:.. J (AERA/APA/NCME, 1999, p. 42) finales. Lo que en realidad está produciendo no
to posee más de un nivel, por ejemplo, una prueba de bre la finalidad, los fundamentos y la estructura de10,.!
aprovechamiento que abarca los grados K-12, enton- prueba, mismo que debe contener infOImación ac~~~
ces es menester hacer que se correspondan los dife- ca de la confiabilidad, validez y procedimiento di")'
rentes niveles. Esto se conoce como programa de normalización del instrumento. El manu::ll debe,-, ~~
.
.• .
,f
'-i:: ,
,:,..,
'"' '

~~: • 189

-
" ;Hit ~ Elaboración de pruebas y análisis de reactivos
o!tulo 6) :'
~~~I
~;.
A~:~~ <H
.,,,;
,
188 • Pruf!bas psicológicas, Una introducción práctica (Capitulo ¿i; rige un~ ión de la prueba, el formato de los reactivos, la nes de contenido, con el propósito de seleccio-
nar reactivos para la prueba final.
--.;: LIno nUe_ ~antidad de puntuaciones, los procedimientos de
'~,( "';,
calificación Y la investigación de antecedentes 15. Existe una relación entre el valor p de una prueba
..~
, "1
~' -
,1 grupo sobre la variable. y su índice de máxima discriminación posible.
es una prueba, sino la puntuación de una prue- sis del reactivo, por lo común no corrige u'"
IY gran., 3. Entre las pruebas que se utilizan en la actuali- 16. En el programa de estandarización, se crean nor-
ba y lo está haciendo para alguien. ¿Con exacti- malo. En general es preferible redactar u;o n~no
No obs., dad, muchas se originaron para satisfacer algu- mas para la prueba final. Con el programa de
tud, qué ofrecerá a ese alguien? ¿Cómo serán vo o utilizar uno diferente. ' "~~•;.
,año del na necesidad práctica; otras, para fines teóricos. estandarización pueden presentarse en forma con-
las puntuaciones finales? Si aguarda hasta estar 8) Desde un punto de vista estadístico, el gr~:~~ ,:",
rización Buena parte de la labor de elaboración de una currente varios otros programas de investigación.
preparado para publicar la prueba y entonces . de estandarización no tiene que ser muy gran~>
os USua. prueba supone la adaptación o revisión de prlle- 17. La publicación final comprende tanto la prueba
pensar en los infonnes de las puntuaciones, es casi de, si se elige de manera apropiada. No ob;:J .,
,;ésta~ bas actuales. final como los manuales, los servicios de califi-
seguro que el especialista descubra que le hubier" tante, a muchos les impresiona el tamaño del'
es si eL 4. Los reactivos de selección de respuesta, que tie- cación y otros materiales suplementarios.
gustado elaborar de otra forma la prueba. grupo. Con respecto al grupo de estandarizaciÓn'
meta de nen diversos formatos específicos, se usan mucho 18. Es habitual que las investigaciones sobre la prue.
4) Al preparar los reactivos, busque la sencillez. de una prueba, la primera pregunta de los usua.f .,'-
, alguna' en la psicometría. El formato de opción múltiple ba prosigan después de su publicación. Algunas
Los reactivos "ingeniosos" con frecuencia no rios casi siempre es el tamaño del grupo; éstaes:t
:ible ob- es el tipo de reactivo de selección de respuesta de estas investigaciones las realizará el autor de
funcionan. Los reactivos simples casi siempre la pregunta equivocada. La importante es si en cuantos de uso más generalizado. la prueba y la editorial, en tanto que otras las
funcionan mejor que los complejos. Si se redac- grupo es representativo de la población meta de' 5. Entre los reactivos de construcción de respues- llevarán a cabo investigadores independientes.
ta un reactivo que se considera muy ingenioso, la prueba o, al menos, representativo de alguna" nbién el tao también muy empleados, se incluyen los de
es posible confundir al examinado y, por ende, población debidamente definida. Es posible 01> 'laras, al ensayo, de respuesta oral y de evaluación del des-
obtener malos estadísticos del reactivo. tener normas muy estables c~n unos cuantos~ final de empeño. Los reactivos plantean desafíos espe-
5) Asegúrese de probar los reactivos suficientes: cientos de casos. ~;;~'-1 !Ualpro. ciales para su calificación.
en general, se requiere el doble de la cantidad 9) Por favor, es vital que se publique también er' técnicos 6. Hay diversas sugerencias para redactar buenos TÉRMINOS CLAVE
necesaria para la prueba final. Es un fastidio manual final. Por razones no del todo claras, al,' ba estén reactivos para una prueba, tanto de selección de
redactar muchos reactivos para una prueba y tam- parecer es muy dificil terminar el manual finalde' inan los respuesta como de construcción de respuesta.
bién resulta una labor realmente abun'ida; ade- una prueba, muchas se editan con un manual pr~r " tigación 7. El análisis de reactivos alude a la serie de proce- análisis de reactivos
más, al formular una pregunta, casi siempre se visional o con instrucciones e informes técnicós(,' , menes- dimieotos para la evaluación empírica y trata- aspectos de diseño
tiene la seguridad de que es un buen reactivo. diversos. Tal vez los creadores de la prueba estén'" f miento estadístico de los reactivos en lo indivi- calificación analítica
Así que suele haber una gran tentación de prepa- exhaustos para el momento en que terminan los~, tiempo dual. Hay tres fases: programa de evaluación de calificación automatizada
rar sólo algunos reactivos más de los que se de- programas de estandm;zación y de investigacióéi: ) de ela. reactivos, análisis estadístico y selección de reac- calificación de rasgo primario
sean tener en la prueba. El hecho es que incluso auxiliares; cualquiera que sea la razón, es menes~' ;~, ,ce muy tivos. calificación holística
con una buena evaluación informal y una exhaus- ter publicar también el manual final. ','!/: . Antiei- 8. El análisis de reactivos tradicional incluye el ín- curva característica del ítem (CC!)
tiva con-ección de los reacti.vos se perderán.mu- 10) Todo el proceso siempre se lleva más tiempo':' 1 y ade- dice de dificultad del reactivo (p) y el de discri- diferencial semántico
chos en la etapa formal de análisis. Es necesario
asegurarse de incluir los reactivos suficientes en
el programa de análisis de reactivos.
del que se calcula. Al iniciar el proyecto de ela.:t,
boración de una prueba, éste siempre parece muy~i
factible, el entusiasmo está a su máximo. AntiCi....,t '.
t s se re-
e buena
ctivos y
minación del reactivo (O o rJ.
9. En la metodología de la TRI, la curva caracte-
rística del ítem y sus parámetros, sobre todo los
dificultad del reactivo
discriminación del reactivo
distractor
6) Antes de la evaluación principal se realizará par que se cuenta con una prueba nueva y adee"" !' lrá ade. de dificultad y pendiente, son factores importan. escala de calificación gráfica
una evaluación infornlal sinlple. Las evaluacio- cuada resulta estimulante. Los reactivos se re7'[j , .sí pare- tes en la selección de los reactivos. evaluación del desempeño
nes informales simples son muy fáciles de hacer, dactarán con 'rapidez, la gente se unirá de buen;:,f ' es muy 10. El análisis factOlial se emplea a veces como téc- formato Likert
;
pueden hacerse con amigos, colegas, hijos, quien- gana a los programas de análisis de reactivos y;t ; alenda- ¡ oica de análisis de reactivos. función de información del reactivo
quiera que esté a la mano. Es asombro'sa la fre- estandarización, y el manual final ya estará ade~,\, prueba, ,
n
, 11. El posible sesgo en los reactivos, que tan solo es funcionamiento diferencial del reactivo (FORJ
cuencia con que se incluyen reactivos no someti- cuadamente bosquejado en su mente, o así pare~f enos en ••, un asunto de diferencias de grupo en la dificul- grupo alto y bajo
'.-1':
dos a una evaluación informal en un estudio na- ce todo. Pero, i oh sorpresa!, la realidad es muy,\ ~ tud del reactivo, se aborda mediante una revi- intelTogante del reactivo
sión de juicio y de varios tipos de análisis esta.
cional grande, sólo para que tenninen por con-
vertirse en humo, cuando hasta en la evaluación
distinta. Una recomendación: haga un ca1enda.~~: ,
~
dísticos. El funcionamiento diferencial del
modelo Rasch
parámetro de adivinación
rio para el proyecto de elaboración de la prueb.,::¡ •
infoIll1al más sencilla habrian podido identificarse pero luego dé por hecho que fallará al menos en ,f, t ~ reactivo (FOR) es una clase de análisis común pendiente
deficiencias fundanlentales en ellos. varias fechas límite. :'.;i -1 ~
o
para este fin. planteamiento de la finalidad
7) Los reactivos "malos" casi sienlpre son fáci. ~~~ ~ 12. Los conceptos de análisis de reactivos se abor- portafolio
les de identificar. Los diferentes tipos de es-
tadísticos de los análisis de reactivos no mar-
'~".
'11
::,;..'
,: ,~~;
~. +
~

~
1
dan en forma un poco distinta en las pruebas con
referencia al criterio. aunque los métodos de
procedimiento Mantel-Haenszel
programa de estandarización
i\:{¡ , prueba o
análisis tradicionales suelen funcionar bien con programas de equivalencia
can gran diferencia. Hay diversos estadísticos ""f1,~"t. E
RESUMEN :,.:iJ'j ro de la estas pruebas.
de análisis de reactivos, es posible leer sin parar r í
"~ •.
.a la va.
1, prueba de ensayo
sobre las ventajas de uno u otro método; por .'. 13. Cnando las muestras de prueba de los reactivos reactivo de construcción de respuesta
,rlo ge. ~
supuesto, el lector desea utilizar el mejor o el
neta. • y las razones de selección son pequeñas, se ne- reactivos de selección de respuesta
más apropiado. Sin embargo, en nli experien-
cia, la' particular metodología de análisis de
1. La primera etapa en la elaboración de una prueba .~
~::l eral de -. ¡ cesita una validación cruzada para evitar o redu-
cir al mínimo la merma de la validez.
reducción de la validez
sistema de puntos
cons!ste en fonnulm' un p~anteam~ento .c.!arode la diseño • 14. Los datos del análisis de reactivos se emplean. validación cnlzada
reactivos que se utilice no marca una gran dife- finalIdad. En el planteamiento se Idenuflca la va. :! . ex ten.
9

rencia en relación con otras. Los reactivos "ma- riable o el constructo que se n1edirá, y por lo ge. - ~ junto con otros criterios como las especificacio- valor p
los" las más de las veces son fáciles de identifi- nera I'Jse mc uye una relerenCIa
~'l a grupo meta. ,J.>1l
car con cualquiera de los métodos. Como coro-
lario sobre este tema, se señala que jugar con
distractores sobre Ja base de los datos del análi-
2. Luego, debe considerars~ el di~eño gene~al ~e1]
la prueba. Entre las conslderaclOnes de diseno .~
prelilninares se hallan aspectos como la exten- '_
I
,
I,
~ "". b.

4tf., Elaboración de pruebas y análisis de reactivos • 191


......
I! .
..
:~~¡~
190 Pruebas psicológicas. Una introducción práctica
o
(Capítulo 6[': "reducción de la validez" es probable que sea de cinco reactivos y que los números 2, 4,9, 10
~S: más grave?
Y 11 se seleccionaron. Si los estadísticos de los

EJERCICIOS ..
,
7. Para los reactivos de ensayo propuestos en
-:'~.i

~¡f Tamaño de la Porcentaje


reactivos se basan en una muestra representati-
va, ¿la distribución de las puntuaciones en la
eJerCIcIO5, deCida SIse calificarán los reactiv .. muestra para de reactivos prueba de cinco reactivos se parece más a la de
con u.nametodología holística, analítica, de t~~< , evaluar el' reactivo seleccionados la prueba A o a la B de la figura 6-11 ?
Prueba
1. Consulte los planteamientos de las finalidades go pnmano o de Sistema de puntos. J"~ •
50 90 19. Para los datos del ejercicio 18, ¿cuál sería la
A
de las pruebas en el cuadro 6-1. ¿Cómo podría 8. Si se creara un portafolio para mostrar los l;~' " 50 25 puntuación promedio (media) de la prueba de
B
mejorarse alguno de estos planteamientos? gros académicos del lector durante el último año~r;) 200 90 cinco reactivos? .
C
2. Vaya al Test Locator en ERICAE.NET o a la ¿qué pondría en él? ~',V D 200 25 20. Consulte, en forma electrónica o impresa, la re-
ETS Test Collection en ets.org/testcolIection. In- 9. Piense primero en dos artículos o libros que co~:~ ' visión de alguna prueba en una edición reciente
troduzcael nombre de una prueba -elija cual- sidere que están particularmente bien escritos-',,', 17. Revise los datos del análisis de reactivos que del MMY del Instituto Buros. ¿Qué dice la revi-
quier prueba que le interese- en el cuadro de después en dos escritos en forma deficiente. ¿Qué\ aparecen a continuación. D es el índice de dis- sión sobre el programa de estandarización de la
búsqueda. Observe que lo primero que se iden- características distinguen la buena de la malare." criminación Y P es el índice de dificultad del prueba? ¿Qué tan grande fue el grupo de estan-
tifica de la prueba es su finalidad. dacción? ¿Alguna de estas características POdría¡¡" reactivo. darización? ¿Fue representativo de la población
3. Si planea elaborar la mejor prueba de autocon- incorporarse en un programa de cómputo para:: meta de lá prueba?
cepto del mundo, la definitiva, para estudiantes calificar la calidad de otros escritos? ' ,;" ¿Cuáles son los dos reactivos a eliminar si se quisiera 21. Utilizando la misma revisión que en el ejercicio
universitarios, le será útil responder a las siguien- 10. Si tiene acceso al manual de alguna prueba, se, hacer que la prueba final fuese más sencilla? 20, determine qué otros programas de investiga-
tes preguntas sobre el diseño de su prueba: le recomienda consultarlo para ver lo que dice~., .. ¿Cuáles son los dos reactivos a suprimirse si se de- ción ocurrieron en forma concurrente al progra-
sobre los procedimientos de análisis de reactivos,'. seara que la prueba final fuese más difícil? ma de estandarización.
¿Cuántos reactivos tendrá la prueba? • ¿Qué estadísticos de los reactivos se mencionan?:"' ¿Cuáles son los dos reactivos a excluirse para aumen- 22. Utilice los datos de los reactivos que aparecen
¿Cuántas puntuaciones informará? ¿Cuántos reactivos se sometieron a prueba?
",<~; tar la consistencia interna de la prueba? en el Apéndice D3 para generar los estadísticos
¿Se aplicará individualmente • ¿Cuántos casos se emplearon en esa evaluación?1 ' de los reactivos (p y D) con ayuda de cualquier
o a grupos? o ¿Qué tipo de Índice de discriminación del reae .. : Reactivo P D programa computarizado.
¿Aproximadamente cuántos minutos tivo se utilizó? )~. 1 .60 .20 23. Examine el manual de cualquier prueba publi-
se llevará realizarla? 2 .75 .25 cada. Busque el planteamiento de la finalidad del
11, Consulte los datos del cuadro 6-9. 3 .55 .05 instrumento; normalmente, éste se halla en la
4~Haga lo mismo que en el ejercicio anterior, pero o ¿Cuál es el valor p del reactivo lO?
4 .90 .15 primera página del manual, a menudo en el pri-
esta vez con la idea de diséñar una prueba am- ¿Qué porcentaje de los estudiantes en el grupo. 5 .35 .30 mer párrafo. La mayor parte de las veces, dicho
plia para estudiantes que terminan una asigna- bajo resDondieron correctamente al reactivo231 6 .65 .35 planteamiento va de inmediato seguido de la
tura principal en psicología. Suponga que la fi- • ¿Cuál e~ el reactivo más fácil del cuadro? ',.1.;" I
7 .60 .40 identificación de la estructura de la prueba y de
o ¿Cuál es la diferencia entre los grupos Alto:¡;., otras consideraciones de diseño, como se abor-
8 .40 .15
nalidad de la prueba consiste en determinar
quién se graduará "con honores". Bajo, en cuanto al porcentaje que respondió'. i 9 .80 .25 da en la parte n.
correctamente al reactivo 29? '~'ff'£ 10
11
.85.
.70
.10
.30
24. Si tiene acceso al manual de la WISC (cual-
quier edición) o a alguna otra prueba de inteli"
¿Cuántos reactivos tendrá la prueba? .~fJ 12 .50 .25 gencia de aplicación individual, examine la lis-
¿Cuántas puntuaciones informará? 12.Consulte las CCI de la figura 6-6.,;; l'
o ¿Cuál es el reactivo más sencillo? ,¿ ta de respuestas dadás para determinar cómo se
¿Se aplicará individualmente
18. ~o~sulte los estadísticos de los reactivos del ejer- califican estos reactivos de construcción de res-
o a grup~s? • ¿Qué reactivo muestra la mejor discriminación~' :
CICIO 17. Suponga que está creando una prueba puesta.
¿Aproximadamente cuántos minutos de examinados con theta = +1.5?~t
se llevará realizarla?
13. Consulte el cuadro 6-10. ' "~.¡,
o ¿Qué reactivo parece ser el mejor indicador. ¡
5. Siguiendo las directrices para la redacción de
buenos reactivos de una prueba, del material
cubierto en este capítulo:
del factor IV?
• ¿Qué pregunta es bastante peculiar en cuanto.. t
¡
• Redacte cinco reactivos de opción múltiple. a que muestra ponderaciones mOderadamen... '.!
• Plantee cinco reactivos de verdadero o falso. te elevadas en los cuatro factores? . '
!
".)"
o Proponga cinco preguntas de ensayo.

• Pida a otro estudiante que cri tique estos re- 14. Busque un Índice electrónico como PsychIllfo H '¡
con ayuda de las palabras clave "funcionamlen- "1
. I
activos.
to diferencial del reactivo". En los resultados que ¡
6. Presuma el lector que desea medir la actitud obtenga, ¿qué grupos se comparan? ¿Qué proe- ¡
hacia la pena capital, es decir, el grado en que bas se examinan? . t
una persona está en favor o en contra de ella. 15. Vea el cuadro 6-1 1. En el reactivo 23, determ¡-' \
• Redacte cinco reactivos tipo Likert para este nar el valor p del grupo de referencia completo, :!
tema. luego del grupo focal completo. ),
Cree cinco preguntas en las que se utilice una 16. El cuadro siguiente señala el tamaño de la ruues-.~ ¡
escala de calificación gráfica. tra de prueba y el porcentaje de reactivos eva-.;1!
• Haga que' otro' estudiante critique estos re- luados que se seleccionaron para la prueba final'" f
activos. entre cuatro pruebas diferentes. ¿En qué caso la , ¡
,

Potrebbero piacerti anche