Sei sulla pagina 1di 101

Introduccin a la teora y

construccin de instrumentos
de medicin

Carlos Andjar Rojas, Ph.D.

Introduccin a la teora y construccin de instrumentos de medicin


No est permitida la reproduccin total o parcial de este manual, ni su
tratamiento informtico, ni la transmisin de ninguna forma o por cualquier
medio, ya sea electrnico, mecnico, por fotocopia, por registro u otros
mtodos, sin el permiso previo y por escrito del autor.

Derechos reservados 2001 Carlos Andjar Rojas

ii

Tabla de contenido
Captulo 1: Introduccin a la teora y construccin de pruebas y su perspectiva histrica................
Los instrumentos de medicin psicolgica y el contexto social.......................................................
Perspectiva social.............................................................................................................................
Captulo 2: Conceptos y definiciones...............................................................................................
Utilizacin de los instrumentos de medicin....................................................................................
Tipos de instrumentos de medicin.................................................................................................
Captulo 3: Diseo de Objetivos Educativos.....................................................................................
Las Caractersticas de un Objetivo bien Enunciado.........................................................................
Captulo 4: Taxonoma del Dominio Cognoscitivo de Benjamn Bloom y Colaboradores..................
Captulo 5: Tablas de Especificaciones.............................................................................................
Preparacin de una Tabla de Especificaciones para una Prueba Normativa....................................
Tabla de Especificaciones para una Prueba de Criterio....................................................................
Ejercicio de Prctica.........................................................................................................................
Captulo 6: Preparando la prueba.....................................................................................................
Establecimiento de los Lmites de Tiempo.......................................................................................
Preparacin de las Instrucciones......................................................................................................
Captulo 7: Desarrollo de las Preguntas de la Prueba.......................................................................
Reglas Generales para la Construccin de Preguntas .....................................................................
El Ejercicio de Cierto o Falso.............................................................................................................
Reglas para la Redaccin de Preguntas de Cierto o Falso................................................................
Preguntas de Alternativas Mltiples ................................................................................................
Reglas para la Formulacin de la Premisa........................................................................................
Reglas para la Formulacin de la Respuesta Correcta......................................................................
Reglas para la Formulacin de las Alternativas................................................................................
Ejercicio de Pareo.............................................................................................................................
Reglas para la Construccin de un Ejercicio de Pareo......................................................................
Ejercicio de Respuesta Breve...........................................................................................................
Reglas para la Construccin de Preguntas de Respuesta Breve.......................................................
La Pregunta de Discusin o Ensayo..................................................................................................
Reglas para la Construccin de Preguntas de Discusin .................................................................
Listas de Cotejo................................................................................................................................
Reglas para la Redaccin de Listas de Cotejo..................................................................................
Captulo 8: Desarrollo de Escalas de Actitudes................................................................................
Pasos generales para desarrollar escalas de actitud........................................................................
Tipos de escalas de actitudes..........................................................................................................

Escala Thurstone..........................................................................................................................................
Escala Guttman................................................................................................................................
Escala Likert.....................................................................................................................................
Prueba de equvocos........................................................................................................................
Diferencial Semntico......................................................................................................................
Captulo 9: Anlisis de Reactivos......................................................................................................
Anlisis de reactivos cuantitativo.....................................................................................................
Anlisis de Reactivos Cualitativo......................................................................................................
Captulo 10: Confiabilidad................................................................................................................
Confiabilidad de Consistencia Interna..............................................................................................
Confiabilidad Temporal.....................................................................................................................
Prueba Reprueba..............................................................................................................................
Confiabilidad a Travs de Formas Equivalentes...............................................................................
Confiabilidad del Examinador..........................................................................................................
Captulo 11: Validez..........................................................................................................................

iii
Validez Aparente..............................................................................................................................
Validez de Contenido........................................................................................................................
Validez de Constructo.......................................................................................................................
Validez de Criterio............................................................................................................................
Referencias.......................................................................................................................................

iv

ndice de Tablas
Tabla 1:

Tabla de Especificaciones para una Prueba Normativa sobre el


Tema de la Construccin de Preguntas de Examen. 38

Tabla 2:

Tabla de Especificaciones para una prueba de Criterio sobre la


Operacin de una Mquina de Encapsular 43

Tabla 3:

Tabla de Schipper para Valores Mnimos de Razones de Validez


de Contenido............... 77

5
Prlogo
Este texto tiene el propsito de preparar el estudiante para desarrollar
pruebas, escalas e inventarios usando las ms modernas tcnicas
psicomtricas disponibles. Provee la base conceptual necesaria para
entender cmo funciona el proceso de construccin y validacin de pruebas.
Tambin provee con ejercicios que el estudiante puede hacer y discutir con
sus compaeros.
La construccin de instrumentos de medicin es un proceso que
combina tanto los elementos artsticos como los cientficos. El desarrollo de
dimensiones y preguntas es un arte y una actividad creativa. Mientras que
el proceso de validacin y normalizacin de un instrumento se fundamenta
en el mtodo cientfico, las estadsticas y la teora psicomtrica.
Este escrito comienza presentando la importancia que tiene el uso de
pruebas en la sociedad y un anlisis socio histrico. Luego se muestran una
serie de definiciones importantes que introducen al estudiante en el campo
de la construccin de pruebas y escalas psicolgicas y educacionales. Se
comenzar demostrando las formas de disear objetivos educacionales,
para proceder a construir tablas de especificaciones para pruebas
normativas y de criterio. Una vez hayan concluido estas actividades se
presentan los pasos para la construccin de preguntas de cierto o falso,
pareo, respuesta breve, discusin o ensayo, listas de cotejo y escalas de
actitudes. Se definen los distintos tipos de preguntas, se presentan las

6
reglas generales para la construccin de las mismas y algunos ejercicios que
los participantes llevarn a cabo.

Se define el concepto de anlisis de reactivos o preguntas. Se


presentan las tcnicas cualitativas y cuantitativas para el anlisis de
preguntas y ejercicios de anlisis de preguntas. Por ltimo, presenta las
definiciones de validez y confiabilidad, las tcnicas cualitativas y
cuantitativas para la evaluacin de la validez y confiabilidad para las
pruebas y escalas.

Captulo 1: Introduccin a la teora y


construccin de pruebas y su
perspectiva histrica
La construccin de pruebas es una disciplina relativamente joven ya
que como disciplina cientfica fue desarrollada durante las primeras dcadas
del siglo veinte. No significa que antes no existieran intentos de medir el
comportamiento humano con diferentes propsitos. Desde que el ser
humanos existe en la faz de la tierra siempre ha habido intentos de
desarrollar herramientas que permitieran comparar el desempeo de una
persona con otra. Los seres primitivos medan sus fuerzas el uno con el otro
para ver quin era ms fuerte. Las tribus de cazadores competan a ver
quin consegua la mayor cantidad de presas. En fin, siempre ha existido un
deseo por parte del ser humano de compararse con otros buscando
establecer una diferencia. El concepto de medicin ha ido refinndose a
travs del tiempo ya que el ser humano ha desarrollado sistemas de
medidas para cuantificar elementos fsicos.
Perspectiva histrica
En el pasado han existido sistemas para medir el desempeo relativo
de las personas. Cohen y Swerdlik (2001) sealan que en el ao 2000 antes
de Cristo los chinos tenan un sistema de seleccin al servicio pblico por
medio de pruebas que se administraban cada tres aos. No se conoce

8
mucho de este sistema, pero durante la Dinasta Yan 1,115 aos antes de
Cristo, el gobierno de China desarrollo un sistema de seleccin de personal
para funcionarios pblicos donde se le administraban pruebas que dur
hasta su abolicin en 1905 (Cohen y Swerdlik, 2001). Este sistema se
fundamentaba en el mrito. Las personas comenzaban a competir desde
las aldeas, luego la ciudad y por ltimo al nivel nacional. Se administraban
pruebas en las reas de msica, arquera, equitacin, escritura y aritmtica.
Tambin se evaluaban otras reas como habilidad en los ritos y ceremonias
de la vida pblica y social, leyes civiles, asuntos militares, agricultura, y
geografa entre otros.
Este sistema fue conocido por los Ingleses y en el se inspir el sistema
de seleccin por mrito en Gran Bretaa. Es esta misma forma, Estados
Unidos se inspir en el concepto de los ingleses para constituir el sistema de
seleccin por mrito del gobierno norteamericano. Tambin esta
documentado que en los tiempos de Grecia, los soldados eran sometidos a
pruebas fsicas y mentales para ser candidatos al ejrcito. En Roma tambin
exista un sistema de seleccin basado en la capacidad fsica y mental de
una persona para poder entrar a la milicia. Las bases filosficas de la
cuantificacin fueron expuestas por los griegos en la voz de Aristteles
(Savage y Ehrlich, 1992). Los escritos de metafsica y de las categoras
fueron fundamentales en la conceptuacin de los elementos de Eucldes que
son representativos de una teora de medicin.

9
Ciertamente, las herramientas que usaban para medir el
comportamiento de las personas eran un tanto rudimentarias ya que no
existan bases tericas y conceptuales que pudieran dar apoyo al uso de los
mismos. La motivacin para utilizar estas herramientas se fundamentaban
en implicaciones prcticas y no en teoras sofisticadas.
En la edad media, las universidades europeas usaban exmenes
formales para conceder ttulos acadmicos, (Anastasi y Urbina, 1997). La
mayor parte del desarrollo del campo de la medicin surgi durante el siglo
19. En esta poca surgi un gran inters por el tratamiento de personas con
retardacin mental. Ante la creacin de instituciones mentales fue
necesario desarrollar medidas para diagnosticar retardo mental y proceder
con un tratamiento. En 1838, un francs de nombre Esquirol desarroll un
tratado donde defini exhaustivamente el concepto de retardacin mental.
Intent disear varios instrumentos para medir retardacin mental y
argument que la mejor herramienta para evaluar los niveles de retardacin
de una persona era mediante el anlisis del uso del lenguaje. Esta es una
de las razones de porqu muchas pruebas de inteligencia miden el aspecto
verbal.

Esquirol planteaba que existan varios grados de retardacin.

Desde la normalidad hasta grandes grados de idiotez.


Otra de las personas que contribuy fue Segun. Este fue pionero en el
adiestramiento de personas con retardo mental. Pensaba que se deban de
incluir aspectos sensoriales y musculares en el adiestramiento de las

10
personas con retardo metal. Desarroll medidas de discriminacin sensorial
y control motor. Construy lo que se conoce como el tablero de Segun.
Este era un instrumento donde las personas tenan que insertar unas figuras
en un tablero y los contornos del mismo tenan que entrar adecuadamente.
Era bsicamente rellenar el patrn vaco con la figura que se provea. Los
trabajos de Segun sirvieron como fundamento para el desarrollo de pruebas
de desempeo y no-verbales.
En 1904 Alfred Binet y Theodore Simon fueron contratados por el
Ministerio Francs de Educacin para desarrollar un instrumento para
detectar deficiencias intelectuales en nios franceses. Dicho instrumento fue
llamado la prueba de Inteligencia Simon Binet. Esta prueba constaba de 30
problemas arreglados segn su nivel de dificultad. La primera muestra que
se utiliz para hacer validacin de la prueba fue de 50 nios entre las
edades de 3 a 11 aos clasificados como normales y algunos nios y adultos
clasificados como retardados. La primera edicin de esta prueba se
desarroll en 1905 y le siguieron versiones en 1908 y 1911
respectivamente.
Este instrumento llam la atencin de los psiclogos norteamericanos
H.H. Goddard y L.M. Terman. Estos quedaron tan impresionados con los
trabajos de Binet y Simon que le pidieron que se les permitieran traducir y
adaptar al idioma ingls. Este instrumento en los Estados Unidos. Goddard
fue el primero en traducir y adaptar el instrumento. Ms tarde, Terman

11
junto a un grupo de colegas de la Universidad de Stanford, desarroll el
instrumento usando tcnicas psicomtricas ms avanzadas. Esta versin se
conoci como la Stanford-Binet. En la misma se incluy el concepto de
coeficiente intelectual que se defina como la proporcin de acuerdo entre la
edad cronolgica y la edad mental.
Otra de las personas que aport significativamente al campo de la
psicometra fue Sir Francis Galton. Galton quedo muy impresionado por el
libro El Origen de las Especies escrito por su primo Carlos Darwin en 1859.
En el mismo, Darwin argumentaba planteaba que la variacin azarosa de las
especies sera seleccionada o rechazada para la supervivencia por la
naturaleza de acuerdo a su valor adaptativo y de supervivencia. El aspecto
ms importante que le impacto a Galton fue el de las diferencias
individuales. Esto le permiti desarrollar la teora de que las diferencias
individuales podan ser medidas a travs de instrumentos. Galton era
bilogo de profesin y comenz llevando a cabo estudios antropomtricos
midiendo las diferencias individuales al nivel sensoriomotor.
Dise medidas de discriminacin visual y motora. Seal que usando
estas medidas poda determinar los niveles de retardacin mental de una
persona. Encontr que los individuos con determinados grados de
retardacin no podan discriminar adecuadamente entre el calor, el fro o el
dolor. Se le atribuye tambin el diseo de un instrumento para medir el
tono de la audicin. El mismo se conoci con el nombre del silbato de

12
Galton. Tambin se le atribuye el uso de las estadsticas como herramienta
de investigacin y el desarrollo del concepto terico de correlacin.
El modelo matemtico de la correlacin fue desarrollado por un
alumno de Galton, Karl Pearson. Pearson fue una figura bien importante en
el campo de la psicometra ya que dise las primeras tcnicas que se
utilizaron para estimar la confiabilidad de las pruebas. Dichos modelos se
siguen usando hoy da en el campo de desarrollo de pruebas.
El pionero en el campo de la psicometra moderna lo fue James
McKeen Cattell. Se destac en el rea de la medicin de la personalidad.
Cattell se adiestr en los laboratorios de Leipzip, Alemania. Su trabajo de
disertacin fue dirigido a medir las diferencias individuales en los tiempos
de reaccin. Luego se fue a dictar ctedra a la Universidad de Cambridge
llevando a cabo estudios sobre las diferencias individuales y creando
laboratorios de investigacin. Se dedic gran parte de su vida a promover
el movimiento de la medicin psicolgica.
En 1890 acu el trmino test mental. Se sabe que Cattell
comparta la idea de Galton de que la inteligencia se poda medir a travs
de instrumentos de discriminacin sensorial. Posteriormente, se han llevado
a cabo varios estudios que contraponen y discrepan de esta posicin. No se
encuentran diferencias entre la discriminacin sensorial y la inteligencia.
Pruebas de grupo
Hasta la primera dcada no existan pruebas que se pudieran

13
administrar en grupos. Las pruebas existentes eran de carcter individual y
tomaba mucho tiempo su administracin, correccin e interpretacin.
En 1917, se declara la Primera Guerra Mundial y Robert Yerkes,
Presidente de la American Psychological Association, consciente de las
aportaciones que poda hacer la psicologa al conflicto blico le hizo una
propuesta al ejrcito norteamericano para desarrollar una prueba de
inteligencia que pudiera ayudar a clasificar a los reclutas de acuerdo a su
nivel de inteligencia. Dicha propuesta fue aceptada y Yerkes cre un comit
de expertos en el campo para que desarrollaran dicho instrumento. Reclut
a Arthur Otis que fue el principal arquitecto del proyecto. Desarroll varias
preguntas de alternativas mltiples que fueron incorporadas en lo que se
llam la prueba Army Alfa. Cuando comenzaron a administrar la Army Alfa
se dieron cuenta de que haba personas que no saban leer o escribir y
desarrollaron una prueba alterna y la llamaron Army Beta. Esta era una
prueba de inteligencia no verbal.
Una vez finaliz la Guerra, las empresas civiles comenzaron a utilizar
de forma masiva. Se desarrollaron pruebas para nios, adolescentes y
adultos. Para el 1920, los maestros estaban a aplicando pruebas de
inteligencia en las escuelas. La consecuencia que tuvo la masificacin del
uso de pruebas fue la desconfianza de varios sectores en trminos de su
efectividad. Comenzaron los cuestionamientos de s las pruebas de
inteligencia medan realmente inteligencia o diversos tipos de habilidades.

14
Las crticas giraban principalmente en torno al fuerte contenido verbal de
las pruebas y la falta de ejercicios numricos y de lgica. Surge tambin el
debate de s la inteligencia es heredada o aprendida socialmente. De esta
discusin es que surgen las pruebas de aptitud. Las mismas buscaban
estimar la capacidad latente de una persona para culminar determinada
actividad de forma exitosa. Siempre y cuando se le haya adiestrado
previamente.
Las pruebas de aptitud se comenzaron a usar en el campo de la
consejera vocacional, seleccin y clasificacin en los sistemas pblicos,
privados y militares. El desarrollo de diversos tipos de aptitud (mecnica,
verbal y espacial entre otras) conllevo que se comenzaran a observar
discrepancias en las puntuaciones que obtenan los evaluados. Por ejemplo,
una persona puntuaba bien en aptitud verbal, pero mal en lgica. El
problema en aquel momento no pareca ser uno de carcter prctico sino
terico. No existan teoras slidas que ayudaran a entender el concepto de
inteligencia.
El psiclogo britnico Carlos Spearman se dedic a tratar de
desarrollar enfoques tericos, metodolgicos y estadsticos que permitieran
conocer mejor el concepto de inteligencia. Siguiendo los trabajos iniciales
de T.L. Kelley y L.L. Thurstone desarroll la tcnica estadstica conocida
como el anlisis de factores. La misma permite mediante anlisis
estadsticos explorar la agrupacin de determinadas variables en grupos o

15
factores. Esto permita generar mayor evidencia emprica relacionada a la
conceptuacin terica de la prueba. Esta tcnicas permiti el desarroll de
muchos instrumentos de habilidad y aptitud. La tcnica de anlisis de
factores se sigue usando hoy da, especialmente, en los estudios de valides
de constructo o construccin lgica. Tambin durante la Segunda Guerra
Mundial, muchas ramas del ejrcito norteamericano utilizaron pruebas de
aptitud tanto para seleccionar, clasificar y ubicar soldados y oficiales.
Mientras que los psiclogos se mantenan ocupados desarrollando
pruebas de aptitud para el ejrcito, en las escuelas los educadores estaban
diseando pruebas de aprovechamiento que se pudieran administrar a nivel
estatal. Esta era una manera de evaluar si los estudiantes haban aprendido
el material que se enseaba en los currculos del estado. Este movimiento
surge gracias a los problemas que confrontaban los maestros al momento
de evaluar a sus estudiantes. En muchas ocasiones los maestros no se
ponan de acuerdo sobre los criterios de evaluacin que utilizaban en los
exmenes orales.
Dicho movimiento se intensific en la dcada de 1930 y se
comenzaron a desarrollar equipos de mayor sofisticacin para corregir
grandes cantidades de pruebas ya que las mismas se administraban por
todo los Estados Unidos de Norteamrica. Se crearon empresas como el
College Entrance Examination Board que ofrecan exmenes para
determinar s el estudiante de escuela superior tena los conocimientos

16
mnimos para entrar y lograr xito en la universidad.
En 1947, las funciones del College Entrance Examination Board
fueron fusionadas con las de la Carnegie Corporation y la American
Council of Education para crear el Educational testing Service (ETS). Esta
institucin se ha encargado a travs de los aos de administrar, corregir e
interpretar las pruebas para solicitar a escuelas y universidades.
Las pruebas de aprovechamiento no solamente se han usado en
ambientes acadmicos sino que tambin se utilizan en el mbito
empresarial. Tambin se han usado para seleccionar personal para el
servicio pblico.
En el servicio pblico de los Estados Unidos de Norteamrica se
utilizan las pruebas como mecanismos para hacer valer el principio del
mrito. Esto significa que las personas tienen que ser seleccionadas
tomando en consideracin sus conocimientos, habilidades y destrezas. En
los estados Unidos de Norteamrica la oficina que se encarga de seleccionar
candidatos al servicio pblico es la U.S. Office of Personnel Management.
En Puerto Rico se le llam hasta hace algunos aos la Oficina Central de
Administracin de Personal (OCAP). Hoy se le llama la Oficina Central de
Asesoramiento Laboral y Administracin de Recursos Humanos (OCALARH).
En este momento esta empresa se dedica a desarrollar pruebas para
clientes en el gobierno y adems ofrecen diversos tipos de adiestramientos
y asesoramiento organizacional.

17
En el campo de la medicin de la inteligencia se realizaron muchos
avances. Uno de los campos que no haba sido desarrollado desde la
perspectiva psicomtrica fue el de la personalidad. El trmino personalidad
se refiere a las caractersticas que conforman al individuo. Dicho de otro
modo ms operacional, es el estudio de las caractersticas tales como
estados emocionales, relaciones interpersonales, motivacin, inters y
actitudes, (Anastasi y Urbina, 1997).
Los trabajos iniciales en el campo de la personalidad se derivan de la
prctica clnica y psicoteraputica. Precursores como Emil Kraepelin usaban
la tcnica de asociacin libre para trabajar con sus pacientes. Dicha tcnica
se usa cuando un terapeuta busca informacin reprimida por el paciente. El
terapeuta le va a decir una palabra o frase y el paciente asocia dicha
palabra con cualquier oracin que le venga en a la mente. Esta tcnica
poda ser muy buena en la prctica clnica, pero a un nivel cualitativo. En
trminos cuantitativos era muy difcil de aplicar y al hacerse intentos no se
lograba conseguir indicadores adecuados de su validez y confiabilidad.
Para tratar de contrarrestar los problemas metodolgicos de las
tcnicas como la asociacin libre, se comenzaron a desarrollar instrumentos
estructurados de medicin de la personalidad. El primer instrumento
desarrollado fue el Woodworth Personal data Sheet. El mismo se le daba al
paciente para que lo contestara y mediante su evaluacin diagnosticar
algn posible disturbio de la personalidad. Este instrumento se uso tambin

18
dentro del ambiente militar en la seleccin de oficiales. Luego vinieron otros
instrumentos que han sido tiles en diferentes contextos. Entre los ms
conocidos se puede mencionar el Inventario de los 16 Factores de
Personalidad de Raymond Cattell, el Inventario Multifsico de la
personalidad de Minnesota (MMPI) y un derivado de este, el Inventario
Psicolgico de California (CPI). Otro que ha tomado mucho auge es el
Indicador de los Tipos de Myers-Briggs que fue desarrollado usando como
marco conceptual la teora neopsicoanaltica de Carl Gustav Jung. Otro
instrumento que se ha diseado tomando en consideracin un aspecto
terico es el NEO Personality Inventory. El mismo est inspirado en la Teora
de los Cinco Factores de Costa y McCrae (1989). La teora de los Cinco
factores postula que todos los inventarios de personalidad contienen al
menos cinco factores (1. Apertura a nuevas experiencias, 2. Neurotisismo, 3.
Extraversin, 4. Conformidad y 5. Escrupulosidad. Esta teora se ha
evaluado tomando en consideracin estudios de anlisis de factores de los
diferentes tipos de inventarios de personalidad. Dicha teora ha ganado
adeptos y crticos severos por su enfoque de querer reducir la personalidad
a solamente cinco factores. A pesar de ello, es un acercamiento
parsimonioso al estudio de la personalidad que ayuda a entender mejor las
caractersticas de la persona.

Otro de los enfoques que se han utilizado para evaluar la personalidad

19
es el de las pruebas situacionales. Este tipo de herramienta le presenta a las
personas o grupos de personas una situacin difcil de resolver y se observa
la interaccin entre las personas, conductas maladaptativas a la luz de
criterios previamente establecidos.
Las simulaciones se utilizaron mucho durante la Segunda Guerra
Mundial. La Office of Strategic Services (OSS) las utilizaba para entrenar
candidatos a espas. Luego de la guerra, muchas instituciones comenzaron
a usar simulaciones para determinar talento gerencial.
Un instrumento que se ha utilizado tradicionalmente para medir
rasgos psicopatolgicos de la personalidad es la prueba proyectiva. Dichas
pruebas constan de estmulos no estructurados o ambiguos que se le
presentan a la persona para que sta diga que es lo que est viendo. El
principio terico detrs de este tipo de herramienta es la proyeccin. La
proyeccin es la externalizacin que una persona hace de uno mismo. Al
presentrsele el estmulo la persona proyecta sus sentimientos en el mismo
y esto ayuda a determinar si existen o no problemas psicolgicos. Este tipo
de instrumento se usa mucho en el ambiente clnico y en Europa muchas
empresas lo usan para seleccionar personal. Las pruebas proyectivas ms
conocidas son la Prueba de Apercepcin Temtica (TAT) de Henry Murray y la
Prueba de Manchas de Tinta de H. Rorschach. La primera usa fotografas
como estmulos y la segunda laminas manchadas de tinta en blanco y negro
y a colores.

20
Las pruebas proyectivas han sido muy criticadas debido a los
problemas de validez y confiabilidad que enfrentan. Existen varios sistemas
de clasificacin que pueden traer algo de confusin y se argumenta que los
aspectos culturales afectan la interpretacin de los resultados.
La psicometra y Puerto Rico
El campo de la psicometra y la evaluacin es muy reciente en pases
como Puerto Rico. Los primeros trabajos que se hicieron fueron en las
traducciones y adaptaciones de diferentes instrumentos. No fue hasta la
dcada de 1950 que Pablo Roca estuvo a cargo de un proyecto donde se
disearon las Pruebas Cooperativas Interamericanas, pruebas de habilidad
general, la prueba Colectiva Puertorriquea, el Cuestionario de Personalidad
y un Inventario de intereses Vocacionales.
Ms tarde, Gabriel Cirino Gerena, desarroll el Inventario de Cirino de
Intereses Vocacionales para la dcada de 1970. Se resaltan tambin los
trabajos de Leticia Herrans y Juana myrtia Rodrguez en la traduccin y
adaptacin de la prueba Wechler para adultos y nios. Jos Bauermeister se
ha destacado en las traducciones y adaptaciones de pruebas para medir
ansiedad-Rasgo. Guillermo Bernal en traducciones y adaptaciones de
instrumentos para medir depresin. Vctor lvarez tambin se ha destacado
en el campo de la investigacin y desarrollo de escalas clnicas.
En el campo de la psicologa industrial organizacional se han
destacado varios profesionales que han desarrollado diferentes escalas para

21
medir aspectos del comportamiento organizacional. Entre stos se puede
mencionar a Georgiana Lope de Caro, Miguel Martnez Lugo, Carlos Andjar
Rojas y Ernesto Rosario entre otros. En el rea estrs laboral, Lope de Caro,
Carlos Andjar, Quintero, lvarez y Gonzlez han diseado instrumentos
para medir aspectos del estrs. Carmen Olivencia, Carlos Andjar, Roberto
DeJess, Ernesto Rosario y Blanca Ortiz desarrollaron inventarios de
personalidad normal.
Existen otras aportaciones que no se han logrado resear debido a
que muchos de estos proyectos se logran a travs de trabajos de tesis y
disertaciones en las diferentes instituciones de educacin superior. Lo cierto
es que se han logrado muchos avances en el desarrollo de pruebas. Todava
es necesario seguir trabajando y orientando al pblico sobre el uso
adecuado de las pruebas. El futuro es uno alentador y cada da se crea
mayor conciencia de la utilidad prctica que tiene el uso de pruebas dentro
de la sociedad.
Los instrumentos de medicin psicolgica y el contexto social
Los instrumentos de medicin psicolgica son herramientas que se
utilizan muchos propsitos e intenciones. El propsito verdadero es hacer
unas estimaciones lo ms cercanas a la realidad. Esto significa que no
estamos midiendo la inteligencia de la misma forma que una mesa o
cualquier objeto fsico. Las pruebas son representaciones de los constructos
que queremos medir. Esto significa que la inteligencia por si sola no existe

22
si no es representada por elementos fsicos y observables tales como la
conducta humana. Cuando usted observa a un estudiante que saca buenas
notas, que hace proyectos y asignaciones fuera de lo comn, participa
activamente en las discusiones de la clase podra concluir que es inteligente
o que tiene un alto nivel de inteligencia. No es sino a travs de las
conductas manifiestas que se puede determinar si algo es medible en una
cantidad determinada. Guilford (citado en citado en Savage y Ehrlich, 1992)
establece que segn establece Thorndike todo lo que existe en alguna
cantidad puede ser medido. Esto significa que cualquier elemento que se
defina y le asignen reglas puede ser cuantificado. Se puede cuantificar la
tristeza, la alegra el odio y el amor siempre y cuando exista un sistema de
definiciones y reglas que permitan operacionalizar lo que se quiere medir.

Perspectiva social
El uso de los instrumentos de medicin tiene unas repercusiones
sociales bien grandes. Si una persona no es seleccionada para un empleo,
se afecta su situacin econmica. Un joven que aspiraba a entrar en una
universidad fue rechazado por las puntuaciones que obtuvo en una prueba.
Un nio es diagnosticado con problemas de aprendizaje que nunca se pens
que existan. En fin, el uso incorrecto de los instrumentos de medicin
puede tronchar el futuro de una persona. Es por esto necesario que las
personas usen adecuadamente estas herramientas. Es fundamental que
quienes usan las pruebas sean profesionales que se han educado en el

23
campo de la psicologa o de la educacin. Adems es necesario que sigan al
pie de la letra los cdigos de tica de sus respectivas profesiones.
De la misma forma que los usuarios de los instrumentos de medicin
tienen que ser responsables en el uso de los mismos, los desarrolladores de
instrumentos deben llevar a cabo estudios cientficos cuando los construyen.
Existe mucho desconocimiento de los procesos cientficos para construir,
validar y normalizar un instrumento de medicin. Muchas personas piensan
que construir una prueba es mirar un libro y a partir de la informacin
desarrollar una lista de preguntas y se acab. El proceso de construccin de
un instrumento es uno que combina el arte y la ciencia. El arte se
manifiesta en la conceptuacin terica del desarrollador. La teora sirve
como marco de referencia para el desarrollo de las dimensiones y
posteriormente las preguntas que contendr el instrumento. Hasta aqu
hemos definido la parte artstica del proceso. Luego de esto, comienzan las
pruebas de las preguntas y los estudios de validez y confiabilidad para
determinar si las dimensiones y las preguntas son representativas de lo que
se quiere medir y si las respuestas a las preguntas son confiables. Luego, se
establecen puntuaciones de referencia o normas que permiten la
comparacin de la puntuacin de una persona con un grupo de individuos
con caractersticas similares.

24

Captulo 2: Conceptos y definiciones


El campo de la psicometra est constituido de muchos conceptos que
a primera vista pueden parecer confusos, pero una vez que se estudien
adecuadamente, la persona los puede entender sin problemas. A
continuacin se discutirn varios conceptos con son medulares para
entender el lenguaje o jerga que se utiliza en el campo de la psicometra.
El primero de estos conceptos es el ms usado, pero incorrectamente.
El concepto de prueba se refiere a cualquier medida de papel y lpiz o de
desempeo que contiene contestaciones correctas e incorrectas y que es
utilizada como base para cualquier decisin. Cuando digo que se usa
incorrectamente me refiero a que para la persona lega, cualquier
instrumento de medicin es llamado una prueba. Solamente se le llama
prueba a aquel instrumento que contiene contestaciones correctas o
incorrectas. Como vern en las prximas definiciones se observarn los
trminos que denominan a los otros instrumentos de medicin que se usan
tanto en la psicologa como en la educacin.
El trmino escala se refiere a aquel conjunto de estmulos que
permiten evaluar la actitud que en general tiene una persona sobre un tema
o situacin especfica. La persona va a expresar su nivel de acuerdo o
desacuerdo con las preguntas y dichas preguntas pretenden medir una
actitud determinada. Una actitud se define como aquellas opiniones que
formulamos sobre aspectos sociales. Por ejemplo, si usted tiene una actitud

25
favorable hacia el aborto, estara de acuerdo con las aseveraciones de una
escala que mida actitudes hacia el aborto. Es importante recordar que las
actitudes no son correctas ni incorrectas. Solo son opiniones que las
personas expresan acerca de diferentes temas sociales. Este factor es el
que hace que las pruebas y las escalas sean instrumentos diferentes. Las
pruebas contienen contestaciones correctas e incorrectas mientras que las
escalas de actitudes no.
Un segundo concepto que se asocia mucho con el de prueba es el de
inventario. Un inventario ser define como aquel instrumento que mide las
preferencias que la persona tiene con relacin a un tema en particular. Se
caracterizan por que no contienen contestaciones correctas o incorrectas,
sino que nos permite evaluar nuestras preferencias y la manera en que nos
percibimos. Existen dos tipos de inventarios: los de personalidad y los de
intereses vocacionales.
Los inventarios de personalidad buscan que los individuos se
describan a s mismos por medio de un conjunto de dimensiones o rasgos de
personalidad. Dicho de otra forma, lo que busca este tipo de instrumento es
medir cmo preferimos comportarnos. Los inventarios de personalidad son
herramientas muy tiles ya que permiten conocer con bastante profundidad
a una persona, pero tpicamente se presta para que la persona al contestar
presente su mejor imagen y la misma no necesariamente describe su
verdadera personalidad. Este factor se conoce como deseabilidad social. Es

26
necesario tratar de controlar es la deseabilidad social ya sea incluyendo una
escala de verificacin o incluyendo una escala de deseabilidad social cuando
se valida el instrumento. Las escalas de verificacin son instrumentos que
contienen aseveraciones que son bien susceptibles en aquellos que quieren
presentar su mejor imagen. Las mismas se administran con el inventario y
se corrige. Si la puntuacin es bien alta, se sugiere que est persona est
tratando de impresionar y exagerar sus verdaderas caractersticas de
personalidad.
La otra tctica para evaluar la deseabilidad social es mediante la
aplicacin de una escala de deseabilidad social cuando se est sometiendo
al inventario a un estudio de validacin. Se administra ambos instrumentos
a una muestra de por lo menos 200 a 300 personas (preferiblemente
seleccionadas al azar) y mediante un anlisis de correlacin, se asocian las
aseveraciones de deseabilidad social con las del inventario. Los ndices de
correlacin deben ser los ms bajos posibles o cercanos a cero. Del
contrario, las aseveraciones del inventario estaran permeadas por el factor
de deseabilidad social.
El otro tipo de inventario es el de intereses vocacionales. El mismo
pretende medir las preferencias que tienen las personas hacia determinadas
ocupaciones. Este tipo de herramienta se usa cuando los jvenes estn
cercanos a terminar su escuela superior y van a entrar a la universidad o a
una escuela tcnica. Los inventarios de intereses ayudan a que el joven se

27
oriente vocacionalmente y elija aquellas profesiones en las que le gustara
trabajar.
Las herramientas antes mencionadas conforman el proceso de
medicin. El trmino medicin se define como las reglas para la asignacin
de nmeros a objetos de forma tal que representen cantidades de atributos.
Este es un aspecto bien importante en el desarrollo de instrumentos de
medicin psicolgica o educativa ya que la persona que construye el
instrumento es la encargada de asignar los nmeros a los objetos o
dimensiones que se vayan a medir. Existen muchos investigadores que
desarrollan cuestionarios para tratar de probar teoras o modelos y cometen
el error de seleccionar sistemas de cuantificacin que dificultan la medicin
de los atributos que se desean medir. Las personas que disean
instrumentos tienen que contar con una base conceptual adecuada cuando
necesitan desarrollar cualquier tipo de herramienta de medicin psicolgica
o educativa. De lo contrario confrontar problemas en la correccin e
interpretacin de la prueba, escala o inventario.
La rama de la psicologa cuya finalidad es llevar a cabo la medicin de
la conducta se conoce con el nombre de psicometra. Esta disciplina utiliza
tcnicas cientficas y estadsticas que permite que hagamos estimaciones
precisas del comportamiento humano. La esencia de la disciplina es medir
la conducta. El trmino de conducta lo definimos como la actividad
realizada por un organismo intacto: es lo que un ser humano o animal hace,

28
no importa que esa actividad sea voluntaria o involuntaria, sino que
constituya una actividad realizada por el organismo y que pueda ser objeto
de observacin. Los pensamientos no pueden ser observados directamente,
pero s sus manifestaciones a travs de las conducta que presenta y que
pueden ser sometidas a la observacin. Las aseveraciones de un
instrumento de medicin son una muestra representativa de los
comportamientos que se quieren medir en una persona.
Una de las preguntas que se hacen las personas es Qu es lo que
miden las pruebas o cualquier otro instrumento de medicin? Los
instrumentos de medicin miden rasgos o atributos que son atribuciones
que hacen los cientficos de la existencia de una variable latente ante la
observacin de una serie de conductas. Por ejemplo, el nio siempre saca
buenas notas, por lo tanto, es un nio inteligente. Son construcciones que
se hacen con el propsito de explicar una concatenacin de
comportamientos. En el campo de la psicologa hay atributos que no se
pueden medir directamente. Por ejemplo, la inteligencia no se puede medir
directamente como si fuera una libra de papas o un galn de leche ya que
no tiene una propiedad fsica. Los que se hace es inferir mayor o menor
grado de inteligencia a partir de las conductas que se definen en el rasgo o
atributo. Las mismas nos proveen un grado de estimacin del nivel de
inteligencia de la persona.
En el campo de la construccin de pruebas se distinguen dos tipos: las

29
objetivas y las de ensayo. Las pruebas objetivas son aquellas cuyas
preguntas requieren que la persona examinada reconozca la respuesta o
respuestas correctas. La calificacin consiste en comparar respuestas con
una clave preparada de antemano. El calificativo objetivo se refiere al
proceso de calificar las respuestas, ya que la determinacin de cules
respuestas son correctas o aceptables sigue siendo subjetiva. De esta
misma forma es subjetiva la manera en que se definen los rasgos o
atributos a medir, las preguntas que se redactan y las estrategias para
validar y normalizar el instrumento. Esto no quiere decir que existan unos
parmetros o criterios para construir, validar y normalizar las pruebas.
Existen criterios de acuerdo en la comunidad cientfica de cmo se debe de
desarrollar un instrumento. Lo que sucede es que las decisiones de cmo
hacerlo van a depender de la persona que construye el instrumento.
Por otro lado, existen las pruebas de ensayo que requieren que la
persona examinada escriba su respuesta. Por lo general no se le proveen
alternativas sino que el o ella generan la misma. Estas pruebas, por lo
general incluyen, la redaccin de un ensayo, respuestas breves o de llenar
blancos. En este tipo de prueba es importante que la persona que la
desarrolla establezca una clave con las contestaciones ideales ya que de lo
contrario, la correccin va a depender del juicio subjetivo del evaluador.
Tambin es importante establecer criterios claro de contestacin para que
quien la contesta tenga claro la contestacin que se est buscando.

30
Utilizacin de los instrumentos de medicin
Los instrumentos de medicin tienen el propsito de servir para
apoyar diferentes tipos de decisiones en el mbito social. Las mismas
impactan los contextos de educacin, el mundo del trabajo, el
funcionamiento individual y familiar entre otros.

En el mundo del

trabajo los instrumentos de medicin se utilizan en el proceso de seleccin


de los mejores candidatos a un empleo. En este proceso se evala a
mltiples candidatos con el propsito de seleccionar al que mejor
puntuacin obtenga. Las pruebas que son vlidas y confiables permiten
predecir el comportamiento de los candidatos. Se presume que una persona
con puntuaciones altas en las pruebas posee una alta probabilidad de xito
en su trabajo. Las pruebas de seleccin se utilizan tambin con candidatos
a entrar en algn colegio, escuela o universidad. En las facultades
establecen unas puntuaciones de aceptacin y luego que los estudiantes
toman las pruebas, se corrigen y se conoce si cualifican o no para entrar a la
institucin o facultad de su preferencia. En las empresas tambin se usan
los instrumentos de medicin para la clasificacin de los empleados o
candidatos a empleo. La clasificacin busca hacer que los individuos
pareen con las alternativas existentes. Se intenta parear las competencias
que demostraron las personas a travs de las pruebas con un grupo de
puestos clasificados previamente. Un ejemplo de clasificacin es el de la
aplicacin de las pruebas que usa el Gobierno para determinar a qu nivel
cualifican las personas que estn solicitando a la familia de puesto de

31
Asistente Administrativa. Basado en los resultados de las pruebas y en la
experiencia las personas cualificarn para los niveles de Asistente
Administrativa I o Asistente Administrativa II, segn sea el caso. Un
concepto parecido al de clasificacin es el de ubicacin. La ubicacin tiene
el propsito de colocar a la persona en un puesto, basado en sus
potencialidades. Las mismas son medidas a travs de la o las pruebas. A
diferencia de la clasificacin, la ubicacin va a ubicar a una persona que ya
est empleada en la organizacin. La clasificacin lo que hace es que le
dice a la persona para qu puesto esta cualificada.
Otro de los usos que tienen los instrumentos de medicin es el de
diagnstico. El diagnstico permite evaluar las fortalezas y reas a
desarrollar en los individuos. Permite un anlisis de las capacidades de los
individuos y ayuda a crear programas para mantener o fortalecer las reas
fuertes y a mejorar las reas dbiles de la persona. En el campo de la
psicologa clnica se usan los instrumentos de medicin con el propsito de
diagnsticas tendencias de comportamiento normal y anormal. En este
caso, se desarrolla un programa psicoteraputico que le permita a la
persona mejorar su salud mental en el menor tiempo posible.
Los campos de la educacin y la psicologa utilizan los instrumentos de
medicin con el propsito de hace investigacin que conduzca a probar
teora y modelos que permitan una aplicacin efectiva. La investigacin
tiene el propsito principal de construir y probar hiptesis. Permiten la

32
corroboracin de una intuicin o teora mediante el uso riguroso y
sistemtico del mtodo cientfico. La evaluacin es otro de los usos que
tienen los instrumentos de medicin. La evaluacin es el proceso
sistemtico para determinar hasta qu punto los adiestrados o estudiantes
han alcanzado los objetivos del periodo de adiestramiento o del curso que
estn tomando. En este caso lo que se busca es evidenciar el aprendizaje
de las personas luego de una actividad de capacitacin. Esto es importante
ya que de otra forma resulta difcil evidenciar si se ha logrado el propsito
de la actividad.
Tipos de instrumentos de medicin
Existen variados tipos de instrumentos de medicin. Muchos de ellos
sirven a diferentes propsitos y permiten medir tanto aspectos psicolgicos
como educativos. El primer tipo de instrumento que deseo discutir es la
prueba individual. Este tipo de instrumento se le administra a una
persona a la vez. Tienden a ser largas y en muchas ocasiones es necesaria
la interaccin del evaluador ya que ste es el que le presenta los estmulos
al evaluado. El otro tipo de prueba es la grupal o de grupo. La misma se
administra a varias personas a la misma vez. Las instrucciones para la
contestacin de las mismas deben ser iguales para todo el mundo. El
evaluador debe tener destrezas para manejar grupos.
Otro tipo de prueba de uso comn es la de papel y lpiz. Este tipo
de instrumento contiene preguntas o estmulos escritos. Tienden a ser ms

33
manejables a la hora de administrarse y resultan ser ms baratos que
cualquier otro tipo de prueba. Pueden consistir de un folleto donde se
encuentran las preguntas y una hoja de contestacin. Este tipo de
configuracin se usa cuando la correccin se hace electrnicamente ya que
la hoja es leda a travs de un lector ptico. Tambin existe el examen
tradicional que se contesta en las mismas hojas donde estn las preguntas.
La contraparte de las pruebas de papel y lpiz es la instrumental. Las
pruebas instrumentales contienen estmulos que son generados por un
aparato o equipo mecnico o computadorizado. Son equipos complejos de
operar por lo general y tienden a ser costosos. Los mdulos de vuelo para
el adiestramiento de pilotos son un ejemplo de este tipo de prueba. En el
ejrcito tambin existen simuladores de helicpteros y de tanques de guerra
que se usan para practicar, pero a la misma vez recogen informacin sobre
el desempeo de los evaluados. Estos equipos estn comenzando a usarse
ms en las empresas debido a que los avances tecnolgicos abaratan costos
y a largo plazo se hacen ms accesibles.
Los avances en la computacin han permitido el desarrollo de las
pruebas adaptativas por computadoras. Las pruebas adaptativas por
computadoras estn fundamentadas en la Teora Moderna de Construccin
de Pruebas. Dentro de esta teora se encuentra la que se conoce como la
Teora de Respuesta al tem. Esta Teora es distinta a la Teora Clsica de
Medicin que est contenida en este manual. La Teora de Respuesta al

34
tem supone que el comportamiento de las preguntas de un examen se
pueden observar de forma independiente. Este concepto se conoce como
independencia local. Cada pregunta puede estar midiendo un nivel del
rasgo o atributo psicolgico o educativo que se quiere medir. Esto significa
que no hace falta administrar una prueba completa ya que con una cantidad
pequea de preguntas se puede llegar a medir el atributo que se desea
medir. Por ejemplo, se quiere medir la habilidad verbal de una persona. El
programa de computadora que se usa, primero le somete al evaluado una
pregunta fcil y si la contesta correctamente, le presenta una ms difcil
hasta que el evaluado comienza a fallar las respuestas. Si falla determinada
cantidad de preguntas, el programa se detiene y hace una estimacin de la
habilidad verbal de la persona ya que la probabilidad de que siga
contestando preguntas correctamente es mnima. Esto no se puede hacer
con las pruebas tradicionales ya que si la prueba tiene 100 preguntas, hay
que administrarlas todas para estimar la habilidad verbal de la persona.
Esta metodologa es muy innovadora, pero todava dista mucho su
aplicacin al nivel de los centros educativos y de las empresas.
Otro tipo de prueba es la de aptitud. Este tipo de instrumento sirve
para determinar si existe talento o facultad para que una persona pueda
concluir exitosamente un periodo de aprendizaje ya sea una clase,
adiestramiento o grado acadmico. Es necesario que la persona halla sido
adiestrada previamente. Un ejemplo de este tipo de prueba son las pruebas

35
de admisin a estudios graduados. Las mismas buscan determinar si la
persona puede culminar exitosamente un programa de maestra o
doctorado, siempre y cuando cuente con un grado de bachillerato. Otro tipo
de instrumento que se tiende a confundir en su pronunciacin con las
pruebas de aptitud con las escalas de actitud. Como vimos anteriormente,
las escalas de actitud miden el grado de acuerdo u desacuerdo que una
persona tiene sobre un aspecto social. Lo importante es no llegar a
confundirse ya que una es una prueba (aptitud) y la otra es una escala
(actitud).
Un tipo de prueba que se usa mucho en los ambientes de trabajo es la
de perfeccin. Las pruebas de perfeccin miden lo acertadamente que
una persona puede realizar un trabajo o lo que conoce hasta el momento de
un tema o temas. Este tipo de prueba presume que para una persona
dominar un concepto o una destreza, debe ser diestro en la totalidad del
material o de la destreza. Por ejemplo, si una persona toma una prueba de
perfeccin para demostrar dominio de un equipo. Debe de dominar todas
las destrezas para operar el mismo ya que de lo contrario no lo operara
eficientemente.
Un tipo de prueba que resulta ser muy conocida para las personas que
tienen un grado de maestra o doctorado es la oral. En una prueba oral se
le pide a la persona que exponga un tema oralmente ante un panel de
expertos. En este tipo de ejercicio se mide conocimiento, manejo de

36
informacin con ayudas visuales, manejo de ansiedad, expresin en la
comunicacin verbal y no verbal y manejo del tiempo entre otras. Puede ser
un ejercicio bien estresante si la persona no est preparada o se siente muy
nerviosa. Se le puede olvidar informacin, cometer errores de diccin o que
el equipo audiovisual que usa se le dae durante el proceso del examen.
Un tipo de prueba de papel y lpiz bien comn es la de invencin de
respuestas. En este formato se le presenta un conjunto de estmulos a la
persona y sta tiene que crear la respuesta a partir de los mismos. Las
preguntas de respuestas breves o de llena blancos se incluyen en este tipo
de prueba. Tambin se incluye la prueba de ensayo ya que la persona tiene
que redactar una informacin para contestar una pregunta. Las pruebas
de reconocimiento de respuestas son tambin muy conocidas en el
formato de papel y lpiz. En la misma se presenta un conjunto de estmulos
que contienen varias alternativas, para que la persona seleccione la
respuesta correcta. Las preguntas de alternativas mltiples y las de pareo
son las de mayor uso.
Entre los distintos tipos de pruebas se encuentra las de rapidez. Las
pruebas de rapidez tienen un lmite de tiempo para la contestacin de las
mismas. Por lo general, la cantidad de preguntas es mayor al tiempo que se
tiene disponible para contestarlas. Otros tipos son las de potencia. En las
pruebas de potencia las preguntas estn distribuidas por dificultad
progresiva. Esto es que las mismas se van a presentar desde las ms fciles

37
hasta las de mayor dificultad. Muchas pruebas de aptitud combinan rapidez
y potencia. Estas caractersticas hacen que este instrumento contenga una
mayor dificultad en comparacin con otros como las pruebas de
aprovechamiento. Las pruebas de aprovechamiento determinan la
efectividad de unas actividades de aprendizaje. Ayuda a determinar el nivel
en que cada persona ha aprendido un material didctico enseado durante
un curso o periodo de adiestramiento.
Otro de los tipos de pruebas que existen es la normativa. En las
pruebas normativas se ubica a la persona a lo largo de un continuo que
representa la caracterstica que se pretende medir. Se compara a la
persona con un grupo de referencia, esto es, personas con caractersticas
similares que han contestado la prueba anteriormente. Las puntuaciones
que se usan para comparar el desempeo relativo de la persona se conocen
con el nombre de estandarizadas. Tambin se conocen como normas ya que
son estndares de comparacin entre individuos. Otro concepto con el que
se confunde a las pruebas normativas es el de pruebas estandarizadas. Las
pruebas estandarizadas son aquellas que contienen procedimientos
uniformes tanto para la administracin, correccin e interpretacin de las
mismas. Las normas son parte del concepto de estandarizacin, pero
ambos conceptos son diferentes ya que las pruebas normativas comprenden
la creacin y uso de normas, pero las pruebas estandarizadas, adems de
normas se controlan otros elementos como: temperatura, ruido, lugar de

38
administracin, instrucciones y otros.
La contraparte de las pruebas normativas son las pruebas de criterio.
Las pruebas de criterio establecen si la persona domina o no un nivel de
habilidad o conocimiento. No se compara el desempeo de la persona en
relacin a un grupo como sucede en las pruebas normativas, sino que se
compara el desempeo de ste contra s mismo. Este tipo de pruebas se
administran mucho en los ambientes laborales donde se les pide a los
empleados que operen determinados equipos o tecnologa existente.
El ltimo tipo de prueba que vamos a presentar en esta seccin es la
relacionada al dominio. Las pruebas relacionadas al dominio tienen el
propsito de medir un dominio o conocimiento de la manera ms completa
posible. Se definen por un conjunto de estmulos o preguntas que tienden a
ser representativas del dominio o conocimiento que se quiere medir. Por
ejemplo, se decide que el dominio del conocimiento ser la salud y
seguridad ocupacional. Se desarrollan 300 preguntas sobre este tema. Esta
cantidad de preguntas puede resultar poco prctica en el caso de que se
estn midiendo otros dominios. As que se pasa a seleccionar una muestra
representativa de las 300 preguntas. La misma puede ser de alrededor de
168. Luego se pasa a evaluar cul es el por ciento de preguntas que debe
pasar la persona para determinar si domina o no el material perteneciente
al universo de conocimiento.

39

Captulo 3: Diseo de Objetivos


Educativos
El proceso de enseanza tiene el propsito fundamental de modificar
comportamiento. Cuando adiestramos y capacitamos a una persona para
que realice un tipo de trabajo o se convierta en un profesional, es necesario
que diseemos unos objetivos que nos permitan evaluar los cambios que
esperamos que la persona logre durante el tiempo que se le est
capacitando.
La enseanza no debe ser un proceso azaroso ni carente de estructura
ya puede modificar conductas en una direccin no deseada. Es una realidad
que los seres humanos estamos aprendiendo todo el tiempo. El ambiente
nos rodea de estmulos que permiten que modifiquemos y reforcemos un
gran nmero de conductas. El problema con esta situacin es que muchas
de las conductas que aprendemos no poseen una direccin ni un propsito
social fundamental y nos llevan desarrollar conductas maladaptativas.
El proceso de enseanza-aprendizaje no se puede dejar al simple
azar, sino que debe estructurar unas actividades que puedan ser evaluadas
mediante objetivos. Es importante evaluar lo que se espera de los
adiestrados o estudiantes luego de un periodo de adiestramiento o clases.
Por ello la importancia de tener objetivos educativos que permitan evaluar
los resultados obtenidos por los evaluados durante un proceso de
enseanza-aprendizaje.

40
Un objetivo educativo se define como la descripcin de una conducta
determinada que el estudiante o adiestrado deber adquirir. Un objetivo
describe el resultado final de la enseanza ms que el proceso mismo de
enseanza. Robert Mager ha sido un experto que por muchos aos se ha
dedicado a la enseanza de la construccin de objetivos educativos. Este
nos dice que los objetivos son importantes por varias razones.
En primer lugar, cuando no existen metas claramente definidas no
existe una base slida sobre la que se puedan seleccionar las ayudas
didcticas, el contenido y las tcnicas apropiadas. Si no se sabe dnde se
quiere ir es difcil escoger los caminos a llegar.
En segundo lugar, los exmenes o pruebas son seales que marcan el
proceso en la va de aprendizaje y se espera que indiquen tanto al evaluador
como al evaluado el grado de xito logrado por ambos.
La tercera razn para que existan objetivos bien definidos es que le
provee al evaluado los medios para evaluar su progreso y poder as
organizar sus esfuerzos en actividades relacionadas con lo que est
aprendiendo. Ya no necesita preocuparse por averiguar el tipo de preguntas
que a cada instructor le gusta hacer.
Las Caractersticas de un Objetivo bien Enunciado
Un objetivo bien enunciado es el que logra transmitir al lector el
intento educacional del que lo redacta. Las caractersticas de un buen
objetivo son las siguientes:

41
1.
2.
3.

Debe identificar por su nombre la conducta final. Es


fundamental especificar el tipo de destreza que usted aceptara
como evidencia de que el evaluado ha logrado el objetivo.
Define con mayor precisin la conducta deseada por medio de
una descripcin de las condiciones importantes bajo las cuales
dicha conducta debe ocurrir.
Especifica el patrn de rendimiento aceptable mediante la
fijacin del grado de perfeccin que el aprendiz debe alcanzar
para ser aprobado.

En sntesis, las caractersticas de un objetivo bien redactado son las


siguientes: 1. Conducta final: destrezas concretas (lo que el aprendiz debe
ser capaz de hacer), 2. Condiciones: (las circunstancias concretas dentro de
las cuales debe darse el resultado, la conducta final y 3. Patrn de
rendimiento: el nivel que se puede considerar aceptable en la realizacin del
objetivo.
Conducta Final
El objetivo debe comenzar expresando cual es la conducta final que se
espera del estudiante o adiestrado al final de un periodo de instruccin. La
misma debe ser expresada en verbos activos, para lograr concretizar la
conducta esperada. A continuacin se presentar una lista de verbos
activos que pueden ser utilizados como ndices de conducta final:
1.
2.
3.
4.
5.
6.
7.

leer
caminar
contar
resolver problemas
localizar
preparar
organizar en orden lgico

42
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

corregir
definir
arreglar
colocar
contribuir
usar
hacer funcionar
bosquejar
operar
restar
sumar
reconocer
escribir

Esta es solamente una pequea parte de la inmensa cantidad de


verbos que existen. A continuacin se presentan varios ejemplos de
objetivos que contienen la conducta final esperada:
1.
2.
3.

Reconocer las 5 situaciones de mayor peligro en el uso de la


mquina de encapsular.
Redactar 10 preguntas de seleccin mltiple, pareo, cierto o
falso, respuesta breve, ensayo y listas de cotejo.
Disear una tabla de especificaciones para una prueba
normativa.

En el primer ejemplo se puede observar que la conducta final


esperada es que el estudiante o participante pueda preparar una lista que
contenga 10 preguntas de cierto o falso. El segundo y tercer ejemplo
recurren a los verbos definir y reconocer para definir la conducta final
esperada.
Condiciones
Las condiciones son aquellas situaciones concretas bajo las cuales se
espera que el estudiante o adiestrado realice la conducta esperada. Las

43
mismas pueden relacionarse con el medio ambiente. Por ejemplo: el saln
de clases o la sala de adiestramiento. Tambin pueden ser las herramientas
que necesita la persona para emitir la conducta final esperada. Por ejemplo,
un libro, una charla, un periodo de instruccin, un lpiz. En fin, es cualquier
herramienta ya sea proveniente del medio ambiente o provista por el
maestro o adiestrador. A continuacin se presentar una lista de
condiciones que pueden ser utilizadas en la formulacin de un objetivo
educativo:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

Con la ayuda de un procedimiento...


Usando un diccionario...
Provista una lista de...
Dada una situacin problemtica...
Con la ayuda del maestro o adiestrador...
Al finalizar el adiestramiento...
Siguiendo instrucciones escritas...
Al ser expuestos a...
Provisto el equipo computadorizado...
Utilizando los mismos materiales...

A continuacin se presentar varios ejemplos de objetivos que


contienen conducta final esperada y condiciones:
1.
2.

3.

Con la ayuda de un procedimiento estndar de operaciones, el


adiestrado reconocer las 5 situaciones de mayor peligro en el
uso de la mquina de encapsular.
Luego del adiestramiento de construccin de instrumentos de
medicin, los participantes redactarn preguntas de seleccin
mltiple, pareo, cierto o falso, respuesta breve, ensayo y listas
de cotejo.
Con la ayuda del manual del participante disear una planilla
de especificaciones para una prueba normativa.

El ejemplo 1 nos presenta que el procedimiento estndar de operacin

44
es la condicin para realizar la conducta de reconocer las 5 situaciones de
mayor peligro en el uso de una mquina de encapsular. En los ejemplos
siguientes, tanto el adiestramiento como la ayuda que provee el manual del
participante, son condiciones para realizar las conductas de reaccin y
diseo.
Patrn de Rendimiento
El patrn de rendimiento se define como el comportamiento mnimo
aceptable para evidenciar que el estudiante o adiestrando haya cumplido
con un objetivo dado. El mismo nos permite aumentar la precisin de un
objetivo especificando la calidad, cantidad y el tiempo mximo permisible
en el desempeo de la conducta final. Cuando se logra especificar el patrn
de rendimiento en un objetivo, el mismo nos sirve para comparar los
resultados de nuestros cursos y talleres. Nos permite adems determinar el
grado de xito alcanzado en el logro de nuestros propsitos educativos. A
continuacin se presentar una lista de patrones de rendimiento aceptable
que pueden ser utilizados para la redaccin de un objetivo:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

con 80% de efectividad...


sin cometer errores...
permitiendo solo dos errores...
sin fallar...
cuatro de cinco preguntas...
una sola pregunta errnea. ..
tres de cinco aciertos...
cero defectos...
70% de las preguntas correctas...
20% de errores...

45

A continuacin se presentarn varios ejemplos de objetivos antes


presentados que anteriormente contenan conducta final esperada,
condiciones y ahora contienen patrn de rendimiento:
1.
2.

3.

Con la ayuda de un procedimiento estndar de operaciones, el


adiestrado reconocer las 5 situaciones de mayor peligro en el
uso de la mquina de encapsular sin cometer errores.
Luego del adiestramiento de construccin de instrumentos de
medicin, los participantes redactarn 20 preguntas de seleccin
mltiple, pareo, cierto o falso, respuesta breve, ensayo y listas
de cotejo, con un 80 por ciento de efectividad.
Con la ayuda del manual del participante disear una tabla de
especificaciones para una prueba normativa, con un mnimo de
dos equivocaciones.

En el primer ejemplo el objetivo no se permite que la persona cometa


errores en la identificacin de las 5 situaciones de mayor peligro en el uso
de una mquina de encapsular. La persona que reconozca 4 situaciones no
habr cumplido con el objetivo. Muchas veces hay que ser riguroso con el
patrn de rendimiento ya que el contenido de un material de enseanza
debe ser aprendido en su totalidad. Este es el caso del primer ejemplo,
donde es crtica la identificacin de 5 situaciones de mayor peligro.
Ejercicio de Prctica

46
Lea cuidadosamente los objetivos que se presentan a continuacin.
Favor de subrayar con una lnea la conducta final esperada, con dos lneas la
o las condiciones y con tres lneas el patrn de rendimiento.
1.

Dado un conjunto de procedimientos de operacin, el participante


operar la
Mezcladora de ingredientes, con un 90 por ciento de efectividad.

2.

Luego de concluir el periodo inicial de adiestramiento, los


participantes escribirn un procedimiento de operacin, con un 20 por
ciento de error permitido.

3.

Al finalizar el taller de calidad total, los participantes discutirn los 14


Puntos de Deming sin equivocarse.

4.

Dado un pao, detergente y un cepillo de cerdas suaves, el


participante limpiar la mquina encapsuladota sin dejar residuos
contaminantes.

5.

Luego de esta sesin del taller, los participantes redactarn cinco


objetivos educativos que contengan conducta final esperada, al menos
una condicin y un patrn de rendimiento.

47

Captulo 4: Taxonoma del Dominio


Cognoscitivo de Benjamn Bloom y
Colaboradores
El desarrollo integral de un estudiante o un adiestrado requiere que
los objetivos educativos sean amplios, variados e integrados. Esta razn dio
lugar a que ciertos educadores y profesionales crearn un sistema de
clasificacin de objetivos. En primer lugar se identificaron tres reas en los
que se pueden agrupar estos objetivos: cognoscitivos, afectivo y psicomotor.
Posteriormente se dieron a la tarea de crear una taxonoma dentro de cada
una de las reas que facilitara la labor del educador a la hora de crear un
periodo de instruccin o adiestramiento y los mecanismos para evaluar los
mismos.
La primera taxonoma de objetivos fue la del rea cognoscitiva. La
misma incluye los procesos intelectuales de conocimiento y pensamiento.
La segunda taxonoma fue la del dominio afectivo que incluye todos los
aspectos emotivos, de sensaciones y sentimientos, valores, actitudes e
intereses. La tercera rea es la psicomotora. Esta no fue desarrollada por
Bloom y colaboradores, pero un educador llamado Simpson desarroll una y
la defini como las actividades que brindan mayor nfasis al desarrollo de
destrezas muscular o motora, a la manipulacin de materiales y objetos o a
las acciones que requieren coordinacin neuromuscular. Los objetivos que
se realizan bajo esta taxonoma se encuentran muy relacionados con los

48
procesos de escritura, lenguaje oral, y con la educacin en deportes oficios,
cursos tcnicos y ciencias naturales. La taxonoma afectiva y psicomotora
no han sido desarrolladas e investigadas rigurosamente. Hasta este
momento, la taxonoma que mayor cantidad de investigaciones ha generado
es la cognoscitiva. Los educadores y adiestradores aceptan que la misma es
la de mayor profundidad cientfica y utilidad prctica.
La taxonoma del rea cognoscitiva a su misma vez contiene las reas
de conocimiento, comprensin, aplicacin que a su vez incluye las sub reas
de anlisis, sntesis y evaluacin. El primero comprende actividades donde
la memorizacin de datos especficos, formas y maneras de trabajar con
datos, abstracciones y generalizaciones, principios teoras y estructuras son
importantes. La segunda requiere adems de la memorizacin, del
entendimiento del conocimiento aprendido. Incluye el traducir de una u otra
forma, explicar y resumir y extrapolar ms all de los datos.
El nivel de aplicacin consiste en la utilizacin del conocimiento en
situaciones concretas y particulares. El nivel de anlisis consiste en
identificar los elementos, las relaciones y los principios organizacionales. La
sntesis incluye la produccin de una comunicacin nica, de un plan, o la
derivacin de conjuntos de relaciones abstractas. Por ltimo, el nivel de
evaluacin incluye el emitir juicios basados en criterios propios o externos.
A continuacin se presentarn los verbos ms comunes relacionados a las
reas contenidas en la taxonoma de Bloom y colaboradores:

49

AREA COGNOSCITIVA SEGUN BENJAMIN BLOOM Y COLABORADORES


CONOCIMIENTO

COMPRENSIO
N

APLICACION

ANALISIS

SINTESIS

EVALUACION

Definir

Traducir

Interpretar

Distinguir

Componer

Juzgar

Repetir

Decir en sus
propias
palabras

Aplicar

Analizar

Planificar

Estimar

Anotar

Reconocer

Utilizar

Diferenciar

Proponer

Evaluar

Listar

Explicar

Demostrar

Estimar

Disear

Clasificar

Recordar

Identificar

Dramatizar

Calcular

Formular

Comparar

Nombrar

Localizar

Practicar

Experiment
ar

Proponer
un plan

Elegir

Relatar

Informar

Catalogar

Probar

Unir

Valorar

Leer

Asociar

Calcular

Comparar

Crear

Revisar

Enumerar

Cambiar

Resolver

Contrastar

Organizar

Seleccionar

Escribir

Computar

Hacer un
diagrama

Manejar

Elegir

Contar

Diferenciar

Examinar

Preparar

Medir

Describir

Debatir

Combinar

Verificar

Distinguir

Inventar

Comparar

Resolver

Dar ejemplos

Categorizar
Inspecciona
r
Seleccionar

50
Los verbos antes presentados tienen el propsito de definir la
conducta final esperada. Todos pueden utilizarse ya que son conductas
observables que nos permiten examinar el aprendizaje de los estudiantes o
adiestrados.
A continuacin se presentarn algunos ejemplos de objetivos relacionados a
las distintas reas de la taxonoma cognoscitiva:
Conocimiento
Al final de este periodo de instruccin, los participantes reconocern
los tres componentes de un objetivo educativo.
Comprensin
Dado una lista de objetivos educativos, los participantes identificarn
aquellos que contengan los tres componentes bsicos de un objetivo
sin cometer errores.
Aplicacin
Luego de un periodo de instruccin, los participantes redactarn cinco
objetivos educativos con al menos dos de los componentes de un
objetivo.
Anlisis
Dado el manual del equipo, el participante desmontar cada una de
las partes del equipo, con un 80 por ciento de precisin.
Sntesis
Con el manual de procedimientos a mano, el participante ensamblar
la computadora sin cometer errores.

51
Evaluacin
Dado la cantidad de 35 rdenes de compra de materiales de oficina y
un presupuesto hipottico, el participante escoger aquellas que
deben ser procesadas con un 90 por ciento de efectividad.
Ejercicio de Prctica
A continuacin se presentarn una lista de objetivos. Su labor
consiste en identificar el rea del nivel cognoscitivo a la cual pertenecen
cada uno de los mismos.
1.
2.

Dado un destornillador largo de estrella, el participante desarmar la


tapa principal del ordenador y aadir los microprocesadores de
memoria, sin cometer errores.
Dado las instrucciones, un martillo y un destornillador de estrella, el
participante armar el escritorio sin cometer errores.

3.

Dado una computadora que tenga un programa de procesamiento de


hojas electrnicas, los participantes disearan un grfico de barras,
con un 80 por ciento de efectividad.

4.

Con el manual de procedimientos a mano, el participante listar las


herramientas necesarias para desempear una limpieza de la
secadora de tabletas.

5.

Dado este adiestramiento, los participantes diferenciarn los distintos


objetivos educativos en las reas cognoscitivas, sin cometer errores.

Captulo 5: Tablas de Especificaciones


Toda prueba es una muestra de los conocimientos que aparentemente
han adquirido los estudiantes o adiestrados a travs de un periodo de
instruccin. En el desarrollo de pruebas se seleccionan preguntas de
carcter pertinente a los temas que se han presentado durante la

52
instruccin y que a la misma vez contienen los objetivos con sus respectivos
niveles cognoscitivos. La representatividad del contenido de una prueba se
determina por el juicio de uno o ms expertos. En el caso de un maestro o
un instructor, el experto es el o ella ya que es quien est a cargo de la
planificacin y seleccin del contenido del material que se va a administrar
durante el periodo de instruccin. Una herramienta que nos permite
organizar el contenido de la informacin que vamos a incluir en una prueba
es la tabla de especificaciones. Este instrumento nos permite determinar la
cantidad de preguntas y el nivel cognoscitivo de cada concepto a base de
dos dimensiones: 1. los objetivos educativos y 2. los tpicos cubiertos
dentro de la materia enseada. Existen dos tipos de tablas de
especificaciones. La primera se conoce como normativa y la segunda
como de criterio. La primera tiene el propsito de ayudar a disear
pruebas cuyos resultados puedan comparar el desempeo del estudiante o
adiestrado con el de personas con caractersticas similares. La segunda
permite el diseo de pruebas donde se compara los resultados de ste con
su propio desempeo. Ambas tablas se construyen de forma diferente.
Preparacin de una Tabla de Especificaciones para una Prueba
Normativa
En el desarrollo de una tabla de especificaciones para una prueba
normativa se siguen los siguientes pasos:
1.

Determinacin de la importancia relativa de las categoras de

53
objetivos a ser evaluados en al prueba. La taxonoma de Bloom
colaboradores permite desarrollar este tipo de actividad. Se ha
encontrado que es muy difcil distinguir entre objetivos de aplicacin,
anlisis sntesis y evaluacin, por lo que stos se agrupan en una
categora de aplicacin. La importancia relativa que tiene cada
categora de objetivos se refleja como por cientos o decimales en la
tabla de especificaciones. En el ejemplo de la Tabla 1, se puede
observar que se asign a las reas de conocimiento .15, comprensin .
60 y aplicacin .25.
2.

Establecimiento de la importancia relativa de los tpicos. Estos pesos


se reflejan en la tabla de especificaciones en trminos porcentuales o
decimales. En la Tabla 1 los tpicos sobre construccin de preguntas
se le adjudic un peso de .25 a cada uno de los mismos. La
importancia relativa de los tpicos la va a determinar el maestro o el
adiestrador que es considerado como la persona experta en el tema.

3.

Determinacin del nmero total de preguntas que tendr la prueba. El


total de preguntas se determina a base de aspectos tales como el
tiempo que se tiene disponible para administrar la prueba y sus
instrucciones, la confiabilidad deseada en la prueba, el tipo de materia
que se cubre, la edad de los estudiantes o adiestrados, las experiencia
de los estudiantes o adiestrados y otros. En el caso de la Tabla 1, se

54
seleccionaron 50 preguntas.
4.

Determinacin del nmero total de preguntas por categora de


objetivos. Esto se hace multiplicando el decimal que representa el
peso relativo de ese objetivo por el total de la prueba. En la Tabla 1
podemos observar que cuando multiplicamos el peso del rea de
conocimiento (.15) por el nmero total de preguntas (50) obtenemos
que el rea de conocimiento se debe redactar 8 preguntas. Este
mismo procedimiento se realiza en todas las reas.

5.

Determinacin del nmero de preguntas por cada tpico y categora


de objetivos. Generalmente, todas las preguntas en una prueba
tienen igual peso y el nmero de preguntas dedicadas a cada tpico
en particular se obtiene multiplicando el decimal correspondiente a su
peso relativo por el total de preguntas de cada categora de objetivos.
En la Tabla 1 podemos observar al multiplicar el peso de funciones de
las preguntas (.25) por el nmero total de preguntas en el rea de
conocimiento (8) obtenemos que necesita redactar dos preguntas. El
mismo procedimiento se repite con todos los tpicos hasta completar
todas las preguntas.

6.

Determinacin del nmero total de preguntas en cada tpico por


categora de objetivos. Esto se obtiene sumando el total de preguntas
por categora de objetivos en cada tpico. Por ejemplo, en la Tabla 1

55
tomamos el tpico de funciones de las preguntas y sumamos el
nmero de preguntas en las categoras de objetivos que son: 1)
conocimiento (2 preguntas), comprensin (8 preguntas) y 3) aplicacin
(3 preguntas), obteniendo una puntuacin total de 13. La misma se
coloca en la columna denominada Total. Esto se realiza en cada
tpico y luego suma la cantidad de preguntas por tpico. La misma
debe ser igual al total de preguntas estipulado en el paso nmero tres.
Tabla 1: Tabla de Especificaciones para una Prueba Normativa Sobre el Tema
de la Construccin de Preguntas de Examen
CATEGORA DE OBJETIVOS

Tpicos

Peso

Conocimient
o
.15

Comprensi
n
.60

Aplicaci
n
.25

Total

Funciones de las
preguntas

.25

13

Importancia de las
preguntas

.25

13

.25

12

Controversias de las
pruebas

.25

12

TOTALES

1.00

30

12

50

Impacto de las
pruebas
estandarizadas

56
Ejercicio de Prctica
A continuacin se presenta una tabla de especificaciones. La misma
contiene el total de preguntas, los pesos por tpicos, por rea cognoscitiva.
Favor de completar la informacin que falta.

Tpicos

Preparacin antes
de la operacin
Mezcla de los
ingredientes

Peso

Conocimient
o
.35

Comprensi
n
.45

Aplicaci
n
.20

Total

.20
.25

Operacin de la
encapsuladota

.35

Limpieza de la
encapsuladota

.20

TOTALES

60

Tabla de Especificaciones para una Prueba de Criterio


La tabla de especificaciones para una prueba de criterio consiste de
una lista de objetivos educativos expresados en trminos de conducta y
nmero de preguntas que se van a utilizar para evaluar cada objetivo. Para
medir cada objetivo debe existir un nmero suficiente de preguntas
representativas de los conocimientos de ese objetivo. Es difcil determinar
el nmero requerido de preguntas. Se recomienda que no haya menos de 5
preguntas y preferiblemente 10 o ms.

57
En segundo lugar, lo objetivos se expresan en forma de conductas que
puedan ser cuantificables. Ambos tipos de pruebas requieren que las
preguntas que se incluyan sean representativas de los conocimientos a ser
medidos. Pero en las pruebas de criterio, el universo de conocimientos se
define con mayor precisin y se refiere a un conjunto de conocimientos ms
limitado. El nmero total de preguntas en una prueba de criterio depende,
no solamente de las consideraciones antes mencionadas, sino tambin del
nmero de objetivos y del nmero de preguntas mnimas que se pueden
incluir para medir cada objetivo. A continuacin se presenta la Tabla 2 que
contiene un ejemplo de una tabla de especificaciones para una prueba de
criterio.
Tabla 2: Tabla de Especificaciones para una Prueba de Criterio para la
Operacin de una Mquina de Encapsular.
rea

Destreza

Operacin de
una mquina de materiales previo
encapsular
a la operacin
Llenar los
documentos
necesarios antes
Operar de la
mquina de
encapsular
Limpiar el
equipo
TOTAL

Nmero de
Preguntas
5

Puntuacin
Mnima
4

20

58

El nmero de objetivos de conducta que se pueden formular para


evaluar el material de un curso o adiestramiento es relativamente alto. Se
recomienda que los objetivos seleccionados sean aquellos que evidencien el
mayor grado de asociacin con otros objetivos. De esa forma, al medir el
objetivo, se miden indirectamente otros objetivos.
Con relacin a las especificaciones de las prueba, se recomienda que
se incluya lo siguiente:
1.

Una descripcin general de las conductas que se quieren medir.

2.

Proveer ejemplos de preguntas.

3.

Una descripcin de los atributos del estmulo (la pregunta),


cmo se selecciona el contenido de la pregunta, qu tarea se le
presenta al estudiante o adiestrado.

4.

Una descripcin de los atributos de las respuestas. El estudiante


o adiestrado producir la respuesta o har una seleccin entre
las alternativas. Cuando es de seleccin se especifican los tipos
de respuesta que pueden incluirse como alternativas incorrectas
y respuestas correctas. Cuando se requiere al estudiante
producir la respuesta (preguntas de discusin) se establecen los
criterios para evaluarla.

5.

Un suplemento que ofrezca ms detalles sobre el contenido a


medirse.

59
Ejercicio de Prctica
Utilizando ya sea un libro de texto, revista, este manual o un
procedimiento estndar de operacin, seleccione un tema y disee una
tabla de especificaciones para una prueba que contenga 30 preguntas.

Captulo 6: Preparando la prueba


Establecimiento de los Lmites de Tiempo
En la determinacin de la cantidad de preguntas que se van a incluir
en una prueba se debe tener en consideracin el tiempo que se tiene para
contestar las misma. Uno de los criterios para determinar el tiempo que
debe durar una prueba debe ser aquel donde el 90 por ciento de las
personas que las contesten puedan terminar sin problema alguno. Dicho de
otra forma, es el tiempo que le toma al 90 por ciento de las personas
terminar una prueba cuando se le provee tiempo ilimitado para responder a
la misma.
Otra estrategia que se puede usar es la de tomar el tiempo que le
toma contestar la prueba a cada persona y luego calcular el promedio y la
desviacin estndar de los tiempos. Este resultado dar una idea de cunto
toma en promedio contestar el examen.
Preparacin de las Instrucciones
Una parte importante de una prueba son sus instrucciones. Es

60
necesario que la persona que va a contestar la prueba sepa qu es lo que se
le pide que responda y de qu manera se debe responder. Las instrucciones
son el mecanismo que permite orientar a la persona con la informacin que
necesita para responder la prueba. Las instrucciones deben contener los
siguientes aspectos:
1.

Qu tipo de marca se utilizar para identificar la respuesta del


estudiante o adiestrado?

2.

Se utilizar una hoja de respuesta separada del folleto de la prueba?

3.

Se provee papel para cmputos o deben hacerse los clculos en el


folleto?

4.

Hay limite de tiempo para las partes de la prueba?

5.

Cul es el tiempo mximo disponible?

6.

Puede entregar su trabajo tan pronto termine?

7.

Qu materiales o equipo se pueden utilizar durante la prueba?

8.

Se penalizarn los intentos de adivinar respuestas?

Captulo 7: Desarrollo de las Preguntas de


la Prueba
Una vez se tiene claro las materias que se van a evaluar, se pasa a la
redaccin de las preguntas. Existen varias maneras de redactar preguntas.
A continuacin se presentarn las reglas generales que hay que seguir para
desarrollar las preguntas de una prueba. Luego se presentarn las reglas
para formular distintos tipos de preguntas.

61
Reglas Generales para la Construccin de Preguntas
1.

Formule preguntas sobre conceptos bsicos.

2.

Presente la pregunta en la forma ms clara y precisa posible.

3.

Al formular preguntas no repita textualmente lo que aparece en el


material impreso.

4.

Si la pregunta est basada en una opinin, indique de quin es la


opinin.

5.

La informacin contenida en una pregunta no debe revelar la


respuesta a otra pregunta.

6.

La respuesta a una pregunta no debe depender de la respuesta a otra


anterior.

7.

Las respuestas correctas deben colocarse al azar, distribuidas


equitativamente entre las posiciones.

8.

Evite preguntas que tiendan a engaar al examinado.

9.

Evite preguntas que solo requieran sentido comn para contestarse


correctamente (esto slo se permite en pruebas de habilidad mental).

El Ejercicio de Cierto o Falso


El ejercicio de cierto o falso requiere que la persona exprese su juicio
en torno a un enunciado dado en trminos de su veracidad o falsedad. Este
se caracteriza por el hecho de que existen solamente dos posibles
contestaciones a seleccionar: cierto o falso, correcto o incorrecto y otros.
Este tipo de pregunta le provee la oportunidad a la persona de contestar el
50% de las preguntas correctamente por adivinanza. Esto conlleva el hecho

62
de que una persona que no ha estudiado un material didctico o que no ha
atendido adecuadamente a un periodo de adiestramiento, tiene un 50% de
probabilidad de contestar la respuesta correcta mediante la adivinanza.
Este ejercicio debe contener una premisa que sea absolutamente
cierta o claramente falsa sin excepciones. Generalmente las premisas
de cierto o falso se utilizan para medir datos que necesitan ser
memorizados. Sin embargo es posible utilizarlas para medir procesos de
razonamiento complejo.
Reglas para la Redaccin de Preguntas de Cierto o Falso
1.

La premisa de cierto o falso debe contener una sola idea ya que


de otra forma puede confundir a los respondientes.

2.

Debe redactarse de manera que pueda clasificarse


inequvocamente como cierto o falso.

3.

La premisa debe ser corta y contener una estructura gramatical


simple.

4.

Se recomienda el uso mnimo de premisas negativas, pero de


utilizarse, se debe resaltar la palabra negativa ya sea
subrayando, usando letras maysculas o ennegrecindola.

5.

Cuando la premisa involucra una opinin, se debe incluir la


fuente de la misma.

6.

Las premisas de cierto o falso deben incluir datos y


generalizaciones importantes y relevantes.

63
7.

Se debe evitar el uso de claves que sugieran la contestacin:


a.

Evitando usar palabras que se asocian con argumentos


ciertos o falsos.

b.

Procure que las premisas de cierto o falso tengan


aproximadamente la misma extensin.

c.

Procure que el nmero de premisas ciertas sea igual al de


falsas.

8.

Debe evitarse el uso de ciertas palabras o frases que se asocian


con argumentos ciertos o falsos ya que proveen claves en la
contestacin. Las palabras absolutas como siempre, nunca,
todo, tienden a ser falsas. Mientras que palabras como
usualmente, puede, algunos, debiera, generalmente tienden a
ser ciertas.

9.

Se debe evitar que las premisas que son ciertas sean ms largas
que las falsas. La extensin debe ser ms o menos la misma en
ambos tipos de premisas.

Ejercicio de Prctica
A continuacin encontrar una serie de preguntas de cierto o falso que
contienen varios errores de construccin. Su tarea consistir en identificar
cada uno y recomendar la forma correcta en que se deben redactar los
mismos.

64
1.

Todo envejeciente va deshacindose de sus ataduras, especialmente


las asociadas con el trabajo y comunidad.

2.
De acuerdo con Lodahl y Kejner el nivel en que el empleado se
involucra en el trabajo es una caracterstica individual, mientras que para
Argyris es una respuesta al ambiente organizacional.
3.
Cae de su peso que Politemo, cclope de Neptuno y comedor de carne
humana, devorara nios con preferencia, por ser manjar tierno.
la calidad.

d) estrategia de la Preguntas de Alternativas Mltiples


Las preguntas de alternativas mltiples son las que gozan de mayor
prestigio entre todos lo tipos de preguntas. Ello se debe a que las mismas
pueden evaluar de forma amplia todos lo niveles de la taxonoma
cognoscitiva. La pregunta de alternativas mltiples contiene una premisa
que sirve como base. Esta por lo regular consta de una pregunta o una
declaracin incompleta. Una vez establecida la premisa, se procede a
establecer unas alternativas para que se seleccione la mejor contestacin.
Por lo general se redactan de cuatro a cinco alternativas por pregunta. A
continuacin se presentan las reglas para formular la premisa u oracin
principal.
Reglas para la Formulacin de la Premisa
1.
Formular claramente una pregunta de manera que el examinado
pueda entenderla sin recurrir a las alternativas.
2.

Contener en lo posible, todas las palabras comunes a las alternativas.

3.

Contener nicamente material pertinente a la respuesta de la


pregunta, a menos que se est midiendo la capacidad de seleccionar

65
el material pertinente a la solucin de un problema
4.

Estar libre de indicios (claves) sobre cul es la respuesta correcta.

5.

Contener toda la informacin posible para responder a la pregunta.

6.

Presentarse en forma positiva.

7.

Presentar una pregunta de alternativas mltiples y no de cierto o


falso.

8.

Indicar la existencia de otras respuestas correctas que no se incluyen


entre las alternativas cuando este sea el caso. En tal situacin debe
iniciar con frases como: De las siguientes...

9.

Requerir un conocimiento, no la opinin del examinado.

Reglas para la Formulacin de la Respuesta Correcta


1.
Debe haber una sola respuesta correcta.
2.

Si hay ms de una respuesta correcta. LA MEJOR respuesta debe


establecerse a base de criterios aceptados.

3.

La respuesta correcta debe tener aproximadamente la misma


extensin que las alternativas incorrectas.

Reglas para la Formulacin de las Alternativas


Las alternativas deben:
1.

guardar estrecha relacin con la premisa.

2.

tener la misma estructura gramatical.

3.

excluirse mutuamente.

4.

ser homogneas en contenido.

66
5.

presentarse en la forma ms simple posible.

6.

tener el mismo atractivo.

A continuacin presentamos algunos ejemplos de preguntas de


alternativas mltiples:
1.

El proceso que segn Joseph Juran establece los objetivos dirigidos a la


calidad y el desarrollo de formas para realizar los mismos se conoce
con el nombre de
a)
b)
c)

2)

Segn establece la teora de calidad de Juran un compaero de trabajo


debe ser considerado como un cliente
a)
b)
c)
d)

3)

control de la calidad.
evaluacin de la calidad.
planificacin de calidad.

interno.
externo.
perifrico.
importante.

El propsito fundamental de la reingeniera de negocios es la revisin


y el rediseo radical de procesos para alcanzar mejoras espectaculares
en medidas tales como
a)
b)
c)
d)

costos, beneficios, servicio y rapidez.


calidad, costos, planificacin y rapidez.
costos, calidad, servicio y rapidez.
productividad, calidad, costos y rapidez.

Ejercicio de Pareo
El ejercicio de pareo constituye una variacin de las preguntas de
alternativas mltiples. El mismo provee varias premisas y respuesta
simultneamente.

67
Reglas para la Construccin de un Ejercicio de Pareo
1.
El ejercicio de pareo consta de dos columnas. La columna de la
izquierda contiene los estmulos o las premisas mientras que la
columna de la derecha contiene las respuestas.
2.

Ambas columnas deben aparecer en la misma pgina ya que de


otra manera el ejercicio se torna confuso

3.

Se debe medir conocimiento homogneo. El contenido de cada


una de las columnas debe girar en torno a un solo tema.

4.

El nmero de respuestas debe ser mayor que el nmero de


estmulos. Esto permite reducir la probabilidad de adivinar las
respuestas. Las respuestas deben exceder por dos o tres
respuestas el nmero de preguntas.

5.

El ejercicio de pareo no debe ser muy extenso. Es recomendable


usar un mximo de 8 a10 preguntas.

6.

La lista de respuestas debe presentarse en un orden lgico (Ej.


Alfabtico o cronolgico). Esto contribuye a facilitar la seleccin
de las respuestas.

7.

Deben de existir unas instrucciones que indiquen la base a


parear.

A continuacin se presenta un ejemplo de un ejercicio de pareo


Paree el concepto (columna derecha) con su respectiva
descripcin (columna izquierda):
1. Juicio subjetivo sobre la calidad
del desempeo de una persona

a. seleccin
b.
diagnstico

68
2. Comparacin del desempeo de un
individuo en varias reas para
determinar fortalezas y debilidades
3. Asignar valores numricos a desempeo
de una persona
4. Identificar personas con mayores
probabilidades de xito
5. Enfoque que prefiere las pruebas de
ensayo y que analiza el proceso

c. rapidez
d. perfeccin
e. medicin
f.
instrumental
g.
clasificacin
h.
evaluacin

Ejercicio de Prctica
A continuacin se presentar un ejercicio de pareo. Su tarea consiste
en sealar los errores que encuentre en el mismo y recomendar la forma en
que se puede mejorar el mismo.
Pareo:

1.Anne Anastasi
3.John Locke
4.Ana L. Vega

a.gran exponente en
2.Max Weber
Psicometra
b.Falsas crnicas del Sur
c.burocracia
d.tabula rasa

Ejercicio de Respuesta Breve


Se le pide a la persona que elabore la respuesta. El mismo consta de
una premisa incompleta que la persona completa con una palabra, frase,
oracin, smbolo o un numeral. Este tipo de premisa se utiliza para medir
objetivos que implican memorizacin de datos, aplicacin de principios y la
solucin de problemas. Tienden a ser fciles de construir y reducen a un
mnimo la posibilidad de adivinanza.

69
Reglas para la Construccin de Preguntas de Respuesta Breve
1.
Debe haber una sola respuesta.
2.

El contexto en forma de pregunta tiende a ser ms directo y


claro que el de la declaracin incompleta.

3.

Si se redacta una declaracin incompleta se debe incluir el


espacio en blanco

A continuacin se ofrecen ejemplos de preguntas de respuesta breve:


1.
2.
3.

Segn Cirino (1989), el tipo de pregunta que requiere que la


persona exprese su juicio en torno a un enunciado en trminos
de su veracidad o falsedad se conoce como_________.
La memorizacin de datos, smbolos, terminologa y hechos
puede medirse utilizando ejercicios de ___________.
___________ es la capital de Puerto Rico.

La Pregunta de Discusin o Ensayo


Es un medio para lograr medir logros de aprendizaje importante que
no es factible por otros medios. Es til para medir los niveles ms altos de
la taxonoma de Bloom y colaboradores, como lo son la sntesis y la
evaluacin. Este tipo de pregunta promueve la produccin y organizacin
de ideas y, adems, le provee la libertad a la persona de elaborar su
respuesta. Presenta la desventaja de que es poco representativa del
aprovechamiento total que se quiere medir. La prueba tipo ensayo tiende a
favorecer a aquellas personas que tienen gran habilidad para escribir. La
correccin de este tipo de prueba involucra gran subjetividad, por lo que sus
resultados tienden a ser poco confiables. Este aspecto se puede minimizar
cuando se le asigna puntos a los temas y subtemas o pasos que debe

70
contener cada pregunta.
Reglas para la Construccin de Preguntas de Discusin
1.
Cada pregunta debe presentar una tarea clara y definida.
2.

Todas las personas deben contestar las mismas preguntas. No se


debe presentar varias preguntas para que los evaluados escojan
ya que se afecta la representatividad del material a evaluar.

3.

El evaluador debe proveer un lmite de tiempo justo para que los


evaluados respondan a las preguntas.

4.

En la correccin de las preguntas se deben corregir las


respuestas que dan los evaluados a una sola pregunta antes de
pasar a la prxima. Ello minimiza la subjetividad en la
correccin

A continuacin se presentar un ejemplo de una pregunta de discusin


sobre el tema de construccin de preguntas:
Defina los tipos de preguntas existentes y las reglas de construccin
para cada una de ellas. Adems explique segn discutido en el
adiestramiento, qu tipo de preguntas se ajustan mejor a los
adiestramientos en la industria y Por qu?
a.
Definicin de cada tipo de pregunta (10 puntos)
b.
Reglas para la redaccin de cada tipo de pregunta (20
puntos)
c.
Preguntas que ms se ajustan a la industria y razones para
ello (20 puntos).
Listas de Cotejo
La lista de cotejo es el tipo de prueba que permite la evaluacin del
desempeo de una persona a la vez que ste realiza el trabajo para el cual

71
se le est evaluando. Es recomendable utilizar la misma cuando se quiere
medir el desempeo de una persona luego de concluido un adiestramiento
sobre la operacin de cierto equipo o mquina. La lista de cotejo consta de
una serie de conductas que conllevan los pasos lgicos para la realizacin
de una tarea. Este es un tipo de prueba donde una persona va marcando si
la persona est realizando las conductas necesarias para culminar la tarea y
las realiza en un orden lgico. Las conductas que se realizan estn
relacionadas a objetivos cognoscitivos del rea de aplicacin y el nivel
psicomotor.
Reglas para la Redaccin de Listas de Cotejo
1.
Defina concretamente las conductas que incluir la lista de
cotejo. Las mismas deben ser especficas. Las conductas
pueden ser obtenidas de anlisis de puestos, procedimientos de
operacin estndar, observacin directa y otros.
2.

Presente la misma en el orden lgico que requiere la realizacin


de la tarea.

3.

Coloque un espacio que sirva para realizar una marca al lado de


cada conducta.

4.

La lista de conductas no debe ser extensa. Alrededor de 10 a 15


premisas son deseables

5.

Se evita utilizar lenguaje complejo y rebuscado ya que lo que se


busca medir son conductas especficas relacionadas al

72
desempeo.

73
A continuacin se presenta un ejemplo de una lista de cotejo para la
misma redaccin de una lista de cotejo:
Favor de colocar una marca () al lado de cada una de las conductas segn
el evaluado las vaya realizando. Cada conducta tiene un valor de 5 puntos.
Luego de terminar la evaluacin, sume las conductas que el evaluado realiz
y divdalas por el total de conductas. Esta ser la puntuacin total. La
puntuacin mnima para aprobar este examen es 70 por ciento.
_____1.
_____2.
_____3.
_____4.
_____5.
_____6.
_____7.
_____8.
_____9.
____10.

Disea los objetivos educativos


Redacta la tabla de especificaciones
Evala el anlisis de puestos
Observa directamente el desempeo deseado
Redacta las premisas en forma de conducta
Las premisas estn organizadas lgicamente
Coloca el espacio para marcar al lado de las premisas
Redacta alrededor de 10 a 15 premisas
Evita usar lenguaje complejo
Le otorga una puntuacin a cada premisa

____Total

____Aprobado

Captulo 8: Desarrollo de Escalas de


Actitudes
Las escalas de actitudes son herramientas que tericamente
pretenden medir las inferencias establecidas por la taxonoma del dominio
afectivo. Las actitudes segn Sachs (1993) se definen como las
predisposiciones a reaccionar negativa o positivamente en cierto grado
frente a un objeto, instituciones o clase de individuos. Dichas
predisposiciones pueden medirse de dos formas:
Observacin de las actitudes manifiestas. Las manifestaciones
actitudinales se observan a nivel del comportamiento. Un o una
observadora adiestrada realiza observaciones de rigor y corrobora
las mismas mediante entrevistas que validen la informacin.

74
Desarrollar inventarios o escalas. Las mismas son instrumentos de
papel y lpiz donde las personas sealan su grado de acuerdo o
desacuerdo con las aseveraciones que pretenden medir la actitud
en cuestin.
Las escalas de actitudes revelan la posicin de los individuos en un
continuo de aprobacin y desaprobacin de las instituciones o eventos
sociales, las actividades de los grupos y los principios que pueden afectar el
bienestar de los dems Sachs, 1983). Esencialmente, las escalas de
actitudes pretenden medir las opiniones que expresan las personas ante
ciertos elementos de carcter social. Por ejemplo, a los trabajadores y
trabajadoras de una organizacin de productos o servicios se les pide que
sealen su nivel de acuerdo o desacuerdo con las nuevas polticas que se
estn implantando en la empresa. Una vez estas personas terminan de
contestar el instrumento, se suman las puntuaciones marcadas en cada
contestacin y el resultado se considera como la magnitud de l actitud
latente de estas personas (Spector, 1992). Spector seala que las escalas
no solamente pueden medir actitudes, sino tambin a aspectos de la
personalidad.
Pasos generales para desarrollar escalas de actitud
1. Defina la actitud claramente usan cualquiera de esta alternativas
Use una teora como marco de referencia
Use constructos o dominios previamente establecidos
Use su propia conceptuacin terica

75
Use datos empricos obtenidos de entrevista focalizadas en temas,
anlisis de contenido de textos, observacin participante o
cualquier otra tcnica cualitativa que estime conveniente
2. Seleccione la escala de respuesta. Puede usar escalas que flucten desde
4,5, 7 o 10 gradaciones. (Ejemplo: 1) totalmente en desacuerdo, 2) en
desacuerdo, 3) de acuerdo y 4) totalmente de acuerdo.
3. Desarrolle las aseveraciones usando los siguientes criterios
Cada aseveracin debe expresar una idea
Redacte aseveraciones positivas y negativas. Permite que cuando
las personas contesten la escala no tiendan a contestar en la
misma direccin de la escala. Esta situacin sucede cuando todos
los reactivos estn fraseados de manera positiva. Puede incluir los
temes impares como negativos y los pares como positivos
Evite usar jergas o lenguaje que sea complicado de entender
Considere el nivel de lectura de las personas que van a contestar el
instrumento
Evite usar la palabra no cuando redacte las aseveraciones
Ejemplo:
Aseveracin mal redactada

Aseveracin bien redactada

No me gustan los lugares fros

Me desagradan los lugares fros

Prepare las instrucciones para contestar la escala- Sea claro/a y


preciso/a en la informacin que usted desea que la persona que va

76
a contestar separa para contestar el instrumento
4. Realice un estudio piloto con 100 personas (Kline, 1986, 1991)
Haga un estudio de validez de contenido con 10 a 12 expertos
Aplique los reactivos a las 100 personas y haga un anlisis de
reactivos para calcular los ndices de discriminacin. Retenga
aquellos reactivos cuyos ndices flucten entre .30 y .80 (Klein,
2000)
Estime la confiabilidad de consistencia interna. Aplique la tcnica
alfa de Cronbach. Autores como Kline (1991) y Spector (1992)
sealan que esta tcnica es la ms precisa ya que toma en
consideracin a todo el instrumento, contrario a la tcnica de
divisin en mitades que a pesar de corregir el efecto de la
correlacin con la tcnica de Spearman-Brown, no toma en
consideracin la variacin total de la escala. Los indicadores de
confiabilidad deben fluctuar entre .70 y 1.00.
Calcule el error estndar de la medida
Elimine los reactivos que no cumplan con los criterios expertos ni
con los de los anlisis de reactivos
Vele por que la confiabilidad cumpla con los criterios
5. Administre los reactivos que sobrevivieron en el estudio piloto a una
muestra de 200 personas y aada una escala de deseabilidad social

77
Correlacione los reactivos de la escala con los de deseabilidad
social y elimine aquellos con correlaciones moderadas o altas
Realice un anlisis de factores con los reactivos que no reflejan
deseabilidad social
Evale los factores obtenidos, el valor eigen y el porcentaje de
variacin explicada
Retenga aquellos reactivos cuyos factores de carga inicial flucten
entre .30 y .80 (Pedhazur y Pedhazur Schmelkin, 1991)
6. Repita el anlisis de reactivos y de confiabilidad y evale los reactivos a
la luz de los criterios utilizados anteriormente.
7. Elimine los reactivos que sean necesarios
8. Use los reactivos que sobrevivieron para constituir la forma final del
instrumento
9. Administre la forma final a un grupo representativo de la poblacin y
establezca las normas de la escala. El tamao de la muestra depender
del tamao de la poblacin
Tipos de escalas de actitudes
Escala Thurstone
Se desarrolla seleccionando una serie de opiniones que constituirn el
universo de la actitud a medir. El mismo va a ser definido de la misma
forma que se define operacionalmente un constructo. Se va a desarrollar
una lista inmensa de aseveraciones que contengan gradaciones desde

78
altamente favorable hasta altamente desfavorable. Se van a reclutar
alrededor de 100 jueces para que los mismos, usando una escala del 1 al
11. Los reactivos seleccionados tienen que tener la aprobacin de la
mayora de los jueces y la escala final debe contener reactivos que cubran el
recorrido de actitudes que flucte en la escala del 1 al 11. Los jueces sern
personas que conocen el objeto de estudio a medirse. Si la escala es para
medir la opinin que se tiene sobre las uniones, los jueces tienen que tener
relacin directa con las uniones, sino de lo contrario el proceso sera un
fracaso metodolgico. Cirino (en Rodrguez Irlanda, 1991) indica que el
problema mayor que confronta el desarrollo de la escala tipo Thurstone es el
trabajo que conlleva el diseo de la misma.
Ejemplo:
Las mujeres deben cobrar igual que los hombres
Favorable_____________ Desfavorable
Escala Guttman
Segn el mismo Guttman una escala de actitudes debe reproducir
cada una de las contestaciones de cada una de las personas que respondan
a sta. Esta reconstruccin se hace con los valores totales obtenidos. Esto
implica que una escala debe tener reactivos que fluctan desde una actitud
favorable hasta una desfavorable. Si una persona responde favorablemente
a un reactivo es porque los reactivos anteriormente contestados deben
haberse contestado tambin de manera favorable. Guttman expresa que si
esto no sucede la escala estara midiendo ms de un factor. Cirino (en

79
Rodrguez Irlanda, 1991) seala que en la prctica esto ocurre en muy rara
ocasin ya que los grados de contestacin de una persona vare
independientemente del orden de los reactivos. Este dato llev a que
Guttman crear lo que denomina un ndice de reproducibilidad. El mismo
especifica que una escala de actitud unidimensional es aquella donde el
90% de los y las respondientes son consistentes en la contestacin
favorable o desfavorable de la escala
Ejemplo de escala Guttman:
Las uniones obreras son el mejor instrumento de justicia social.
Favorable________
Desfavorable_______
Las uniones obreras han contribuido al desarrollo econmico de los Estados
Unidos.
Favorable________
Desfavorable_______
Escala Likert
Likert dise esta escala para reducir el trabajo que se requera al
desarrollar una escala Thurstone. En este tipo de escala no se le asignan
valore a las opiniones, sino que cada sujeto indica el grado de acuerdo o
desacuerdo con las opiniones. Esta escala resulta ms fcil de construir que
la Thurstone y existen estudios que arrojan altas correlaciones entre ambas
escalas (Cirino en Rodrguez Irlanda, 1991). Las actitudes se pueden medir
usando gradaciones de 4,5 o 7 puntos. Andjar Rojas y Martnez Lugo
(1996) encontraron que al usar la Teora de la Respuesta al tem, la
categora de intermedio o neutral no pareci ser una gradacin efectiva en
la Escala que mide el Nivel en que los empleados se Involucran en el

80
Trabajo.

81
Ejemplo de una escala Likert:
Vivo, como y respiro trabajo
1.
2.
3.
4.
5.

totalmente en desacuerdo
en desacuerdo
neutral
de acuerdo
totalmente de acuerdo

Prueba de equvocos
Las pruebas de equvocos se utilizan cuando se sospecha que en la
poblacin que se quiere medir una actitud, las personas pueden falsear los
resultados de la misma. Se trata de evitar la deseabilidad social ya que se
disean unos reactivos de alternativa mltiple, pero no existe una
contestacin correcta. Los reactivos buscan medir la actitud de los y las
respondientes.
Ejemplo:
La falta de motivacin en el trabajo le presenta en prdidas a las empresas
puertorriqueas la cantidad de
a.
b.
c.
d.

un milln de dlares.
cinco millones de dlares.
diez millones de dlares.
cien millones de dlares.

Se supone que una persona que est en desacuerdo con que la


motivacin afecta a las empresas contestar la alternativa a, mientras si
est de acuerdo la tendencia ser a marcar la alternativa d. Este tipo de
prueba se desarrolla cuando no se puede establecer la confidencialidad y el
anonimato en la evaluacin de la muestra.

82
Diferencial Semntico
Este tipo de escala busca medir el significado que tienen las palabras
o los conceptos. La misma fue desarrollada por Osgood, Suci y
Tannenbaum. La escala de diferencial semntico es una escala bipolar que
provee una serie de posiciones intermedias para que se juzguen los
conceptos que se desean medir. Las posiciones pueden fluctuar desde cero
hasta 9. Se ha encontrado que la gradacin ms efectiva es la de siete.
Ejemplo de una escala de diferencial semntico:
Ser sumamente rico
Bueno________________________Malo
Bueno___ ___ ___ ___ ___ ___ ___Malo

83

Captulo 9: Anlisis de Reactivos


El anlisis de reactivos es una herramienta estadstica til para
determinar si los reactivos discriminan en trminos de las personas que
dominan o no unas reas de conocimiento. Este el caso especifico de las
pruebas de conocimiento, aptitud, aprovechamiento, habilidad. En el caso
de las escalas de actitud, lo que se busca es evaluar si las preguntas
discriminan de las personas que tienen o no una actitud en particular.
El anlisis de reactivos tambin nos provee informacin sobre
dificultad de las preguntas. Este es el caso de las pruebas que presumen
respuestas correctas e incorrectas. El anlisis tambin nos provee
informacin sobre el comportamiento de las alternativas.
Anlisis de reactivos cuantitativo
En el pasado este anlisis se calculaba por medio de una calculadora
de bolsillo. Hoy da existen programas computadorizados de anlisis de
reactivos que son efectivos y de bajo costo. Los mismos presentan los datos
de forma precisa ya que minimizan el nivel de error producido por un mal
clculo. Adems, que realiza anlisis que pueden tomar horas calculndose
manualmente, en solo segundos. Uno de los de los ms conocidos es
ITEMAN. A continuacin presentaremos un ejemplo de la informacin que
este programa nos provee sobre una pregunta en particular.

84
ITEM
1

PROP.
CORRECT
.28

BISER.

ALT

.47

1
2
3
4
5
OTHER

PROP.
ENDORSING
.30
.13
.09
.12
.29
.06

BISER.
-.07
-.17
-.28
-.12
.47
-.22

KEY

De izquierda a derecha debajo de la palabra ITEM nos muestra el


nmero de la pregunta que se est evaluando. En este caso es la pregunta
nmero uno. Seguido se encuentra el ndice de dificultad. El mismo nos
seala la proporcin de personas que obtiene la pregunta correcta. Las
preguntas que contienen ndices de dificultad entre 0 y .15 se consideran
demasiado difciles. Las que fluctan entre .16 y .30 tienden a ser difciles,
las de .31 a .70 se consideran de dificultad promedio, las de .71 a .85
resultan ser fciles y de .86 a 1.00 se consideran demasiado fciles. En el
caso del ejemplo, podemos sealar que la pregunta aparenta ser difcil (.28).
Al lado derecho del ndice de dificultad se encuentra el ndice de
discriminacin. El mismo nos muestra cuanto discrimina la pregunta de los
que conocen el material contenido en la pregunta de lo que no lo conocen.
Este ndice es de carcter correlacional, asocia cada pregunta con las
puntuaciones totales que obtuvieron las personas que sacaron mejores
puntuaciones y los de menor puntuacin. Los ndices de discriminacin
deben fluctuar entre .20 y .80. Preguntas cuyos ndices estn fuera de este
recorrido deben ser eliminados de la prueba. En el caso del ejemplo antes
presentado, la pregunta 1 discrimina ya que se encuentra dentro del

85
recorrido sealado (.47). Al lado derecho de este ndice se encuentra las
letras de las alternativas y al lado de stas, se pueden observar el por
ciento de personas que contest cada alternativa. Por ejemplo, la
alternativa A fue contestada por el 30 por ciento de las personas. Podemos
observar que seguido al por ciento de respuesta se encuentra el ndice de
discriminacin por alternativa. Este utiliza los mismos parmetros de
comparacin que el ndice de discriminacin de la pregunta. Por ejemplo, la
alternativa E es la que mejor discrimina (.47) de todas, adems de que
resulta ser la alternativa correcta. Por ltimo, la columna que se encuentra
a la derecha de los ndices de discriminacin de las alternativas contiene un
asterisco que identifica la contestacin correcta.
Anlisis de Reactivos Cualitativo
En muchas ocasiones queremos realizar anlisis de reactivos y no
tenemos la disponibilidad de condiciones ptimas para ello. Carecemos de
muchas personas para evaluar las preguntas estadsticamente, no tenemos
los programas para realizar los mismos y nos falta tiempo para realizar un
buen anlisis. Sucede que tenemos que recurrir a alternativas cualitativas
para encontrar los ndices de dificultad y discriminacin. Una manera de
evaluar el primero es mediante la formulacin de preguntas sobre cun
difcil o fcil estuvo la pregunta y por qu. Esto nos permite evaluar el
fraseo de la premisa, la manera en que se redactaron las alternativas y la
calidad de la respuesta correcta. Toda esta informacin debe ser anotada

86
por el adiestrador y tomada en cuenta en el momento de mejorar o eliminar
las preguntas.
Los ndices de discriminacin se pueden evaluar cuando usted les pide
a los participantes que levanten la mano los que obtuvieron la pregunta
correctamente. Cuente el nmero de personas que acertaron
correctamente. Si el 50 por ciento la contest correctamente, la pregunta
discrimina adecuadamente. La pregunta que fue contestada por el 80 por
ciento de las personas tiende a ser fcil y las que fueron contestadas por el
20 por ciento aparenta ser difcil. Lo importante es que el por ciento de
contestacin correcta se encuentre entre el 20 y 80 por ciento. De otra
manera la pregunta no discriminara adecuadamente.
Ejercicio de Prctica
A continuacin encontrar una impresin de computadora de un anlisis de
reactivos. Utilizando los criterios antes mencionados, seale las
caractersticas del mismo en trminos de la dificultad, discriminacin y
comportamiento de las alternativas

ITEM
1

PROP.
CORRECT
.75

BISER.

ALT

.60

1
2
3
4
5
OTHER

PROP.
ENDORSING
.10
.10
.70
.12
.08
.00

BISER.
.06
.18
.56
.11
.30
.00

KEY

87

Captulo 10: Confiabilidad


Una de las caractersticas de que debe tener una prueba es la
confiabilidad. Esto significa que los resultados de la misma deben ser
consistentes cada vez que se administre la misma. Esto implica que las
puntuaciones obtenidas en la prueba deben estar libres de errores. Una
prueba que sea tomada por un grupo de personas en dos ocasiones y que
sus resultados varen significativamente no es una prueba confiable. Por
otro lado una prueba cuyo contenido sea altamente heterogneo tampoco
ser confiable. Los ndices de confiabilidad fluctan entre 0 y 1.00. Mientras
ms se acercan a 1.00 mayor es la confiabilidad de una prueba y mientras
ms se acerque a 0 menor ser la misma. La comunidad cientfica acepta
que la confiabilidad mnima de una prueba debe ser .70. ndices menores
que .70 no son evidencia de una buena confiabilidad. Existen varias formas
de obtener la confiabilidad de una prueba. A continuacin se presentarn
las formas ms comunes de obtener la confiabilidad de una prueba o escala.
Confiabilidad de Consistencia Interna
La confiabilidad de consistencia interna se logra mediante el anlisis
estadstico de la correlacin. El mismo permite establecer la correlacin
entre cada una de las preguntas con el total de la prueba. Tambin esto se
logra mediante la correlacin de la mitad de las preguntas con la otra mitad.
Por lo general existen dos ndices de consistencia interna que son los de
mayor uso en la psicometra: alfa de Cronbach y Divisin en mitades usando

88
la frmula de Spearman-Brown. El primero se realiza calculando las
correlaciones entre cada una de las preguntas y el total de la prueba. Se
obtiene una proporcin que es corregida por la frmula alfa de Cronbach y
se obtiene el ndice. La segunda se obtiene dividiendo la prueba en dos
mitades. Pueden dividirse

usando las preguntas pares y nones o

dividiendo la prueba en dos mitades solamente. Estas preguntas pasan a


ser correlacionadas y corregidas por la frmula Spearman-Brown. Este tipo
de confiabilidad se obtiene cuando administramos la prueba en una sola
ocasin. Cuando la prueba es una de dificultad progresiva se usa la tcnica
de pares y nones para evitar que la dificultad de las preguntas afecte el
nivel de confiabilidad.
Confiabilidad Temporal
Esta tcnica busca establecer una correlacin entre el instrumento o
una versin del mismo administrado en dos ocasiones luego de haber
esperado determinado periodo de tiempo. El tiempo vara en funcin del
tipo de instrumento que se vaya a administrar y de la cantidad de personas
con que se cuenta para realizar el estudio. El problema principal radica en
que un nmero considerable de los evaluados se ausenten en la segunda
administracin del instrumento. Algunos expertos recomiendan que flucte
entre dos semanas a seis meses. Las dos tcnicas que se usan para estimar
la confiabilidad a travs del tiempo son la de prueba-reprueba y la de
formas equivalentes.

89
Prueba Reprueba
La misma se obtiene cuando se le administra la misma prueba a un
mismo grupo en dos ocasiones. Se administra en una primera ocasin, se
deja pasar un tiempo suficiente para que las personas olviden el contenido
de la misma y se pasa a administrarla en una segunda ocasin. Luego se
correlacionan los resultados de ambas pruebas.
Confiabilidad a Travs de Formas Equivalentes
La misma se obtiene cuando se le administra una prueba a un mismo
grupo en dos ocasiones. Se administra en una primera ocasin, se deja
pasar un tiempo suficiente para que las personas olviden el contenido de la
misma y se pasa a administrar una versin que mide lo mismo que la
primera en una segunda ocasin. Luego se correlacionan los resultados de
ambas versiones de las pruebas.
Confiabilidad del Examinador
Esta es una tcnica cualitativa que tambin nos permite obtener la
confiabilidad de las pruebas o escalas. Para establecer la misma se necesita
que un mnimo de dos examinadores o adiestradores contesten la prueba y
luego se comparen las puntuaciones en la prueba. De no existir similitud en
las puntuaciones, la prueba no resultarn ser confiables. Esto se puede
hacer cualitativamente mediante la comparacin de las puntuaciones de los
examinadores. Si la misma discrepa significativamente (por ejemplo: uno
sac 100 y el otro 75) existe un bajo grado de confiabilidad. Por otro lado,
este procedimiento se puede hacer de manera estadstica. En primer lugar

90
se le administra la prueba a un nmero considerable de examinadores (30 o
ms examinadores). En segundo lugar se calcula una distribucin de
frecuencias de las puntuaciones obtenidas y se estima el promedio, la
mediana, la variacin y la desviacin tpica. Se supone que haya un sesgo
positivo en la distribucin. Es decir, las puntuaciones deben ser altas y
deben distribuirse hacia el lado derecho de la distribucin.

91

Captulo 11: Validez


La validez es la caracterstica ms importante que tienen las pruebas,
inventarios y escalas. El trmino validez se refiere a que la prueba debe
medir lo que se supone que mida. Si una prueba no es vlida en trminos
de las inferencias que se hacen partiendo de las puntuaciones de la prueba,
la misma no posee valor alguno. A continuacin se presentarn los distintos
tipos de obtener la validez de las pruebas.
Validez Aparente
Este es un tipo de validez cualitativa que establece que la apariencia
de las preguntas de la prueba debe ser compatible con el propsito de la
misma. Por ejemplo, una persona est solicitando para el puesto de
secretaria y le presentan una prueba que muestra ejemplos de casos en el
rea ingeniera. Este factor afecta la motivacin de las personas que
contestan la prueba y, por consiguiente, el comportamiento de la prueba.
Validez de Contenido
La misma se refiere a que las preguntas deben concordar con los
objetivos educativos de la prueba. La tabla de especificaciones es una
manera de evidenciar la validez de contenido de la prueba. Por otro lado
cuando tenemos una escala de actitud o un inventario, es necesario
evidenciar la validez de contenido mediante la consulta a un grupo de
expertos. Esto se conoce como la validez de contenido evaluada a travs de

92
expertos o jueces. La metodologa de mayor uso se conoce como la Tcnica
de Lawshe. En este caso, se le pide a un grupo de expertos (este no debe
ser menor de 5 expertos) que realicen un anlisis del contenido de cada
pregunta y sealen si cada uno es o no esencial para medir las dimensiones
que se desean medir. Basado en el nivel de esencialidad de las preguntas,
se va a pasar a calcular la razn de validez de contenido (RVC) para cada
pregunta. Esto se logra mediante el uso de la siguiente formula:

RVC=

Nje - Nne
Ntj
Donde: Ntj es el nmero total de jueces, Nje es el nmero de jueces

que marco la pregunta como esencial y Nne fue el nmero de jueces que
dijo que el reactivo no era esencial para medir la dimensin. Por ejemplo,
una pregunta que haya sido evaluada por 12 jueces de los cuales 10
sealaron que la misma era esencial y 2 dijeron que no lo era. Al convertir:
RVC

RVC

12

10 - 2
.67

=
12

La razn de validez de contenido para esa pregunta es .67. Es


necesario recurrir a la tabla de Schipper para determinar cual es el RVC
mnimo permitido basado en la cantidad de jueces disponibles. A
continuacin se presenta la Tabla 3 que contiene los RVC mnimos basado en
la cantidad de jueces disponibles:

93
Tabla 3: Tabla de Schipper Para Valores Mnimos de RVC
Nmero de jueces
Valor mnimo
5
.99
6
.99
7
.99
8
.75
9
.78
10
.62
11
.59
12
.56
13
.54
14
.51
15
.49
20
.42
25
.37
30
.33
35
.31
40
.29
En nuestro ejemplo, tenemos 12 jueces y la tabla nos seala que el
RVC mnimo es .56. Preguntas con RVC menores de .56 deben ser
eliminadas, cuando 12 jueces evalan las preguntas. En el ejemplo anterior
el RVC que calculamos fue .67, por consiguiente, esta pregunta debe ser
retenida ya que cumple con el RVC mnimo (.59).
Luego de haber calculado todos los RVC de una prueba se pasa a
calcular el ndice de Validez de Contenido (IVC). Este se calcula utilizando la
siguiente frmula:
IVC =

RVC
# total de preguntas
Donde: RVC es la suma de todos los RVC dividida entre el nmero

total de preguntas. Por ejemplo: cuatro reactivos con RVC de .59, .70, .85 y .

94
94 son sumados y obtenemos la cantidad de 3.08 la dividimos por 4 que es
la cantidad total de preguntas y obtenemos un IVC de .77. Esto nos dice
que la prueba de 4 preguntas tiene validez de contenido. Pruebas con IVC
de menos de .70 carecen de validez de contenido.
Ejercicio de Prctica
A continuacin se presentan los resultados de la evaluacin de 10
jueces en 10 preguntas de una prueba de conocimiento. Favor de calcular
los RVC y el IVC para la prueba:
Pregunta

Esencial

No Esencial

1.

2.

3.

10

4.

5.

6.

7.

8.

9.

10.

10

95
Clculos

96
Validez de Constructo
La validez de constructo se refiere a que para la prueba ser vlida o
medir lo que pretende medir, debe estar relacionado altamente con una
medida igual o desigual segn sea el caso. Existen dos tipos de validez de
constructo: convergente y divergente. La validez convergente se refiere a
la correlacin entre dos pruebas que midan lo mismo. Se administra a un
grupo de personas la prueba que se quiere validar, se deja pasar un tiempo
y se le administra otra prueba que sea vlida y que mida lo mismo que la
primera. Se correlacionan ambas pruebas y si la misma resulta ser alta (.601.00) se puede concluir que existe validez de constructo.
La validez divergente se refiere a la correlacin entre dos pruebas
que no miden lo mismo. Se administra a un grupo de personas la prueba
que se quiere validar, se deja pasar un tiempo y se le administra otra
prueba que sea vlida, pero que no mida lo mismo que la primera. Se
correlacionan ambas pruebas y si la misma resulta ser alta y negativa (.601.00) o se acerca bastante a cero, se puede concluir que existe validez de
constructo divergente ya que las pruebas no miden lo mismo.
Validez de Criterio
La validez de criterio presupone que una prueba mide lo que pretende
medir en funcin a la existencia de un criterio o factor. El criterio es una
medida externa que existe con anterioridad y que se acepta por los
expertos como ndice adecuado del contenido que la prueba pretende medir.

97
Existen dos tipos de validez de criterio: validez predictiva y concurrente. La
validez predictiva nos contesta la pregunta Ser Jos exitoso? En este
tipo de validez, se le administra la prueba a un grupo de personas y luego
se deja pasar una cantidad considerable de tiempo (seis meses a un ao) y
se recoge la medida del criterio. Por ejemplo, usted evala con una prueba
de inteligencia a un grupo de personas que entraron a su compaa en este
ao. Espero seis meses y evalu el desempeo de todos. Correlacion las
puntuaciones de las pruebas con las de la evaluacin. De encontrar una
correlacin al alta (.80 y 1.00) entre la prueba y la evaluacin se puede
concluir que la primera predice desempeo. El nico problema con este tipo
de validez es que requiere de la evaluacin de muchas personas (alrededor
de 300 personas). Muchas veces este factor inhibe su utilizacin en las
industrias.
El segundo tipo de validez es la concurrente. La misma contesta la
pregunta Jos es exitoso? En la validez concurrente se administra la prueba
y el criterio de forma simultanea. Por ejemplo: usted quiere determinar la
importancia de la inteligencia en el proceso de adiestramiento. Lo primero
que se puede hacer es administrarle una prueba de inteligencia a un grupo
que va a tomar un adiestramiento donde se requiere altos niveles de
inteligencia. Al final de este adiestramiento usted les administra a los
participantes un examen sobre el contenido del mismo. Luego va a
correlacionar las puntuaciones entre la prueba de inteligencia y la prueba

98
del adiestramiento. Cuando se encuentra una correlacin al alta (.80 y 1.00)
entre la prueba y la prueba de adiestramiento se puede concluir que la
primera predice el xito inmediato tienen las personas basado en sus
niveles de inteligencia.

99
Referencias
Anastasi. A. & Urbina S. (1997). Psychological Testing, (7ma. Ed.).
New Jersey: Prentice-Hall
Andjar, C. A. & Martnez-Lugo ME. (1996). Anlisis cientfico de la
Escala que Mide el Nivel en que los Empleados se Involucran en el Trabajo
de Lodahl y Kejner utilizando las Teoras de Respuesta al tem y la de
Generalizacin. Revista Latinoamericana de Psicologa., 16, 1-17.
Cirino, G. (1984). Introduccin al desarrollo de pruebas escritas. Ro
Piedras: Editorial Boho.
Cohen, R.J. & Swerdlik, M.E. (2001). Pruebas y evaluacin psicolgica:
Introduccin a las pruebas y a la medicin, 4ta. Ed. Mjico: McGraw-Hill.
Collazo, A. A. (1974). Nociones bsicas en la elaboracin de pruebas.
Ro Piedras: Universidad de Puerto Rico.
Crocker, L. & Algina, J. (1986). Introduction to Classical & Modern Test
Theory. Forth Worth. Harcourt Brace Jovanovich.
DeVellis, R. F. (1991). Scale Development: Theory, and Applications.
London: Sage.
Daz de Grana, L. (1988). Los objetivos educacionales: Criterios claves
para la evaluacin del aprendizaje. Ro Piedras: Editorial de la Universidad
de Puerto Rico.
Edenborough, R. (1999). Using Psychometrics: A Practical Guide to
Testing and Assessment, (2da. Ed.), Londres: Kogan Page.
Gronlund, N.E. (1994). Elaboracin de tests de aprovechamiento.
Mxico: Trillas.
Kline, P. (1986). A Handbook of Test Construction: Introduction to
Psychometric design. London: Methuen.
Kline, P. (1998). The New Psychometrics: Science, Psychology and
Measurement. Londres: Routledge.
Kline, P. (2000). A Hanbook of Psychological Testing, (2da. Ed.).

100
London: Routledge.
Nunnally, J.C. & Berstein (1994). Psychometric Theory, (3ra. Ed.).
New York: McGraw-Hill.
Mager, R.F. (1980). Objetivos para la enseanza efectiva. Caracas:
Editorial Salesiana.
Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and Evaluation in
Education and Psychology, (4ta. Ed.), Fort Worth: Harcourt Brace.
Pedhazur, E., Pedhazur Melkin, L. (1991). Measurement, Design, and
Analysis. New Jersey: Lawrence Erlbaum.
Rodrguez Irlanda, D. (1991). Medicin y evaluacin. San Juan, Puerto
Rico: Publicaciones Puertorriquea.
Sachs, G. (1983). Medicin y evaluacin en educacin y en
guidance. Barcelona: Herder.
Spector, P.E. (1992). Summated Rating Scale Construction: An
Introduction. Newbury: Sage.
Wade Savage, C, & Ehrlich, P. (1992). Philosophical and Foundational Issues In
Measurement Theory. New Jersey: Lawrence Erlbaum.
Westgaard, O. (1999). Tests that Work: Designing & Delivering Fair & Practical
Measurement Tools in the Workplace. San Francisco: Jossey-Bass, Pfeiffer.

Potrebbero piacerti anche