Elaboracion de Pruebas Psicometricas.

UNIVERSIDAD INCA GARCILASO
DE LA VEGA
FACULTAD DE PSICOLOGA Y
TRABAJO SOCIAL
CARRERA PROFESIONAL:
PSICOLOGIA
ASIGNATURA: ELABORACIN DE
PRUEBAS
ALUMNO: MENDIZABAL
CONTRERAS, MIGUEL FERNANDO
CICLO: V
DOCENTE: FERNANDO RAMOS
RAMOS
SEMESTRE 2014-III CODIGO:
476459660 OPE HUANCAVELICA
TEMA: PASOS PARA LA ELABORACION DE PRUEBAS
Captulo I:
1.- PROPSITO DEL TEST
La construccin de una escala de medicin de algn aspecto del comportamiento
humano requiere previamente un exhaustivo anlisis conceptual del dominio o
rasgo a medir.
La construccin de un test parte de una visin individual o grupal acerca de un
determinado aspecto de la personalidad de las personas que necesita ser medido
objetivamente, y esto implica el conocimiento de la existencia de otras pruebas,
puesto que si existen deber verse la confiabilidad y validez de esos test ra
medir dicho, constructo, en caso de que no existan o que se hallen errores, se
partir a construir un test que mida objetivamente una rasgo o conducta.
El propsito del test hace referencia a la elaboracin del constructo, aquello en lo
que va estar sostenido nuestro test y lo que pretende medir. Dentro de esto
tenemos que definir tambin a que poblacin est dirigida la prueba as como el
tipo de tems que se va a utilizar.
Las pruebas cumplen funciones diferentes segn sean sus propsitos po lo que
su elaboracin vara de acuerdo a sus propsitos, pero en forma ideal que una
prueba empieza con la definicin de las variables o constructos que van a medirse
y con el esbozo del contenido propuesto.
La obtencin de una buena prueba no es una cuestin fortuita sino la respuesta a
diversos interrogantes como los que se describen a continuacin:
Qu es lo que la prueba medir segn su diseo?
Cul es el objetivo de la prueba?
Existe necesidad de esta prueba?
Quin usar esta prueba?

Qu contenido abarcar esta prueba?
Cmo se aplicar la prueba?
Cul es el formato ideal de la prueba?
Debera elaborarse ms de una forma de la prueba?
Qu capacitacin especial se requerir de los administradores de la prueba para
aplicarla o interpretarla?
Qu clases de respuestas se requerirn de quienes respondan la prueba?
Cmo se interpretarn los resultados de la prueba?
2.-TRADUCCIN EN TRMINOS OPERACIONALES DEL PRE TEST

Una vez determinado el propsito es necesario que se planee como se va a
construir el test, es a esto cuando nos referimos con trminos operacionales, las
operaciones que se usaran para construir nuestro test, se dividen en dos grandes
reas las que son el contenido y el formato del test.
Hay dos grandes aproximaciones para hacer la definicin de los constructos. En
funcin de la novedad o no del objetivo que nos planteemos con la prueba y del
tipo de test del que se trate se insistir ms en un procedimiento u otro.
1. Aproximacin inductiva o exploratoria. El autor del test escribe un gran nmero
de tems que supuestamente miden el constructo. A continuacin, se administran
los tems a un grupo grande de personas. Las respuestas de las personas a los
tems son analizadas mediante tcnicas estadsticas para buscar patrones de
relacin entre los tems. El autor el test pone nombre a esos patrones de relacin
y de esta forma define el constructo. La aproximacin trabaja desde las
respuestas de las personas hacia la definicin del constructo.
Ahora no se puede esperar construir un constructo valindose nicamente de

estas tcnica, pues se pondra a merced de la arbitrariedad y circunstancias
externas, no se puede hacer esto sin tener una idea ms o menos clara de lo que
se quiere medir.
2. Aproximacin deductiva o confirmatoria. El constructo no se mide en el vaco.

Est insertado en una teora que dirige la propia definicin del constructo
indicando los comportamientos que pueden considerarse indicadores del
constructo. La contrastacin de las hiptesis estructurales que pone de manifiesto
la teora determinar la validez del test. Esta aproximacin va desde la teora
hacia los hechos.
Estos dos mtodos no son excluyentes pues nunca se parte de la nada, todo lo
contrario siempre se tiene una idea y conocimiento del constructo que se quiere
medir.
1. Revisin bibliogrfica. Tener presentes las conductas o indicadores que hayan
utilizado otros investigadores para medir el mismo constructo y de los que
podemos tener conocimiento por sus publicaciones.
2. Anlisis de contenido. Este procedimiento consiste en hacer preguntas abiertas
relativas al constructo que nos interesa a personas conocedoras del constructo o
que son elementos de la poblacin objetivo y cuyas respuestas pueden indicar
categoras conductuales representativas del constructo.
3. Juicio de expertos. Se trata de pedir a personas expertas a travs de
entrevistas o cuestionarios que nos indiquen qu tener en cuenta y, por lo tanto,
medir en los sujetos por lo que respecta al constructo.
4. Identificacin de incidentes crticos. La particularidad de este procedimiento
est en que pedimos a personas cercanas a sujetos tpicos de nuestra poblacin
objetivo, que nos identifiquen comportamientos tipo de los distintos niveles del
constructo.
5. Observacin directa. El autor del test recoge la informacin mediante
observacin
directa
de
personas
que
manifiestan
el
constructo.
Los
comportamientos de estos sujetos que el autor considere relevantes sern

propuestos como posibles indicadores del constructo.
-Formato del Test.- Dentro de esto se considerara si el test se resolver con la
piz o papel o con la ayuda de un aparato, el tiempo para resolverlo, la modalidad
de aplicacin (individual, grupal, o autoadministrado), pero sobre todo la extensin
de la prueba y el tipo de tems.
Disear el test es preparar la informacin necesaria para elaborar la poblacin
inicial de tems. El autor del test en este paso como en los anteriores debe
asegurar que el test final aportar la informacin necesaria para alcanzar el
objetivo para el que van a utilizarse las puntuaciones. Todas las decisiones que
tome debe someterlas al criterio siguiente: contribuye a lograr el objetivo para el
que van a utilizarse las puntuaciones?
3.-DETERMINACIN DEL PRE TEST.Es un test un poco ms amplio, en promedio lleva 3 veces ms tems que el test
final, y es la manera de construir el test donde se irn seleccionando los tems
ms relevantes.
Algunos puntos importantes a tomar en cuenta son:
Tenga siempre presente cules son los contenidos a evaluar y los objetivos que
se persiguen; una vez que los tenga claramente explicitados procure traducirlos a
preguntas concretas en la prueba de evaluacin que elabore.
Prevea una sola respuesta correcta de entre las alternativas ofrecidas. Si hay ms
de una respuesta correcta, los participantes se confunden, la puntuacin es ms
difcil y la prueba pierde validez.
Evitar los enunciados en forma negativa, son ms difciles de procesar.
Redactar frases cortas y evitar estructuras de frases complicadas.

Evitar o minimizar el uso de expresiones como raras veces, a menudo, o
generalmente.
Asegurar la concordancia gramatical entre el enunciado general y las alternativas
Asegurar la correccin semntica y ortogrfica de todo el texto contenido en las
preguntas y sus opciones de respuestas alternativas.
Evitar alternativas o enunciados jocosos.
Conseguir que la longitud de las distintas alternativas de respuesta sea
aproximadamente la misma.
Evitar las reiteraciones de texto innecesario en todas las alternativas
Evitar el uso como ltima alternativa de todas las anteriores son correctas o
ninguna de las anteriores es correcta.
Evitar respuestas que de una manera obvia resulten imposibles.
No ofrecer informacin engaosa. Las preguntas capciosas provocan respuestas
equivocadas
Distribuir la posicin de las respuestas correctas al azar para evitar que los
alumnos deduzcan una posible pauta de posicin de respuestas correctas.
Procure que las respuestas mltiples no hagan referencia a las respuestas de
otras preguntas. Si las respuestas estn estrechamente relacionadas entre s, la
puntuacin del evaluado puede resultar gravemente afectada si contesta
incorrectamente una pregunta previa relacionada. Esta situacin puede afectar a
los resultados y la validez de la prueba.
Utilice diferentes niveles de dificultad en la prueba. Redacte preguntas
complicadas, medianamente difciles y fciles. En lo posible redacte el doble de
preguntas que compondrn la prueba, para posteriormente seleccionar de entre
ellas la mitad.
Simplifique la mecnica de la prueba. Recuerde que su objetivo es medir los

conocimientos de los alumnos, no su habilidad para comprender instrucciones
complejas.
Revise la prueba antes de realizarla. Resulta adecuada?; y sobre todo
cuestinese s Responde a los contenidos y objetivos que se persiguen?
Captulo II:
1.- ELABORACIN DEL PRE-TEST:

Disear el test es preparar la informacin necesaria para elaborar la poblacin
inicial de tems. El autor del test en este paso como en los anteriores debe
asegurar que el test final aportar la informacin necesaria para alcanzar el
objetivo para el que van a utilizarse las puntuaciones. Todas las decisiones que
tome debe someterlas al criterio siguiente: contribuye
lograr el objetivo para el
que van a utilizarse las puntuaciones?

El fin principal de planificar un test es elaborar un bosquejo detallado, que sirva de
gua para elaborar los reactivos con los que vamos a evaluar ciertos procesos o
fenmenos. Dentro de esto debemos tener en cuenta dos puntos importantes.
- Nmero de tems: Es imposible fijar a priori el nmero de tems que debemos

hacer para constituir la poblacin inicial de tems. Tambin es evidente que, como
despus someteremos los tems de esa poblacin inicial a un proceso formal de
revisin para conocer su calidad, habr que elaborar ms tems de los que en
ltima instancia formarn el test final.
Tampoco podemos olvidar que el modelo lineal aditivo de las escalas tipo Likert y
de la Teora Clsica de los Test recomienda elaborar test largos, para favorecer el
que podamos obtener mediciones fiables. El supuesto sobre el valor nulo del
promedio de los errores de medida de los items del test slo se podr alcanzar
cuando el nmero de tems es suficientemente grande.
Teniendo en cuenta que una vez que sometamos a anlisis empricos los tems
elaborados nos veremos obligados a eliminar aquellos que no alcancen unos
requisitos mnimos de calidad psicomtrica, se trata de elaborar un nmero
suficientemente amplio de tems que garantice que dispondremos de un repertorio
con calidad suficiente para establecer el test definitivo. Para ello se recomienda
elaborar el doble o triple de tems de los que previamente se hayan considerado
para constituir el test definitivo. Aunque esto tambien depender de la dificultad
para elaborar los tems.
- Formato de respuesta: Viene determinado por el tipo de constructo que se
vaya a medir y por la finalidad de uso que se le va a dar a la prueba. Por lo que
respecta al formato de los tems, la primera decisin a tomar es si el sujeto debe
construir la respuesta (respuesta abierta) o si ha de seleccionarla de entre las
propuestas. Las primeras se adaptan mejor a los procesos cognitivos complejos y
en los que es primordial la actividad o produccin del sujeto, mientras que los
segundos son ltimamente preferidos por su mayor precisin o fiabilidad, adems
de por su mayor rapidez de correccin.
En los test de ejecucin mxima los tipos de respuesta ms frecuentes son:
a) Verdadero y Falso. Tienen el inconveniente de ser respuestas excesivamente
contundentes o extremas, y que de pocos enunciados se pueden emitir sin crtica.
Suele ocurrir que alumnos de nivel alto en el constructo suelen equivocarse al
responder por encontrar pequeas razones que iran en contra de la respuesta
correcta. Son tems fciles de construir, pero su respuesta est muy afectada por
el azar.
b) Eleccin mltiple.- Suelen tener entre tres y cinco alternativas de respuesta, de
entre las que el sujeto tiene que elegir cul es la correcta, o la ms correcta si
hubiera varias que pudieran ser consideradas como correctas. No obstante, hay
pruebas psicomtricas que ofrecen la posibilidad de elegir varias alternativas
como correctas, e incluso de ordenarlas en cuanto al grado de correccin; pero
crean algunos problemas de calibracin o de obtencin de las puntuaciones en el

atributo que se mide.
c) Relacionar. En tems de conocimientos e informacin suelen ofrecerse dos
columnas de elementos informativos y pedir al sujeto relacione los elementos de
la columna izquierda con los de la derecha. Constituyen una forma rpida de
preguntar y responder sobre una gran cantidad de contenidos, pero no es
adecuado para evaluar sobre procesos cognitivos de mayor complejidad.
d) Completar, sustituir o corregir algn o algunos elementos de una frase o serie
estimular. Este tipo de tems evitan la influencia del azar, pero al igual que en el
caso anterior son excesivamente memorsticos.
e) Respuesta corta. Se pide la respuesta sin oferta de alternativas de respuesta.
Con ello se evita la influencia del azar. Pueden ser adecuados para evaluar la
claridad con la que se han asimilado algunos conceptos simples. Como todas las
respuestas abiertas, stas tambin pueden tener problemas de fiabilidad.
Ejemplo: para que exige el estado el matrimonio civil?
f) Ensayo.- tems que requieren respuestas ms largas y con mayor tiempo que
en el tipo anterior, e incluso en ellos se suele permitir el uso de materiales
complementarios.
Ejemplo: Explique usted la importancia de la psicologa organizacional en el
mundo actual.
En los cuestionarios de personalidad o actitudes (tests de ejecucin tpica) se

suelen utilizar formatos del tipo SI/NO, SI/NO/A VECES, o escalas tipo Likert, en
las que la persona grada o pondera su respuesta en escalas de 3 a 9 posibles
valores. En estas escalas de actitudes se suelen distinguir tres tipos de

alternativas de respuesta:
a) Las alternativas de acuerdo con, piden a la persona que indique el grado de
acuerdo con la informacin presentada en el enunciado del tem. Habitualmente,
son bipolares -registran el acuerdo y el desacuerdo- y simtricas respecto a un
punto neutro. A travs de las alternativas de respuesta, el sujeto indica si est
fuertemente, moderadamente o ligeramente de acuerdo o en desacuerdo con el
enunciado del tem. Los modificadores (ejemplo muy, bastante, etc...) deben ser
los mismos para el acuerdo y el desacuerdo, haciendo que las elecciones de
respuesta sean simtricas. Para alcanzar esta simetra, no es imprescindible
incluir un punto neutro. Las alternativas de acuerdo son las ms populares y
verstiles, utilizndose para una gran variedad de variables.
Ejemplo: Un trabajo bien hecho es una buena medida de lo que vale una persona
Muy en desacuerdo 1 2 3 4 5 Muy de acuerdo
b) Las alternativas de evaluacin, piden a la persona que haga un juicio en una
dimensin de bueno-malo o adecuado-inadecuado, correcto-incorrecto, etc). Las
alternativas suelen ir desde lo positivo (excelente) a lo negativo (terrible). Pueden
utilizarse para medir actitudes o hacer juicios sobre la calidad de la ejecucin en
diferentes dominios.
Ejemplo: Que es lo que ms importante del matrimonio, el amor.
Nada importante 1 2 3 4 5 Muy importante
c) Las alternativas de frecuencia, suelen preguntar a las personas cuantas veces
ocurre algo o debera ocurrir. Pueden utilizarse alternativas numricas o verbales
(una vez por da, una vez a la semana...).
Suelen extenderse desde nunca a Siempre. Pueden utilizarse para medir
variables de personalidad cuando se necesita que la persona indique con qu
frecuencia realiza determinados comportamientos (o para describir el ambiente,
indicando cuantas veces ocurre algo).
Ejemplo: Se preocupa usted cuando falta de dinero en su hogar.

5 Siempre
4 La mayora de las veces
3 Unas veces s y otras no
2 Rara vez
1 Nunca
2.- ELABORACIN DEL TIPO DE TEMS:

Es el momento de pensarse cmo contribuir cada tem a la puntuacin total del
test o puntuacin en el constructo. En los tests de ejecucin mxima se suele
valorar la respuesta a cada reactivo de forma dicotmica : correcta = 1 punto e
incorrecta 0 puntos. As se obtendra la puntuacin total como la suma de unos,
esto es, como la suma de aciertos. Cuando se responde eligiendo una alternativa
de entre las posibles respuestas ofertadas se suele aconsejar corregir la
puntuacin total con el nmero de errores. Guilford (1936) y Lord (1952) afirman
conseguir con esta correccin sobre las puntuaciones del test una cierta mejora
en el coeficiente de validez de la prueba.
La lgica consiste en que si queremos que la puntuacin directa refleje lo que el
sujeto sabe o posee del constructo, hay que restar al nmero total de aciertos
(AT), el nmero de veces que el sujeto ha acertado por azar (AA):
La redaccin de los tems, tal y como hemos planteado el procedimiento de
construccin de una prueba, consiste en escribir los enunciados y dems
componentes de los tems (el tipo de alternativa de respuesta es elegido en el
paso anterior). Al igual que ocurre con otros pasos, en la elaboracin del test no
hay unas normas, criterios o recomendaciones que garanticen totalmente la
redaccin de enunciados de calidad. Escribir buenos enunciados para los tems
es una habilidad que progresa con la prctica. Algo muy importante es la precisin
en el lenguaje. El tem debe ser breve, no ambiguo, sin palabras irrelevantes o

tautolgicas y sin trminos polismicos. Se evitarn las palabras estereotipadas y
las dotadas de prejuicios o sesgos. No conviene intentar hacerse el simptico con
la redaccin de los tems, pues ello puede despertar en el sujeto que responde
actitudes insospechadas y que, casi seguro, no tendrn nada que ver con el
atributo que se pretende medir. Del cumplimiento de estas consignas se debe
derivar que entre el escritor de tems y el que los responde haya un total acuerdo
en el significado de lo que se pregunta.
En su formato ms simple un tem est constituido por un tronco, enunciado o
pregunta y, en el formato ms frecuente, varias alternativas de respuesta: una es
la respuesta correcta (o en su caso la ms correcta) y los dems son los
distractores. Frecuentemente esta unidad bsica va acompaada por el
planteamiento de algo (problema, texto, ilustracin, diagrama.etc) que se utiliza
como objeto sobre el que referir la/las pregunta/s. Cuando esto es as, el tem va
acompaado por una instruccin (en negrita) que dirige la actividad del sujeto a
leer el texto, ver el grfico y responder al/los tem/s.
Si esta referencia va acompaada por varios tems que preguntan sobre ella se
suele hablar de sper tem. Esta estructura de tem/s permite mayores
posibilidades a la hora de preguntar sobre referentes de una cierta complejidad y
evaluar procesos cognitivos distintos.
Es recomendable evitar las frases incompletas como tronco del test y sustituirlas
por enunciados declarativos o interrogativos. Porque estos son ms consistentes
con las alternativas, que adems as estarn expresadas de forma ms completa.
Con ello se ponen en funcionamiento procesos cognitivos de nivel superior al de
la simple memoria de rellenar el hueco o completar la frase.
En los tests de ejecucin mxima, se suelen utilizar alternativas de una nica
respuesta correcta, o bien de las que una de ellas es la mejor respuesta correcta
o la ms correcta. El primer tipo de alternativas suele requerir del sujeto el
recuerdo de hechos o informacin, mientras que las del tipo de la mejor respuesta
correcta requieren de juicio y discriminacin, consecuentemente son ms difciles

y pueden ser utilizadas para mayor variedad de propsitos de medida.
Hay que tener cuidado con el uso de determinantes o cualificadores en los tems.
No suelen ser recomendables por dotar de una cierta indefinicin o subjetividad al
tem. Adems pueden dar pistas sobre la respuesta correcta.
El tronco o enunciado del tem, como su parte fundamental debe contener la
informacin necesaria y fundamental para comprender perfectamente la situacin
que se plantea y el tipo de respuesta que se pide. Para ello y como recurso
prctico que facilite la congruencia entre el objetivo operativo propio de cada una
de las casillas del cuadro de especificaciones del test; se suelen utilizar tablas que
clasifican los verbos de accin y los objetos directos de esa accin que son
pertinentes en funcin del nivel taxonmico cognitivo o afectivo pertinente para
cada objetivo operativo del cuadro de especificaciones del test. Sin intentar ser
exhaustivo, pero como ayuda o recurso prctico a utilizar mientras facilite la tarea
de redactar tems que respondan a la definicin del contenido del dominio
psicolgico que se pretende medir.
3.-
ELABORACIN
DE
LAS
INSTRUCCIONES,
ELABORACIN
DEL
MATERIAL DEL PRE TEST Y ELABORACIN DE LA CALIFICACIN: Una vez

que tenemos los tems listos necesitamos organizar la forma en que queremos
que se haga el examen para cuidar al detalle los posibles detalles que hagan
poco confiable nuestro test, las instrucciones deben ser claras y meditadas con
cuidado pues afectan el rendimiento del evaluado.
INSTRUCCIONES GENERALES
Lea cuidadosamente toda la prueba, antes de responder.
Dispone de (tiempo) para resolver la prueba.
Cuando se equivoque, borre y escriba la nueva respuesta.
No emplee bolgrafo para responder la prueba.

Utilice un solo tipo de letra (cursiva o script). Escriba en forma legible
Durante el examen no se permite el uso del diccionario, material de apoyo,
consulta a los compaeros, ni celulares.
Las instrucciones especficas estn asociadas con el tipo de tem de que se trate,
deben ser tan concretas que permitan al estudiante responder sin dificultad.
Son ejemplos de instrucciones especficas las siguientes:
Escriba una equis (X) dentro del parntesis que posee la respuesta correcta.
Cada respuesta debe drsele una ponderacin.
En el espacio que se ofrece a la derecha, escriba la palabra que completa el
texto.
EL TIEMPO.
Si hay tiempo lmite entonces surge la necesidad de distinguir entre test de
velocidad y de fondo o potencia, segn que en los errores cometidos -RR no
correctas- prime la variabilidad en tems a los que no se les ha dado ningn tipo
de R -velocidad pura- o cuando prima la variabilidad en los tems a los que se ha
respondido y en cambio no oscilan mucho las RR a los tems no respondidos.
Hay que decidir si el factor tiempo es relevante al constructo que deseamos
medir. Cuando el inters primario estriba en el grado de consistencia de la
ejecucin que podra haber sido observada si todos los examinados hubiesen
terminado el test.
El material tambin debe ser elegido con criterio pues habr algunos que nos
permitan medir con mejor eficacia una variable que otros, por ejemplo si se quiere
medir la capacidad geoespacial de un apersona, necesitaremos de ciertos
elementos adicionales al lpiz y papel, por ejemplo figuras geomtricas, reglas,
etc.
El ensamblaje de la prueba. La prueba se organiza por partes, segn el tipo de

tems. Debe considerarse en este punto de estructuracin de la prueba, la
complejidad de los tems y de las labores que exigen al estudiante. De modo que
los tems aparecen ordenados dentro del examen de los ms fciles a los ms
difciles.
La Calificacin: Elegir el tipo de calificacipon a usar es un criterio que se debe
ver segn las caracterisica de nuestro constructo, las pruebas de ensayo pueden
hacerse ms efectivas al estructurar la tarea con claridad, de modo que la
interpretacin de una pregunte no vare de manera significativa de un sujeto a
otro. Es entonces que la calificacin se basa en la calidad de la respuesta, este
proceso de calificacin debe ser lo ms objetivo posible de forma que las
calificaciones dependan menos de factores ajenos al contenido o impresiones y
ms al nivel de conocimiento y comprensin.
La cuantificacin de las respuestas a tems de pruebas de rendimiento tpico
requiere ciertos matices. Dado un formato de respuesta determinado (opcin
binaria, categoras ordenadas o adjetivos bipolares) es necesario cuantificar las
posibles respuestas a un tem teniendo en cuenta que la alternativa con mayor
valor sea la que indique mayor nivel de rasgo, aptitud y opinin.
4.-APLICACIN AL GRUPO PILOTO.- El objetivo es evaluar la calidad

psicomtrica del test y as corregir algunos detalles que no se haban visto antes,
as como por medios estadsticos seleccionar los tems ms vlidos para medir un
determinado constructo.
Un ejemplo de aplicacin a un grupo piloto fue el aplicado a doce mujeres las
cuales reunieron las mismas caractersticas de la poblacin en estudio, pero que
no formaron parte de la muestra, con el objetivo de verificar la confiabilidad del
instrumento utilizado,
Cuando utilizamos un diseo experimental de comparacin de grupos. Incluye un
mnimo de dos grupos, uno recibe tratamiento y el otro no. Los sujetos se asignan
aleatoriamente a las condiciones experimentales y control, ya sea antes o

despus de la aplicacin del pre test. Ahora bien, lo peculiar del mismo es la
evaluacin que se realiza antes y al final del tratamiento a los grupos experimental
y control. Esto nos permite averiguar el efecto de la intervencin, que viene dado
por la cantidad de cambio que se ha producido desde la evaluacin pre
tratamiento a la post tratamiento. Este tipo de diseo se representar
grficamente de la siguiente forma: asignacin aleatoria de los sujetos (R),
observacin o evaluacin (0) e intervencin experimental o tratamiento.
Captulo III:
1.-APLICACIN DEL ANLISIS DE TEMS
Luego de seleccionar nuestra muestra y aplicarles el pre test obtendremos
puntuaciones, estas nos servirn para desarrollar el test definitivo, pero para ellos
debemos someter estas puntuaciones a un anlisis para seleccionar los tems
ms vlidos.
Puntuacin de cada tem: valor asignado a las respuestas de los sujetos en
funcin del formato de los tems
Puntuacin Total: En general la puntuacin total ser la suma de las puntuaciones
obtenidas por el sujeto en cada tem.
La calidad mtrica de los tems se puede evaluar con el anlisis de las respuestas
de los sujetos a dos elementos importantes del tem: la alternativa correcta y las
alternativas incorrectas.
Las respuestas a la alternativa correcta son las que ofrecen mayor informacin
acerca de la calidad mtrica del tem.
4 (cuatro) criterios a tomar en cuenta:

La Dificultad: se establece a priori y est en funcin del contenido y de la
complejidad de las operaciones demandadas al sujeto para responder
correctamente.
La Discriminacin: un tem presenta poder discriminativo cuando es capaz de
diferencias adecuadamente a los sujetos de diferentes niveles de una variable
criterio.
La Fiabilidad y la Validez, estrechamente relacionadas con la discriminacin del
tem.
El anlisis de las respuestas a las alternativas incorrectas (anlisis de
distractores), informa sobre la utilidad de cada alternativa incorrecta en el tem y
de su contribucin a la calidad del mismo.
Parmetros de los tems
Dificultad del tem
Se han propuesto varios estadsticos. El ms utilizado y sencillo es el estadstico
p (proporcin de sujetos que responden correctamente al tem).
Vara de 0 (tem muy difcil) a 1 (tem muy fcil).
Los tems con valores extremos deben ser descartados.
Para tems dicotmicos, el ndice de dificultad coincide con la media de los sujetos
en el tem.
Los tems que mejor discriminan son aquellos que son respondidos correctamente
por la mitad de los sujetos.
El ndice de dificultad depende de la muestra utilizada.
Correccin para tems de eleccin mltiple.
Varianza de un tem: pi.qi
Varianza del test: Sumatorio de p.q

Media del test: Sumatorio de p
Discriminacin del tem
El poder discriminativo del tem se define como la capacidad del tem para
distinguir a los sujetos de alta, media y baja puntuacin en un criterio.
El criterio puede ser:
Interno (el test y el tem miden el mismo constructo) (el ndice de discriminacin
se puede interpretar como ndice de Homogeneidad).
Externo (la puntuacin en otro test) (el ndice de discriminacin es una medida del
grado de validez del tem).
Dos son los tipos de medidas utilizados con ms frecuencia:
El ndice De Discriminacin
Se basa en la informacin que proporciona la comparacin del rendimiento de dos
grupos extremos (bajo y alto) en las puntuaciones en el test.
Se toma el 27 % de los sujetos de ms baja puntuacin y el 27 % de ms alta
puntuacin en el test.
D = 0 refleja que el tem no discrimina adecuadamente.
D > 040 refleja que el tem tiene gran poder discriminativo.
Un valor negativo en D indicara una disminucin en la precisin del instrumento
de medida.
Fiabilidad y validez del tem

Cuando el criterio es interno, el ndice se denomina Indice de fiabilidad del tem,
IF, y se considera una medida de la precisin con la que el tem mide el
constructo o dominio de inters. La fiabilidad del test se puede expresar en

trminos de los ndices de fiabilidad de los tems que lo componen.
Cuando el criterio es externo, el ndice recibe el nombre de ndice de Validez del
tem, IV, segn la naturaleza del criterio se debe utilizar un coeficiente u otro
(biserial-puntual, biserial, Pearson).
La validez del test se puede expresar a travs de los IV de los tems.
Comparacin de las respuestas a los tems
Se produce esta situacin cuando interesa estudiar la similitud de las respuestas
dadas por un grupo de sujetos a dos tems que presentan caractersticas
similares.
Dados dos tems podemos plantearnos tres criterios:
Si dos tems miden lo mismo = su grado de homogeneidad
Se calcula el estadstico Chi-Cuadrado.
Se compara con el valor Chi-Cuadrado de con g.l. = (columnas-1)(filas-1).
Si el estadstico > valor de tabla, entonces el grado de homogeneidad es
significativo.
Analizar el grado de intensidad de dicha homogeneidad
Se calcula el estadstico p
Es sencillo e insesgado.
Si el grado de dificultad es el mismo
Se calcula el estadstico Chi-Cuadrado.
Se compara con el valor de la tabla Chi-Cuadrado con g.l. = (columnas-1)(filas-1).
Si el estadstico > que el valor de tabla, entonces podemos concluir que hay
diferencias significativas entre la dificultad de ambos tems.
Anlisis de distractores
En tems de eleccin mltiple, pueden aparecer tems con poca discriminacin o
con valores de dificultad extremos.
Si se comprueba que el contenido y la redaccin son adecuados, el paso
siguiente es el anlisis del funcionamiento de las alternativas incorrectas como
distractores, para identificar aquellos defectuosos y eliminarlos.
Las alternativas incorrectas se consideran distractores eficaces si cumplen las
siguientes
condiciones:
ser
elegidos
por
un
mnimo
de
sujetos,
ser
aproximadamente igual de atractivos para los sujetos, que el rendimiento medio

en el test de los sujetos en cada distractor sea inferior al de los sujetos que han
elegido la respuesta correcta y a la media del test general de todos los sujetos,
que discriminen entre los sujetos de baja, media y alta puntuacin en el test, pero
en el sentido contrario a como lo hace la alternativa correcta.
Funcionamiento diferencial del tem
Cabe preguntarse si el test mide de la misma manera a todos los grupos de
sujetos a los que se les aplica. Lo que se conoce como el problema del sesgo.
Las diferencias entre grupos reflejan diferencias reales o estn causadas por
fuentes sistemticas de error?
Estas fuentes sistemticas de variacin afectan a la validez de constructo.
El estudio del sesgo consiste en el anlisis de las posibles fuentes de variacin
sistemtica.
Para ello hay que diferenciar entre impacto y funcionamiento diferencial del tem
(fdi).
Un tem presenta impacto cuando existen diferencias en la puntuacin media
obtenida en ese tem por dos grupos de sujetos con distinto nivel en el rasgo o
caracterstica que mida el test.
Un tem presenta FDI cuando existen diferencias en la puntuacin media obtenida

en ese tem por dos grupos distintos de sujetos pero con el mismo nivel en el
rasgo o caracterstica evaluada en el test.
2.- ELABORACIN DE LOS FACTORES Y FORMATO DEFINITIVO DEL TEST

Para elaborar los factores del test se deber primero terminar con la eleccin de
los tems para as constituir el formato final de la prueba, para esto se partir de
algunos criterios como, Seleccionar los tems del pre test por sus ndices de
homogeneidad estadsticamente significativos, Se agrupar los tems por sus
valores p (el nmero de tems en porcentajes para cada franja de valores p
aparece en la tabla anterior).
Se reordenar los tems de acuerdo a sus valores p, colocando en primer lugar
al del valor p ms cercano a 1 y as sucesivamente en forma descendente hasta
el ltimo, que ser el valor p ms cercano a 0.
Siempre se debe hacer una ltima inspeccin para as detectar algunos tems que
no tengan la suficiente consistencia.
Luego de tener una lista final de tems se los distribuir segn los factores que
midan, estableciendo un orden de sucesin, para cuidar de que dos tems que se
aproximan al mismo factor no estn juntos, y as ganar confiabilidad en el
examen.
Ejemplo: De un test de autoestima.

Factores que componen el constructo:
- Ideas cognitivas negativas de s mismo: el sujeto tiene una imagen negativa de
s mismo.
- Incapacidad: el sujeto no se cree capaz de realizar nada con xito.
- Valor de s mismo: hace referencia a ideas cognitivas relacionadas del valor

como persona, de su valaes una idea en relacin con los dems.
- Ideas cognitivas sobre otros: hace evaluaciones negativas sobre otros, se
compara con ellos y tiene la tendencia a creer que quieren hacerle dao.
- Ideas cognitivas negativas sobre el futuro: tiene la tendencia a pensar que el
futuro no le reportar nada, que no tiene valor para l.
- Ideas cognitivas negativas sobre el mundo: en el mundo no hay nada que valga
la pena, todo lo que en l sucede es insoportable.
- Ideas sobre imagen corporal:
- Percepcin del aspecto fsico y valoracin:
- Importancia que los dems le dan:
- Aspecto fsico como medio de relacin:
- Adolescencia:
- Carcter modificable des aspecto fsico:
Captulo IV:
TIPIFICACIN DEL TEST,
ELABORACIN DE LA VALIDEZ DEL TEST Y
ELABORACIN DE LA CONFIABILIDAD DEL TEST.
Validez: Es el grado de en la que una prueba mide lo que se traz medir, si

realmente est midiendo la variable elegida. Por ejemplo si queremos medir la
percepcin de las personas haremos que nos describan una figura, en cambio no
nos servira medir su estatura.
La validez sirve para que las inferencias que sacamos de resultado de un test
tengan sustento, y existen varios procedimientos de validacin:
- Validez de Contenido: se refiere a la pertinencia y representatividad del

contenido del test con respecto a la definicin de la variable que se va a medir.
La pertinencia se refiere a lo adecuado de los tems elegidos para el test, y la
representatividad a la equidad y adecuada cantidad de tems para medir una
variable.
La limitacin indiscriminada de los indicadores de la variable reduce la validez de
la medicin, adems las definiciones de las variables extremadamente amplias
aumentan la dificultad de seleccionar los indicadores de la variable, de ah la
importancia de utilizar las definiciones operacionales.
Por ejemplo, cuanto ms amplios son los objetivos educacionales, mayor ser el
nmero de indicadores incluidos en el test, de lo que se desprende que la
pertinencia y representatividad del contenido debern estimarse sobre la base de
los objetivos educacionales.
Par su a anlisis se necesita de un recurso de expertos, El consenso entre los
expertos en el contenido es un proceso judicativo y no es un procedimiento
experimental.
- Validez de constructo: Por medio de los constructos se puede explicar diferentes
fenmenos psicolgicos, un test trata de medir ese constructos de manera
objetiva, la validez de constructo trata de garantizar la existencia de un constructo
psicolgico que subyaga y d sentido y significado a las puntuaciones del test.
Entonces para que un test sea vlido debe medir en alto grado el constructo con
el que fue elaborado el test.
Por ejemplo, si queremos
analizar si un programa educativo aumenta la
capacidad artstica de los nios en edad preescolar. La validez de constructo es

una medida sobre si tu investigacin realmente mide la capacidad artstica, una
calificacin un poco abstracta.
La validez de constructo es valiosa en las ciencias sociales, donde existe una
gran cantidad de subjetividad de los conceptos. A menudo, no hay ninguna unidad
aceptada de medicin para los constructos e incluso los bien conocidos, como el
CI, estn abiertos a debate.
Por lo tanto, con una buena definicin de constructo, podemos analizar la
capacidad de constructo, una medida de qu tan bien las pruebas miden el
constructo. Es una herramienta que permite a los investigadores realizar un
anlisis sistemtico de lo bien diseada que est su investigacin.
- validez predictiva: toma como criterio externo una medida que se obtendr en el
futuro y compara los resultados que un individuo obtiene en el momento actual
con los que obtiene despus de cierto tiempo. Esto se aplica tanto
individualmente como colectivamente.
Confiabilidad:
Es la estabilidad en los resultados que se obtengan de la
aplicacin de un test en una persona, y que estos resultados arrojen un valor que
sea acorde con la situacin real de la persona a quin se lo aplica.
La confiabilidad de un instrumento se refiere al grado en que un individuo obtiene

un puntaje en una prueba que se apegue con exactitud a la verdadera situacin
de la persona con respecto a la variable que se mide y si la informacin que se
proporciona sobre esa situacin es coherente.
Cuando se aplica una prueba los resultados pueden depender de la posicin de la

persona con respecto a la variable que se mide, pero pueden depender tambin
de otras situaciones ajenas a la variable. Por ejemplo el estado emotivo de la
persona o las condiciones del ambiente o las instrucciones impartidas si se
presentan una de ellas el test no sera confiable ni til.
Entonces un test es confiable cuando los resultados de un individuo dependen de
su posicin con respecto a la variable medida. La confiabilidad de una prueba
puede obtenerse a travs de distintos procedimientos empricos, por ejemplo:
- Comparar los puntajes de un sujeto en dos momentos distintos.
- Comparar los puntajes en dos pruebas distintas pero equivalentes.

Comparando los resultados que en un estudiante obtiene en la medida realizada
por dos observadores independientes pero que utilizan un mismo instrumento.
- comparando los resultados obtenidos por un estudiante en cada una de las dos
mitades de una misma prueba.
Una buena prueba es confiable, es decir es consistente y es precisa. pero muchas

veces en aplicaciones sucesiva no se obtienen resultados equivalentes, por la
confiabilidad se da en grados, Las diferencias en el desempeo de un sujeto en
sucesivas ocasiones pueden estar causadas por diversas razones: distinta
motivacin en las diversas situaciones en que fue evaluado, distintos niveles de
cansancio o de ansiedad, estar ms o menos familiarizado con el contenido del
test, etc. Por todo ello, los puntajes de una persona no sern perfectamente
consistentes de una ocasin a la siguiente y decimos que la medicin contiene
cierta cantidad de error.
Este error de medicin, aleatorio e impredecible, se distingue de los errores
sistemticos que tambin afectan el desempeo de los evaluados por un test,
pero de una manera ms consistente que aleatoria.
Validez: Se refiere a lo que mide una prueba y no puede expresarse en general
sino que debe consignarse el uso particular para el que se planea utilizar el
instrumento.
Todos los procedimientos utilizados para determinar la validez se interesan en las
relaciones entre ejecucin en las pruebas y otros factores observados
independientemente de las caractersticas de la conducta considerada.
Coeficiente de validez
El coeficiente de validez es la correlacin entre la puntuacin de la prueba y la

medida de criterio. Los datos empleados al calcular cualquier coeficiente de
validez tambin pueden expresarse como tablas o grficos de espectancias que
muestran la probabilidad de que un individuo que obtiene cierta puntuacin en la
prueba obtenga un nivel especificado de desempeo en el de criterio.
Teora de la decisin: Una caracterstica de la teora de la decisin es que las

pruebas se evalan en trminos de su eficacia en una situacin particular. La
evaluacin no solo toma en consideracin la validez de la prueba para predecir un
criterio particular, sino tambin otros parmetros como la tasa base y la razn de
seleccin. Otro parmetro importante es la relativa utilidad de los resultados
esperados.
2.- ELABORACIN DE LAS TABLAS NORMATIVAS DEL TEST Y DEL

BAREMO DEL TEST
Para interpretar los resultados de la aplicacin un test a una persona realmente
debemos compararlos con los resultados de un grupo normativo. Los baremos
consisten en asignar a cada posible puntuacin directa un valor numrico (en una
determinada escala) que informa sobre la posicin que ocupa la puntuacin
directa (y por tanto la persona que la obtiene) en relacin con los que obtienen las
personas que integran el grupo normativo donde se bareman las pruebas. Hay
varias maneras de baremar las principales son:
- Centiles y percentiles
- Baremos cronolgicos: Edad metal y Coeficiente intelectual.
- Puntuaciones Tpicas, estndares, normalizadas, escalas T y D, estaninos o
eneatipos.
La puntuacin directa que un sujeto obtiene en un test (Xi) no tiene demasiado
significado en s misma al considerarla aisladamente. Para que lo tenga, debemos
conocer las medidas de tendencia central y de variabilidad que definen la variable

medida en el grupo de origen y/o debemos compararla con las puntuaciones del
resto de sujetos que constituyen la muestra sobre la que se obtuvieron las
mediciones; es decir, hay que interpretar la puntuacin directa de cada sujeto en
relacin con la del grupo normativo al que pertenece. Para poder hacer esto es
necesario disponer de un baremo o escala normativa que no es ms que una
tabla de conversin donde se refleja la correspondencia entre las puntuaciones
directas de los sujetos y las puntuaciones estandarizadas adecuadas para cada
grupo o tipo de poblacin (habitualmente definida en trminos de sexo y edad).
Escalas tpicas normalizadas

Estn constituidas por las puntuaciones tpicas (Zn) que les corresponderan a las
puntuaciones directas de los sujetos (X) si la distribucin de la variable analizada
se ajustara (ms o menos) a una distribucin normal. Para calcularlas basta con
conocer la media y la desviacin tpica de la variable en cuestin y aplicar la
frmula indicada arriba. Adems, si disponemos de la tabla de la curva normal,
podremos buscarlas en ella y descubrir as el porcentaje de sujetos de la
poblacin que quedan por encima y por debajo de ellas.
Los test nos permiten obtener datos cuantitativos y cualitativos, arrojan resultados
que en s mismos (puntuaciones brutas) no dos dicen mucho, pero obtener ms
informacin cuando la comparamos con los resultados obtenidos por otros
grupos, as podemos interpretarla.
Existen dos formas para comparar los resultados, dependiendo de la forma en
que ha sido construido el test (por normas o por criterios), son las siguientes:
a. Normas. Se compara al sujeto con un grupo de referencia (otros sujetos).
b. Criterios. Se compara al sujeto con respecto a un objetivo a lograr (lo puedo
comparar consigo mismo), hasta que punto se la logrado o no el objetivo
propuesto (p.e. en lugar de comer una tableta de chocolate comer solo dos onzas
al da).
La mayor parte de los test estn construidos en base a normas, fundamentados
en la teora clsica de los test. Por lo tanto:
1. Se posiciona al sujeto dentro de un colectivo, un grupo de referencia en cuanto

a una caracterstica. Existen diferentes formas de posicionar al sujeto, por medio
de percentiles, desviacin tpica...
2. Los resultados obtenidos se comparan y el sujeto adquiere una posicin
relativa a un grupo de referencia (grupo normativo).
Los test basados en criterios tienen las siguientes caractersticas:
1. Se construyen y aplican con el fin de saber si un sujeto ha conseguido el
objetivo o no.
2. Para diferenciar si un sujeto se puede catalogar como apto o no para una tarea
determinada.
3. Clasifico en base a la puntuacin obtenida por el sujeto (lo comparo consigo
mismo).
4. Existen diferentes tipos de poblacin por lo que se utilizan puntos de corte, es
decir, puntuaciones que diferencian, p.e. a un depresivo de un no depresivo, es el
punto donde se divide la poblacin (hasta aqu es normal...), diferencia la
poblacin normal de la clnica.
Tambin existen diferencias en cuanto a cmo se hace la comparacin y las
inferencias:
- Normas. Juega un papel primordial la varianza, lo que se busca es una
diferenciacin, hacer una discriminacin entre sujetos del mismo. Por ejemplo,
cuando se utiliza la campana de Gauss para obtener la nota de un examen, la
puntuacin se obtiene en base a las notas del mismo grupo.
- Criterios. Se trata de que todos los sujetos puedan llegar al objetivo, no importa
la varianza.
En los tipos de test hay que encontrar la fiabilidad pero en:
a. Los test basados en criterios, se hace nfasis en que la fiabilidad se da en las
clasificaciones que hago en base a los criterios.
b. Los test basados en normas, la fiabilidad est en las medidas que tomamos (un
test es fiable si la medida es fiable).
Ambos tipos no son excluyentes, se pueden complementar.
Para qu sirven los test normalizados?
Para transformar las puntuaciones brutas en puntuaciones indirectas, es decir,
para comparar a un sujeto con el grupo.
Tipificar, es el establecimiento de las normas que nos va a permitir comparar. Las
normas se extraen siempre del promedio de actuacin de un grupo de referencia
(grupo normativo) al que tiene que pertenecer el sujeto o en base a la muestra de
normalizacin, pero debe ser realmente representativa de su poblacin de
referencia.
Para tipificar un test se siguen los siguientes pasos:
1. Acotar la poblacin a la que va dirigida el test.
2. Elegir una muestra normativa (parte representativa de la poblacin) para poder
hacer inferencias a la poblacin.
3. Para elegir la muestra utilizamos un muestreo (proceso de eleccin de muestra,
extrayndola de la poblacin). Para hacer el muestreo se utilizan diferentes
mtodos: probabilstico, intencional u opintico, circunstancial o errtico, etc.; y a
su vez existen diferentes tcnicas para llevarlo a cabo: aleatorio simple, por
etapas, estratificado, etc.
4. Establecer normas de comparacin (edad, sexo, grado, nivel socioeconmico,

cultura)
5. Aplicar el test.
6. En base a las normas se analiza la forma de actuacin del grupo normativo y
obtiene la media de actuacin.
Los mtodos ms usados para describir la posicin de un sujeto respecto al grupo
son:
a. Puntuacin tpica (z).
b. Rangos percentiles. Son ms fciles de usar e interpretar pero no son exactos
en la posicin, conllevan ms errores.
Puntuacin tpica (z), es el nmero de desviaciones tpicas (relacin directa con
las puntuaciones brutas) con respecto a la medida que tiene un sujeto. Est
puntuacin tpica (z) significa lo mismo en cualquier distribucin, tambin en
diferentes grupos y variables. Se puede comparar un test con otro y tenemos una
posicin exacta de la persona (cunto se dispersa su grupo). La media de una
puntuacin z es igual a cero.
Baremos, tablas de comparacin, de transformacin de puntuaciones. Estn
construidos en base a una o varias escalas normativas (se aplican a un grupo o
muestra y en base a ella luego se hacen inferencias para la poblacin). Existen
diferentes tipos:
a. Cociente intelectual (CI). Se trata de comparar la edad cronolgica (EC) con la
edad mental (EM). Es la media de actuacin de cada edad, punto de referencia.
En base a ese promedio, por ejemplo, sabemos que un nio de 6 aos que ha
obtenido 8 puntos est en la media esperada para su edad, si saca 10 puntos
est por encima de la media de su edad y tiene una edad cronolgica de
actuacin de un nio de 8 aos. CI = (EC/EM) x 100
Ventajas: el CI tiene un uso universal y una interpretacin generalizada.

Desventajas: el desarrollo es diferente segn la edad y la interpretacin es
diferente, el CI es dependiente de eso. Es difcil ver las diferencias despus de los
18 aos.
b. Escalas centiles. Ordenan al grupo, respecto a la actuacin que todos los
sujetos tienen. Pueden ser centiles o percentiles.
Los percentiles son bastante usados pero son poco estables. Son porcentajes y
no tienen equivalencia unos con otros, solo se pueden comparar los que son de la
misma distribucin y variables. Por ello, se utilizan las puntuaciones tpicas z,
pues son transformaciones lineales, el sujeto mantiene la misma posicin, nos da
una idea exacta de la puntuacin del sujeto. Puede comparar entre grupos, dentro
del mismo grupo, con el propio sujeto, comparar una variable con otra, se pueden
hacer mltiples comparaciones.
La desventaja es que z tiene un valor de + 3, es un lmite muy corto, no son
enteras las puntuaciones, se pueden tener puntuaciones negativas y son ms
difciles de interpretar por ello se utilizan menos.
c. Puntuaciones tpicas normalizadas (Zn). Son puntuaciones transformadas y
normalizadas, se ajustan a la curva normal. Pueden ser eneatipos o estaninos
(media 5 y desviacin tpica 2), puntuaciones de 0 a 9, y decatipos (media 6 y
desviacin tpica 2), puntuaciones de 1 a 10. Un decatipo se puede comparar con
otro, es ms estable que el percentil. Son fciles de interpretar y son positivas.
Captulo V Elaboracin del Manual del Test
Una vez que hemos acabado con todos los pasos debemos elaborar un manual
para que el test pueda ser aplicado por cualquier psiclogo o profesional
interesado pero preparado, en este debemos incluir las instrucciones asi como la
teora en la que se apoya nuestro test, tambin debemos incorporar datos como
la confiabilidad y la validez as como los baremos, en el debemos describir
nuestro test, describir los materiales que incluye, normas de aplicacin y
correccin, as como las normas de interpretacin, se deber ser lo
suficientemente extenso para explicar todos estos aspectos, cuidando de ser
minucioso y claro.
BIBLIOGRAFA
ANASTASI, A. & URBINA, S. (1998) Tests Psicolgicos. Prentice Hall.Mexico.

Sptima Edicin.
COHEN, R.J. & SWERDLIK, M.E. (2000) Pruebas y evaluacin psicolgicas.
Introduccin a las pruebas y a la medicin. McGraw Hill. Mxico.
CORTADA DE KOHAN, N. (1999) Teoras Psicomtricas y Construccin de
Tests. Lugar Editorial. Buenos Aires.
HERRERA ROJAS, A. (1993) La medicin en Psicologa. Universidad de
Bogot. Indito.
LPEZ FEAL, R. (1986) Construccin de instrumentos de medida en
Ciencias conductuales y sociales. Col I. Alamex. Espaa.
NUNNALLY, J. Y BERNSTEIN, I. (1995) Teora Psicomtrica. Mxico. McGraw
Hill.
TORNIMBENI, S., PREZ, E; OLAZ, F.Y FERNNDEZ, A. (2004) Introduccin
a los Tests Psicolgicos. 3 Edicin revisada y aumentada. Ed. Brujas
Crdoba, Argentina.

Elaboracion de Pruebas Psicometricas.

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Elaboracion de Pruebas Psicometricas.

Caricato da

Copyright:

Formati disponibili

UNIVERSIDAD INCA GARCILASO

TEMA: PASOS PARA LA ELABORACION DE PRUEBAS

Quin usar esta prueba?

2.-TRADUCCIN EN TRMINOS OPERACIONALES DEL PRE TEST

Ahora no se puede esperar construir un constructo valindose nicamente de

2. Aproximacin deductiva o confirmatoria. El constructo no se mide en el vaco.

comportamientos de estos sujetos que el autor considere relevantes sern

Redactar frases cortas y evitar estructuras de frases complicadas.

Simplifique la mecnica de la prueba. Recuerde que su objetivo es medir los

1.- ELABORACIN DEL PRE-TEST:

lograr el objetivo para el

que van a utilizarse las puntuaciones?

- Nmero de tems: Es imposible fijar a priori el nmero de tems que debemos

crean algunos problemas de calibracin o de obtencin de las puntuaciones en el

En los cuestionarios de personalidad o actitudes (tests de ejecucin tpica) se

valores. En estas escalas de actitudes se suelen distinguir tres tipos de

Ejemplo: Se preocupa usted cuando falta de dinero en su hogar.

2.- ELABORACIN DEL TIPO DE TEMS:

en el lenguaje. El tem debe ser breve, no ambiguo, sin palabras irrelevantes o

correcta requieren de juicio y discriminacin, consecuentemente son ms difciles

MATERIAL DEL PRE TEST Y ELABORACIN DE LA CALIFICACIN: Una vez

No emplee bolgrafo para responder la prueba.

El ensamblaje de la prueba. La prueba se organiza por partes, segn el tipo de

4.-APLICACIN AL GRUPO PILOTO.- El objetivo es evaluar la calidad

aleatoriamente a las condiciones experimentales y control, ya sea antes o

4 (cuatro) criterios a tomar en cuenta:

Varianza del test: Sumatorio de p.q

Fiabilidad y validez del tem

constructo o dominio de inters. La fiabilidad del test se puede expresar en

aproximadamente igual de atractivos para los sujetos, que el rendimiento medio

Un tem presenta FDI cuando existen diferencias en la puntuacin media obtenida

2.- ELABORACIN DE LOS FACTORES Y FORMATO DEFINITIVO DEL TEST

Ejemplo: De un test de autoestima.

- Valor de s mismo: hace referencia a ideas cognitivas relacionadas del valor

ELABORACIN DE LA VALIDEZ DEL TEST Y

ELABORACIN DE LA CONFIABILIDAD DEL TEST.

Validez: Es el grado de en la que una prueba mide lo que se traz medir, si

- Validez de Contenido: se refiere a la pertinencia y representatividad del

analizar si un programa educativo aumenta la

capacidad artstica de los nios en edad preescolar. La validez de constructo es

Es la estabilidad en los resultados que se obtengan de la

La confiabilidad de un instrumento se refiere al grado en que un individuo obtiene

Cuando se aplica una prueba los resultados pueden depender de la posicin de la

- Comparar los puntajes en dos pruebas distintas pero equivalentes.

Una buena prueba es confiable, es decir es consistente y es precisa. pero muchas

El coeficiente de validez es la correlacin entre la puntuacin de la prueba y la

Teora de la decisin: Una caracterstica de la teora de la decisin es que las

2.- ELABORACIN DE LAS TABLAS NORMATIVAS DEL TEST Y DEL

conocer las medidas de tendencia central y de variabilidad que definen la variable

Escalas tpicas normalizadas

1. Se posiciona al sujeto dentro de un colectivo, un grupo de referencia en cuanto

4. Establecer normas de comparacin (edad, sexo, grado, nivel socioeconmico,

Ventajas: el CI tiene un uso universal y una interpretacin generalizada.

Captulo V Elaboracin del Manual del Test

ANASTASI, A. & URBINA, S. (1998) Tests Psicolgicos. Prentice Hall.Mexico.

Potrebbero piacerti anche