Sei sulla pagina 1di 75

Historia de las pruebas psicolgicas

La historia de las pruebas psicolgicas es fascinante y tiene gran relevancia para


las prcticas actuales. Despus de todo, las pruebas contemporneas no
surgieron de un vaco; evolucionaron lentamente a partir de una multitud de
precursores que desfilaron a lo largo de los ltimos 100 aos. En vista de ello, este
captulo presenta una revisin de las races histricas de las pruebas psicolgicas
actuales. Los Orgenes de las pruebas psicolgicas, se centra en gran medida en
los esfuerzos de los psiclogos europeos para medir la inteligencia durante la
ltima parte del siglo XIX y la poca anterior a la primera Guerra Mundial. Con
frecuencia, estas primeras pruebas de inteligencia y sus sucesoras ejercieron
poderosos efectos sobre los individuos examinados con ellas, de modo que el
primer tema tambin incorpora un parntesis breve que documenta la importancia
de los resultados de las pruebas psicolgicas. Las Primeras pruebas en EUA,
cataloga las numerosas pruebas desarrolladas por los psiclogos
estadounidenses en la primera mitad del siglo XX.
Las pruebas psicolgicas en su forma actual se originaron hace poco ms de 100
aos en los estudios de laboratorio sobre discriminacin sensorial, habilidades
motoras y tiempo de reaccin. El genio britnico Francis Galton 18221911)
invent la primera batera de pruebas, un conjunto peuliar de medidas
sensoriales y motoras que se revisar ms adelante. El psiclogo estadounidense
James McKeen Cattell (18601944) estudi con Galton y despus, en 1890,
estipul los temas esenciales de las pruebas modernas en su artculo clsico
titulado Mental Tests and Measurements. Se mostr cauto y modesto al describir
los propsitos y aplicaciones de sus instrumentos:
La psicologa no puede lograr la certidumbre y exactitud de las ciencias fsicas, a
menos que se fundamente en los experimentos y la medicin. Se puede dar un
paso en dicha direccin al aplicar una serie de pruebas y medidas mentales a un
gran nmero de individuos. Los resultados tendran un valor cientfico considerable
en el descubrimiento de la constancia de los procesos mentales, su
interdependencia y su variacin bajo circunstancias diferentes. Adems, los
individuos encontraran sus pruebas interesantes y, quiz, tiles con respecto al
entrenamiento, modo de vida o indicacin de enfermedad. El valor cientfico y
prctico de dichas pruebas aumentara en gran medida si se adoptara un sistema
uniforme, de modo que pudieran compararse y combinarse las determinaciones
realizadas en diferentes momentos y lugares (Cattell, 1890).

La conjetura de Cattell de que quiz las pruebas podran ser tiles en el


entrenamiento, modo de vida o indicacin de enfermedad debe clasificarse con
toda seguridad como una de las subestimaciones profticas ms notables de
todos los tiempos. Cualquier persona criada en el mundo occidental sabe que las
pruebas psicolgicas han surgido de sus tmidos inicios para volverse un gran
negocio y una institucin cultural que permea a la sociedad moderna. Para citar
tan slo un ejemplo, considrese el nmero de pruebas estandarizadas de
rendimiento aplicadas en los sistemas escolares de IEU. Es probable que no sea
exagerado estimar 200 millones por ao (Medina y Neill, 1990). Por supuesto, el
nmero total de pruebas aplicadas anualmente tambin incluye millones de
pruebas de personalidad y cantidades incontables de miles de otros tipos de
pruebas que existen en la actualidad (Conoley y Kramer, 1989, 1992; Mitchell,
1985; Sweetland y Keyser, 1987). No hay duda de que las pruebas son un mtodo
generalizado, pero esto causa algn impacto?

IMPORTANCIA DE LAS PRUEBAS

Las pruebas se utilizan en casi todos los pases con propsitos de orientacin
psicolgica, seleccin y asignacin. Su aplicacin ocurre en entornos tan diversos
como escuelas, servicio pblico, industria, clnicas mdicas y centros de
orientacin psicolgica. La mayora de las personas han tomado docenas de
pruebas y no le dan gran importancia al asunto. Sin embargo, para el momento en
que el individuo tpico llega a la edad de retiro, es probable que los resultados de
las pruebas psicolgicas hayan ayudado a moldear su destino. Los cambios en el
curso de la vida debidos a los resultados de pruebas psicolgicas podran ser
sutiles, como ocurre cuando un futuro matemtico accede a un curso de clculo
avanzado con base en calificaciones de rendimiento del primer ao de
preparatoria. Es ms comn que los resultados de pruebas psicolgicas alteren el
destino individual de manera profunda. El que se acepte a una persona en una
universidad y no en otra; que se le ofrezca un empleo, pero se le rechace en otro;
se le diagnostique como deprimido o no, todas estas determinaciones dependen,
al menos en parte, de la interpretacin de los resultados de pruebas que realizan
individuos con autoridad. Dicho en trminos sencillos, los resultados de las
pruebas psicolgicas cambian la vida. Por tal razn es prudente y, de hecho,
casi obligatorio que los estudiantes de psicologa aprendan acerca de los usos
actuales y de los abusos ocasionales en la aplicacin de pruebas. En el ejemplo
de caso 11 se ilustran los cambios de vida que son consecuencia de las
pruebas psicolgicas a travs de varias muestras de historias clnicas verdaderas.

La importancia de las pruebas tambin es evidente desde la perspectiva de una


revisin histrica. En general, los estudiantes de psicologa consideran los temas
histricos como aburridos, ridos y difciles y, en ocasiones, dichos prejuicios
estn bien justificados. Despus de todo, muchos libros de texto no logran explicar
la relevancia de las cuestiones histricas y proporcionan slo bocetos vagos de los
desarrollo de las iniciales en las pruebas mentales. Como resultado, es frecuente
que los alumnos de psicologa de los primeros semestres concluyan de manera
incorrecta que los temas histricos son aburridos e irrelevantes. En realidad, la
historia de las pruebas psicolgicas es fascinante y tiene relevancia sustancial
para las prcticas actuales. La evolucin histrica es pertinente para las pruebas
contemporneas debido a las siguientes razones:
1. Una revisin de los orgenes de las pruebas psicolgicas ayuda a explicar
prcticas actuales que, de otra manera, podran parecer arbitrarias e incluso
peculiares. Por ejemplo, por qu muchas pruebas de inteligencia actuales
incorporan una capacidad en apariencia no intelectual como la memoria a corto
plazo de dgitos? La respuesta es, en parte, la inercia histrica las pruebas de
inteligencia siempre han incluido una medida de retencin de dgitos.
2. El poder y las limitaciones de las pruebas tambin resaltan con mayor facilidad
cuando dichos mtodos se observan dentro de un contexto histrico. Por ejemplo,
el lector descubrir que las pruebas de inteligencia modernas son
excepcionalmente buenas para pronosticar el fracaso en la escuela, debido
precisamente a que ste fue el propsito original y nico del primero de dichos
instrumentos desarrollado en Pars, Francia, a principios de este siglo.
3. Por ltimo, la historia de las pruebas psicolgicas contiene algunos episodios
tristes y lamentables que ayudan a recordar que no se debe ser demasiado
vehemente en el uso que en la actualidad se da a las pruebas. Por ejemplo, con
base en la aplicacin insensata y prejuiciada de los resultados de pruebas de
inteligencia, varios psiclogos destacados ayudaron a aprobar el Decreto de 1924
de Restriccin a la Inmigracin (Irnmigration Restriction Act of 1924).
En captulos posteriores se analizarn los principios de las pruebas psicolgicas,
se investigarn las aplicaciones a campos especficos (p. ej., personalidad,
inteligencia, neuropsicologa) y se reflexionar acerca de las consecuencias
sociales y legales de las pruebas. Sin embargo, el lector encontrar que estos
temas son ms comprensibles cuando se les analiza en un contexto histrico. As,
por el momento, se comenzar por la revisin de las formas rudimentarias de
prueba que existieron hace ms de 4 000 aos en la China imperial.

FORMAS RUDIMENTARIAS DE LAS PRUEBAS EN CHINA EN EL AO 2200


A.C.

Aunque el empleo extendido de las pruebas psicolgicas es, en gran medida, un


fenmeno del siglo XX, los historiadores sealan que las formas rudimentarias de
las pruebas datan de, cuando menos, el ao 2200 a.C., cuando el emperador
chino hizo que se examinara a sus oficiales de gobierno cada tercer ao para
determinar su idoneidad para el puesto (Chaffee, 1985; DuBois, 1970; Franke,
1963; Lai, 1970; Teng, 194243). Dichas pruebas se modificaron y perfeccionaron
a lo largo de siglos hasta que se introdujeron exmenes por escrito durante la
dinasta Han (202 a.C.200 d.C.). Se someta a prueba en cinco temas: ley civil,
asuntos militares, agricultura, contribuciones y geografa.
El sistema de examen chino adquiri su forma final aproximadamente en 1370,
cuando se enfatiz la destreza en los clsicos escritos de Confucio. En el examen
preliminar se peda a los candidatos que pasaran un da y una noche en una
pequea cabina aislada, componiendo ensayos sobre temas asignados y
escribiendo un poema. De 1 a 7% que aprobaban continuaban con los exmenes
por distrito, que requeran tres sesiones independientes de tres das con sus
noches.
Como es obvio, estos exmenes eran extenuantes y rigurosos, pero ste no era el
ltimo nivel. De 1 a 10% de los individuos que aprobaban tenan el privilegio de ir
a Pekn para la ronda final de exmenes. Quiz 3% de este ltimo grupo aprobaba
y lograba el puesto de mandarn, elegible para el servicio pblico
Aunque los chinos desarrollaron la parafernalia para un programa amplio de
exmenes del servicio pblico, las semejanzas entre sus tradiciones y las
prcticas actuales de prueba son superficiales en cuanto a lo esencial. Sus
prcticas de prueba no slo eran innecesariamente agotadoras, sino que los
chinos tampoco validaron sus procedimientos de seleccin. Sin embargo, parece
ser que el programa de tenan desde 3 hasta 8 pruebas, el mtodo dejaba mucho
que desear.
9 En 1911 apareci una tercera revisin de las escalas Binet-Simon. Ahora, cada
nivel de edad tena exactamente cinco pruebas. La escala tambin se extendi
hasta el rango adulto. Y, con cierta renuencia, Binet introdujo nuevos mtodos de
calificacin que concedan una quinta parte de un ao por cada subprueba
aprobada por encima del nivel basal. En sus escritos, Binet enfatiz en gran
medida que no debera tomarse demasiado en serio el nivel mental exacto mn
sentdo prctico, iniciativa o facultad para aaptarse. Juzgar bien, comprender bien y

razonar bien son los manantiales de la inteligencia 9et y Simon, 1905; segn la
traduccin en Fancher, 185).
4. Los reactivos estaban distribuidos segn su nivel aproximado de dificultad, en
vez de en funcin del contenido. Se realiz una estandarizacin preliminar con 50
nios normales cuyas edades iban de 3 a 11 aos y tambin con varios nios
subnormales y con retraso.
Las 30 pruebas en la escala de 1905 iban de las pruebas sensoriales
abiertamente simples, a las abstracciones verbales bastante complejas. As, la
escala era apropiada para evaluar la gama completa de la inteligencia desde el
retraso mental grave hasta los niveles superiores de la inteligencia dotada. La
escala completa se resume en el cuadro 11.
Excepto por las pruebas muy sencillas que se disearon para la clasificacin de
los idiotas de grado muy inferior (un trmino diagnstico muy desafortunado que
se ha abandonado desde entonces), las pruebas tenan importantes cargas hacia
las habilidades verbales, lo cual refleja el alejamiento de Binet con respecto a la
tradicin de Galton.
Un punto interesante que con frecuencia pasan por alto los alumnos de psicologa
en la actualidad, es que Binet y Simon no ofrecieron en su escala de 1905 un
mtodo preciso para llegar a una puntuacin total. Sera bueno recordar que su
propsito era la clasificacin, no la medicin, y que su motivacin era
completamente humanitaria, es decir, la de identificar a aquellos nios que
necesitaban asignarse a educacin especial. Segn normas contemporneas, es
difcil aceptar la confusin inherente a dicho enfoque, pero ello puede reflejar una
inclinacin moderna hacia la cuantificacin ms que una debilidad por parte de la
escala de 1905. De hecho, su escala fue popular entre los educadores en Pars.
Incluso en ausencia de una cuantificacin precisa, el enoque fue exitoso en la
seleccin de candidatos para clases especiales.

LAS ESCALAS REVISADAS Y EL ADVENIMIENTO DEL CI

En 1908, Binet y Simon publicaron una revisin de la escala de 1905. En la escala


anterior, ms de la mitad de los reactivos haban sido diseados para los
individuos con retraso muy notable; sin embargo, las principales decisiones

diagnsticas implicaban a nios mayores y a personas con un intelecto limtrofe.


Para remediar este desequilibrio, se abandon la mayor parte de los reactivos muy
simples y se aadieron nuevos al extremo superior de la escala. La escala de
1908 tena 58 problemas o pruebas, casi el doble del nmero de 1905. Se
aadieron nuevas pruebas, muchas de las cuales todava se utilizan hoy da:
reconstruccin de oraciones en desorden, copiado de un rombo y realizacin de
una secuencia de tres rdenes. Algunos de los reactivos consistan en absurdos
que los nios tenan que detectar y explicar. Uno de dichos reactivos era divertido
para los nios franceses: Se hall el cuerpo de una desafortunada nia, cortado
en 18 trozos. Se piensa que la nia se suicid. Sin embargo, este reactivo era
muy perturbador para algunos individuos estadounidenses, lo cual demuestra la
importancia de los factores culturales en la inteligencia (Fancher, 1985).
La principal innovacin de la escala de 1908 era la introduccin del concepto de
nivel mental. Las pruebas se haban estandarizado con cerca de 300 nios
normales entre 3 y 13 aos de edad. Esto permiti que Binet y Simon ordenaran
las pruebas segn el nivel de edad en el que por lo comn se aprobaban.
Cualesquiera reactivos que aprobaran de 80 a 90% de los nios de tres aos, se
asignaba al nivel de tres aos y as sucesivamente, hasta los 13 aos. Binet y
Simon tambin disearon un sistema aproximado de calificacin donde se
determinaba primero una edad basal a partir del nivel de edad en que no se
fallaba en ms de una prueba. Por cada cinco pruebas aprobadas a niveles por
arriba del nivel basal, se conceda un ao completo de nivel mental.

PRUEBAS Y SU PROCESO DE APLICACIN

Las primeras se utilizaron de manera predominante para dos propsitos: medir la


inteligencia y detectar trastornos de personalidad. Por tanto, es comprensible que
el ciudadano promedio haga una equivalencia entre pruebas psicolgicas y
puntuaciones de CI, manchas de tinta e inventarios de personalidad. Con toda
seguridad, en este punto de vista existe ms que un grano de verdad: las medidas
de personalidad e inteligencia todava son los pilares esenciales de las pruebas
psicolgicas. Sin embargo, los psicmetras han desarrollado muchos otros tipos
de estos instrumentos para propsitos diversos e imaginativos que los pioneros
nunca podran haber anticipado. Este captulo proporciona una viSin panormica
de las pruebas psicolgicas y de sus numerosas aplicaciones. En el tema 2A,
Naturaleza y usos de las pruebas psicolgicas, se resumen los diferentes tipos y
las diversas aplicaciones de stas. En el tema 2B, Proceso de Aplicacin, se
enfatiza que la aplicacin de pruebas es una transaccin entre el examinador y la
persona evaluada, no un proceso estril de medicin.
Desde el nacimiento hasta la vejez, nos topamos con estos instrumentos en casi
todos los momentos de cambio en la vida. La primera prueba del beb, realizada
inmediatamente despus del nacimiento, es la prueba Apgar, una evaluacin
rpida y multivariada de la frecuencia cardiaca, respiracin, tono muscular,
irritabilidad refleja y color (Clarke-Stewart y Friedman, 1987). La puntuacin total
Apgar (0 a 10) ayuda a determinar la necesidad de cualquier tipo de atencin
mdica inmediata. Despus, un infante que ha recibido antes una baja puntuacin
Apgar podra ser candidato para una evaluacin de discapacidades del desarrollo.
El nio preescolar puede realizar pruebas de preparacin para la escuela. Una vez
que se ha comenzado con la carrera escolar, cada estudiante atraviesa por
cientos, quiz miles, de pruebas acadmicas antes de graduarse (sin mencionar
las que miden discapacidades para el aprendizaje, inteligencia dotada, intereses
vocacionales y admisin a la universidad). Despus de graduarse, los adultos
pueden enfrentar pruebas para ingresar a un empleo, obtener la licencia de
manejo, autorizacin de seguridad, funcionamiento de personalidad,
compatibilidad matrimonial, discapacidades del desarrollo, disfuncin cerebral la
lista es casi interminable. Algunas personas incluso se enfrentan a una ltima
indignidad en la parte ms dbil de sus ltimos aos: una prueba para determinar
su capacidad para administrar sus asuntos econmicos.

La idea de una prueba es, por tanto, un elemento que domina en nuestra cultura,
una caracterstica que damos por sentada. Sin embargo, el concepto que tiene un
lego acerca de ellas no necesariamente coincide con la perspectiva ms
restringida que tiene un psicmetra (especialista en psicologa o educacin que
desarrolla y evala pruebas psicolgicas). Debido a los equvocos generales en
cuanto a la comprensin de su naturaleza, es adecuado comenzar este tema con
una pregunta fundamental que define el campo de accin de todo el libro: qu es
una prueba?

DEFINICIN DE UNA PRUEBA

Una prueba es un procedimiento estandarizado para tomar una muestra de


conducta y describirla con categoras o puntuaciones. Adems, la mayor parte
tiene normas o estndares, con base en los cuales pueden utilizarse los
resultados para pronosticar otras conductas ms importantes. En las siguientes
secciones se hablar ms sobre estas caractersticas, pero primero es til
representar el campo de accin de la definicin. Incluidas dentro de esta
perspectiva se encuentran las pruebas tradicionales como los cuestionarios de
personalidad y las pruebas de inteligencia, pero la definicin tambin incluye
diversos procedimientos que el lector podra no reconocer como tales. Por
ejemplo, todos los mtodos siguientes pueden ser pruebas, segn la definicin
que se utiliza en este libro: una lista de verificacin para clasificar las habilidades
sociales de un joven con retraso mental: una medida sin lmite de tiempo del
dominio en la suma de pares de nmeros de tres dgitos; valoraciones por
computadora del tiempo de reaccin; e incluso, pruebas situacionales como la
observacin de un individuo que trabaja en una tarea de grupo con dos
ayudantes poco cooperativos y que slo le causan dificultades.
En suma, las pruebas son sumamente variadas en sus formatos y aplicaciones.
Sin embargo, la mayor parte posee estas caractersticas que las definen:
Procedimiento estandarizado.
Muestra de conducta.
Puntuaciones o categoras.
Normas o estndares.
Prediccin de conducta fuera de la prueba.

La imagen que se desea representar tiene que ver en especial con las pruebas
referentes a la norma las que utilizan una poblacin bien definida de personas
para su esquema interpretativo. Sin embargo, las caractersticas definitorias de
una prueba difieren un tanto en el caso especial de las pruebas referidas a criterio
las que miden lo que una persona puede hacer, en lugar de comparar los
resultados con los niveles de desempeo de otros. Por tal razn, se tratan por
separado las pruebas referidas a criterio.
El procedimiento estandarizado es una caracterstica esencial de cualquier prueba
psicolgica. Se considera que una prueba est estandarizada si los
procedimientos para su aplicacin son uniformes de un examinador a otro y de un
ambiente a otro. Por supuesto, la estandarizacin depende, en cierto grado, de la
capacidad del examinador. Incluso la mejor prueba puede resultar intil en manos
de un evaluador descuidado, con entrenamiento deficiente o mal informado, como
descubrir el lector en el tema 2B, Proceso de aplicacin. Sin embargo, la mayora
de los examinadores son competentes. Por tanto, la estandarizacin depende en
gran medida de las disposiciones de aplicacin que se encuentran en el manual
de instrucciones que por lo comn acompaa a una prueba.
La formulacin de las instrucciones es un paso esencial para la estandarizacin de
una prueba. A fin de garantizar procedimientos uniformes de aplicacin, quien
desarrolla una prueba debe proporcionar materiales - estmulo comparables para
todos los examinados, debe especificar con una precisin considerable las
instrucciones verbales para cada reactivo o subprueba y debe aconsejarle al
examinador cmo ha de manejar una diversidad de dudas por parte de la persona
evaluada.
Para ilustrar estos puntos, considrense las diversas maneras en que una persona
que desarrolla una prueba podra enfocar la evaluacin de la retencin de dgitos
el nmero mximo de dgitos presentados verbalmente que un sujeto puede
recordar de memoria. Podra ser que una prueba no estandarizada de retencin
de dgitos sugiriera tan slo que el examinador presentara de manera verbal series
cada vez ms largas de nmeros hasta que el sujeto fallara. El nmero de dgitos
en la serie ms larga recordada sera, entonces, la capacidad de retencin de
dgitos del sujeto. La mayora de los lectores puede darse cuenta de que una
prueba con tal definicin tan general carecer de uniformidad de un examinador a
otro. Si quien aplica la prueba est en libertad de improvisar cualquier serie de
dgitos, qu podra impedirle que presentara, con la inflexin familiar de un
locutor de televisin, 1-800-325-3535? Tal serie sera bastante ms fcil de
recordar que un conjunto ms aleatorio, por ejemplo, 7-2-8-1 -9-4-6-3-7-4-2. La
velocidad de presentacin tambin puede tener un efecto crucial sobre la
uniformidad de una prueba de retencin de dgitos. Para propsitos de

estandarizacin, es esencial que todos los examinadores presenten cada serie a


una tasa constante; por ejemplo, un dgito por segundo. Por ltimo, el examinador
necesita saber cmo ha de reaccionar ante respuestas inesperadas, como el que
un sujeto le diga: podra repetirlos de nuevo? Por razones obvias, el consejo
habitual es no.
Quien desarrolla una prueba puede incluso llegar hasta el punto de recomendar el
comportamiento deseado en el examinador, como mantener una expresin facial
neutra cuando se registra la respuesta de un sujeto. Estas influencias
aparentemente sutiles pueden tener un serio impacto sobre la uniformidad de los
procedimientos de prueba. Por ejemplo, un examinador que se sonre con
displicencia cuando registra las respuestas podra provocar que el sujeto se sienta
ansioso y falle en una tarea fcil. En el siguiente tema, el Proceso de aplicacin,
se analizar la influencia potencial del examinador sobre los resultados de prueba.
Una prueba psicolgica tambin es una muestra limitada de conducta. Ni el sujeto
ni el examinador tienen el tiempo suficiente para una prueba realmente amplia,
incluso cuando sta se dirige a un dominio conductual bien definido y finito. As,
las restricciones prcticas dictan que una prueba es slo una muestra de
conducta. Sin embargo, la muestra de conducta es de inters slo en la medida
que permita que el examinador realice inferencias acerca del dominio total de
conductas relacionadas. Por ejemplo, el propsito de una prueba de vocabulario
consiste en determinar la reserva completa de palabras de la persona examinada,
al pedir definiciones de una muestra muy pequea, pero cuidadosamente
seleccionada, de palabras. El hecho de que el sujeto pueda definir las 35 palabras
particulares de una subprueba de vocabulario (p. ej., en el WAIS-R) es de poca
consecuencia directa. Pero el significado de dichos resultados es de gran
importancia debido a que seala el conocimiento general de vocabulario del
individuo evaluado.
Un punto interesante del que el pblico en general tiene poco conocimiento es
que los reactivos de prueba no necesitan parecerse a las conductas que la prueba
intenta pronosticar. La caracterstica esencial de una buena prueba es que permita
que el examinador pronostique otras conductas no que refleje aqullas a
predecir. Si responder cierto a la afirmacin bebo mucha agua ayuda a predecir
la depresin, entonces esta afirmacin, en apariencia no relacionada, es un ndice
til de la depresin. Por tanto, el lector observar que la prediccin exitosa es una
cuestin emprica que se resuelve a travs de la investigacin apropiada. Aunque
la mayora de las pruebas toman una muestra directa del dominio de conductas
que esperan predecir, ste no es un requisito psicomtrico.

Una prueba psicolgica tambin debe permitir la derivacin de puntuaciones o


categoras. Thorndike (1918) expres el axioma esencial de las pruebas en su
famosa aseveracin de que: aquello que existe de alguna manera, existe en
cierta cantidad. McCall (1939) fue un paso ms all al declarar: cualquier cosa
que existe en cierta cantidad, puede medirse. Las pruebas se esfuerzan en ser
una forma de medicin similar a los procedimientos de las ciencias fsicas, donde
los nmeros representan dimensiones abstractas como peso o temperatura. Toda
prueba suministra una o ms puntuaciones o proporciona evidencia de que una
persona pertenece a una categora y no a otra. En pocas palabras, las pruebas
psicolgicas resumen la ejecucin en nmeros o clasificaciones.
La suposicin implcita del punto de vista psicomtrico es que las pruebas miden
las diferencias individuales en cuanto a rasgos o caractersticas que existen en
cierto sentido vago de la palabra. En la mayor parte de los casos, se supone que
todas las personas poseen el rasgo o caracterstica medida, aunque en diferentes
cantidades. El propsito de la prueba consiste en estimar la cantidad del rasgo o
cualidad que posee un individuo.
En este contexto, se deben hacer dos advertencias. Primero, toda puntuacin de
prueba siempre reflejar cierto grado de error de medicin. La imprecisin de las
pruebas es simplemente inevitable: stas deben depender de una muestra externa
de conducta para estimar la caracterstica no observable y, por tanto, inferida. Con
frecuencia, los psicmetras expresan este punto fundamental con la ecuacin:
X= T+ e
Donde X es la puntuacin observada, T la puntuacin verdadera y e el
componente de error positivo o negativo. Lo mejor que puede hacer quien
desarrolla una prueba es procurar que e sea muy pequeo. Nunca se le puede
eliminar por completo, como tampoco se puede saber su impacto exacto sobre el
caso individual. El concepto de error de medicin se analizar en el tema 3B,
Conceptos de confiabilidad.
La segunda advertencia es que los consumidores de pruebas deben prevenirse de
materializar las caractersticas medidas. Los resultados no representan una cosa
que tenga realidad fsica; por lo comn, representan una abstraccin que se ha
demostrado que tiene utilidad para pronosticar conductas externas a la prueba.
Por ejemplo, cuando se analiza el CI de una persona, los psiclogos se refieren a
una abstraccin que no tiene existencia directa, material, pero que, sin embargo,
es til para pronosticar el rendimiento escolar y otros resultados.
Una prueba psicolgica tambin debe poseer normas o estndares. En general, la
puntuacin de prueba de una persona se interpreta al compararla con las

puntuaciones obtenidas por otros individuos en la misma prueba. Para este


propsito, es comn que quienes desarrollan pruebas aplican normas un
resumen de los resultados de prueba de un grupo grande y representativo de
personas (Petersen, Kolen y Hoover, 1989). El grupo normativo se conoce como
muestra de estandarizacin.
La seleccin y evaluacin de la muestra de estandarizacin es crucial para la
utilidad de una prueba. Este grupo debe ser representativo de la poblacin a la
que se dirige la prueba o, de otra manera, no ser posible determinar la posicin
relativa de un individuo examinado. En el caso extremo donde no se proporcionan
normas, el examinador no puede utilizar en absoluto los resultados de la prueba.
Una excepcin a este punto ocurre en el caso de las pruebas referidas a criterio,
las cuales se analizan ms adelante.
Las normas no slo establecen un desempeo promedio, sino que tambin sirven
para indicar la frecuencia con la que se obtienen diferentes puntuaciones altas y
bajas. As, las normas permiten que el examinador determine el grado al que se
desva una puntuacin con respecto a las expectativas. Tal informacin puede ser
muy importante en la prediccin de la conducta externa a la prueba del individuo
examinado. Las normas tienen tal importancia trascendental en la interpretacin
de pruebas, que despus se les considerar con amplitud en una seccin
independiente dentro de este texto.
Por ltimo, las pruebas no constituyen un fin en s mismas. En general, el
propsito ltimo de una prueba consiste en pronosticar conductas adicionales,
diferentes de aquellas que se muestrean de manera directa en la prueba. As, el
examinador puede tener mayor inters en las conductas externas a la prueba
pronosticadas por sta que en las respuestas de prueba en s. Quizs un ejemplo
concreto aclarar este punto. Supngase que un examinador aplica una prueba de
manchas de tinta a un paciente en un hospital psiquitrico y que el paciente
responde a una mancha de tinta describindola como ojos que se asoman
sigilosamente. Con base en las normas establecidas, el examinador podra
pronosticar entonces que el sujeto es sumamente suspicaz y obtendr poco
beneficio de una psicoterapia individual. El propsito de la prueba consiste en
llegar a sta y otras predicciones similares no determinar si la persona percibe
ojos que lo miran fijamente desde las manchas.
La capacidad de una prueba para pronosticar conducta externa se determina por
un amplio cuerpo de investigacin de validacin, cuya mayora se realiza despus
de que se ha publicado la prueba, pero no hay ninguna garanta en el mundo de la
investigacin psicomtrica. Es comn que un investigador publique una prueba
prometedora, slo para leer aos despus que otros investigadores la han

encontrado deficiente. Esta es una leccin para quienes emplean las pruebas: el
hecho de que una prueba exista y declare medir cierta caracterstica, no es
garanta de que sea veraz en sus afirmaciones. Una prueba puede tener un bonito
ttulo, instrucciones precisas, normas elaboradas, empaque atractivo y
descubrimientos preliminares, pero si en el estudio desapasionado por parte de
investigadores independientes, la prueba no puede pronosticar conductas
externas apropiadas, entonces es intil.

OTRAS DISTINCIONES EN PRUEBAS

Las principales caractersticas de una prueba, que se resumieron antes, se aplican


en particular a las referidas a la norma, que constituyen gran parte de las pruebas
en uso. En una prueba referida a la norma, el desempeo de cada examinado se
interpreta con referencia a una muestra de estandarizacin relevante (Petersen,
Kolen y Hoover, 1989). Sin embargo, estas caractersticas son menos importantes
en el caso especial de la prueba referida a criterio, dado que estos instrumentos
no necesitan de la comparacin del individuo en particular con un grupo de
referencia. En este tipo de instrumento, el objetivo consiste en determinar la
posicin de la persona evaluada con respecto a objetivos educativos definidos de
manera muy estrecha (Berk, 1984). Por ejemplo, una parte de una prueba de
aritmtica para nios de 10 aos de edad podra medir el nivel de precisin en la
suma de pares de nmeros de dos dgitos. En una prueba sin lmite de tiempo con
20 de dichos problemas, la precisin sera casi perfecta. Para este tipo de prueba,
en realidad no importa cmo se compara al individuo examinado con otros de la
misma edad, lo que importa es si el individuo satisface un criterio apropiado y
especfico por ejemplo, precisin de 95%. Debido a que no existe comparacin
con el desempeo normativo de otros, este tipo de herramienta de medicin se ha
llamado correctamente prueba referida a criterio, la cual, a diferencia de las
pruebas referidas a la norma, puede interpretarse de manera significativa sin
hacer referencia a normas. En el tema 3A, Normas y estandarizacin, se
analizarn con mayor detalle estas pruebas.
Otra distincin importante existe entre los trminos prueba y evaluacin, que con
frecuencia se consideran equivalentes, sin embargo, no quieren decir exactamente
lo mismo. Evaluacin es un trmino ms amplio, que se refiere a todo el proceso
de recopilar informacin sobre una persona y utilizarla para pronosticar la
conducta. Puede definirse como la valoracin o estimacin de la magnitud de uno
o ms atributos en una persona. La evaluacin de las caractersticas humanas
implica observaciones, entrevistas, listas de verificacin, inventarios, pruebas

proyectivas y otras pruebas psicolgicas. En suma, las pruebas representan slo


una fuente de informacin utilizada en el proceso de evaluacin, en el cual el
examinador debe comparar y combinar los datos de diferentes fuentes. Este es un
proceso subjetivo de manera inherente, que requiere que el examinador
seleccione entre la informacin conflictiva y realice predicciones con base en la
gestaR completa de datos.
El trmino evaluacin se invent durante la segunda Guerra Mundial para describir
un programa dirigido a seleccionar hombres que destacaran en el servicio secreto,
dentro de la Office of Strategic Services (OSS Assessment Staff, 1948). El
personal de psiclogos y psiquiatras de la OSS amasaba una inmensa cantidad de
informacin acerca de los candidatos durante cuatro agotadores das de pruebas
escritas, entrevistas y pruebas de personalidad. Adems, el proceso de evaluacin
inclua una variedad de pruebas sobre situaciones de la vida real que se basaban
en la conciencia de que existe una diferencia entre saber hacer y poder hacer:
hicimos que los candidatos intentarn, de hecho, las tareas de manera fsica o verbal,
en vez de tan slo indicar por escrito cmo podran hacerse. Se nos impuls a introducir
pruebas realistas de la capacidad debido a descubrimientos como el siguiente: los
hombres que obtienen una alta puntuacin en Comprensin Mecnica, una prueba de
lpiz y papel, pueden encontrar- se por debajo del promedio cuando se trata de resolver
problemas mecnicos con sus manos (OSS Assessment Staff, 1948).

Las pruebas situacionales incluan tareas de grupo para transportar equipo al otro
lado de un arroyo y escalar una pared de 3 m de altura, s como el escrutinio
individual de la capacidad para sobrevivir un interrogatorio realista y comandar a
dos subordinados poco cooperativos en una tarea de construccin.
Con base en las observaciones conductuales y en los resultados de prueba, el
personal de la OSS calificaba a los candidatos en docenas de rasgos especficos,
en categoras tan amplias como liderazgo, relaciones sociales, estabilidad
emocional, inteligencia efectiva y capacidad fsica. Estas calificaciones sirvieron
para seleccionar al personal militar de la OSS.

TIP0S DE PRUEBAS

Las pruebas pueden agruparse de manera amplia en dos bandos: pruebas


grupales y pruebas individuales. Las pruebas grupales son medidas
principalmente de lpiz y papel, adecuadas para examinar a grandes grupos de
personas a un mismo tiempo. Las pruebas individuales son instrumentos que, por

su diseo y propsito, deben aplicarse a una sola persona. Una ventaja importante
de estas ltimas es que el examinador puede estimar el nivel de motivacin del
sujeto y evaluar la relevancia de otros factores (p. ej., impulsividad o ansiedad)
sobre los resultados de prueba.
Por conveniencia, las pruebas se clasificarn en ocho categoras representadas
en el cuadro 21. Cada una de ellas contiene pruebas referidas a la norma,
referidas a criterio, individuales y grupales. El lector observar que cualquier
tipologa de las pruebas es una determinacin puramente arbitraria. Por ejemplo,
podra postularse incluso otra dicotoma: pruebas que buscan medir el desempeo
mximo (p. ej., una prueba de inteligencia) contra las que buscan estimar una
respuesta tpica (p. ej., un inventario de personalidad).
En un sentido estricto, existen cientos quiz miles de tipos diferentes de
pruebas, cada una de las cuales mide un aspecto ligeramente diferente del
individuo. Por ejemplo, podra discutirse que incluso dos pruebas de inteligencia
constituiran diferentes tipos de medida. Una prueba podra revelar la suposicin
de que la inteligencia es un constructo biolgico que puede medirse mejor a travs
de las ondas cerebrales, mientras otra podra fundamentarse en la perspectiva
tradicional de que la inteligencia se exhibe en la capacidad para aprender
habilidades aculturadas como el vocabulario. Agrupar ambas medidas bajo la
categora de pruebas de inteligencia es con toda seguridad una simplificacin
exagerada pero, sin embargo, es un punto de partida til.
Como se vio en el primer captulo, las pruebas de inteligencia se disearon
originalmente para tomar una muestra de un amplia variedad de habilidades, a fin
de estimar el nivel intelectual general del individuo. Las escalas BinetSimon
tuvieron xito, en parte, debido a que incorporaban tareas heterogneas,
incluyendo definiciones de palabras, memoria de diseos, preguntas de
comprensin y tareas de visualizacin espacial. Las pruebas grupales de
inteligencia que florecieron con tal profusin durante y despus de la segunda
Guerra Mundial tambin medan capacidades diversas como lo demuestra la
prueba Army Alfa con sus ocho secciones diferentes que miden juicio prctico,
informacin, aritmtica y razonamiento, entre otras habilidades.

Las pruebas modernas de inteligencia tambin emulan este patrn histricamente


establecido al tomar una muestra de una amplia variedad de destrezas
consideradas importantes en nuestra cultura. En general, el trmino prueba de
inteligencia se refiere a una prueba que produce una puntuacin resumida
general, basada en los resultados de una muestra heterognea de reactivos. Por
supuesto, una prueba de este tipo podra tambin proporcionar un perfil de las
puntuaciones de subprueba, pero es la puntuacin general la que en trminos
generales atrae la mayor atencin.
Una prueba de aptitud mide uno o ms segmentos claramente definidos y
relativamente homogneos de una capacidad; tiene dos variedades: pruebas de
una sola aptitud y bateras de prueba de aptitudes mltiples. Como es obvio, las
primeras evalan slo una capacidad, mientras que las segundas proporcionan un
perfil de puntuaciones para varas aptitudes.
Con frecuencia, las pruebas de aptitud se emplean para pronosticar el xito en
una profesin, curso de entrenamiento o esfuerzos educativos. Por ejemplo, las
Medidas Seashore de Talentos Musicales (Seashore, 1938), una serie de pruebas
que cubren tono, sonoridad, ritmo, tiempo, timbre y memoria tonal, pueden
utilizarse para identificar a nios que tienen un talento potencial para la msica.
Tambin existen pruebas de aptitudes especializadas para la evaluacin de
habilidades en trabajo de oficina, capacidades mecnicas, destreza manual y
capacidad artstica. Estas se revisan en el tema 8A, Pruebas de aptitud y anlisis
factorial.

El uso ms comn para las pruebas de aptitud consiste en determinar las


admisiones a la universidad. La mayora de los estudiantes universitarios estn
familiarizados con el SAT (del ingls Scholastic Assessment Test; Prueba de
Evaluacin Escolar, antes llamada Scholastic Aptitude Test; Prueba de Aptitud
Escolar) del Comit de Examen de Ingreso a la Universidad. Esta prueba contiene
una seccin Verbal, que destaca el conocimiento de palabras y la comprensin de
lectura, y una seccin de Matemticas, que destaca el lgebra, la geometra y el
razonamiento perspicaz. En efecto, las universidades que requieren con fines de
admisin ciertas puntuaciones mnimas en el SAI, utilizan la prueba para
pronosticar el xito acadmico.
Las pruebas de aprovechamiento miden el grado de aprendizaje, xito o logro de
una persona en una materia. La suposicin implcita de la mayor parte de estas
pruebas es que las escuelas han enseado la materia de manera directa. Por
tanto, el propsito de la prueba consiste en determinar la cantidad del material que
el sujeto ha absorbido o dominado. En general, las pruebas de aprovechamiento
tienen varias subpruebas; por ejemplo, lectura, matemticas, lenguaje, ciencias
naturales y ciencias sociales, las cuales se revisan en el tema 8B, Pruebas
grupales de aprovechamiento.
La distincin entre pruebas de aptitud y de aprovechamiento es ms una cuestin
de uso que de contenido (Gregory, 1994a). De hecho, cualquier prueba puede ser
de aptitud, en el sentido de que ayuda a pronosticar el desempeo futuro. De la
misma manera, cualquier prueba puede ser de aprovechamiento, en el sentido de
que refleja cunto ha aprendido el sujeto. Por tanto, en la prctica, la distincin
entre estos dos tipos de instrumentos se determina por sus respectivos usos. En
ciertas ocasiones, un instrumento puede servir para ambos propsitos, actuando
como una prueba de aptitud para predecir el desempeo futuro, y como prueba de
aprovechamiento, para supervisar el aprendizaje pasado.
Las pruebas de creatividad evalan la capacidad del sujeto para producir nuevas
ideas, discernimientos o creaciones artsticas que se consideran de valor social,
esttico o cientfico. As, las medidas de creatividad enfatizan la novedad y
originalidad en la solucin de problemas confusos o en la produccin de obras
artsticas. En la figura 21 se ilustra una respuesta creativa a un problema.

Las pruebas de creatividad tienen una historia accidentada. En el decenio de 1960


se les promocionaba como una alternativa til para las pruebas de inteligencia y
se les utiliz ampliamente en los sistemas educativos de EUA. Los educadores se
mostraron especialmente impresionados de que las pruebas de creatividad
requirieran del pensamiento divergente empleando una variedad de respuestas
para un problema complejo o confuso en oposicin al pensamiento convergente
encontrando una solucin correcta nica para un problema bien definido. Por
ejemplo, una prueba de creatividad podra pedirle al individuo examinado que
imaginara todas las cosas que sucederan si las nubes tuvieran cuerdas que
colgaran de ellas hasta el piso (Guilford, 1954). Se supona que los alumnos que
pudieran dar un gran nmero de consecuencias eran ms creativos que sus
compaeros menos imaginativos. Sin embargo, algunos pscmetras se mostraron
escpticos, concluyendo que la creatividad es slo otra etiqueta para la
inteligencia aplicada (p. ej., McNemar, 1964).
Las pruebas de personalidad miden los rasgos, cualidades o conductas que
determinan la individualidad de una persona; esta informacin ayuda a pronosticar
la conducta. Estas pruebas pueden encontrarse en muchas variedades diferentes,

incluyendo listas de verificacin, inventarios y tcnicas proyectivas como frases


incompletas y manchas de tinta (cuadro 22).
Los inventarios de intereses miden la preferencia de un individuo por ciertas
actividades o temas y, con ello, ayudan a determinar la eleccin de carrera; se
basan en la suposicin explcita de que los patrones de inters determinan y, por
tanto, tambin predicen la satisfaccin con el trabajo. Por ejemplo, si la persona
examinada tiene los mismos intereses que los contadores exitosos y satisfechos,
se considera probable que disfrutar del trabajo de un contador. La suposicin de
que los patrones de inters pronostican la satisfaccin con el trabajo se confirma
en gran medida a travs de estudios empricos, como se revisar en el tema 12A,
Evaluacin de intereses y valores laborales.
Existen muchos tipos de procedimientos conductuales para evaluar los
antecedentes y consecuencias de la conducta, incluyendo listas de verificacin,
escalas de clasificacin, entrevistas y observaciones estructuradas. Estos
mtodos comparten una suposicin comn de que la conducta puede
comprenderse mejor en trminos de caractersticas definidas de manera clara
como frecuencia, duracin, antecedentes y consecuencias. Los procedimientos
conductuales tienden a ser sumamente pragmticos en el sentido de que
generalmente se encuentran entretejidos con enfoques de tratamiento.
Las pruebas neuropsicolgicas se utilizan para la evaluacin de personas de las
que se sospecha o se sabe que tienen una disfuncin cerebral. La neuropsicologa
es el estudio de las relaciones cerebro-conducta. A travs de los aos, los
neuropsiclogos han descubierto que ciertas pruebas y procedimientos son muy
sensibles a los efectos del dao cerebral, y emplean estas pruebas y
procedimientos especializados para hacer inferencias acerca de la localizacin,
grado y consecuencias de dicho dao.
Aunque las pruebas y procedimientos neuropsicolgicos son tiles para llegar a un
diagnstico neurolgico, su principal propsito consiste en valorar las fortalezas y
debilidades sensoriales, motoras, cognitivas y conductuales por un amplio
entrenamiento avanzado, a fin de comprender la gran cantidad de datos
resultantes de las pruebas.

USOS DE LAS PRUEBAS

En trminos generales, el empleo ms comn de las pruebas psicolgicas


consiste en tomar decisiones acerca de las personas. Por ejemplo, las

instituciones educativas utilizan con frecuencia las pruebas para determinar los
niveles de asignacin para los alumnos y las universidades evalan a quin deben
admitir, basadas parcialmente en las puntuaciones de prueba. Los sistemas del
servicio pblico estatales, federales y locales tambin dependen, en gran medida,
de las pruebas para propsitos de seleccin de personal.
Incluso el profesional independiente utiliza principalmente las pruebas para la
toma de decisiones. Los ejemplos incluyen al psiclogo consultor que emplea una
prueba de personalidad para determinar si un departamento de polica contrata a
un candidato y no a otro y al neuropsiclogo que emplea pruebas para concluir
que un cliente ha sufrido dao cerebral.
Pero la simple toma de decisiones no es la nica funcin de las pruebas
psicolgicas. Es conveniente distinguir cinco usos de las pruebas:
. Clasificacin.
Diagnstico y planificacin del tratamiento.
Autoconocimiento.
Valoracin de programas.
Investigacin.
Con frecuencia, estas aplicaciones se traslapan y, en ciertas ocasiones, es difcil
distinguir unas de otras. Por ejemplo, una prueba que ayuda a determinar un
diagnstico psiquitrico podra tambin proporcionar una forma de
autoconocimiento. Se analizarn con mayor detalle estas aplicaciones.
El trmino clasificacin engloba una variedad de procedimientos que comparten
un propsito comn: asignar a una persona a una categora en vez de a otra. Por
supuesto, la asignacin de categoras no es un fin en s mismo, sino la base para
un tratamiento diferencial de algn tipo. As, la clasificacin puede tener
importantes efectos, como conceder o restringir el acceso a una universidad
especfica o determinar si se contrata a una persona para un trabajo en particular.
Existen muchas y variadas formas de clasificacin, cada una de las cuales
enfatiza un propsito particular en la asignacin de personas a categoras. Se
distinguir entre asignacin, deteccin, certificacin y seleccin.
La asignacin es la distribucin de personas en los diferentes programas
apropiados para sus necesidades o habilidades. Por ejemplo, con frecuencia las
universidades utilizan un examen de asignacin en matemticas para determinar

si los estudiantes deberan inscribirse a clases de clculo, lgebra o a un curso de


regularizacin.
La deteccin se refiere a las pruebas o procedimientos rpidos y sencillos para
identificar personas que podran tener caractersticas o necesidades especiales.
Por lo comn, los psicmetras reconocen que las pruebas de deteccin darn por
resultado muchas clasificaciones errneas. Por tanto, se aconseja a los
examinadores que realicen pruebas de seguimiento con instrumentos adicionales,
antes de tomar decisiones importantes con base en pruebas de deteccin. Por
ejemplo, para identificar a nios con un talento sumamente excepcional en
pensamiento espacial, un psiclogo podra aplicar una prueba de lpiz y papel con
una duracin de 10 minutos, a todos los nios dentro de un sistema escolar.
Despus podra seleccionarse a los estudiantes cuyas puntuaciones se
encontraran en el 10% superior, a fin de aplicarles una prueba ms amplia.
La certificacin y la seleccin tienen ambas una cualidad de aprobado/reprobado.
Aprobar un examen de certificacin confiere privilegios. Algunos ejemplos incluyen
el derecho de practicar la psicologa o de conducir un automvil. As, por lo comn,
la certificacin implica que una persona tiene cuando menos una destreza mnima
en alguna disciplina o actividad. La seleccin es similar a la certificacin en cuanto
a que confiere privilegios, como la oportunidad de asistir a una universidad u
obtener un empleo.
Otro uso de las pruebas psicolgicas es el diagnstico y la planificacin de
tratamiento. El diagnstico consiste en dos tareas entrelazadas: determinar la
naturaleza y la fuente de la conducta anormal de una persona y clasificar el patrn
de conducta dentro del sistema diagnstico aceptado. Por lo general, el
diagnstico es precursor del remedio o del tratamiento de distrs personal o
ejecucin deficiente.
Con frecuencia, las pruebas psicolgicas desempean una funcin importante en
el diagnstico y la planificacin del tratamiento. Por ejemplo, las pruebas de
inteligencia son absolutamente esenciales en el diagnstico del retraso mental.
Las pruebas de personalidad son tiles para diagnosticar la naturaleza y grado de
los trastornos emocionales. De hecho, algunas pruebas, como el MMPI, se
disearon con el propsito explcito de aumentar la eficacia del diagnstico
psiquitrico.
El diagnstico debera ser ms que una mera clasificacin, ms que la asignacin
de una etiqueta. Un diagnstico apropiado transmite informacin sobre
fortalezas, debilidades, etiologa y mejores opciones de regularizacin!
tratamiento. Saber que un nio ha recibido un diagnstico de discapacidad para el
aprendizaje es intil en trminos generales; pero saber adems que el mismo nio

se encuentra en un nivel muy inferior en cuanto a comprensin de lectura, se


distrae con facilidad y necesita ayuda con la fontica bsica, puede proporcionar
una base indispensable para la planificacin del tratamiento.
Las pruebas psicolgicas tambin pueden proporcionar una poderosa fuente de
autoconocimiento. En algunos casos, la retroalimentacin que recibe una persona
de una prueba psicolgica puede cambiar su profesin o alterar el curso de su
vida. Por supuesto, no todas las situaciones de prueba psicolgica proporcionan
un autoconocimiento. Quizs en la mayor parte de los casos el cliente ya sabe lo
que revelarn los resultados de prueba. Un estudiante universitario con un alto
funcionamiento, pocas veces se sorprende de descubrir que su CI se encuentra en
el rango superior. Una arquitecta no se desconcierta al escuchar que tiene
excelentes habilidades de razonamiento espacial. Un estudiante con una limitada
capacidad para la lectura, por lo general no se asombra de recibir un diagnstico
de discapacidad para el aprendizaje.
Otro empleo de las pruebas psicolgicas es la valoracin de programas educativos
y sociales. Se dir ms al respecto de la evaluacin de programas educativos
cuando se analicen las pruebas de aprovechamiento en un captulo posterior. Aqu
nos limitaremos en el uso de las pruebas para la evaluacin de programas
sociales, los cuales se disean para proporcionar servicios que mejoren las
condiciones sociales y la vida comunitaria. Por ejemplo, el Proyecto Head Start es
un programa con fondos federales que apoya a nivel nacional los proyectos de
enseanza preescolar para nios de sectores desprotegidos (Cicerelli, 1969;
McKey y colaboradores, 1985). Lanzado en 1965 como un intento que sentara
precedentes en cuanto a proporcionar programas de desarrollo infantil a familias
de bajos ingresos, el Head Start ha suministrado enriquecimiento educativo y
servicios de salud a millones de preescolares en sectores de alto riesgo.
Pero, exactamente, qu impacto tiene el programa multimillonario Head Start
sobre el desarrollo en la temprana infancia? El Congreso de EUA deseaba saber si
el programa mejoraba el desempeo escolar y reduca el fracaso en la escuela de
los nios inscritos. Pero los centros varan segn las instituciones patrocinadoras,
las caractersticas del personal, la cobertura, el contenido y los objetivos, de modo
que los efectos son difciles de evaluar. Las pruebas psicolgicas proporcionan
una base objetiva para responder a estas preguntas, la cual es muy superior a los
informes anecdticos o impresionistas. En general, los nios participantes en
Head Start muestran mejoras inmediatas en CI, preparacin para la escuela y
aprovechamiento acadmico, pero estas mejoras se disipan en los siguientes
aos (fiaura 22).

Hasta este punto se han analizado las aplicaciones prcticas de las pruebas
psicolgicas a problemas cotidianos, como la seleccin de personal, el diagnstico
o la evaluacin de programas. En cada uno de estos casos, las pruebas satisfacen
un propsito inmediato, de naturaleza prctica: ayudar al examinador a tomar
decisiones sobre personas o programas. Pero las pruebas tambin representan
una funcin importante en las ramas aplicada y terica de la investigacin
conductual. Como ejemplo de las pruebas en la investigacin aplicada,
considrese el problema que enfrentan los neuropsiclogos que desean investigar
la hiptesis de que la absorcin de plomo a bajo nivel causa deficiencias
conductuales en los nios. La nica manera factible de explorar esta suposicin es
sometiendo a prueba a nios normales con exposicin al plomo con una batera
de pruebas psicolgicas. Needleman, Gunnoe, Leviton, Reed, Peresie, Maher y
Barrett (1979) utilizaron un conjunto de pruebas tradicionales e innovadoras para
concluir que la absorcin de plomo a bajo nivel causa disminuciones en el CI,
alteraciones en el tiempo de reaccin y aumentos progresivos de conducta
indeseable en el saln de clase. Sus conclusiones inspiraron un tumultuoso y
amargo intercambio de opiniones que no se revisarn aqu (Needieman, y
colaboradores, 1990). Sin embargo, las pasiones inspiradas por este estudio son
la personificacin de una cuestin importante: los acadmicos y las personas que
crean la poltica pblica respetan las pruebas psicolgicas. Por qu si no habran
de participar en largos y enconados debates acerca de la validez de los
descubrimientos de investigacin basados en pruebas?
En ciertas ocasiones, las pruebas satisfacen un papel menos mundano al ayudar a
los cientficos a investigar cuestiones tericas que no tienen aplicaciones prcticas
inmediatas u obvias. Por ejemplo, para analizar la dependencia del campo
perceptual, Witkin (1949) invent las pruebas de la habitacin inclinada y de la silla
inclinada (HISI). El aparato para estas pruebas consiste en una habitacin tipo
caja, suspendida de pivotes con balines, de modo que pueda inclinarse en
cualquier grado hacia la izquierda o derecha. Dentro de la habitacin hay una silla
para el sujeto, la cual tambin puede inclinarse con independencia de la
habitacin. La tarea del sujeto es llevar su cuerpo a una posicin que se perciba
como recta. Los sujetos que dependen del campo alinean de cierto modo sus
cuerpos con respecto a la habitacin, en vez de basarse en la fuerza de gravedad
percibida. Los sujetos independientes del campo se ven menos afectados por la
habitacin mal alineada y estn ms a tono con sus seales perceptuales internas;
es decir, sus juicios perceptuales son relativamente independientes de la
informacin visual distorsionada. La HISI inspir toda una vida de investigaciones
acerca del desarrollo de la personalidad, pero en raras ocasiones se aplic a algn
problema prctico de prueba.

RESUMEN

1. Una prueba puede definirse como un procedimiento estandarizado para tomar


una muestra de conducta y describirla con categoras y puntuaciones. Adems, la
mayora de las pruebas tienen normas o estndares con base en los cuales
pueden utilizarse los resultados para pronosticar otras conductas ms importantes.
2. Las pruebas siempre constituyen una muestra de la conducta, nunca la totalidad
de aquello que el examinador busca medir. Por tal razn, los resultados de prueba
siempre incorporan cierto grado de error de medicin.
3. En una prueba con referencia a la norma, la puntuacin de prueba del individuo
se interpreta en relacin con las puntuaciones obtenidas por otras personas en la
misma prueba. En una prueba con referencia al criterio, el nfasis se coloca sobre
aquello que la persona examinada puede hacer con respecto a criterios educativos
definidos de manera estrecha.
4. La evaluacin es el proceso de recopilar informacin sobre una persona y
utilizarla para hacer inferencias acerca de sus caractersticas o para predecir su
conducta. La evaluacin incorpora las pruebas, pero es ms amplia y puede incluir
observaciones, entrevistas y otras fuentes de informacin.
5. Las pruebas grupales son medidas de lpiz y papel adecuadas para examinar a
grandes grupos de personas a un mismo tiempo. Las pruebas individuales estn
diseadas para una aplicacin a una sola persona; con ello, el examinador puede
observar la motivacin y otras caractersticas de la persona examinada.
6. Una clasificacin arbitraria, pero til, de las pruebas psicolgicas es la siguiente:
de inteligencia, aptitud, aprovechamiento, creatividad, personalidad, intereses,
conductual y neuropsicolgica. Las caractersticas de estas pruebas se resumen
en el cuadro 21.
7. Se pueden distinguir cinco usos de las pruebas: clasificacin, diagnstico y
planificacin del tratamiento, autoconocimiento, valoracin de programas e
investigacin.
8. La clasificacin puede descomponerse an ms en: asignacin, que es la
clasificacin de personas a programas apropiados; deteccin, que es la
identificacin rpida de personas con caractersticas o necesidades especiales;
certificacin (p.ej. para obtener una licencia de manejo) y seleccin (p. ej., para
una universidad).

9. El acceso a las pruebas psicolgicas est controlado de manera estricta, de


modo que slo las personas con el entrenamiento apropiado puedan tener acceso
a ellas. Muchos editores de pruebas las dividen en tres niveles de complejidad, las
cuales requieren grados de pericia cada vez mayores para su aplicacin.
10. Las fuentes de informacin sobre pruebas incluyen la serie del Mental
Measuremenis Yearbook ylos volmenes de las Test Critiques. Algunas revistas
como Assessment y The Journal of Psychoeducational Assessment tambin
proporcionan informacin sobre pruebas psicolgicas.
11.- Supngase por el momento que se tiene acceso a una prueba de vocabulario
de alto nivel, apropiada para examinar las habilidades verbales de profesores
universitarios y otros profesionales (Gregory y Gernert, 1990). La prueba es un
cuestionario de opcin mltiple con 30 palabras difciles como firmamento,
paradisiaco y melifluo. Una profesora toma la prueba y elige la alternativa correcta
para 17 de las 30 palabras. Pregunta cmo se compara su calificacin con otras
personas con el mismo nivel acadmico. Cmo podra responderse a su
pregunta?

NORMAS Y CONFIABILIDAD

Por lo general, el resultado inicial de las pruebas es una puntuacin natural como
el nmero total de afirmaciones de personalidad refrendadas en una direccin en
particular o el nmero total de problemas resueltos correctamente, quiz con la
adicin de puntos bonificados por las soluciones rpidas. En la mayor parte de los
casos, esta puntuacin inicial es intil en s misma. Para que los resultados de
prueba tengan significado, los examinadores deben ser capaces de convertir la
puntuacin inicial a alguna forma de puntuacin derivada que se base en la
comparacin con un grupo normativo o de estandarizacin. Gran parte de las
pruebas se interpreta al comparar los resultados individuales con el desempeo
del grupo normativo; las pruebas referidas a criterio, que se analizan ms
adelante, constituyen una excepcin.
Un grupo normativo consiste en una muestra de personas examinadas que son
representativas de la poblacin hacia la cual se dirige la prueba. Considrese una
prueba del conocimiento de vocabulario, diseada para utilizarse con futuros
estudiantes universitarios de primer grado. En este caso, podran recolectarse los
resultados del desempeo de una muestra grande, heterognea y nacional de
dichas personas, con propsitos de estandarizacin. El objetivo esencial de la
estandarizacin de una prueba consiste en determinar la distribucin de las
puntuaciones naturales en un grupo normativo, de modo que quienes desarrollan
la prueba tengan la posibilidad de publicar las puntuaciones derivadas conocidas
como normas. Como se analizar ms adelante, las normas se encuentran en
muchas variedades; por ejemplo, rangos percentiles, equivalentes por edad,
equivalentes de grado o puntuaciones estndar. En general, las normas indican la
posicin que tiene un individuo dentro de la prueba, en relacin con el desempeo
de otras personas de la misma edad, grado escolar, sexo y otras variables.
Para ser efectivas, las normas deben obtenerse con gran cuidado y construirse
segn los preceptos ya conocidos que se analizan despus; lo que es ms,
pueden volverse anticuadas en slo unos cuantos aos, de modo que la regla,
ms que la excepcin, debe ser el establecimiento peridico de nuevas normas
(ejemplo de caso 31). El tema de las normas se enfoca de manera indirecta, ya
que primero se le proporciona al lector un anlisis sobre las puntuaciones
naturales y despus se revisan los conceptos estadsticos esenciales para una
comprensin de las normas.

PUNTUACIONES NATURALES

El nivel ms bsico de informacin proporcionada por una prueba psicolgica es la


puntuacin natural. Por ejemplo, en una prueba de personalidad, con frecuencia la
puntuacin natural es el nmero de preguntas respondidas en la direccin
codificada para una escala especfica. En las pruebas de capacidad, por lo comn
la puntuacin natural se integra del nmero de problemas respondidos de manera
correcta, al que con frecuencia se le suman los puntos bonificados por el
desempeo rpido. As, el resultado inicial de la prueba es casi siempre una suma
numrica, como 17 de 44 reactivos totales respondidos en la direccin codificada
en una escala de depresin, o 29 de 55 puntos de puntuacin natural obtenidos en
la subescala de Diseo con Cubos de una prueba de inteligencia.
Sin embargo, debera ser obvio para el lector que las puntuaciones naturales, por
s solas carecen absolutamente de significado. Por ejemplo, de qu sirve conocer
que una persona resolvi de manera correcta 12 de 20 preguntas de razonamiento
abstracto? Qu significado tiene que un examinando haya respondido en la
direccin codificada a 19 de 33 preguntas de verdadero-falso de una escala de
disposicin psicolgica?
Incluso es difcil pensar sobre dichas preguntas sin recurrir a comparaciones de
una variedad u otra. Se desea saber la manera en que otras personas han
respondido a estas pruebas, si las puntuaciones observadas son altas o bajas en
comparacin con un grupo representativo de sujetos. En el caso de pruebas de
capacidad, se tiene curiosidad de saber si las preguntas fueron fciles o difciles,
en especial en relacin con la edad del sujeto.
De hecho, parece casi trivial que una puntuacin natural adquiera significado
principalmente en relacin con las normas, un marco de referencia establecido de
manera independiente que se deriva de una muestra de estandarizacin.
Posteriormente se ampliar ms acerca de la derivacin y el uso de las normas.
Por ahora bastar con saber que las normas se establecen de modo emprico, a
travs de la aplicacin de la prueba a una muestra grande y representativa de
personas. Despus se compara la puntuacin del examinado con la distribucin de
puntuaciones obtenidas por la muestra de estandarizacin. As, se determina, a
partir de las normas, si una puntuacin obtenida es baja, promedio o alta.
La gran parte de las pruebas psicolgicas se interpreta a travs de la consulta de
normas; como ya se seal, estos instrumentos se denominan pruebas referidas a
la norma. Sin embargo, se recuerda al lector que existen otros tipos de
instrumentos. En particular, las pruebas referidas a criterio ayudan a determinar si

una persona puede alcanzar un criterio objetivamente definido, como la suma de


pares de nmeros de dos dgitos con una precisin de 97%. En el caso de las
pruebas referidas a criterio, las normas no son esenciales.
Existen diferentes tipos de normas, pero stas tienen una caracterstica en comn:
cada una incorpora un resumen estadstico de un enorme conjunto de
puntuaciones. As, para comprenderlas, el lector necesita dominar la estadstica
descriptiva elemental. En este punto se hace un modesto parntesis para revisar
los conceptos estadsticos esenciales.

CONCEPTOS ESTADSTICOS ESENCIALES

Supngase por el momento que se tiene acceso a una prueba de vocabulario de


alto nivel, apropiada para examinar las habilidades verbales de profesores
universitarios y otros profesionales (Gregory y Gernert, 1990). La prueba es un
cuestionario de opcin mltiple con 30 palabras difciles como firmamento,
paradisiaco y melifluo. Una profesora toma la prueba y elige la alternativa correcta
para 17 de las 30 palabras. Pregunta cmo se compara su calificacin con otras
personas con el mismo nivel acadmico. Cmo podra responderse a su
pregunta?
Una manera de responder a la interrogante consistira en darle una lista de las
puntuaciones naturales de la muestra preliminar de estandarizacin con 100
profesores representativos de su universidad (cuadro 31). Sin embargo, incluso
con esta muestra normativa relativamente pequea (lo tpico son miles de
individuos), la lista de puntuaciones de prueba es un despliegue excesivo.
Cuando se nos confronta con un conjunto de datos cuantitativos, la tendencia
humana natural es la de resumir, condensar y organizar dichos datos en patrones
significativos. Por ejemplo, en la evaluacin del significado de la puntuacin de
vocabulario de la profesora, el lector podra calcular la puntuacin promedio de
toda la muestra o establecer la posicin relativa de la puntuacin de la profesora
(17 respuestas correctas) entre los 100 datos encontrados en el cuadro 31. En
las siguientes secciones se revisarn stos y otros enfoques para la organizacin
y resumen de datos cuantitativos.

DISTRIBUCIN DE FRECUENCIAS

Una manera simple y til de resumir los datos consiste en tabular una distribucin
de frecuencias (cuadro 32), la cual se prepara al especificar un pequeo nmero
de intervalos de clase de igual tamao y despus determinar cuntas
puntuaciones caen dentro de cada intervalo. La suma de las frecuencias de todos
los intervalos ser igual a N, el nmero total de puntuaciones en la muestra. No
existe una regla simple para determinar el tamao de los intervalos; ste,
obviamente, depende del nmero de intervalos deseado. Es comn que la
distribucin de frecuencias tenga entre 5 y 15 intervalos de clase. En el caso del
cuadro 32 existen 9 intervalos de clase con 3 puntuaciones cada uno. El cuadro
indica que un profesor obtuvo una calificacin de 4, 5 o 6; 8 profesores obtuvieron
7, 8 o 9, y as sucesivamente.

Un histograma proporciona una representacin grfica de la misma informacin


contenida en la distribucin de frecuencias (figura 3lA). El eje horizontal
representa las puntuaciones agrupadas en intervalos de clase, mientras el eje
vertical representa el nmero de puntuaciones que caen dentro de cada intervalo
de clase. En un histograma, la altura de una columna indica el nmero de
puntuaciones que ocurren dentro de ese intervalo. Un polgono de frecuencias es
similar a un histograma, excepto que la frecuencia de los intervalos de clase se
representa con puntos en lugar de columnas. Despus, los puntos independientes
se unen por medio de lneas rectas (figura 31B).

Las grficas que se muestran en las figuras 31 constituyen resmenes visuales


de los 100 datos en puntuacin natural de la muestra de profesores. Adems de
estos resmenes visuales, tambin es posible producir resmenes numricos
mediante el clculo de los ndices de tendencia central y dispersin.

MEDIDAS DE TENDENCIA CENTRAL

Se puede establecer una sola puntuacin representativa de las 100 puntuaciones


de vocabulario en nuestra muestra? La media (X) o promedio aritmtico es una de
dichas puntuaciones. Se calcula sumando todas las puntuaciones y dividindolas
entre N, el nmero de puntuaciones. Otro ndice til de tendencia central es la
mediana, la puntuacin que se encuentra a la mitad cuando se han ordenado
todas las puntuaciones. Si el nmero de puntuaciones es par, la mediana es el
promedio de las dos puntuaciones a la mitad. En cualquier caso, la mediana es el
punto que divide en dos la distribucin, de modo que la mitad de los casos se
encuentren por encima de ella y la mitad por debajo. Por ltimo, la moda es
simplemente la puntuacin que ocurre con mayor frecuencia. Si dos puntuaciones
tienen la mayor frecuencia de ocurrencia, se dice que la distribucin es bimodal.
La media de las puntuaciones enumeradas en el cuadro 31 es 16.8; la mediana
y la moda son 17. En este caso, las tres medidas de tendencia central tienen muy
buena concordancia. Sin embargo, no siempre ocurre as. La media es sensible a
los valores extremos y puede ser engaosa si una distribucin tiene pocas
puntuaciones inusualmente altas o bajas. Considrese el caso extremo donde
nueve personas ganan $10 000.00 y una dcima persona gana $910 000.00. El
ingreso promedio para este grupo de personas sera de $100 000; sin embargo,
este nivel de ingresos no es tpico de nadie dentro del grupo. La mediana del
ingreso, colocada en $10 000, es mucho ms representativa. Por supuesto, ste
es un ejemplo extremo, pero ilustra un punto en general: si una distribucin est
sesgada (es decir, es asimtrica), la mediana es un mejor ndice de la tendencia
central que la media.

MEDIDAS DE VARIABIUDAD

Dos o ms distribuciones de puntuaciones de prueba pueden tener la misma


media y, sin embargo, es posible que difieran en gran medida en el grado de

dispersin de las puntuaciones con respecto a la media (figura 32). Para


describir el grado de dispersin, es necesario un ndice estadstico que exprese la
variabilidad de las puntuaciones en una distribucin.
El ndice estadstico de variabilidad que se utiliza con mayor frecuencia en un
grupo de puntuaciones es la desviacin estndar, simbolizada a y abreviada DE.
Desde un punto de vista conceptual, el lector necesita saber que la DE refleja el
grado de dispersin en un grupo de puntuaciones. Si stas se encuentran
agrupadas estrechamente cerca de un valor central, la DE es pequea. De hecho,
en el caso extremo donde todas las puntuaciones son idnticas, la DE es
exactamente cero. A medida que un grupo de puntuaciones se dispersa ms, la
DE se vuelve ms grande. Por ejemplo, en la figura 32 la distribucin a tendra
la DE ms grande, la distribucin c, la ms pequea.

La desviacin estndar o a es, en trminos sencillos, la raz cuadrada de la


varianza, denominada 2. La frmula de la varianza es

Donde
significa sumatoria de, X representa cada puntuacin individual,
es
la media de las puntuaciones y N es el nmero total de puntuaciones. Como lo
sugiere el nombre, la varianza es una medida de variabilidad. Sin embargo, en
general, los psiclogos prefieren informar la desviacin estndar, que se calcula
obteniendo la raz cuadrada de la varianza. Por supuesto, la varianza y la
desviacin estndar transmiten informacin intercambiable una se puede
calcular a partir de la otra, al elevar al cuadrado (la desviacin estndar para
obtener la varianza) u obtener la raz cuadrada (de la varianza para obtener la
desviacin estndar).

DISTRIBUCIN NORMAL

El polgono de frecuencia que se representa en la figura 3lB es sumamente


irregular en cuanto a su forma, un hallazgo tpico con los datos de la vida real que
se basan en muestras pequeas. Qu sucedera con la forma del polgono de
frecuencia si se aumentara la magnitud de la muestra normativa y tambin se
incrementara el nmero de intervalos de clase al reducir su tamao? Es posible
que, a medida que se aaden nuevos individuos a la muestra, la distribucin de
puntuaciones se parezca cada vez ms una curva simtrica, definida
matemticamente y en forma de campana, denominada distribucin normal (figura
33).
Los psiclogos prefieren una distribucin normal de puntuaciones de prueba, aun
cuando muchas otras distribuciones son tericamente posibles. Por ejemplo,
dentro de la esfera de posibilidades se encuentra la distribucin rectangular de
puntuaciones de prueba, un nmero igual de resultados en cada intervalo de
clase. De hecho, muchos legos podran incluso preferir una distribucin
rectangular de puntuaciones de prueba, basados en la premisa equitativa de que
las diferencias individuales seran por ello menos pronunciadas. Por ejemplo, una
mayor proporcin de personas obtendra puntuaciones en el rango superior si las
pruebas psicolgicas se conformaran a una distribucin rectangular de
puntuaciones, en vez de a una distribucin normal.
Entonces, por qu los psiclogos prefieren una distribucin normal de
puntuaciones, aun hasta el punto de seleccionar reactivos de prueba que ayuden
a producir este tipo de distribucin en la muestra de estandarizacin? Existen
varias razones para ello, incluyendo las consideraciones estadsticas y los datos
empricos. Aqu se har un breve parntesis para explicar la fascinacin
psicomtrica con las distribuciones normales.
Una razn por la que los psiclogos prefieren las distribuciones normales es que la
curva normal tiene caractersticas matemticas tiles que forman la base para
varios tipos de investigacin estadstica. Supngase que se tiene inters en
determinar si los CI promedio de dos grupos de personas fueron significativamente
diferentes. Sera apropiado utilizar una estadstica inferencial como la prueba t
para la diferencia entre medias. Sin embargo, muchas estadsticas inferenciales se
basan en la suposicin de que la poblacin subyacente de puntuaciones se
distribuye de manera normal, o muy cercano a ello. As, a fin de facilitar el uso de
estadsticas inferenciales, los psiclogos prefieren que las puntuaciones de prueba
en la poblacin normal sigan una distribucin normal o casi normal.

Otra base para preferir la distribucin normal es su precisin matemtica. Dado


que la distribucin normal se define de manera precisa en trminos matemticos,
es posible calcular con gran exactitud el rea bajo las diferentes regiones de la
curva. As, una propiedad til de las distribuciones normales es que el porcentaje
de casos que caen dentro de un cierto rango o ms all de un cierto valor se
conoce de manera exacta. Por ejemplo, en una distribucin normal, tan slo
2.14% de las puntuaciones excedern la media en dos desviaciones estndar o
ms (figura 33). De la misma manera, se puede determinar que la gran parte de
las puntuaciones ms de 68%caen dentro del rango de una DE a partir de la
media, en cualquier direccin.

Una tercera base para preferir una distribucin normal de las puntuaciones de
prueba es que, con frecuencia, la curva normal surge de manera espontnea en la
naturaleza. De hecho, los primeros investigadores se impresionaron tanto con la
universalidad de la distribucin normal, que consagraron a la curva normal como
una ley de la naturaleza. Galton (1888) escribi:
Es la suprema ley de la sinrazn. Cada vez que se controla una amplia muestra de
elementos caticos y se les ordena segn su magnitud, resultan haber tenido
latente todo el tiempo una insospechada y bellsima forma de regularidad.
Seguramente no existe una ley de la naturaleza concerniente a la forma que
deben asumir las distribuciones de frecuencia. Sin embargo, es cierto que muchas
caractersticas humanas importantes tanto fsicas como mentales producen
una estrecha aproximacin a la curva normal cuando se grafican las medidas de
muestras grandes y heterogneas. Por ejemplo, un hallazgo muy conocido es una
curva de distribucin casi normal para las caractersticas fsicas como peso,
estatura y tamao del cerebro al momento del nacimiento (Jensen, 1980).
Tambin se encuentra una distribucin aproximadamente normal en el caso de
numerosas pruebas mentales, incluso con aquellas que se construyeron
totalmente sin referencia a la curva normal. Para ilustrar este punto, se har

referencia a las primeras pruebas diseadas antes de la fijacin psicomtrica


actual con la distribucin normal. Wechsler (1944) eligi los reactivos de la Escala
de Inteligencia WechslerBellevue original con base, principalmente, en la variedad
de los tipos de reactivo, sin prestar atencin a la distribucin resultante de las
puntuaciones. De hecho, consideraba que la creencia de que las medidas
mentales se deben distribuir por s mismas, segn la curva normal, era
equivocada. Sin embargo, cuando grafic la distribucin de los CI Totales de su
prueba, surgi la previsible distribucin casi normal (figura 34). Lindvall (1967)
encontr lo mismo cuando traz la grfica de los datos de la Pintner Ability Test
(Prueba de Capacidad de Pintner) de 1923. Por tanto, se ve que incluso en
ausencia de ajustes psicomtricos, la distribucin de las puntuaciones de una
prueba mental en las muestras de estandarizacin se aproxima de manera tpica a
una curva normal.

ASIMETRA

La asimetra se refiere a la simetra o asimetra de una distribucin de frecuencia.


Si las puntuaciones de prueba se agrupan hacia el extremo inferior de la escala,
se dice que la distribucin tiene una asimetra positiva. En el caso opuesto,
cuando las puntuaciones de prueba se agrupan en el extremo superior de la
escala, se dice que la distribucin es asimtrica negativamente (figura 35).

En pruebas psicolgicas, las distribuciones asimtricas significan, por lo general,


que quien desarroll la prueba ha incluido muy pocos reactivos fciles o muy
pocos reactivos difciles. Por ejemplo, cuando las puntuaciones en la muestra de
estandarizacin se acumulan en el extremo inferior (asimetra positiva), es
probable que la prueba contenga muy pocos reactivos fciles como para
discriminar de manera efectiva en este extremo de la escala. En este caso, los
individuos que obtienen puntuaciones de cero o casi cero, en realidad podran
diferir con respecto a la dimensin medida. Sin embargo, la prueba no puede
detectar estas diferencias, dado que la mayor parte de los reactivos son
demasiado difciles para estas personas. Por supuesto, tambin ocurre el patrn
contrario. Si las puntuaciones se agrupan al extremo superior (asimetra negativa),
es probable que la prueba contenga muy pocos reactivos difciles como para
lograr discriminaciones efectivas en este extremo de la escala.
Cuando la investigacin inicial indica que un instrumento produce resultados
asimtricos en la muestra de estandarizacin, por lo comn, los autores reforman
la prueba a nivel de los reactivos. La solucin ms directa consiste en aadir
reactivos o modificar los existentes, de modo que la prueba tenga ms reactivos
fciles (para reducir la asimetra positiva) o ms difciles (para reducir la asimetra

negativa). Si es demasiado tarde para revisar el instrumento, el autor de la prueba


puede utilizar una transformacin estadstica para ayudar a producir una
distribucin ms normal de puntuaciones (vase despus). Sin embargo, la
estrategia preferida consiste en revisar la prueba, de modo que la asimetra sea
mnima o inexistente.

TRANSFORMACIN DE LAS PUNTUACIONES NATURALES

Darle sentido a los resultados de prueba es, en gran medida, una cuestin de
transformar las puntuaciones naturales en formas ms interpretables y tiles de
informacin. En el anlisis anterior acerca de las distribuciones normales, se
insinuaron las transformaciones al mostrar la manera en que el conocimiento
sobre la media y la desviacin estndar de dichas distribuciones pueden ayudar a
determinar la posicin relativa de una puntuacin individual. En esta seccin se
continuar con este tema de una manera ms directa, al presentar los requisitos
formales para varios tipos de transformaciones de las puntuaciones naturales.

History of psychological tests

The history of psychological tests is fascinating and has great relevance to current
practices. After all, the contemporary evidence not emerged from a vacuum; they
have slowly evolved from a multitude of precursors that paraded over the last 100
years. In view of this, this chapter presents a review of the historical roots of the
current psychological tests. The issue the: origins of the psychological tests,
focuses largely on the efforts of European psychologists to measure intelligence
during the latter part of the 19th century and the era before the first world war.
Often, these first tests of intelligence and his successors exercised powerful effects
on individuals examined them, so that the first theme also incorporates a brief
parenthesis that documents the importance of the results of psychological tests.
The theme iB: first tests in the U.S., organize the numerous tests developed by the
American psychologists in the first half of the 20th century.
The psychological tests in its current form originated more than 100 years ago in
laboratory studies on sensory discrimination, motor skills and reaction time. (The
British genius Francis Galton 1822-1911) invented the first battery of tests, a joint
peuliar of sensory and motor measures which will be reviewed later. The
American psychologist James McKeen Cattell (1860-1944) studied with Galton and
later, in 1890, stipulated the essential topics of modern tests in his classic article
entitled Mental Tests and Measurements. He was cautious and modest in
describing the purposes and applications of their instruments:
Psychology can not achieve certainty and accuracy of the physical sciences,
unless it is based on experiments and measurement. A step can be in that direction
to implement a series of tests and measures mental large numbers of individuals.
The results would have considerable scientific value in the discovery of the
constancy of the mental processes, their interdependence and its variation under
different circumstances. In addition, individuals would find interesting trials and
perhaps useful with regard to training, lifestyle or indication of disease. The
scientific and practical value of such evidence would significantly improve if it
adhered to a uniform system, so that they could compare and combine the
determinations made in different times and places (Cattell, 1890).
The conjecture of Cattell that "perhaps" evidence may be useful in "training,
lifestyle or indication of disease" should be classified with any security as one of
the most remarkable prophetic subestimaciones of all time. Anyone raised in the
Western world knows that the psychological tests have emerged from its tentative

beginnings to become big business and a cultural institution that permeates


modern society. To cite just one example, consider the number of standardized
achievement tests implemented in school systems of IEU. It is likely that it is no
exaggeration to estimate 200 billion per year (Medina and Neill, 1990). Of course,
the total number of tests administered each year also includes millions of
personality tests and the quantities of countless thousands of other types of tests
that exist today (Conoley, and Kramer, 1989, 1992;) Mitchell, 1985; (Sweetland and
Keyser, 1987). There is no doubt that the evidence is a widespread method, but
this causes some impact?

IMPORTANCE OF TESTING

The tests are used in almost all countries with counselling, selection and
assignment purposes. Its implementation occurs in environments as diverse as
schools, public service, industry, clinical medical and psychological counselling
centres. The majority of people have taken dozens of tests and not give great
importance to the issue. For the moment in which the typical individual reaches the
age of retirement, however, likely that the results of psychological tests have
helped shape their destiny. Changes in the course of life due to the results of
psychological tests may be subtle, such as when a mathematical future access to a
course of calculation made based on qualifications of the first year of high school
performance. It is more common that the results of psychological tests alter the
individual fate in a profound way. The accepted a person in a University and not in
another; offered a job, but reject you in another; diagnosed as depressed or not, all
these determinations depend, at least in part, of the interpretation of the results of
tests involving individuals with authority. Told in simple terms, the results of
psychological tests change life. For this reason is prudent - and, indeed, almost
compulsory - that of psychology students to learn about the current uses and
occasional abuses in the application of tests. The example of case 1-1 illustrates
the life changes that are the result of the psychological tests through several
samples of real case histories. The importance of the evidence is also clear from
the perspective of a historical review. In general, psychology students consider the
historical subjects as dull, dry and difficult and, at times, these prejudices are well
justified. After all, many textbooks fail to explain the relevance of historical issues
and provided only vague sketches of the development of the initials in mental
testing. As a result, it is common to the students of psychology, the first semesters
completed incorrectly that the historical topics are boring and irrelevant. In fact, the
history of psychological tests is fascinating and has substantial relevance to current

practices. The historical evolution is relevant to the contemporary evidence for the
following reasons:
1. A review of the origins of the psychological tests helps to explain current
practices which, otherwise, might seem arbitrary and even unique. For example,
why many current intelligence tests incorporate not intellectual appearance as the
memory capabilities in the short term of digits? The answer is, in part, the historical
inertia - intelligence tests have always included a measure of retention of digits.
2. The power and limitations of testing also highlights more easily when such
methods are observed within a historical context. For example, the reader will
discover that the modern intelligence tests are exceptionally good to predict the
failure at school, precisely because of that this was the original and only purpose of
the first of these instruments developed in Paris, France, at the beginning of this
century.
3. Finally, the history of psychological tests contains some sad and unfortunate
episodes to help remember that it is it should not be too vehement in use currently
given to the evidence. For example, based on the mindless application and
prejuiciada of the results of intelligence tests, several prominent psychologists
helped to adopt the Decree 1924 of the immigration restriction (Irnmigration
Restriction Act of 1924).
Later chapters will explore the principles of psychological tests, will investigate
applications for specific fields (p. ej., personality, intelligence, neuropsychology),
and it will reflect on the social and legal implications of the evidence. However, the
reader will find that these issues are more understandable when analysing them in
a historical context. Thus, for the moment, begin with the revision of the
rudimentary forms of evidence that existed for more than 4 000 years in imperial
China.

RUDIMENTARY FORMS OF THE TEST IN CHINA IN THE YEAR 2200 BC.

Although the widespread use of psychological tests is largely a phenomenon of the


20th century, historians point out that rudimentary forms of testing date from when
least 2200 BC, when the Chinese emperor made be considered officers of
Government every third year to determine their suitability for the post
(Chaffee)1985; DuBois, 1970; Franke, 1963; Lai, 1970; Teng, 1942-43). These
tests were modified and perfected over centuries until tests were introduced in
writing during the dynasty have (202 BC - 200 ad). You were subjected to test on
five issues: civil law, military affairs, agriculture, contributions and geography.
The Chinese examination system acquired its final form approximately in 1370,
when emphasized the prowess in the classical writings of Confucius. Called
preliminary examination for the candidates to spend a day and a night in a small
isolated cabin, writing essays on assigned topics and writing a poem. 1 To 7%
approved continued tests by district, requiring three separate three days with their
night sessions.
Obviously, these tests were exhausting and rigorous, but this was not the last level.
1 To 10% of individuals who approved had the privilege to go to Beijing for the final
round of tests. Perhaps 3% of the latter group approved and obtained the post of
Mandarin, eligible for public service
Although the Chinese developed the paraphernalia for a comprehensive
programme of reviews of public service, the similarities between their traditions and
the current practices of proof are superficial essentials. Test practices were not
only unnecessarily depleting, but rather the Chinese nor validated selection
procedures. However, seems to be that the program of they had from 3 to 8 tests,
the method left much to be desired.
A third revision of the Binet-Simon scale appeared in 1911. Now, each age level
had exactly five tests. The scale is also extended to the adult range. And, with
some reluctance, Binet introduced new methods of qualification which granted a
fifth of a year by each subprueba passed above the basal level. In his writings,
Binet greatly emphasized that it should not take it too seriously mental level exact
mn practical sentdo, initiative or faculty for aaptarse. Judge well, understand and
reason well are the springs of the intelligence 9et and Simon, 1905; (according to
the translation in Fancher, 1985).
4. The reagents were distributed according to their approximate level of difficulty,
rather than depending on the content. A preliminary standardization with 50 normal

children whose ages ranged from 3 to 11 years and also several subnormal
children and delay took place.
30 Tests on the scale of 1905 were openly simple sensory evidence, to the quite
complex verbal abstractions. Thus, the scale was appropriate to evaluate the full
range of intelligence - from serious mental retardation until higher levels of the
endowed with intelligence. Full scale is summarized in table 1-1.
Except for the very simple tests that were designed for the classification of the
idiots of much lower grade (a very unfortunate diagnostic term that has been
abandoned since then), the tests were important loads to verbal skills, reflecting
the removal of Binet with respect to the tradition of Galton.
An interesting point that is often overlooked by students of Psychology Today, is
that Binet and Simon not offered in their scale of 1905 a precise method to arrive at
a total score. It would be good to remember that its purpose was to the
classification, not the measurement, and that his motivation was completely
humanitarian, i.e. the identify those children who needed to be given to special
education. According to contemporary standards, it is difficult to accept the
confusion inherent in this approach, but this may reflect a modern tilt toward the
quantification rather than a weakness by the scale of 1905. In fact, its scale was
popular among educators in Paris. Even in the absence of a precise quantification,
the enoque was successful in the selection of candidates for special classes.

THE REVISED SCALES AND THE ADVENT OF THE CI

In 1908, Binet and Simon published a revision of the scale of 1905. In the previous
level, more than half of the items had been designed for individuals with very
noticeable delay; However, the main diagnostic decisions involved older children

and persons with a borderline intellect. To remedy this imbalance, the greater part
of the very simple items was abandoned and they were new to the upper end of
the scale. The scale of 1908 had 58 issues or evidence, almost double the number
of 1905. Added new tests, many of which are still used today: reconstruction of
prayers in disarray, copying of a Rhombus and realization of a sequence of three
orders. Some of the items consisted of absurdities that children had to detect and
explain. One of such items was fun for French children: "We found the body of an
unfortunate girl, cut into 18 pieces." "It is thought that the girl committed suicide".
However, this reactive was very disturbing to some U.S. individuals, which
demonstrates the importance of cultural factors on intelligence (Fancher, 1985).
The main innovation of the scale of 1908 was the introduction of the concept of
mental level. The tests had been standardized with nearly 300 normal children
between 3 and 13 years of age. This allowed that Binet and Simon ordered tests
according to the level of age which usually were they approved. Any reagents that
approval of 80 to 90 per cent of children of three years, was allocated to the level
of three years and so forth, until the age of 13. Binet and Simon also designed an
approximate rating system where a basal age from the level of age that are not
failed in more than one test was first determined. For every five tests approved at
levels above the basal level, he was granted a full year of mental level.

EVIDENCE AND ITS APPLICATION IN PROCESS

The first is predominantly used for two purposes: measure intelligence and detect
personality disorders. Therefore, it is understandable that the average citizen do an
equivalence between psychological tests and scores of CI, ink stains and
personality inventories. Certainly, in this view there is more than a grain of truth:
the measures of personality and intelligence are still the essential pillars of
psychological tests. However, the psicmetras have developed many other types
of these instruments for purposes different and imaginative that the pioneers could
never have anticipated. This chapter provides an overview of psychological tests
and its many applications. In item 2A, nature and uses of psychological tests,
summarizes the different types and the various applications of these. In the topic
2B, application process, emphasizes that the implementation of evidence is a
transaction between the examiner and the assessed person, not a sterile
measurement process.
From birth to old age, we run into these instruments at almost every moment of
change in life. The first test of the baby, made immediately after birth, is the test
Apgar, a rapid and multivariate evaluation of heart rate, breathing, muscle tone,
reflects irritability and color (Clarke-Stewart and Friedman, 1987). The Apgar score
(0 to 10) total score helps determine the need for any kind of immediate medical
attention. Later, an infant who has previously received a low Apgar score could be
candidate for an assessment of developmental disabilities. The preschool child can
perform tests in preparation for the school. Once it has begun with the school
career, each student crosses by hundreds, perhaps thousands, of evidence
academic before graduating (not to mention that measure disabilities to learning,
endowed with intelligence, vocational interests and admission to the University).
After graduating, adults can face testing for entering employment, license
management, authorization of safety, operation of personality, marital compatibility,
disabilities, cerebral dysfunction - the list is almost endless. Some people are even
facing a final indignity in the weaker of his last years party: a test to determine their
capacity to manage their economic affairs.
The idea of a test is, therefore, an element that dominates our culture, a feature
that we take for granted. However, the concept that has a lego about them does
not necessarily match the narrower perspective which has a psicmetra (specialist
in psychology or education that develops and evaluates psychological tests). Due
to the General misunderstanding as to the understanding of its nature, is
appropriate to begin this issue with a fundamental question which defines the
scope of the entire book: what is a test?

DEFINITION OF A TEST

A test is a standardized procedure to take a sample of behavior and describe it with


categories or scores. In addition, most have rules or standards, with base in which
the results can be used to predict other most important behaviors. The following
sections will discuss more about these features, but it is first useful to represent the
scope of the definition. In this perspective the traditional questionnaires of
personality tests and tests of intelligence are, but the definition also includes
various procedures that the reader might not recognize as such. For example, all of
the following methods may be evidence, according to the definition used in this
Book: a checklist for classifying the social skills of a young man with mental
retardation: a measure without time limit the domain in the sum of pairs of numbers
with three digits; ratings by computer of the reaction time; and even situational
tests such as the observation of an individual who works in a task group with two
"assistants" little cooperative and that only cause difficulties.
In short, the evidence is extremely varied in their formats and applications.
However, most has these characteristics that define them:
Standardized procedure.
Sample of conduct.
Scores or categories.
Rules or standards.
Prediction of behavior outside of the test.
The image you want to represent has to do especially with references to the
standard tests - those that use a well-defined population of people for his
interpretive scheme. However, the defining characteristics of a test differ somewhat
in the special case of the tests referred to in criterion - measuring what a person
can do, rather than compare the results with the levels of performance of others.
For this reason, are treated separately the evidence concerning criterion.
The standardized procedure is an essential characteristic of any psychological
testing. He is considered to be a test standard if the procedures for its application
are uniform of an examiner to another and an environment to another. Of course,
standardization depends, to some extent, of the capacity of the examiner. Even the
best proof can be useless in the hands of a neglected, with poor or badly informed
training evaluator, and the reader on the topic 2B, implementation process will

discover. However, the majority of the examiners are competent. Therefore, the
standardization depends largely on the implementing provisions which are in the
instruction manual that usually accompanies a test.
The wording of the instructions is an essential step for the standardization of a test.
In order to ensure uniform procedures for implementation, who develops a test
must provide materials - comparable stimulus for all examinees must specify with
considerable accuracy verbal instructions for each reagent or subprueba and
should advise you to the browser how to handle a variety of questions by the
assessed person.
To illustrate these points, consider the many ways in which a person who develops
a test could focus the evaluation of the retention of digits - the maximum number of
digits presented orally a subject can recall from memory. It could be a not
standardized test of retention of digits to suggest only that the examiner submitted
verbally increasingly long series of numbers so the subject fails. The number of
digits in the remembered longest series would be, then the retention capacity of
digits of the subject. The majority of readers can realize that a test with such as
general definition will have no uniformity of a browser to another. If who applied the
test is free to improvise any number of digits, what could prevent him to submit,
with the familiar inflection of a television broadcaster, "1-800-325-3535"? This
series would be far easier to remember than a more random set, for example, "7-28-1 - 9-4-6-3-7-4-2". The speed of presentation can also have a crucial effect on
the uniformity of a test of retention of digits. For standardization purposes, it is
essential that all reviewers submit each series to a constant rate; for example, one
digit per second. "Finally, the examiner needs to know how to react to unexpected
responses, as a subject to tell: could repeat them again?" For obvious reasons, the
usual advice is "no".
Who develops a test may even get to the point of recommending the behaviour
desired in the examiner, as maintaining a neutral facial expression when the
response of a subject. These seemingly subtle influences can have a serious
impact on the uniformity of the testing procedures. For example, a review that
smiles with flippant when it registers the responses could lead to that the subject
feels anxious and fail in an easy task. The next topic, the application process, will
analyse the potential influence of the examiner on test results.
Psychological testing is also a limited behavior sample. Neither the subject nor the
examiner have long enough for a truly comprehensive test, even when it is directed
to a well defined and finite behavioural domain. Thus the practical constraints
dictate that a test is only a sample of behavior. However, the sample of conduct is
of interest only to the extent that allows the examiner to make inferences about the

total domination of related behaviors. For example, the purpose of a test of


vocabulary consists of determining the complete reservation of words of the person
examined, to ask for definitions of a very small sample, but carefully chosen words.
The fact that the subject could define the 35 individual words of a subprueba of
vocabulary (e.g., the WAIS-r) is of little consequence. But the significance of these
results is of great importance because it indicates the general knowledge of
vocabulary of the evaluated individual.
An interesting point - of which the public generally have little knowledge - is that
test reagents need not look similar to conduct that test tries to predict. The
essential feature of a good test is to allow the examiner forecasts other behaviors-not that reflects those to predict. If answering "true" to the assertion "drink plenty of
water" help predict depression, then this claim, apparently unrelated, is a useful
index of the depression. Therefore, the reader will observe that successful
prediction is an empirical question that is resolved through the appropriate
research. Although most of the tests take a direct sample of the domain of
behaviour expected to predict, this is not a psychometric requirement.
Psychological testing must also allow the derivation of scores or categories.
Thorndike (1918) expressed the essential evidence in his famous assertion axiom
that: "that which exists in some way, there is certain amount". McCall (1939) went a
step further by declaring: "anything that exists in certain amount, can be
measured". The tests are striving to be a form of measurement, similar to the
procedures for the physical sciences, where the numbers represent abstract such
as weight or temperature dimensions. All test provides one or more scores or
provides evidence that a person belongs to a category and not another. In short,
the psychological tests summary execution in numbers or classifications.
The implicit assumption of psychometric terms is that the tests measure individual
differences in terms of features or characteristics that exist in a vague sense of the
word. In most cases, it is assumed that all people possess the trait or characteristic
measure, but in different quantities. The purpose of the test consists of estimating
the amount of the feature or quality that possesses an individual.
In this context, two warnings should be. First, any test score will always reflect
some degree of measurement error. The vagueness of the evidence is simply
inevitable: they should rely on an external display of conduct to estimate the no
observable feature and therefore inferred. Often, the psicmetras express this
fundamental point with the equation:
X=T+e

Where X is the observed score, T the true score and the positive or negative error
component. The best you can do to who develops a test is to ensure that e is very
small. It never will be eliminated completely, as you can not know its precise impact
on the individual case. The concept of measurement error will be discussed in item
3B, concepts of reliability.
The second caveat is that evidence consumers must prevent materialize the
measures characteristics. The results do not represent a "thing" that has physical
reality; Typically, they represent an abstraction which has shown that it has utility to
predict behavior outside of the test. For example, when analysing the IQ of a
person, the psychologists refer to an abstraction has no existence direct, material,
but which, however, is useful to predict educational achievement and other
outcomes.
Psychological testing must also have rules or standards. In general, an individual
test score is interpreted to compare it with the scores obtained by other individuals
in the same test. For this purpose, it is common that developers test standards - a
summary of the results of test of a large, group of people (Petersen, Kolen and
Hoover, 1989). The regulatory group is known as an example of standardization.
The selection and evaluation of the sample of standardization is crucial to the utility
of a test. This group should be representative of the population to which the test is
directed or, otherwise, will not be possible to determine the relative position of an
individual under review. In the extreme case where rules are not provided, the
examiner cannot be used in any way the results of the test. An exception to this
point the case evidence referring to criterion, which are discussed below.
Standards not only set an average performance, but will also serve to indicate the
frequency with which different high and low scores are obtained. Thus, the rules
allow for the examiner to determine the degree to which deviates a score with
respect to the expectations. Such information may be very important in the
prediction of the behaviour external to the proof of the individual under review. The
rules are such transcendental importance in the interpretation of evidence, that
them shall then be considered broadly in a separate section within the text.
Finally, the tests do not constitute an end in themselves. In general, the ultimate
purpose of a test is to predict behavior, other than those sampled directly in the
test. Thus, the examiner may have greater interest in external test behavior
predicted by the responses of test itself. Perhaps a concrete example will clarify
this point. Suppose that an examiner applied a test of spots of ink to a patient in a
psychiatric hospital and the patient responds to a spot of ink describing it as "eyes
looming quietly". Based on established standards, the examiner could predict then
that the subject is extremely suspicious and will get little benefit from individual

psychotherapy. The purpose of the test is to this and other predictions of similar not determine if the person perceives eyes him looking at her from stains.
The capacity of a test to predict external behavior is determined by a large body of
research of validation, most of which is carried out once the test has been
published, but there is no guarantee in the world of the psychometric research. It is
common that a researcher published a promising test, only to read later that other
researchers have found deficient. This is a lesson to those who employ the
evidence: the fact that a test exists and declare measure some characteristic, is no
guarantee of being truthful in his claims. A test can have a nice title, precise
instructions, elaborate standards, attractive packaging and preliminary findings, but
if dispassionate by independent researchers in the study, the test can not predict
appropriate external behaviors, then it is useless.

OTHER DISTINCTIONS IN TESTS

The main features of a test, which was summarized earlier, apply in particular to
those referring to the rule, which constitute much of the evidence in use. A test
referring to the standard, the performance of each reporting is interpreted with
reference to a sample of relevant standardisation (Petersen, Kolen and Hoover,
1989). However, these characteristics are less important in the special case of the
criterion concerning test, given that these instruments do not require comparison of
the individual in particular with a reference group. In this type of instrument, the aim
is to determine the position of the person evaluated with regard to educational
objectives defined very narrowly (Berk, 1984). For example, a part of a test of
arithmetic for children 10 years of age could measure the level of precision in the
sum of pairs of two-digit numbers. In a test without limit of time with 20 of those
problems, the precision would be almost perfect. For this type of test, in fact no
matter how compares the individual discussed with others of the same age, what
matters is if the individual satisfies a criterion appropriate and specific - for
example, 95% accuracy. Because there is no comparison with the standard-setting
performance of others, this type of measurement tool been called correctly test
referring to criterion, which, in contrast to the evidence relating to the standard, can
be interpreted in a meaningful way without reference to rules. Item 3A, standards
and standardization, will explore in greater detail these tests.
Another important distinction exists between the terms test and evaluation, which
are often considered equivalent, however, do not mean exactly the same.
Evaluation is a broader term, which refers to the process of gathering information

about a person and use it to predict the behavior. You can set as the valuation or
estimate of the magnitude of one or more attributes in a person. The evaluation of
the human characteristics implies observations, interviews, lists of verification,
inventories, projective tests, and other psychological tests. In short, the tests
represent only a source of information used in the evaluation process, in which the
examiner must compare and combine data from different sources. This is a
process subjective inherently, which requires the browser to select between the
conflicting information and make predictions based on the take shape full of data.
The term evaluation was invented during the second world war to describe a
program aimed at select men who highlight in the secret service, the Office of
Strategic Services (OSS Assessment Staff, 1948). The staff of psychologists and
psychiatrists of the OSS Massing a huge amount of information about the
candidates during four exhausting days of interviews, written tests and personality
tests. In addition, the evaluation process included a variety of tests on situations of
real life which relied on the awareness that there is a difference between
knowledge and be able to:
hicimos that the candidates will attempt, in fact, the tasks of either physical or verbal,
rather than just indicate in writing how they would be. Us urged to introduce realistic
evidence of capacity due to discoveries such as the following: men who get a high score in
understanding mechanics, a pencil and paper test, can be found - was below the average
when it comes to solving mechanical problems with his hands (OSS Assessment Staff)
(1948).

The situational evidence included group tasks for transporting equipment to the
other side of a stream and climb a wall of 3 m in height, s as the individual
scrutiny of the ability to survive a realistic interrogation and commanding two little
cooperative subordinates in a task of construction.
Based on behavioural observations and test results, the OSS personnel qualified
candidates in dozens of specific traits, in very broad categories such as leadership,
social relationships, emotional stability, effective intelligence and physical capacity.
These skills were used to select staff to military of the OSS.

TESTING TIP0S

The tests can be grouped broadly into two camps: Group and individual evidence.
Group tests are primarily measures of pen and paper, suitable for examining large
groups of people at the same time. The individual tests are instruments which, by

its design and purpose, must apply to a single person. An important advantage of
the latter is that the examiner can estimate the level of motivation of the subject
and evaluate the significance of other factors (p. ej., impulsivity, or anxiety) on test
results.
For convenience, the tests shall be classified in eight categories represented in
table 2-1. Each of them contains evidence concerning the standard, referring to
criterion, individual and group. The reader will notice that any type of testing is a
purely arbitrary determination. For example, could apply even another dichotomy:
evidence seeking to measure the maximum performance (e.g., an intelligence test)
against those who seek to estimate a typical response (e.g., a personality
inventory).
In a strict sense, there are hundreds - maybe thousands - of different types of
evidence, each of which is a slightly different aspect of the individual. For example,
you could discuss that even two intelligence tests would constitute different types
of measure. A test could reveal the assumption that the intelligence is a biological
construct that can be measured better through brain waves, while another could be
based on the traditional view that intelligence is exhibited in the capacity to learn
skills aculturadas as the vocabulary. Grouping both measures under the category
of intelligence tests is certainly exaggerated simplification but, however, it is a
useful starting point.
As seen in the first chapter, intelligence tests were originally designed to collect a
sample of a wide variety of skills, in order to estimate the overall intellectual level of
the individual. BinetSimon scales were successful, in part, because they
incorporated heterogeneous tasks, including definitions of words, designs,
questions of comprehension and spatial visualization tasks. Group intelligence
tests that flourished in such profusion during and after the second world war also
measured various capacities as exemplified the test Army Alpha with its eight
different sections that measure information, arithmetic, practical judgment and
reasoning, among other skills.

Modern tests of intelligence also emulate this historically established pattern by


taking a sample of a wide variety of skills considered important in our culture. In
general, the term test of intelligence refers to a test that produces an overall
summary rating, based on the results of a heterogeneous sample of reagents. Of
course, a test of this kind could also provide a profile of scores of subprueba, but is
overall score generally attracting the most attention.
An aptitude test measures one or more segments clearly defined and relatively
homogeneous capacity; It has two varieties: a single aptitude tests and multiple
aptitude test batteries. Obviously, the first evaluated only capacity, while the latter
provide a profile of scores for various skills.
Aptitude tests are often used to predict success in a profession, course of training
or education efforts. For example, the Seashore measures of musical talent
(Seashore, 1938), a series of tests that cover tone, sound, rhythm, time, timbre and
tonal memory, can be used to identify children who have a potential talent for
music. There is also evidence of skills for the assessment of skills in working in
Office, mechanical ability, manual dexterity and artistic abilities. These are
reviewed in the 8th issue, aptitude tests and factor analysis.
The most common use for the aptitude tests is to determine the admissions to the
University. The majority of students are familiar with the SAT (Scholastic
Assessment Test English); Test evaluation school, formerly known as Scholastic
Aptitude Test; (School aptitude test) of the University entrance examination
Committee. This test contains a Verbal section, highlighting the words knowledge

and understanding of reading, and a section of mathematics, which highlights the


algebra, geometry and insightful reasoning. Indeed, the universities that require
certain minimum scores in the UPS for the purpose of admission ', used the test to
predict academic success.
Achievement tests measure the degree of learning, success or achievement of a
person in a matter. The assumption implicit in most of these tests is that schools
have taught the subject in a direct way. Therefore, the purpose of the test is to
determine the amount of material that the subject has been absorbed or
dominated. In general, the evidence of use have several subtests; for example,
reading, mathematics, language, natural science and social sciences, which are
reviewed in item 8B, group tests of achievement.
The distinction between aptitude and achievement tests is more a matter of using
that content (Gregory, 1994a). In fact, any test can be aptitude, in the sense that
helps predict the future performance. Similarly, any test can be use, in the sense
that it reflects how much has been learned the subject. Therefore, in practice, the
distinction between these two types of instruments is determined by their
respective uses. On certain occasions, an instrument can serve for both purposes,
acting as an aptitude test to predict the future performance, and as evidence of
use, to monitor the past learning.
Creativity tests evaluate the ability of the subject to produce new ideas, insights
and artistic creations that are considered social, aesthetic or scientific value. Thus
creativity measures emphasize the novelty and originality in confusing problems or
in the production of artistic works. Figure 2-1 illustrates a creative solution to a
problem.

Tests of creativity have a chequered history. In the 1960s promoted them as a


useful for intelligence test alternative and been widely used in educational systems
in USA. Educators were especially impressed that creativity tests require divergent
thinking - using a variety of answers to a problem complex or confusing - in
opposition to the convergent thinking - finding a correct solution to a well-defined
problem. For example, a test of creativity could ask the individual under review it
envisaged all things succeed if the clouds had string which hung from them to the
floor (Guilford, 1954). Supposed that the students that might give a large number of
consequences were more creative than his less imaginative fellow. However, some
pscmetras were skeptical, concluding that creativity is just another label for the
applied intelligence (p. ej., McNemar, 1964).
Tests of personality measured traits, qualities or behaviour that determine the
individuality of a person; This information helps to predict behavior. These tests can
be found in many different varieties, including checklists, inventories and projective
techniques such as incomplete sentences and spots of ink (table 2-2).
Interest inventories measure the preference of an individual for certain activities or
topics and, thereby, help to determine the career choice; they are based on the
explicit assumption that patterns of interest determine and, therefore, also predict

the satisfaction with the work. For example, if the person examined has the same
interests that successful and satisfied counter, is considered likely that you will
enjoy the work of an accountant. The assumption that interest patterns predict the
satisfaction with the work is largely confirmed through empirical studies, as it will
be reviewed in the 12th, assessment of interests and work values topic.
There are many types of behavioral procedures to evaluate the antecedents and
consequences of the conduct, including checklists, rating scales, interviews and
formal comments. These methods share a common assumption that the behavior
can be better understood in terms of characteristics defined in a clear way as
frequency, duration, antecedents and consequences. Behavioral procedures tend
to be highly pragmatic in the sense that they are usually interwoven with treatment
approaches.
Neuropsychological tests are used for the assessment of people that you suspect
or are known to have a brain dysfunction. Neuropsychology is the study of cerebroconducta relations. Over the years, the neuropsychlogists have discovered that
some tests and procedures are very sensitive to the effects of brain damage, and
these tests and specialized procedures used to make inferences about location,
extent and consequences of this damage.
Although tests and neuropsychological procedures are useful for reaching a
neurological diagnosis, its main purpose is to assess the strengths and
weaknesses, sensory, motor, cognitive and behavioral by a wide-ranging advanced
training, in order to understand the large amount of test result data.

USES OF EVIDENCE

In general terms, the most common use of psychological tests is to make decisions
about people. For example, educational institutions frequently used tests to
determine the levels of allocation for students and universities evaluated who
should admit, based partially on test scores. State public service systems, federal
and local also depend, largely, of the evidence for the purposes of personnel
selection.
Even the independent professional mainly used the evidence for decision-making.
Examples include the psychologist consultant that uses a personality test to
determine if a Police Department hires a candidate and not to another and the
Neuropsychologist which uses evidence to conclude that a client has suffered brain
damage.

But the simple decision-making process is not the only function of psychological
tests. It is convenient to distinguish five uses of the tests:
. Classification.
Diagnosis and treatment planning.
Self-knowledge.
Evaluation of programmes.
Research.
Often these applications overlap and, occasionally, it is difficult to distinguish from
one another. For example, a test that helps determine a psychiatric diagnosis could
also provide a form of self. These applications will be analysed in greater detail.
The classification term covers a variety of procedures that share a common
purpose: assign a person to a category rather than to another. Of course, the
assignment of categories is not an end in itself, but the basis for differential
treatment of some kind. Thus, the classification may have important effects, such
as grant or restrict access to a specific University or determine if hiring a person for
a job in particular. There are many and varied forms of classification, each of which
emphasizes a particular purpose in the allocation of people categories. It shall
distinguish among assignment, screening, certification and selection.
The allocation is the distribution of people in the different programmes appropriate
to their needs and abilities. For example, often universities use a review of
allocation in mathematics to determine if students should sign up for calculus,
algebra classes or a course of regularization.
Detection refers to tests or procedures quick and easy to identify people who may
have features or special needs. Typically, the psicmetras recognize that screening
will give many erroneous classification result. You are therefore advised to
examiners to perform follow-up with additional instruments testing, before making
important decisions based on screening tests. For example, to identify children with
an extremely exceptional talent in spatial thinking, a psychologist could apply a test
of pen and paper with a duration of 10 minutes, to all children in a school system.
You could then select students whose scores were in the top 10%, in order to apply
a broader test.
Certification and selection have both a quality of approved/disapproved. Pass a
certification examination confers privileges. Some examples include the right to
practice psychology or driving a car. Thus, typically, certification means that a

person has when less a minimum skill in any discipline or activity. The selection is
similar to the certification that confers privileges, such as the opportunity to attend
a university or get a job.
Another use of psychological tests is the diagnosis and treatment planning. The
diagnosis consists of two interlinked tasks: identify the nature and source of the
abnormal conduct of a person and classify the pattern of conduct within the
accepted diagnostic system. Usually the diagnosis is precursor of the remedy or
treatment of personal distress or poor execution.
Often, the psychological tests play an important role in the diagnosis and treatment
planning. For example, intelligence tests are absolutely essential in the diagnosis
of mental retardation. Personality tests are useful for diagnosing the nature and
degree of emotional disorders. In fact, some evidence, such as the MMPI, are
designed with the explicit purpose of enhancing the effectiveness of psychiatric
diagnosis.
The diagnosis should be more than a mere classification, rather than the
assignment of a label. Appropriate diagnosis transmits information - strengths,
weaknesses, etiology and best options for regularization! treatment. Knowing that a
child has received a diagnosis of learning disabilities is useless in general terms;
but knowing also that the same child is in a much lower level in reading
comprehension, is distracted easily and needs help with basic Phonetics, it can
provide an indispensable basis for the planning of treatment.
Psychological tests may also provide a powerful source of self-knowledge. In some
cases, the feedback you receive a person's psychological testing can change their
profession or alter the course of his life. Of course, not all situations of
psychological testing provide a self-knowledge. Perhaps in most cases the client
already knows what will reveal the test results. A college student with a high
functioning, rarely is surprised to discover that his IQ is in the upper range. An
architect is not disconcerting to hear that it has excellent spatial reasoning skills. A
student with a limited capacity for reading, is not usually surprised to receive a
diagnosis of "learning disability".
Another use of psychological tests is the evaluation of educational and social
programmes. You will say more on the subject of the evaluation of educational
programs when analysing the evidence of use in a later chapter. We shall here
confine ourselves in the use of tests for the evaluation of social programmes, which
are designed to provide services that improve the social conditions and community
life. For example, project Head Start is a program with federal funds that supports
national projects of preschool education for disadvantaged children (Cicerelli,
1969;) (McKey and collaborators, 1985). Released in 1965 as an attempt to set

precedents as to provide early childhood development programs for low-income


families, Head Start has provided educational enrichment and health services to
millions of preschool children in high-risk areas.
But, precisely, what impact does the multi-million dollar program Head Start on the
early childhood development? The U.S. Congress wanted to know whether the
programme improved school performance and reduced the failure at the school of
the children registered. But the centres vary depending on the sponsoring
institutions, staff characteristics, coverage, content and objectives, so the effects
are difficult to assess. Psychological tests provide an objective basis to respond to
these questions, which is far superior to the impressionistic or anecdotal reports. In
general, the children participating in Head Start show immediate improvements in
IQ, preparation for school and academic achievement, but these improvements will
dissipate in the next few years (fiaura 2-2).
Up to this point have been analysed the practical applications of psychological
tests to everyday problems, such as the selection of staff, the diagnosis or
evaluation of programmes. In each of these cases, the tests satisfy an immediate
purpose, of a practical nature: assist the examiner to make decisions about people
or programs. But the evidence also represent an important role in the applied and
theoretical branches of behavioral research. As an example of applied research
testing, consider the problem faced by the neuropsychlogists who wish to
investigate the hypothesis that the absorption of lead to low level causes
deficiencies behavior in children. The only feasible way to explore this assumption
is undergoing normal children with exposure to the lead with a battery of
psychological tests to the test. Needleman, Gunnoe, Leviton, Reed, Peresie,
Maher and Barrett (1979) used a set of traditional and innovative evidence to
conclude that the absorption of lead to low level causes decreases in IK,
alterations in the time of reaction and progressive increases of undesirable
behaviour in the classroom. Its conclusions inspired a tumultuous and bitter
exchange of views which do not will be reviewed here (Needieman, and
collaborators, 1990). However, the passions inspired by this study are the
personification of an important issue: academics and people who create public
policy respecting the psychological tests. Why if they would not participate in long
and bitter debate about the validity of the findings of research evidence-based?
Occasionally, tests satisfy a less mundane role by helping scientists investigate
theoretical questions that have no immediate or obvious practical applications. For
example, to analyze the dependence of the perceptual field, Witkin (1949) invented
the evidence of the tilted room and tilted Chair (HISI). The apparatus for these
tests consists of a room box suspended from pivots with pellets, so you can lean in
any degree to the left or right. Inside the room there is a Chair for the subject,

which also can swing independently of the room. The task of the subject is his
body to a position that is perceived as straight. The subjects which depend on the
field aligned in some way their bodies with respect to the room, rather than in
perceived gravity. The independent field subjects are less affected by poorly
aligned room and are more in tune with their internal perceptual signals; in other
words, their perceptual judgments are relatively independent of distorted visual
information. The HISI inspired a lifetime of research on the development of the
personality, but on rare occasions was applied to a practical problem of proof.
SUMMARY

1. A test can be defined as a standardized procedure for taking a sample of


behavior and describe it with categories and scores. In addition, the majority of the
tests have rules or standards on the basis in which the results can be used to
predict other most important behaviors.
2. The evidence always constitute a sample of behavior, never all of those things
that the Examiner looks for measure. For this reason, the results of test always
incorporate some degree of measurement error.
3. In a reference to the standard test, the individual test score is interpreted on
scores by others in the same test. In a test with reference to the criterion, the
emphasis is placed on what the person examined can be done with regard to
educational criteria defined narrowly.
4. The assessment is the process of gathering information about a person and use
it to make inferences about its features or to predict their behavior. Evaluation
incorporates the tests, but is more extensive and may include observations,
interviews and other sources of information.
5. The group tests are appropriate measures of pen and paper to examine large
groups of people at the same time. The individual tests are designed for application
to a single person; Thus, the examiner can observe motivation and other
characteristics of the person examined.
6. An arbitrary, but useful, classification of psychological tests is as follows: of
intelligence, aptitude, achievement, creativity, personality, interests, behavioural
and neuropsychological. The characteristics of these tests are summarized in table
2-1.
7. Five uses of the tests can be distinguished: classification, diagnosis and
planning of treatment, self-knowledge, evaluation of programmes and research.

8. The classification can be decomposed further into: allocation, which is the


classification of people to appropriate programmes; detection, which is the rapid
identification of persons with special needs or characteristics; certification (e.g. to
obtain a driver's license) and selection (e.g., for a University).
9. Access to the psychological tests is controlled strictly, so that only people with
appropriate training may have access to them. Many editors test divided them into
three levels of complexity, which require degrees of expertise on its
implementation.
10. The sources of information on evidence include the series of the Mental
Measuremenis Yearbook ylos volumes of the Critiques Test. Some journals as The
Journal of Psychoeducational Assessment and Assessment also provide
information about psychological tests.

STANDARDS AND RELIABILITY

Generally speaking, the initial results of the tests is a score that is natural as the
total number of claims of personality endorsed in a direction in particular or the
total number of problems solved correctly, perhaps with the addition of points
eligible for quick solutions. In most cases, this initial punctuation is useless in itself.
So that test results are meaningful, the examiners must be able to convert the
initial score to some form of derived score based on the comparison with a
standard-setting group or standardization. Much of the evidence is interpreted by
comparing the individual results with the performance of the policy group; tests
relating to criterion, which is discussed later, are an exception.
A normative group consists of a sample of examined people who are
representative of the population which is heading the test. Consider a test of
knowledge of vocabulary, designed for use with future college students from first
grade. In this case, could collect the results of the performance of a large,
heterogeneous, and national sample of such persons, for standardization
purposes. The essential objective of the standardization of a test is to determine
the distribution of natural scores in a group policy, so that those who developed the
test should be able to publish derived scores known as standards. As you will be
analysed more below, the rules are found in many varieties; for example, percentile
ranks, equivalent by age, grade equivalents or standard scores. In general, the
rules indicate the position which has an individual within the test, in connection with
the performance of other persons of the same age, grade, gender and other
variables.
To be effective, standards must be obtained with great care and be constructed
according to the well-known precepts which are discussed later; What is more, can
become outdated in just a few years, so that the rule, rather than the exception,
must be the periodic establishment of new standards (e.g. case 3-1). The issue of
standards focuses indirectly, first is gives the reader an analysis on natural scores
and then reviewed the statistical concepts essential to an understanding of the
rules.

SCORES NATURAL

The most basic level of information provided by a psychological test is the natural
punctuation. For example, in a personality test, often the natural score is the
number of questions answered at the address encoded for a specific scale.
Capacity tests, typically natural score consists of the number of correctly answered
problems, which often adding the items eligible for fast performance. Thus, the
result initial test is almost always a numeric addition, 17 total items 44 answered in
address encoded on a scale of depression, or 29 of 55 points of natural score
obtained in the subscale of design with cubes of an intelligence test.
However, it should be obvious to the reader that the natural scores alone are
absolutely meaningless. For example, what does knowing that a person solved 12
of 20 questions of abstract reasoning correctly? What does mean that a discussion
has responded at the address encoded 19 of 33 questions from verdadero-falso of
a scale of psychological disposition?
It is even difficult to think about these questions without resorting to comparisons in
a variety or another. You want to know how in that other people have responded to
these tests, if observed scores are high or low in comparison with a representative
group of subjects. In the case of evidence of ability, is curious to know if the
questions were easy or difficult, particularly with regard to the age of the subject.
Indeed, it seems almost trivial that a natural score acquires meaning mainly in
relation to standards, a frame of reference established independently derived from
a sample of standardization. More about the derivation and use of standards will
expand later. For now just know that standards are set in empirical way, through
the application of the test to a large and representative of people sample. Then
compare the score of the examinee with the distribution of scores for the sample of
standardization. Thus, is determined from the rules, if a score is low, average or
high.
Much of the psychological tests is interpreted through the consultation of
standards; as already noted, these instruments are called evidence relating to the
rule. However, reminds the reader that there are other types of instruments. In
particular, the evidence relating to criteria help determine if a person can achieve a
criterion objectively defined as the sum of pairs of numbers with two digits with a
97% accuracy. In the case of the evidence concerning criterion, the rules are not
essential.

There are different types of rules, but they have one thing in common: each one
includes a summary statistical a huge set of scores. So, to understand them, the
reader need to master the elementary descriptive statistics. At this point becomes a
modest break to review the key statistical concepts.

ESSENTIAL STATISTICAL CONCEPTS

Suppose for the moment that you have access to a test of vocabulary of high-level,
appropriate to examine the verbal skills of university professors and other
professionals (Gregory and Gernert, 1990). The test is a questionnaire of multiple
with 30 difficult words like firmament, paradisiacal and melifluo option. A teacher
takes the test and choose the option right for 17 of the 30 words. Question how
compares your score to others with the same academic level. How might it respond
to your question?
A way of responding to the question would be to give a list of natural scores from
the preliminary sample of standardization with 100 teachers representative of his
University (table 3-1). However, even with this relatively small normative sample
(typically thousands of individuals), the list of test scores is an excessive
deployment.
When he confronts us with a set of quantitative data, the natural human tendency
is to the summarize, condense and organize data into meaningful patterns. For
example, in the assessment of the meaning of the score of vocabulary of the
teacher, the reader could calculate the average score of all the sample or set up
the relative position of the punctuation of the teacher (17 correct answers) among
the 100 data found in table 3-1. These and other approaches to the Organization
and summary of quantitative data will be reviewed in the following sections.

DISTRIBUTION OF FREQUENCIES

A simple and useful way to summarize the data is to tabulate a distribution of


frequencies (table 3-2), which is preparing to specify a small number of intervals of
class of equal size, and then determine how many scores fall within each interval.
The sum of the frequencies of all intervals will be equal to N, the total number of
scores in the sample. There is no one simple rule to determine the size of the
intervals; This, obviously, depends on the number of intervals desired. It is common
that the distribution of frequencies has between 5 and 15 class intervals. In the
case of table 3-2 there are 9 intervals of class with 3 scores each. The table shows
that a professor was awarded a rating of 4, 5 or 6; eight teachers were 7, 8 or 9,
and so on.

A histogram provides a graphical representation of the same information contained


in the distribution of frequencies (Figure 3 - the). The horizontal axis represents the
scores grouped into class intervals, while the vertical axis represents the number of
scores that fall within each interval class. In a histogram, the height of a column
indicates the number of scores that occur within that interval. A polygon of
frequencies is similar to a histogram, except that the frequency of the intervals of
class is represented by points rather than columns. Later, independent points are
joined by straight lines (Figure 3-1B).

The graphs shown in figures 3-1 are Visual summaries of 100 data in natural
punctuation of the sample of teachers. In addition to these Visual summaries, it is
also possible to produce numerical summaries by calculating the indices of central
tendency and dispersion.

MEASURES OF CENTRAL TENDENCY

Can you set a single representative of 100 scores of vocabulary score in our
sample? The average arithmetic average or (X) is one of those scores. He is
calculated by summing all the scores and dividing them between N, the number of
scores. Another useful index of central tendency is the median, the score found in
half when you have ordered all the scores. If the number of scores is even, the
median is the average of the two scores by half. In any case, the median is the
point which divides in two distribution, so that half of the cases are above and half
below. Finally, the fashion is simply punctuation that occurs most often. If two
scores have increased frequency of occurrence, we say that the distribution is
bimodal.
The scores listed in table 3-1 average 16.8; the median and fashion are 17. In this
case, the three measures of central tendency are very good consistency. However,
not always the case as well. The media is sensitive to outliers and may be
misleading if a distribution has few unusually high or low scores. Consider the
extreme case where nine others win $10 000.00 and a tenth person WINS $910
000.00. The median for this group of income would be $100 000; However, this
level of income is not typical of anyone within the group. The median income,
placed in $10, 000, is much more representative. Of course, this is an extreme
example, but illustrates a point in general: If a distribution is skewed (i.e. is
asymmetric), the median is a better rate of the central tendency than the average.

MEASURES OF VARIABIUDAD

Two or more distributions of test scores may have the same average and, however,
it is possible that they differ greatly in the degree of dispersion of scores with
respect to the middle (Figure 3-2). To describe the degree of dispersion, a
statistical index that expresses the variability of scores in a distribution is
necessary.

The statistical index of variability that is used most frequently in a group of scores
is the standard, symbolized by deviation to and abbreviated of. From a conceptual
point of view, the reader needs to know that the of reflects the degree of dispersion
in a group of scores. If they are grouped closely about a core value of is small. In
fact, in the extreme case where all scores are identical, the is exactly zero. As a
group of scores more, disperses the of becomes bigger. For example, in Figure 3-2
distribution to would be of more large, (c) distribution, the smallest.

The deviation is, in simple terms, the square of the variance, named 2 root or
standard. The formula for the variance is

Where means "sum of", X represents each individual score, is the average of
the scores and N is the total number of scores. As the name suggests, the variance
is a measure of variability. However, in general, psychologists prefer to report the
standard deviation, which is calculated to obtain the square root of the variance. Of
course, the variance and deviation standard transmit exchangeable information one can be calculated from the other, to raise to the square (the standard deviation
for the variance) or get the square root (of variance to obtain the standard
deviation).

NORMAL DISTRIBUTION

The polygon of frequency that is depicted in Figure 3-lB is highly irregular as to


their form, a typical discovery with data from real-life based on small samples.
What happen with the shape of the polygon of frequency if an increase in the
magnitude of the normative sample and also increase the number of class intervals

to reduce its size? It is possible that, to new individuals are added to the sample,
the distribution of scores is seems increasingly a symmetrical curve, defined
mathematically and Bell, called the normal distribution (Figure 3-3).
Psychologists prefer a normal scores test distribution, even though many other
distributions are theoretically possible. For example, within the sphere of
possibilities is the rectangular distribution of scores of test, an equal number of
results in each class interval. In fact, many laymen might even prefer a rectangular
distribution of test scores, based on the equitable premise that individual
differences would be therefore less pronounced. For example, a greater proportion
of people would obtain scores in the upper range if the psychological tests comply
to a rectangular scores, rather than distribution to a normal distribution.
Then, why psychologists prefer a normal distribution of scores, even to the point of
selecting reactive test to help produce this type of distribution in the sample of
standardization? There are several reasons for this, including the statistical
considerations and empirical evidence. Here will be a brief parenthesis to explain
the fascination with psychometric with normal distributions.
One reason why psychologists prefer the normal distributions is that the normal
curve features mathematical tools that form the basis for various types of statistical
research. Suppose that there is interest in determining if the average of two groups
of people CI were significantly different. It would be appropriate to use t an
inferential statistics as proof for the difference between socks. However, many
statistical inference is based on the assumption that the underlying population of
scores is distributed either normal or very close to this. Thus, in order to facilitate
the use of statistical inference, psychologists prefer that scores of test in the
normal population will follow normal or nearly normal distribution.
Another basis for preferring the normal distribution is its mathematical precision.
Given that the normal distribution is defined precisely in mathematical terms, it is
possible to calculate the area under the different regions of the curve with great
accuracy. Thus, a useful property of normal distributions is that the percentage of
cases that fall within a certain range or beyond a certain value is known exactly.
For example, in a normal distribution, only 2.14% of the scores will exceed the
average in two standard deviations or more (Figure 3-3). In the same way, you can
determine that most of the scores - more than 68% - fall within the range of one of
a split of the media, in any direction.

A third basis for preferring a normal distribution of test scores is that, often, the
normal curve arises spontaneously in nature. In fact, the early researchers were
impressed both with the universality of the normal distribution, which devoted to the
normal curve as a law of nature. Galton (1888) wrote:
It is the Supreme Law of the injustice. Each time that controlled a large sample of
chaotic elements and are ordered according to their magnitude, are constantly
having latent an unsuspected and beautiful forms of regularity.
There is certainly not a "law of nature" to the form that must assume the frequency
distributions. However, it is true that many important human characteristics both
physical and mental are a close approximation to the normal curve when they
plotted samples large and heterogeneous measures. For example, a well-known
find is a curve of almost normal distribution for the physical characteristics such as
weight, height and size of the brain at the time of the birth (Jensen, 1980).
It is also an approximately normal distribution in the case of numerous mental
tests, even with those that were built entirely without reference to the normal curve.
To illustrate this point, will be referred to the first tests designed before the fixing
current psychometric with the normal distribution. Wechsler (1944) chose mainly,
the items of the scale of intelligence WechslerBellevue original basis, in the variety
of types of reactive, without paying attention to the resulting distribution of scores.
In fact, it was considered that the belief that mental measures must be distributed
by themselves, according to the normal curve was "wrong". However, when plotted
the distribution of CI totals of his test, the predictable almost normal distribution
(Figure 3-4). Lindvall (1967) found the same when it drew the graph of the data on
the Pintner Ability Test (test capacity Pintner) in 1923. Therefore, is that even in the
absence of psychometric settings, the distribution of scores of a mental test
samples of standardization approaches typically a normal curve.

ASYMMETRY

The asymmetry refers to the symmetry or asymmetry of a distribution of frequency.


If test scores are grouped towards the lower end of the scale, it is said that the
distribution has a positive asymmetry. The opposite case, when test scores are
grouped into the upper end of the scale, says that the distribution is asymmetrical
negatively (Figure 3-5).

In psychological tests, asymmetric distributions mean, generally speaking, who


developed the test has included very few easy items or very few items difficult. For
example, when the scores in the sample of standardization accumulate at the
bottom (positive asymmetry), likely containing the test very few items easy to
discriminate effectively at this end of the scale. In this case, individuals who get
scores of zero or near zero, may in fact differ as regards the measure dimension.
However, the test cannot detect these differences, given that most of the items are
too difficult for these people. Of course, too, the opposite pattern. If scores are

grouped at the top (negative asymmetry), it is likely that the test contains very few
items difficult to achieve effective discrimination at this end of the scale.
When the initial research indicates that an instrument produces skewed results in
the sample of standardization, usually, authors reformed the test at the level of the
items. The most direct solution is to add items or modify existing ones, so that the
test is more reactive easy (to reduce the positive asymmetry) or more difficult (to
reduce the negative asymmetry). If it is too late to revise the instrument, the author
of the test can be used a statistical transformation to help produce a more normal
distribution of scores (see later). However, the preferred strategy is to review the
evidence, so that the asymmetry is minimal or non-existent.

TRANSFORMATION OF THE NATURAL SCORES

Give meaning to the test results is largely a matter of transforming natural scores in
most interpretable and useful information. In the previous analysis on normal
distributions, hinted the transformations to show the way in which knowledge about
the media and the diversion standard of these distributions can help to determine
the relative position of an individual score. In this section it will continue with this
topic in a more direct manner, to submit the formal requirements for various types
of transformations of natural scores.

Potrebbero piacerti anche