La Medición de Lo Psicológico

Psicothema
ISSN: 0214-9915
psicothema@cop.es
Universidad de Oviedo
Espaa
Muiz, Jos
La medicin de lo psicolgico
Psicothema, vol. 10, nm. 1, 1998, pp. 1-21
Oviedo, Espaa
Disponible en: http://www.redalyc.org/articulo.oa?id=72710101
Cmo citar el artculo

Nmero completo
Sistema de Informacin Cientfica
Ms informacin del artculo Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Pgina de la revista en redalyc.org Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Psicothema, 1998. Vol. 10, n 1, pp. 1-21
ISSN 0214 - 9915 CODEN PSOTEG
LA MEDICIN DE LO PSICOLGICO
Jos Muiz
Se analiza la problemtica implicada en la medicin de las variables psicolgicas,

y se comentan las soluciones aportadas por los diferentes enfoques psicomtricos. En pri-
mer lugar, se subraya cmo las dificultades mayores para medir lo psicolgico surgen de
esa naturaleza especial que tiene lo psicolgico: una banda interactiva acotada por una ba-
se neurobiolgica y un entorno sociocultural. Estas dificultades no fueron bice para que
se haya ido afianzando en psicologa una medicin rigurosa, cuyos orgenes pueden ras-
trearse en los trabajos psicofsicos iniciados por Weber y Fechner y que se continan con
el escalamiento psicolgico, a partir de los trabajos pioneros de Thurstone. Otra gran l-
nea de desarrollo de la medicin sigue el rail de la teora de los tests, cuyos inicios ms
rigurosos se ubican en el modelo lineal clsico propuesto por Spearman. A la vez, los te-
ricos de la medicin investigan los fundamentos de sta, destacando dos lneas de avan-
ce: la aproximacin clsica, iniciada por Stevens, y el enfoque representacional, surgido
a partir de los aos sesenta. Se hace especial hincapi en el gran avance que ha supuesto
para la psicometra la aparicin de la Teora de Respuesta a los Items, enfoque que viene
a dar solucin a determinados problemas de la medicin que no encontraban una solucin
apropiada dentro del marco clsico. Adems, la teora de respuesta a los tems ha genera-
do nuevos avances tecnolgicos para el anlisis y construccin de los tests, entre los que
cabe destacar los Tests Adaptativos Computerizados y la Funcin de Informacin. Tam-
bin se comentan los problemas de la validez y el uso de los tests en la prctica.
Psychological measurement. This paper analyzes the principle issues involved in

the measurement of psychological variables along with various psychometric solutions
to these problems. First, emphasis is placed on the difficulties that arise in psychologi-
cal measurement due to the unique characteristics inherent in psychological events. The-
se intrinsic limitations, however, were not an obstacle to the development of a rigorous
empirical measurement tradition in psychology. This tradition originates in the psy-
chophysical works of Weber and Fechner as well as the classical test theory formulated
by Spearman. Moreover, two approaches to measurement theory, the classic one propo-
sed by Stevens and the representational view, investigate the logic and foundations of
measurement. This article pays special attention to the psychometric advances brought
by Item Response Theory, which resolves some of the problems not appropriately sol-
ved within the framework of classical test theory. Item response theory serves as the ba-
sis for new technologies to build and assess psychological and educational tests. Finally,
test validity and test use are discussed.
Correspondencia: Jos Muiz

Universidad de Oviedo. Facultad de Psicologa
Plaza de Feijoo
33003 Oviedo (Spain)
E-mail: jmuniz@sci.cpd.uniovi.es
1
A grandes rasgos puede decirse que el que sern suficientes para comprender por
objetivo de la Psicologa cientfica es el es- qu a veces la tecnologa de la medicin
tudio de la conducta humana y las leyes que psicolgica se aleja de la metodologa gene-
la rigen. Como ocurre con cualquier otra re- ral de la medicin utilizada por las ciencias
alidad, para una comprensin adecuada de llamadas duras.
la conducta humana hay que entender tanto
sus aspectos cualitativos como cuantitati- Caracterizacin de lo psicolgico
vos. A continuacin tratar de exponer los
aspectos fundamentales implicados en la Cules son las caractersticas esenciales
cuantificacin y medicin de las distintas que definen a lo psicolgico como campo de
variables y factores que manejan los psic- estudio? La conducta humana fermenta y se
logos, tanto en sus investigaciones como en desarrolla en una estrecha banda acotada por
la prctica profesional. No se trata de una una base neurobiolgica y un entorno socio-
exposicin tcnica y exhaustiva, la situa- cultural. El yo psicolgico, la individuali-
cin y el tiempo no lo permiten, pero s de dad, la consciencia, y por ende la conducta,
subrayar las lneas centrales de la medicin surgen de la interaccin entre la estimula-
de los rasgos psicolgicos y de los instru- cin ambiental y nuestra constitucin biol-
mentos ms utilizados para ello, los tests. gica, pero no se explican ni se agotan en nin-
Medir es inherente a todas las ciencias, y guno de estos dos polos, son otra cosa. Pre-
la Psicologa no es una excepcin. Si bien cisamente es se el campo interactivo en el
los principios generales de la teora de la me- que se mueven los psiclogos, por eso no
dicin son aplicables aqu como en el resto son ni bilogos, ni neurlogos, ni socilo-
de los campos cientficos, no es menos ver- gos, ni filsofos, son psiclogos. Cuando
dad que las peculiaridades de los objetos de desde la psicologa se explica un determina-
estudio de algunos de estos campos imponen do fenmeno, ya sea una neurosis, una fobia,
determinadas especificidades a la lgica ge- el fracaso escolar o la inadaptacin laboral,
neral, y se es el caso de lo psicolgico. se tienen en cuenta tanto los aspectos neuro-
El fin general de toda teora de la medi- lgicos como los culturales, sociales y edu-
cin, trtese de la ciencia que se trate, es es- cativos, pero su explicacin no se agota ni se
timar los errores aleatorios de las medicio- reduce a ninguno de esos mbitos. Natural-
nes, pues toda medicin, mayor o menor, mente, cuanto ms avancen las ciencias afi-
conlleva un cierto error. Pero seguramente nes en las que se apoya la psicologa tanto
estarn ustedes de acuerdo conmigo en que, mejor, pero eso no significa abogar por un
por ejemplo, no es lo mismo medir la dis- reduccionismo biolgico o cultural. Los
tancia entre Oviedo y Gijn, cosa de la que avances en el conocimiento del cerebro ayu-
se ocupan nuestros colegas fsicos, que me- dan sin duda a entender la psique y la con-
dir la distancia entre los ovetenses y los gi- ducta humanas, pero es ingenuo y errneo
joneses, entre sus actitudes, valores, perso- pensar que, cun glndula, el cerebro segre-
nalidad, etc., labor que ocupa a psiclogos, ga la psique, sencillamente no es as. Algo
socilogos, antroplogos y otras ciencias parecido, salvando las distancias, a lo que
sociales. Por tanto, para entender cabalmen- ocurre con el software de los ordenadores,
te los problemas a los que se enfrentan los que est ntimamente relacionado con el
psiclogos al medir sus variables de estudio hardware, pero ni se explica ni se reduce a
es necesario tener en mente las singularida- l. Es que alguien en su sano juicio cree que
des de su campo de estudio, de lo psicolgi- podra entender todo lo que hacen los orde-
co. Dir dos palabras sobre ello, que creo nadores slo estudiando su hardware? Evi-
2 Psicothema, 1998
JOS MUIZ
dentemente, no, lo cual tampoco significa tervencin tan variados como la Clnica,
que pueda prescindir de l. Trabajo, Educacin, Deporte, Calidad de Vi-
Igual de errneo es pensar que la con- da, Gerontologa, Seguridad Vial, etc.
ducta humana venga completamente deter- Cada una de esas variables y campos de
minada por el entorno cultural y social; aplicacin tiene su problemtica especfica,
afortunadamente pasaron los tiempos en los que sera vano intentar tratar aqu, sin em-
que aprendices de ingenieros sociales con- bargo, existen unos problemas generales en
fiaron en hallar un hombre nuevo con slo la medicin de lo psicolgico que son inva-
modificar las circunstancias, qu ingenui- riantes a todos los campos y variables men-
dad, hoy sabemos de los nefastos resultados cionadas. En todos los casos, por un lado,
y del alto precio pagado. El ambiente exter- hay que estimar la cuanta de los errores co-
no est ah, y es una variable clave en la mo- metidos al medir, y, por otro, hay que garan-
dulacin de la conducta humana, pero nun- tizar que la medicin no es balad, que tiene
ca es el responsable final de sta, nunca la entidad explicativa y predictiva. En otras pa-
determina completamente, el nico respon- labras, hay que comprobar que las medicio-
sable es la persona. Si admitisemos lo con- nes son fiables y vlidas. Adems de estas
trario, estaramos negando de plano la liber- propiedades que deben de reunir todas las
tad, y, eliminada sta, no queda lugar para la mediciones empricas, los tericos de la me-
dignidad y la responsabilidad, que brotan dicin se ocupan de analizar y justificar de
directamente de ella. forma rigurosa el estatus mtrico de las me-
Pues bien, en este mbito peculiar e inte- diciones, contemplado a la luz de los avan-
ractivo, descrito a grandes rasgos, que carac- ces de la teora de la medicin. De esos tres
teriza a lo psicolgico, no resulta sencillo grandes aspectos generales de la medicin,
medir con rigor en sentido clsico, acorde fiabilidad, validez y fundamentos tericos,
con los axiomas de Hlder (1901) y las pro- es de lo que nos ocuparemos aqu, pero an-
puestas ortodoxas de Campbell (1920, 1921, tes de entrar en ellos djenme que diga unas
1928, 1938, 1940). Sin embargo, los psic- palabras sobre cmo empez todo, sobre los
logos miden sus variables y desarrollan so- orgenes de la medicin psicolgica.
fisticados instrumentos a tal efecto, los ms
conocidos de los cuales para el pblico son Inicios de la medicin
los tests, si bien los especialistas utilizan una
gama mucho ms amplia en sus investiga- Los primeros intentos de medir con rigor
ciones e intervenciones. Y miden en campos los atributos psquicos tuvieron lugar a fina-
muy diversos, segn su rea de especiali- les del siglo pasado en los laboratorios ale-
zacin, que van desde los procesos ms b- manes, de la mano de Fechner (Fechner,
sicos, tales como los Tiempos de Reaccin, 1860/1966), pionero de las investigaciones
Potenciales Evocados (Paz y Muiz, 1989), sobre las relaciones entre la estimulacin f-
Tiempo de Inspeccin, Conductancia de la sica y las sensaciones psicolgicas produci-
piel, etc., a los rasgos de personalidad, co- das por sta. Para estudiar la conexin entre
mo Neuroticismo, Depresin, Psicoticismo, ambos continuos, el fsico y el psicolgico,
Autoconcepto, por citar algunos, o aspectos Fechner tena que medir cada uno de ellos y
cognoscitivos, como la Inteligencia, Memo- luego establecer la relacin correspondiente.
ria, Rapidez Perceptiva, Comprensin Ver- Si bien medir los estmulos fsicos, tales co-
bal, etc., o variables ms conectadas con la mo el peso, el sonido, la longitud, etc., no
esfera sociocultural como las actitudes y va- supona ningn problema, se encontr con
lores. Y todo ello aplicado a campos de in- que no dispona de mtodos para medir rigu-
Psicothema, 1998 3
rosamente las sensaciones, para lo cual desa- La tradicin psicofsica llega hasta nues-
rroll todo un conjunto de ellos, hoy clsi- tros das, constituyendo un campo con gran-
cos, denominados mtodos psicofsicos indi- des implicaciones aplicadas, pinsese, por
rectos (Baird, 1997; Baird y Noma, 1978; ejemplo, en la importancia de conocer con
Blanco, 1996; Falmage, 1985; Fechner, precisin los efectos del ruido, la luminosi-
1966; Gescheider, 1985; Muiz, 1991). Ba- dad, sabores, olores, etc., sobre nuestro sis-
sndose en los trabajos previos de Weber, tema perceptivo. En la actualidad gran par-
Fechner estableci que la funcin que una te de las investigaciones psicofsicas se lle-
la estimulacin fsica con las sensaciones van a cabo dentro del marco general de la
psicolgicas suscitadas obedece a una fun- Teora de la Decisin y de la Teora de la
cin logartmica. Ello quiere decir que al au- Deteccin de Seales (Egan, 1975; Green y
mentar la estimulacin fsica geomtrica- Swets, 1966; Swets, 1996), un modelo desa-
mente las sensaciones lo hacen aritmtica- rrollado originariamente por los ingenieros
mente. O, en otras palabras, que si bien al para la deteccin de seales con ruido de
principio al aumentar la estimulacin fsica fondo, y que se ajusta bien a los humanos
aumenta rpidamente las sensaciones, stas considerados como perceptores de seales.
van necesitando cada vez mayor incremento El sistema perceptivo humano es muy
de la estimulacin fsica para experimentar peculiar, y la Teora de la Deteccin de Se-
algn aumento. La misma ley haba sido ob- ales permite estudiar su funcionamiento
servada con anterioridad en el campo de la bajo diferentes condiciones. El nuestro no
economa entre el crecimiento de la fortuna es un sistema perceptivo neutral, pues
y el placer experimentado por el afortunado. aunque con determinados invariantes, viene
Este campo de estudio iniciado por Weber y influido en gran medida por las consecuen-
Fechner se denomina Psicofsica, pues, co- cias de lo percibido, por la matriz de pa-
mo su nombre indica, trata de poner en co- gos asociada a la situacin perceptiva, es
nexin las sensaciones psicolgicas con la decir, el mismo sistema perceptivo acta de
estimulacin fsica que las suscita. La ley de distinta forma en funcin de la situacin
Fechner ha sido revisada por la Nueva Psi- perceptiva. Esta versatilidad permite inves-
cofsica (Stevens, 1961, 1975), que defiende tigar y mejorar situaciones aplicadas de to-
que la funcin que une ambos continuos, el do tipo en las que los humanos tienen que
fsico y el psicolgico, no es logartmica si- tomar decisiones, siendo clave, por ejem-
no potencial. Para someter a prueba su hip- plo, para una racionalizacin y optimiza-
tesis han propuesto todo un conjunto de nue- cin de las condiciones de trabajo. Pinsese,
vos mtodos psicofsicos alternativos a los sin ir ms lejos, en situaciones tales como,
de Fechner, denominados directos. bajo qu condiciones se maximiza la per-
cepcin de piezas defectuosas por un traba-
jador de control de calidad?, o cules son
Leyes Psicofsicas las causas de la accidentabilidad de los tra-
bajadores en puestos aislados? Esas pregun-
Funcin Logartmica (Fechner): S = C log E tas y otras slo tienen respuesta correcta
Funcin Potencial (Stevens): S = K Eb cuando se conoce el funcionamiento del sis-
tema perceptivo humano bajo determinadas
donde: condiciones.
S: es la medida de la sensacin producida Nuestras percepciones vienen con fre-
E: es la medida de la estimulacin fsica cuencia condicionadas por sesgos cuyo es-
C, K y b son constantes a determinar tudio es sumamente importante, tanto a ni-
4 Psicothema, 1998
JOS MUIZ
vel terico como aplicado, para entender el de sumo inters. Pocos productos salen hoy
comportamiento humano. Les citar un al mercado sin un estudio concienzudo de
ejemplo clsico de uno de estos sesgos, ima- las actitudes de los consumidores hacia
gnense una ciudad en la que hay dos hospi- ellos, y es que la relacin calidad/precio no
tales, uno grande, en el que nacen al mes lo es todo, as que no conviene confiar cie-
unos doscientos bebs, cien nios y cien ni- gamente en nuestro querido refrn asturiano
as aproximadamente, y otro pequeo, en el de que el buen pan en la masera se vende.
que slo nacen veinte al mes, diez nios y Seguramente todos ustedes tienen alguna
diez nias, ms o menos. Si les digo que el experiencia de primera mano de lo difcil
ltimo mes en uno de los dos hospitales to- que resulta que las personas cambien sus ac-
dos los nacidos fueron nias, de qu hospi- titudes, y es que estn formadas por una tra-
tal se trata? del grande o del pequeo? No ma en la que informacin, razn y emocin
hace falta que contesten aqu en pblico, pe- se entretejen de forma compleja. La razn y
ro s de buena tinta que una parte impor- la informacin son importantes para que se
tante de ustedes por una curiosa razn, bien produzca un cambio de actitudes, pero rara-
estudiada por los psiclogos, pens que se mente son suficientes sin apelar a los aspec-
trataba del hospital grande, cuando en reali- tos emocionales. Por ejemplo, dada la infor-
dad es obvio que se trata del pequeo. Si en macin de la que disponemos hoy acerca de
un caso tan claro como ste ya hay proble- los efectos cancergenos del tabaco sobre
mas, qu no ocurrir en nuestra vida dia- los que fuman y los que les rodean, nadie
ria? Por ejemplo, por qu los vendedores medianamente informado debera osar tocar
de lotera agotan rpidamente los nmeros un cigarrillo, sin embargo la realidad es
bonitos y les cuesta tanto vender los fe- muy otra. Los psiclogos que disean las
os, si es obvio que la probabilidad de que campaas antitabaco saben esto y en sus
salgan es exactamente la misma para todos? anuncios tratan ms bien de tocar la fibra
Seguramente dirn algunos de ustedes, es sensible que de introducir nueva informa-
que la gente no es lgica, y naturalmente cin en el sistema. De nuevo aqu observa-
tienen razn, la gente no es lgica, y es que mos que la conducta se aleja de la lgica li-
la conducta humana responde a las leyes de neal, y es que como nos record certera-
la psicologa y no de la lgica, por eso se mente Kant, nada estrictamente recto puede
ocupan de ella los psiclogos y no los ex- hacerse del torcido leo del que estn he-
pertos en lgica. chos los humanos.
Otro campo de la medicin psicolgica Esta es a grandes rasgos una de las vas
en la que desembocan estos estudios psico- por las que ha entrado la medicin en psico-
fsicos es la medicin de las actitudes, en loga, y cuyo objetivo es el escalamiento de
cuyo caso desaparece el continuo fsico los estmulos, bien sea con referente fsico
(Thurstone, 1927, 1928; Summers, 1970; (Psicofsica), o sin l (Actitudes). La otra
Triandis, 1971). Medir actitudes es averi- gran lnea de progreso de la medicin, mu-
guar las preferencias de las personas hacia cho ms conocida para el pblico en general
determinados estmulos, bien sean objetos, es el escalamiento de los sujetos, es decir,
ideas o conceptos. Las actitudes constituyen los tests. El origen de stos hay que ubicar-
un entramado clave para entender a los hu- lo en las primeras pruebas sensomotoras uti-
manos, son el cristal a travs del que mira- lizadas por Galton (1822-1911) en su famo-
mos el mundo. Medir su fuerza, conocer su so laboratorio antropomtrico de Kensing-
formacin, su relacin con la conducta y la ton. El primero en utilizar la palabra test
manera de cambiarlas constituyen campos mental ser James McKeen Cattell (1860-
Psicothema, 1998 5
1944) en su artculo Mental Tests and Me- diciones para que su uso sea el adecuado?
asurements publicado en la revista Mind en Como ya se ha sealado, bsicamente tres
1890. Un giro radical lo constituye la esca- propiedades: que sean fiables, que sean v-
la individual construida por Binet y Simon lidas, y que estn bien fundamentadas teri-
(1905) para la medicin de la inteligencia, camente. Veamos cada una de ellas.
al introducir tareas de carcter ms cognos-
citivo dirigidas a evaluar aspectos como el Fiabilidad
juicio, la comprensin y el razonamiento,
que segn los autores constituan los com- Bajo la denominacin genrica de fiabili-
ponentes fundamentales del comportamien- dad se agrupan todo un conjunto de mto-
to inteligente. Pero la verdadera eclosin de dos y tcnicas utilizadas por los psiclogos
los tests se producir tras la primera guerra para estimar el grado de precisin con el
mundial. Cuando Estados Unidos decide que estn midiendo sus variables. Hace ms
entrar en la guerra no dispone de ejrcito, y de cuarenta aos, Robert L. Thorndike em-
la seleccin y clasificacin de los soldados pezaba su famoso trabajo sobre fiabilidad
se lleva a cabo confiando en los test Alfa y con estas palabras: Cuando medimos algo,
Beta, diseados a tal efecto por un comit bien sea en el campo de la fsica, de la bio-
dirigido por el psiclogo Yerkes. Puesto que loga o de las ciencias sociales, esa medi-
los aliados ganaron la guerra, no sabemos cin contiene una cierta cantidad de error
que hubiera pasado con los tests si la hubie- aleatorio. La cantidad de error puede ser
ran perdido, no pareca que los tests hubie- grande o pequea, pero est siempre presen-
sen hecho un mal trabajo, de modo que la te en cierto grado (Thorndike, 1951, pg.
industria y las instituciones se volcaron en 560). Sus palabras siguen siendo tan ciertas
su uso para todo tipo de fines, especialmen- hoy como entonces, pues en lo esencial los
te en la seleccin de personal y en la orien- problemas de la medicin cambian poco,
tacin profesional y educativa. Su uso masi- aunque los instrumentos de medida vayan y
vo se extiende hasta nuestros das, siendo vengan. Ahora bien, cmo estiman los psi-
difcil encontrar a alguien en las sociedades clogos el grado de error que hay en sus me-
desarrolladas que primero o despus no se diciones? Veamos la lgica general.
tenga que enfrentar a ellos. Cuando un psiclogo aplica un test, una
En resumen, puede decirse que las dos escala o cualquier otro instrumento de me-
grandes avenidas de entrada de la medicin dida a una persona, obtiene una cierta pun-
en Psicologa fueron a travs del escala- tuacin, que por razones obvias se denomi-
miento de estmulos (Psicofsica y Actitu- na puntuacin emprica. Cmo estar segu-
des) y escalamiento de sujetos (Tests). Co- ros de que esa puntuacin obtenida es la que
mo casi toda particin, sta tiene tambin verdaderamente le corresponde a esa perso-
algo de arbitrario, pues la mayora de los na en esa prueba? En otras palabras, cun-
modelos podran generalizarse tanto a est- to error afecta a esa puntuacin emprica?
mulos como a sujetos, si bien no faltan pro- Responder estas preguntas es el objetivo de
blemas especficos que justifiquen la divi- la fiabilidad. Visto as de frente, parecera
sin (Muiz y Hambleton, 1992). Ambos que tales interrogantes son incontestables,
acercamientos tendrn sus sntesis ms cl- pues, al fin y al cabo, el error cometido, sea
sicas en los textos de Gulliksen (1950) y el que sea, est diluido en la puntuacin em-
Torgerson (1958) respectivamente. prica y no hay manera de separarlo. Efecti-
Ahora bien, se mida de un modo u otro, vamente, no la hay directamente, como ocu-
qu condiciones deben de reunir esas me- rre tambin con los compuestos qumicos.
6 Psicothema, 1998
JOS MUIZ
Por ejemplo, sabemos que el agua del mar prueba, que llamaremos V, y un cierto error
contiene cierta cantidad de sal, pero para es- e. Es decir, formalmente el modelo se po-
timar con precisin la cantidad de sal habr dra expresar as:
que buscar alguna tcnica indirecta que per-
mita la separacin. Esas tcnicas en el caso X=V+e (1)
de los tests las proporcionarn los estudios
de fiabilidad. Ntese que este problema de Donde X es la puntuacin emprica obte-
estimar los errores de medida es comn a nida, V la puntuacin verdadera y e el error
todas las ciencias, pudiendo decirse que la de medida.
lgica seguida tambin lo es, si bien la na- Para poder derivar las frmulas necesa-
turaleza de las variables medidas en las dis- rias para el clculo de la fiabilidad, Spear-
tintas ciencias impone ciertas peculiarida- man aade al modelo tres supuestos y una
des. Por ejemplo, cuando pesamos un obje- definicin. Asume que 1) la verdadera pun-
to y obtenemos un cierto valor, o aplicamos tuacin de una persona en una prueba sera
un test a un sujeto y saca una determinada la que obtendra como promedio si se le
puntuacin emprica, o medimos la distan- aplicase infinitas veces la prueba [V=
cia entre dos ciudades, en los tres casos se E(X)], 2) no hay relacin entre la verdadera
nos plantea la duda de cunto error estamos puntuacin de las personas y los errores de
cometiendo. Pues bien, para el caso de las medida (ve= 0), y 3) los errores de medida
variables psicolgicas, la propuesta pionera de los tests no estn relacionados [(ej,ek)=
y ms fructfera para la estimacin de los 0]. Adems, define el concepto de tests pa-
errores fue hecha ya a principios de siglo ralelos como aqullos que miden lo mismo
por Spearman (1904, 1907, 1913) y la de- aunque utilizando distintos tems. Todo lo
nominamos hoy Modelo Lineal Clsico, cual puede expresarse del siguiente modo:
dando origen a todo un enfoque general so-
bre los tests que suele conocerse como Teo-
ra Clsica de los Tests. A partir sobre todo Modelo Lineal Clsico
de los aos 60-70 aparecen nuevos modelos
para abordar la estimacin de los errores de Modelo: X= V+e
medida, agrupndose los ms utilizados ba- Supuestos: V= E(X)
jo la denominacin genrica de Teora de ve= 0
Respuesta a los Items. (ej,ek)= 0
Definicin: Dos tests j,k se consideran para-
Modelo Clsico lelos si: Vj = Vk y 2ej= 2ek
La propuesta de Spearman para estimar

los errores cometidos al medir es un claro A partir del modelo, mediante los desa-
ejemplo de cmo a partir de un sencillo mo- rrollos correspondientes, que aqu se omi-
delo y de unas asunciones bsicas es posible ten, va a ser posible llegar a frmulas ope-
deducir las frmulas ms complejas para la rativas para la estimacin de los errores (e),
estimacin de los errores de medida. y por ende de las puntuaciones verdaderas
En primer lugar, Spearman considera que (V) de los sujetos. Todas estas deducciones
la puntuacin emprica de un sujeto en una necesarias son lo que conforma el corpus
prueba, puntuacin que llamaremos X, psicomtrico de la teora clsica de los tests,
consta de dos componentes, la puntuacin cuya formulacin se recoge en textos tan
que verdaderamente le corresponde en esa clsicos como los de Gulliksen (1950) o
Psicothema, 1998 7
Lord y Novick (1968). Exposiciones siste- (1945), Flanagan (1937), KR20 y KR21 (Ku-
mticas pueden consultarse tambin en der y Richardson, 1937), o el popular Coefi-
Guilford (1936, 1954), Magnuson (1967), ciente Alfa (Cronbach, 1951), que expresa la
Allen y Yen (1979), Thorndike (1982), fiabilidad del test en funcin de su consis-
Crocker y Algina (1986) o Traub (1994). En tencia interna. Una forma alternativa pero
castellano vase, por ejemplo, Yela (1984), equivalente de expresar la fiabilidad de los
Santisteban (1990), Garca-Cueto (1993) o tests es mediante el Error Tpico de Medida,
Muiz (1994, 1996a). o fiabilidad absoluta.
Mediante los desarrollos correspondien- Se utilice el ndice que se utilice, y en ca-
tes se obtiene la frmula del Coeficiente de da caso hay razones tcnicas para utilizar
Fiabilidad (xx) que permite estimar la uno u otro, lo importante es que toda medi-
cuanta de los errores cometidos al medir. cin lleva asociado un grado de precisin
Su frmula expresa la cantidad de varianza que es empricamente calculable. Tal vez al-
de verdadera medida (2v) que hay en la guno de ustedes se pregunte por qu se co-
emprica (2x), o en trminos de la Teora de meten errores al medir, o, en otras palabras,
la Informacin, la proporcin seal-ruido cules son las fuentes del error ms habitua-
del proceso de medicin: les en la medicin psicolgica. Es este un
asunto exhaustivamente estudiado por los
xx= 2v/2x (2) especialistas, que han llegado a clasificar
con todo detalle las posibles fuentes de error
Lo ideal es que toda la varianza emprica (Cronbach, 1947; Schmidt y Hunter, 1996;
se deba a la verdadera, lo cual ocurrira Stanley, 1971; Thorndike, 1951), si bien
cuando 2v= 2x, en cuyo caso la fiabilidad simplificando bastante puede decirse que
es perfecta, la prueba mide sin ningn error. son tres las grandes avenidas por las que pe-
El clculo emprico del valor del coeficiente netra el error aleatorio en la medicin psi-
de fiabilidad no se puede llevar a cabo me- colgica: a) la propia persona evaluada, que
diante la frmula (2), que es meramente conviene con determinado estado de nimo, ac-
ceptual; la estimacin emprica puede obte- titudes y temores ante el test, ansiedad, o
nerse utilizando varias estrategias, entre las cualquier tipo de evento previo a su evalua-
que destacan: a) la correlacin entre dos for- cin, todo lo cual puede influir en la cuanta
mas paralelas del test, b) la correlacin entre de los errores, b) el instrumento de medida
dos mitades aleatorias del test corregida me- utilizado, que con sus caractersticas espec-
diante la frmula de Spearman-Brown, y c) ficas puede influir diferencialmente en los
la correlacin entre dos aplicaciones del evaluados, y c) la aplicacin, correccin e
mismo test a una muestra de personas. Cada interpretacin hecha por los profesionales.
uno de estos procedimientos tiene sus pros y Si todo se hace con rigor se minimizarn los
sus contras y se ajustan mejor a unas situa- errores en todo el proceso, y es precisamen-
ciones que a otras. En todos los casos el va- te de lo que nos informa la fiabilidad de la
lor obtenido es un valor numrico entre 0 y prueba, de los errores cometidos. Una vez
1, indicando a medida que se acerca a 1 que conocida la cuanta de estos errores, a partir
el test est midiendo con precisin. Dado de la puntuacin emprica resulta sencillo
que la frmula (2) es conceptual, no operati- estimar a cierto nivel de confianza elegido
va, en literatura abundan las frmulas clsi- la puntuacin verdadera de las personas en
cas para la obtencin del valor emprico del una prueba. Si la fiabilidad de una prueba es
coeficiente de fiabilidad, entre las que cabra perfecta (xx=1), las puntuaciones empri-
destacar las de Rulon (1939), Guttman cas y las verdaderas de las personas en di-
8 Psicothema, 1998
JOS MUIZ
cha prueba coincidirn, pero si no es perfec- cobertura terica a la mayora de las aplica-
ta las puntuaciones verdaderas de las perso- ciones de los tests, y puede decirse que, con
nas en el test se estiman mediante un inter- sus luces y sus sombras, el balance es clara-
valo confidencial en torno a la puntuacin mente positivo (Muiz, 1994). Ello no quie-
emprica. La implicacin prctica inmediata re decir que no hubiese ciertos problemas y
de todo ello es que si se toman decisiones ciertas reas en las que el enfoque clsico
importantes basadas en las puntuaciones de mostrase limitaciones. Las dos ms impor-
las personas en los tests hay que asegurarse tantes, en las que no voy a entrar aqu, se re-
de que stos tienen una fiabilidad elevada. fieren 1) a la ausencia de invarianza de las
Ahora bien, el modelo lineal clsico in- mediciones respecto del instrumento utiliza-
forma de la cuanta de los errores, pero no de do, es decir, bajo el modelo clsico cuando
la fuente originaria de stos, que asume ig- se utilizan tests distintos para evaluar la
nota y aleatoria. Otros muchos modelos se misma variable no se obtienen directamente
han ocupado de desglosar el error y ofrecer resultados en la misma escala, por lo que
as no slo la fiabilidad, sino tambin el ori- hay que proceder a equiparar las puntuacio-
gen de los errores (Bock y Wood, 1971; No- nes obtenidas. Y 2) a la dependencia que las
vick, 1966; Sutcliffe, 1965), pero su comple- propiedades del instrumento utilizado tie-
jidad tcnico-formal y las complicaciones nen de las propias personas evaluadas, lo
operativas introducidas, en relacin con las cual no es deseable dentro de un marco ri-
ventajas ofrecidas, ha hecho que ninguno ha- guroso de medicin.
ya cuajado en la prctica. Mencin especial Aparte de estas dos limitaciones de fon-
al respecto merece la Teora de la Generali- do, en lo que concierne al clculo de la fia-
zabilidad propuesta por Cronbach y colabo- bilidad de los tests, el problema que no en-
radores (Cronbach, Rajaratnam, Glesser, contraba una respuesta adecuada dentro del
1963; Glesser, Cronbach y Rajaratnam, marco clsico era el de la dependencia entre
1965). Mediante el uso de complejos diseos la cantidad de error y el nivel de las perso-
de Anlisis de Varianza, este modelo permi- nas en la variable medida. Me explico. Den-
te hacer estimaciones sobre el tamao de dis- tro del marco clsico se estima el coeficien-
tintas fuentes de error previamente contem- te de fiabilidad de una determinada prueba y
pladas en el proceso de medicin. El progra- se asume que es el mismo para todas las per-
ma de ordenador GENOVA (Crick y Bren- sonas a las que se aplica la prueba; sin em-
nan, 1982) ha sido especialmente diseado bargo, se ha ido acumulando suficiente evi-
para llevar a cabo los clculos implicados en dencia emprica a lo largo de los aos que
el modelo. En 1972 los autores publican un demuestra que el mismo test no mide con la
exhaustivo tratado (Cronbach, Glesser, Nan- misma precisin a todas las personas, que su
da, y Rajaratman, 1972), verdadera biblia del precisin est en funcin del nivel de la per-
modelo, pudiendo consultarse tambin expo- sona en la variable medida. Sin salirse del
siciones sistemticas en Brennan (1983), marco clsico la solucin ms lgica a este
Crocker y Algina (1986), Shavelson y Webb problema es calcular diferentes coeficientes
(1991) o Shavelson, Webb y Rowley (1989); de fiabilidad para una prueba en funcin de
en castellano vase Paz (1994). los distintos niveles de puntuaciones de las
personas evaluadas, lo cual es prctica habi-
Teora de Respuesta a los Items tual (Feldt y Qualls, 1996; Lord, 1984;
Qualls, 1992; Thorndike, 1951). Si bien es
A lo largo de este siglo la Teora Clsica esta una salida enjundiosa al problema, la
de los tests y sus variantes han ido dando solucin radical y novedosa va a venir de la
Psicothema, 1998 9
mano de un nuevo enfoque psicomtrico mismo test para evaluar a todas las perso-
que domina la escena actual de la medicin nas, se elige aqul que mida con mayor pre-
psicolgica y educativa denominado Teora cisin a cada cual, es lo que se ha dado en
de Respuesta a los Items (TRI). llamar Tests Adaptativos Computerizados
Bajo la ptica de la TRI la fiabilidad de (Olea y Ponsoda, 1996; Renom, 1993; Wai-
una prueba pasa a denominarse Funcin de ner, 1990), ampliamente utilizados en otros
Informacin, y es una funcin matemtica pases y en fase embrionaria en el nuestro,
continua a lo largo de la escala de las pun- aunque algunas compaas multinacionales
tuaciones de la prueba (Vase su frmula ya los utilizan en Espaa para certificacio-
matemtica ms adelante, una vez formula- nes profesionales.
dos los modelos de TRI). Es decir, el test ya Tal vez se pregunten ustedes, cmo se
no tiene un coeficiente de fiabilidad deter- procede para elegir la prueba ms adecuada
minado, ste depende, est en funcin, del para cada persona. La estrategia consiste en
nivel de la persona en la variable medida. buscar aquella prueba cuya dificultad mejor
La fiabilidad se expresa mediante una fun- se ajuste al examinado. Para ello se van
cin (Funcin de Informacin) que toma presentando uno a uno los tems extrados
distintos valores segn el nivel de la perso- de un Banco de tems y en funcin de las
na en el test. De modo que el mismo test es respuestas, segn sean aciertos o errores, se
ms fiable para unas personas que para va aumentando o disminuyendo la dificul-
otras, lo cual no es difcil de entender. tad de los tems subsiguientes. De este mo-
Pinsese, por ejemplo, en una prueba edu- do se evita presentar los tems muy difciles
cativa de cualquier materia que sea real- a las personas con un nivel bajo y los muy
mente difcil, muy difcil, ser precisa para fciles a las de nivel elevado, con el consi-
evaluar a los muy competentes en la mate- guiente ahorro de tiempo y mejora de la
ria, pero todos los que posean conocimien- motivacin y fiabilidad de la prueba. Podra
tos medios o bajos sacaran (en el caso ex- parecer que por esta regla de tres aqullos
tremo) un cero, la prueba no discrimina en- que reciben tems fciles saldran favoreci-
tre ellos, est midiendo sus conocimientos dos, pero no hay tal, puesto que cara a la
con un error elevado. Es lo mismo que ocu- puntuacin final no es lo mismo acertar
rre cuando se desea medir con precisin la tems fciles que difciles, stos puntan
altura que salta una persona, hay que ir ms. El uso de estas pruebas est cambian-
ajustando el listn a sus posibilidades hasta do la forma tradicional de evaluar y en pa-
encontrar justamente lo que es capaz de su- ses como Estados Unidos, Holanda, Israel o
perar. Mutatis mutandis, lo mismo ocurre Canad, por citar algunos, son de uso gene-
para medir con precisin el nivel de una ralizado para el acceso a la universidad, al
persona en una variable psicolgica o edu- doctorado, o para certificaciones profesio-
cativa. La tecnologa evaluativa basada en nales. Sealar, de paso, que cuando se ob-
la teora de respuesta a los tems nos ha li- servan los avances habidos en los ltimos
berado de la necesidad de tener que utilizar aos en el campo de la evaluacin psicol-
el mismo test con todas las personas para gica y educativa y vemos, por ejemplo,
poder compararlas. ahora que est en boca de todos, cmo se
Esta nueva conceptualizacin del error lleva a cabo la Selectividad Universitaria
permitida por el marco de la TRI ha llevado en Espaa, uno tiene la impresin de estar
a una verdadera revolucin en la evaluacin circulando en un carro de bueyes en tiem-
psicolgica y educativa en los ltimos aos. pos del automvil y de las autopistas infor-
Puesto que ya no es necesario utilizar el mticas. Tcnicamente nuestro sistema de
10 Psicothema, 1998
JOS MUIZ
selectividad es manifiestamente mejorable, jetos con las probabilidades de que acier-

y no hacen falta grandes inventos, basta con ten un tem es a lo que se denomina Curva
echar una ojeada alrededor y ver lo que se Caracterstica del Item (CCI), dado que
hace en otros pases. ciertamente califica, caracteriza al tem.
Cada tem tendr la suya propia, su carnet
Conceptos bsicos de la TRI de identidad. Las CCI ms habituales
adoptan la forma de S como las de la fi-
Conviene sealar de entrada que los nue- gura 1.
vos modelos de TRI no reemplazan al enfo-
que clsico, sino que mas bien constituyen
un excelente complemento, permitiendo re-
solver problemas que no encontraban solu-
cin adecuada en el marco clsico, e impul-
sando otros campos completamente nove-
dosos de la medicin psicolgica y educati-
va. Los orgenes lejanos de la TRI (Muiz y
Hambleton, 1992) pueden rastrearse en los
trabajos pioneros de Richardson (1936),
Lawley (1943), Tucker (1946), Lord (1952,
1953a) y Birnbaum (1957), si bien su ver- Figura 1. Curvas caractersticas de cinco tems con di-
dadero desarrollo surge a raz del trabajo de ferentes parmetros.
Rasch (1960), y, sobre todo, del libro de
Lord y Novick (1968). A partir de entonces En el eje de abscisas aparecen los va-
se produce una eclosin de publicaciones y lores de la variable medida, denominada
de programas de ordenador que permitirn (), que est expresada en una escala que
la aplicacin de la TRI en la prctica. En la va de a +. En ordenadas aparece la
actualidad las fuentes bibliogrficas son probabilidad de acertar el tem. Ello
abundantes (Hambleton, 1990, 1994; Ham- quiere decir que mediante la CCI sabe-
bleton y Swaminathan, 1985; Hambleton et mos la probabilidad de que las personas
al., 1991; Lpez-Pina, 1995; Lord, 1980; con un determinado valor de superen el
Muiz, 1997, 1996b). tem.
Si la piedra angular del enfoque clsico La forma exacta de la CCI va a quedar
era asumir que la puntuacin emprica ve- especificada una vez que se elija una fun-
na dada por la verdadera ms un error ale- cin matemtica genrica, por ejemplo la
atorio (X= V+e), la TRI va a hacer una curva Normal acumulada, o la Funcin
asuncin ciertamente ms restrictiva, a sa- Logstica, entre otras, y se determinen los
ber, que existe una relacin matemtica o parmetros correspondientes que la singu-
funcin que conecta la competencia de los larizan. Segn el tipo de curva que se
sujetos con la probabilidad de que stos adopte y el nmero de parmetros que se
respondan correctamente a los tems. En contemplen se tendrn los distintos tipos
otras palabras, que dada la competencia de de modelos de TRI. Aunque las posibili-
una persona en la variable medida, conoce- dades son casi ilimitadas, a modo de ilus-
mos la probabilidad que tiene de acertar el tracin se presentan a continuacin los
tem. tres ms utilizados en la prctica, que
A la funcin matemtica asumida que adoptan la Funcin Logstica como Curva
une los niveles de competencia de los su- Caracterstica:
Psicothema, 1998 11
Modelos Logsticos de 1, 2 y 3 parmetros donde:

n: nmero de tems del test
Pi() = eD(-bi)/[1+eD(-bi)] (3) Pi(): valores de las CCI de los tems
Pi() = eDai(-bi)/[1+eDai(-bi)] (4) Qi(): 1- Pi()
Pi() = ci + (1-ci)[eDai(-bi)]/[1+eDai(-bi)] (5) Pi(): Derivada de Pi()
donde:
: representa los valores de la variable me-
dida
Pi(): probabilidad de acertar el tem para
un determinado valor de
ai: ndice de discriminacin del tem
bi: ndice de dificultad del tem
ci: probabilidad de aciertos al azar
e: base de los logaritmos neperianos (2.7182)
D: constante (cuando D=1,7 los valores se
acercan a los generados por la distribu- Figura 2. Funciones de Informacin de cinco tems y
cin Normal) del Test formado por ellos.
En suma, bajo el enfoque de la teora de

La estimacin de los parmetros de los respuesta a los tems los errores cometidos al
modelos se lleva a cabo mediante diversos medir se estiman mediante la Funcin de In-
programas de ordenador existentes a tal formacin, que permite especificar la preci-
efecto (BICAL, BILOG, LOGIST, MULTI- sin de las mediciones en funcin del nivel
LOG, RASCAL, ASCAL, etc.), la mayora de las personas en la variable medida. Esto
de los cuales utilizan procedimientos de m- supone un avance importante respecto del
xima verosimilitud o bayesianos. Aparte de coeficiente de fiabilidad clsico y abre todo
los tres modelos incluidos aqu por ser de un abanico nuevo de posibilidades en el
los primeros formulados y muy utilizados campo de la medicin psicolgica y educati-
en la prctica, las lneas de investigacin va.
ms activas trabajan actualmente con mode-
los bastante ms complejos, una buena revi- Validez
sin de los cuales puede consultarse en Van
der Linden y Hambleton (1997). Determinar la cantidad de error de los
instrumentos de medida es bsico para cual-
Funcin de Informacin del test quier ciencia, y hemos visto en lneas gene-
rales cmo se lleva a cabo para el caso de
Una vez estimados los parmetros del los tests desde distintos enfoques psicom-
modelo puede calcularse la Funcin de In- tricos. Pero el problema de la medicin no
formacin del test, que indica la precisin slo no acaba ah, casi puede decirse que
con la que ste mide a lo largo de la escala empieza, pues una vez que existen garantas
de la variable medida: de que un instrumento mide con precisin,
surge la pregunta clave: son vlidas las in-
n ferencias hechas a partir de l? Porque no se

[ P'i ()] 2
I() = trata slo de medir con precisin, adems, y,
Pi ()Qi () sobre todo, hay que garantizar que las infe-
i=1
12 Psicothema, 1998
JOS MUIZ
rencias y decisiones que se hacen basadas to (Anastasi, 1986; Messick, 1989; Muiz,
en esas mediciones son correctas. Es este el 1994; Paz, 1996; Wainer y Braun, 1988).
problema de la Validez, concepto clave de la La validez de contenido tiene un carcter
medicin en las ciencias sociales. Que las bsico, y va encaminada a comprobar que la
mediciones sean fiables es una condicin prueba recoge una muestra representativa
necesaria, pero no suficiente para que sean de los contenidos correspondientes al cam-
vlidas. Se puede estar midiendo con gran po evaluado. Por ejemplo, si se trata de una
precisin algo que no tiene ninguna capaci- escala de actitudes hay que asegurarse que
dad explicativa o predictiva. No en vano los todos los componentes que conforman la
grandes debates acerca de la utilidad de los actitud estn representados en la escala, o si
tests, las escalas y otras mediciones psicol- la prueba es de ansiedad, que no se dejan
gicas y educativas se centran generalmente fuera aspectos importantes. No estar de
en torno al problema de su validez. ms sealar dentro de este marco profesoral
Para probar la validez de las inferencias en el que nos encontramos, que este aspecto
hechas a partir de las pruebas, como ocurre tan elemental de la validez es descuidado
para someter a prueba cualquier otra hipte- con demasiada frecuencia por los profesores
sis cientfica, hay que recoger evidencia em- en sus exmenes, al no constituir stos una
prica que corrobore o refute las inferencias. muestra representativa de la materia a eva-
Como seala Messick (1989), la validacin luar, con lo que se abre la puerta al azar en
de un test abarca todas las cuestiones experi- las calificaciones. Personalmente, me sor-
mentales, estadsticas y filosficas por me- prenden con frecuencia las ideas tan inge-
dio de las cuales se evalan las hiptesis y nuas de muchos profesores acerca de la me-
teoras cientficas. En realidad lo que se va- dicin educativa, a pesar de la importancia
lida no es la prueba en s, sino las inferencias que tiene sobre las vidas futuras de los
hechas a partir de ella. La forma estndar de alumnos. Conscientes de este problema, por
validar las inferencias es derivar prediccio- ejemplo, recientemente en Estados Unidos
nes y contrastarlas con los datos. Con sus lu- el sindicato de profesores ms importante
ces y sus sombras, el mtodo hipottico de- (American Federation of Teachers, 1990),
ductivo experimental sigue siendo el canon junto con otras organizaciones, ha publica-
para la validacin, eso s, sin ingenuidades do unos estndares tcnicos que los profe-
acerca de su infabilidad, y conscientes de sus sores deben de seguir en sus evaluaciones.
limitaciones, bien avisados, como estamos, La Validez Predictiva se centra en la
por los ros de tinta que los tericos y los fi- comprobacin de que las pruebas predicen
lsofos de la ciencia han vertido y vierten al aquello para lo que fueron diseadas. Cons-
respecto (Block, 1980, 1981; Bunge, 1985; tituye un aspecto clave en la utilizacin
Feyerabend, 1981; Fuentes, 1994; Hanson, aplicada de los tests y las escalas en mbitos
1969; Kendler, 1981; Kuhn, 1962; Lakatos y en los cuales se toman decisiones importan-
Musgrave, 1970; Mayor, 1989; Pinillos, tes para las personas basndose en las prue-
1980; Popper, 1959, 1963, 1972; Staats, bas, por ejemplo en el mbito de la selec-
1983; Staats y Mos, 1987; Suppe, 1977; cin de personal, orientacin, o situaciones
Toulmin, 1972; Yela, 1987, 1994; etc.) de carcter clnico, por citar algunos. La ca-
Dentro de ese marco general hay tres pro- pacidad predictiva de una prueba suele ex-
cedimientos clsicos y muy utilizados para presarse mediante su Coeficiente de Validez
recabar informacin emprica probatoria de (xy), que es la correlacin entre las puntua-
la validez, denominados Validez de Conteni- ciones en la prueba (x) y la ejecucin en el
do, Validez Predictiva y Validez de Construc- criterio que se pretende predecir (y). A me-
Psicothema, 1998 13
dida que el valor del coeficiente de validez las puntuaciones en los tests de inteligencia
se acerca a 1 mayor es la capacidad predic- son bastante estables a lo largo de la vida de
tiva de la prueba. Cuando se utilizan varias las personas, lo cual no quiere decir que no
pruebas para predecir un criterio se utiliza cambien ni sean modificables (Neisser et
como coeficiente de validez la correlacin al., 1996). Lo que mejor predicen los tests
mltiple de las pruebas con el criterio (Ryy). de inteligencia es el rendimiento escolar,
La Validez de Constructo, propuesta ori- con una correlacin en torno a 0.50 entre las
ginariamente por Cronbach y Meehl (1955), puntuaciones en los tests de inteligencia y
trata de asegurar que las variables o cons- las notas escolares. Ello significara que la
tructos medidos, adems de capacidad pre- inteligencia explica slo un 25% del rendi-
dictiva, tienen entidad y rigor, y se encuen- miento escolar. El otro 75% vendra expli-
tran insertas dentro de un marco terico co- cado por otros factores tales como persis-
herente. Las formas de recoger evidencia tencia, motivacin, inters acadmico, fac-
emprica para comprobarlo son en general tores culturales, refuerzos recibidos de los
las utilizadas para comprobar cualquier teo- padres y maestros, competencia del profe-
ra cientfica, si bien se han hecho habituales sor, etc. (Neisser et al., 1996). Esta relacin
las recogidas de datos a travs de una matriz positiva entre la inteligencia tal como la mi-
multirrasgo multimtodo (Campbell y Fiske, den los tests y el rendimiento escolar tiene
1959), o mediante diferentes tcnicas de como consecuencia que los nios ms inte-
anlisis multivariado, entre las que destaca ligentes permanecen por trmino medio ms
el Anlisis Factorial, tanto exploratorio co- aos dentro del sistema educativo, con los
mo confirmatorio. En el primer caso suele efectos positivos que ello conlleva para su
hablarse de validez convergente-discrimi- xito social y laboral, por lo que indirecta-
nante y en el segundo de validez factorial. mente los tests de inteligencia tambin tie-
En definitiva, para poder asegurar que una nen poder predictivo para estos aspectos. La
prueba psicolgica, educativa o sociolgica validez de las mediciones de la inteligencia
es vlida hay que aportar diferentes tipos de para predecir aspectos de la vida laboral y
evidencia que lo garantice, no se pueden ha- social de las personas no es que sea muy
cer afirmaciones generales ni definitivas, elevada, en torno al 25%, pero si hay que
pues como cualquier otra validacin cientfi- elegir un slo predictor, sigue siendo segu-
ca, la de los tests es un proceso abierto en el ramente el mejor del que se dispone. Curio-
que siempre cabe aadir nueva evidencia em- samente, se conocen ms exhaustivamente
prica que corrobore o refute la pertinencia de las predicciones que se pueden hacer a par-
las inferencias hechas a partir del test. tir de las mediciones de la inteligencia (va-
lidez predictiva) que la propia naturaleza de
El uso de los tests la inteligencia (validez de constructo), exis-
tiendo un intenso debate acerca de los fac-
Un buen ejemplo de este proceso conti- tores responsables de las diferencias indivi-
nuo de validacin lo constituyen los Tests de duales en inteligencia, en el cual los tres in-
Inteligencia. Tras ya casi un siglo de inves- gredientes bsicos son la herencia, el am-
tigacin emprica desde que apareciese el biente y los procesos psicolgicos bsicos,
primer test propiamente de inteligencia, tales como tiempos de reaccin, potenciales
propuesto por Binet, hoy conocemos bas- evocados, tiempo de inspeccin, capacidad
tante bien con qu fines pueden usarse y con atencional, rapidez de acceso a la memoria,
cuales no, aunque queden an varias cues- etc. Si bien la teorizacin sobre la inteligen-
tiones abiertas. Por ejemplo, sabemos que cia ha avanzado notablemente, en compara-
14 Psicothema, 1998
JOS MUIZ
cin los tests con los que se mide no han ex- el juicio subjetivo de supervisores y profe-
perimentado grandes cambios (Sternberg y sores. se fue su espritu originario, y sigue
Kaufman, 1996). sindolo, sus problemas potenciales de uso
Como no poda ser de otro modo, existen no deben enmascarar el paso adelante que
tests malos, regulares, buenos y muy bue- supone esta filosofa frente a posiciones re-
nos, es el profesional en cada caso el que trgradas como las mencionadas, tendentes
tiene que evaluar la calidad y proceder en a mantener el statu quo, independientemen-
consecuencia. Como ocurre con las tecnolo- te de la vala personal.
gas de otros muchos campos del saber,
siempre existe la posibilidad de su uso ina- Teora de la Medicin
decuado, observndose ltimamente un in-
ters especial en las organizaciones profe- Paralelo a la medicin emprica de las
sionales por impulsar los aspectos ticos de variables psicolgicas, cuya problemtica
la prctica, especialmente en lo que a los se acaba de exponer a grandes rasgos, exis-
instrumentos de medida se refiere (Franca- te toda una lnea de trabajo ms terica en-
Tarrag, 1996; Keith-Spiegel y Koocher, caminada al anlisis del estatus terico de
1985; Kimmel, 1996; Muiz, en prensa; las mediciones psicolgicas, que hinca sus
Schmeiser, 1992; Schuler, 1982; Stanley, races en los trabajos originarios del campo
Sieber y Melton, 1996). Debido a que la de la Fsica (Campbell, 1920, 1921, 1928,
mayora de los problemas con los instru- 1938; Hlder, 1901). Ser precisamente un
mentos de medida psicolgicos y educati- comit de expertos dirigidos por Campbell
vos provienen en gran parte de su uso ina- quienes en 1940 (Campbell et al., 1940)
decuado ms que de las propiedades tcni- emitan un informe en el que dudan que las
cas per se, existe actualmente un debate en mediciones de carcter psicolgico y psico-
curso entre los investigadores y profesiona- fsico renan las condiciones exigidas por
les acerca de la conveniencia o no de incluir los axiomas de Hlder (1901). La aproxi-
las consecuencias del uso de las pruebas macin de Campbell al problema de la me-
dentro del propio marco de la validez (Linn, dicin era ciertamente restrictiva y tomada
1997; Mehrens, 1997; Messick, 1980, 1989, al pie de la letra dejara fuera incluso mu-
1995; Popham, 1997; Shepard, 1997). chas de las mediciones fsicas, por lo cual
Sealar, finalmente, que el uso adecuado ya fue criticada por el propio Bertrand Rus-
de los instrumentos de medida no slo im- sell (1937). El argumento central de Camp-
plica que las propiedades tcnicas (Fiabili- bell era que para poder hablar de medicin
dad y Validez) sean las adecuadas, hay otros debe de darse un isomorfismo entre la can-
aspectos relativos a la propia situacin de tidad y las magnitudes de la propiedad a
aplicacin que deben de controlarse, tales medir; para lo cual haba que demostrar que
como la relacin examinado-examinador, la las magnitudes obedecan a los axiomas de
ansiedad ante las pruebas (Spielberger y cantidad desarrollados por Hlder (1901).
Vagg, 1995), entrenamiento previo, diferen- Representa una postura de carcter Platni-
cias culturales, deseabilidad social, etc. co, bajo cuya ptica las propiedades de la
Se olvida a veces que los tests psicol- cantidad no son negociables.
gicos y educativos representan la posibili-
dad de juzgar a las personas de forma igua- Aproximacin Clsica
litaria, por sus mritos demostrados, no por
criterios como la cuna, la tribu, la familia, la La revolucin copernicana en la funda-
apariencia, las cartas de recomendacin, o mentacin terica de la medicin psicolgi-
Psicothema, 1998 15
ca vendr de la mano de Stevens (1946, sigue avanzando en el campo emprico, sino

1951), al eliminar la restriccin de que los que recibe un fuerte empujn en lo que a la
nmeros asignados como medidas tengan evaluacin de su estatus terico se refiere.
que obedecer necesariamente a las leyes de Tanto la aproximacin de Stevens como la
la cantidad, abriendo as la posibilidad a de Campbell al anlisis terico de la medi-
otros tipos de escalas (Fraser, 1980). Stevens cin se mueven dentro de un marco clsico,
define la medicin como la asignacin de pues, como seala Fraser (1980), si bien
nmeros a objetos segn determinadas re- Campbell consideraba claves las relaciones
glas. La flexibilizacin introducida al permi- empricas, Stevens subraya las propiedades
tirse diferentes reglas de asignacin extiende de la escala. Ambos tratan la relacin entre
el sistema de Campbell y permite el estable- los sistemas emprico y formal como axio-
cimiento de las hoy clsicas cuatro escalas mtica, y por tanto debe de estar presente
de medicin, Nominal, Ordinal, Intervalo y para llevar a cabo la medicin.
Razn, que vienen definidas por cuatro re- Por el contrario, el nuevo enfoque Repre-
glas distintas de asignacin de los nmeros a sentacional sobre teora de la medicin que
los objetos. Para representar un sistema em- aparece en los aos sesenta (Coombs, 1964;
prico concreto no habr por qu utilizar to- Krantz et al., 1971; Luce y Narens, 1986;
das las propiedades del sistema numrico. Mitchell, 1990; Narens, 1985; Narens y Lu-
La escala Nominal slo tiene en cuenta la ce, 1986; Pfanzagl, 1968; Roberts, 1979;
propiedad de los nmeros igual/desigual, los Savage y Ehrlich, 1990; Schwager, 1991;
nmeros actan aqu como nombres. En la Suppes y Zinnes, 1963) se caracteriza fun-
Ordinal, adems de igualdad/desigualdad, se damentalmente por reconocer explcitamen-
tiene en cuenta el orden. La escala de Inter- te el papel que juega la teora en la medi-
valo adems de las anteriores propiedades cin, pasando sta a formar parte integral de
aade la igualdad/desigualdad de las dife- la teora. Medir es construir un modelo de
rencias, no existiendo un cero absoluto de la alguna realidad existente en el mundo. Por
escala. Finalmente, en la escala de Razn tanto, como cualquier otra modelizacin,
existe el cero absoluto de la escala e igual- implica establecer una correspondencia en-
dad de razones. tre el sistema relacional emprico (el mun-
Tras la propuesta de Stevens surgen nu- do) y un sistema relacional formal (el mo-
merosas clasificaciones de escalas (Coombs, delo), de tal modo que se pueda decir que
1952, 1964; Torgerson, 1958), pues no hay uno representa al otro; si el modelo es nu-
ninguna razn para limitar las propiedades a mrico entonces la representacin se deno-
las cuatro mencionadas. Adems, la literatu- mina medicin (Fraser, 1980). En este con-
ra sobre en qu escala vienen medidos los texto los problemas de la medicin no son
distintos atributos psicolgicos y la relacin otros que los problemas cientficos genera-
entre el tipo de escala y las operaciones es- les para establecer modelos de la realidad, la
tadsticas permitidas para cada tipo de esca- medicin pasa a ser modelizacin en la que
la inundan la bibliografa especializada el sistema relacional formal son los nme-
(Gaito, 1980; Lord, 1953b; Michell, 1986; ros. Por tanto el problema central a resolver
Stine, 1989; Townsend y Ashby, 1984). ser el de la Representacin, es decir, ase-
gurarse que el modelo representa adecuada-
Enfoque Representacional mente la realidad. Medir es modelizar.
Si bien este enfoque es actualmente do-
En definitiva, a partir del trabajo pionero minate entre los tericos y filsofos de la
de Stevens la medicin psicolgica no slo ciencia, su influencia en la psicologa apli-
16 Psicothema, 1998
JOS MUIZ
cada es escasa, pues como seala Schwa- de la medicin psicolgica quedan muchos
ger (1991) en una crtica reciente, este ele- problemas tericos y aplicados por resolver,
gante enfoque trata de garantizar la repre- de modo que no faltar el trabajo de inves-
sentabilidad formal, que es importante, pe- tigacin para quienes se dedican a estos me-
ro no ha aportado hasta la fecha gran cosa nesteres. Esperemos, parafraseando al fa-
a la teora psicolgica y menos an a la moso matemtico Hilbert (1902), cuando
prctica profesional aplicada. Una buena present en Pars, ya va para un siglo, los 23
sntesis de los problemas de carcter apli- problemas ms importantes de las matem-
cado an pendientes de una solucin id- ticas an sin resolver, que para tales menes-
nea fue expuesta recientemente por Wainer teres contemos entre nosotros con los mejo-
(1993), para una excelente revisin y an- res maestros y los ms entusiastas y apasio-
lisis de los problemas de la medicin en nados discpulos.
psicologa puede consultarse el trabajo de
Michell (1997). Nota
Estos son, en suma, y a grandes rasgos,
algunas de las certezas y de las dudas que El texto corresponde a la conferencia pronun-
ocupan a quienes trabajamos en el campo de ciada por el autor como leccin inaugural del
la medicin psicolgica, espero no haberles curso acadmico 1997-1998 en la Universidad
aburrido demasiado con ellas. En el campo de Oviedo.
Referencias
Allen, M. J. y Yen, W. M. (1979). Introduction to Blanco, M. (1996). Psicofsica. Madrid: Univer-

Measurement Theory. Monterrey, CA: Bro- sitas.
oks/Cole Publishing Company. Block, N. (Ed.) (1980, 1981). Readings in philo-
American Federation of Teachers, National Coun- sophy of psychology (2 vols.). Cambridge,
cil on Measurement in Education y National MA: Harvard University Press.
Education Association (1990). Standards for Bock, R. D. y Wood, R. (1971). Test theory. An-
teacher competence in educational assessment nual Review of Psychology, 22, 193-224.
of students. Washington, DC: Autor. Brennan, R. L. (1983). Elements of generalizabi-
Anastasi, A. (1986). Evolving concepts of test vali- lity theory. Iowa City, IA: American College
dation. Annual Review of Psychology, 37, 1-15. Testing.
Baird, J. C. (1997). Sensation and judgment: Bunge, M. (1985). La investigacin cientfica.
complementary theory of psychophysics. (2 ed.). Barcelona: Ariel.
Mahwah, NJ: LEA. Campbell, D. T. y Fiske, A. W. (1959). Conver-
Baird, J. C. y Noma, E. (1978). Fundamentals of gent and discriminant validation by the multi-
scaling and psychophysics. Nueva York: Wiley. trait-multimethod matrix. Psychological Bu-
Binet, A. y Simon, T. H. (1905). Methodes nou- lletin, 56, 81-105.
velles pour le diagnostic du niveau intellec- Campbell, N. R. (1920). Physics. The Ele-
tuel des anormaux. LAnne Psychologique, ments. Cambridge: Cambridge University
11, 191-244. Press.
Birnbaum, A. (1957). Efficient design and use of Campbell, N. R. (1921). What is science? (Reim-
tests of ability for various decision-making preso). Nueva York: Dover Publications.
problems (Series Report n 58-16, Project n Campbell, N. R. (1928). An account of the prin-
7755-23). Randolph Air Force Base, TX: ciples of measurement and calculation. Lon-
USAF School of Aviation Medicine. dres: Longmans Green.
Psicothema, 1998 17
Campbell, N. R. (1938). Symposium: Measu- Ferrando, P. J. (1996). Evaluacin de la unidi-

rement and its importance for philosophy. mensionalidad de los tems mediante anlisis
Aristotelian Society, vol. 17 (Suplemento). factorial. Psicothema, 8(2), 397-410.
Londres: Harrison. Feyerabend, P. (1981). Tratado contra el mtodo.
Campbell, N. R. et al. (1940). Final Report. Ad- Madrid: Tecnos.
vance Science, nm. 2, 331-349. Flanagan, J. L. (1937). A note on calculating the
Cattell, J. Mck. (1890). Mental tests and measu- standard error of measurement and reliability
rements. Mind, 15, 373-380. coefficients with the test score machine. Jour-
Coombs, C. H. (1952). A theory of psychologi- nal of Applied Psychology, 23, 529.
cal scaling. Engineering Research Bulletin, Franca-Tarrag, O. (1996). Etica para psiclo-
34. Ann Arbor, MI: University of Michigan gos. Introduccin a la psicotica. Bilbao:
Press. Descle de Brouwer.
Coombs, C. H. (1964). A theory of data. Nueva Fraser, C. O. (1980). Measurement in psycho-
York: Wiley. logy. British Journal of Psychology, 71, 23-
Crick, J. E. y Brennan, R. L. (1982). GENOVA. 34.
A generalized Analysis of Variance System Fuentes, J. B. (1994). Introduccin del concepto
(FORTRAN IV Computer Program and Ma- de conflicto de normas irresuelto personal-
nual). Doschester, MA: Computer Facilities, mente como figura antropolgica (especfi-
University of Massachusetts at Boston. ca) del campo psicolgico. Psicothema, 6(3),
Crocker, L. y Algina, J. (1986). Introduction to 421-446.
classical and modern test theory. Nueva Gaito, J. (1980). Measurement scales and statis-
York: Holt, Rinehart and Winston. tics: resurgence of an old misconception. Psy-
Cronbach, L. J. (1947). Test reliability: its mea- chological Bulletin, 87, 564-567.
ning and determination. Psychometrika, 12, Garca-Cueto, E. (1993). Introduccin a la psi-
1-16. cometra. Madrid: Siglo XXI.
Cronbach, L. J. (1951). Coefficient alpha and the Gescheider, G. A. (1985). Psychophysics: met-
internal structure of tests. Psychometrika, 16, hod, theory, and application. Hillsdale, NJ:
297-334. LEA.
Cronbach, L. J., Glesser, G. C., Nanda, H. y Ra- Glesser, G. C., Cronbach, L. J. y Rajaratnam, N.
jaratnam, N. (1972). The dependability of Be- (1965). Generality of scores influenced by
havioral Measurement: Theory of Generali- multiple sources of variance. Psychometrika,
zability for scores and profiles. Nueva York: 30, 395-418.
Wiley. Green, D. M. y Swets, J. A. (1966). Signal de-
Cronbach, L. J. y Meehl, P. E. (1955). Construct tection theory and psychophysics. Nueva
validity in psychological tests. Psychological York: Wiley.
Bulletin, 52, 281-302. Guilford, J. P. (1936, 1954). Psychometric Met-
Cronbach, L. J., Rajaratnam, N., Glesser, G. C. hods. Nueva York: McGraw-Hill.
(1963). Theory of Generalizability: a libe- Gulliksen, H. (1950). Theory of Mental Tests.
ralization of reliability theory. The British Nueva York: Wiley (Reimpreso en 1987).
Journal of Statistical Psychology, 16, 2, 137- Guttman,L. (1945). A basis for analyzing test-re-
163. test reliability. Psychometrika, 10, 255-282.
Egan, J. (1975). Signal detection theory and Hambleton, R. K. (1990). Item response theory:
ROC analysis. Nueva York: Academic Press. introduction and bibliography. Psicothema, 2,
Falmage, J. C. (1985). Elements of psychophysi- 97-107.
cal theory. Nueva York: Oxford University Hambleton, R. K. (1994). Item response theory:
Press. A broad psychometric framework for measu-
Fechner, G. T. (1860/1966). Elements of psy- rement advances. Psicothema, 6(3), 535-556.
chophysics. Nueva York: Holt, Rinehart and Hambleton, R. K. y Swaminathan, H. (1985).
Winston. Item response theory: Principles and applica-
Feldt, L. S. y Qualls, A. L. (1996). Estimation of tions. Boston: Kluwer.
measurement error variance at specific score Hambleton, R. K., Swaminathan, H. y Rogers,
levels. Journal of Educational Measurement, H. J. (1991). Fundamentals of item response
33(2), 141-156. theory. Beverly Hills, CA: Sage.
18 Psicothema, 1998
JOS MUIZ
Hanson, N. R. (1969). Perception and discovery. Lord, F. M. (1980). Applications of item respon-
San Francisco: Freeman. se theory to practical testing problems. Hills-
Hilbert, D. (1902). Mathematical problems. Bu- dale, NJ: LEA.
lletin of the American Mathematical Society, Lord, F. M. (1984). Standard errors of measu-
8, 437-479. rement at different ability levels. Journal of
Hlder, O. (1901). Die axiome de quantitt die Educational Measurement, 21(3), 239-243.
lehre von mass. Berichte ueber die Verhand- Lord, F. M. y Novick, M. R. (1968). Statistical
lugen der Kniglich Sachsischen Gessells- theories of mental tests scores. Reading, MA:
chaft der Wissenschaften zu Leipzig, Mat- Addison-Wesley.
hematisch-Psysische Class, 53, 1-64. Luce, R. D. y Narens, L. (1986). The mathema-
Intelligence (1997). Nmero especial dedicado a tics underlying measurement on the conti-
Intelligence and Social Policy. Intelligence, nuum. Science, 236, 1527-1532.
24(1). Magnuson, D. (1967). Test Theory. Reading,
Keith-Spiegel, P. y Koocher, G. P. (1985). Ethics MA: Addison-Wesley. (Traduccin espaola:
in psychology. Professional standards and ca- Mexico: Trillas, 1972).
ses. Nueva York: Random House. Mayor, J. (1989). El mtodo cientfico en psico-
Kendler, H. H. (1981). Psychology: A science in loga. En J. Arnau y H. Carpintero (Comps.).
conflict. Nueva York: Oxford. Tratado de psicologa general, Vol. I: Histo-
Kimmel, A. J. (1996). Ethical issues in beha- ria, teora y mtodo. Madrid: Alhambra.
vioral research. Cambridge, MA: Black- Mehrens, W. A. (1997). The consequences of
well. consequential validity. Educational Measu-
Krantz, D. H. Luce, R. D., Suppes, P. y Twersky, rement: Issues and Practice, 16(2), 16-18.
A. (1971). Foundations of measurement. Vol Messick, S. (1980). Test validity and the ethics
1. Additive and polynomial representations. of assessment. American Psychologist, 35,
Nueva York: Academic Press. 1012-1027.
Kuder, G. F. y Richardson, M. W. (1937). The Messick, S. (1989). Validity. En R. L. Linn (Ed.),
theory of estimation of test reliability. Psy- Educational Measurement. Nueva York:
chometrika, 2, 151-160. Macmillan.
Kuhn, T. S. (1962). The structure of scientific re- Messick, S. (1995). Validity of psychological as-
volutions. Chicago: University of Chicago sessment. American Psychologist, 50, 741-
Press. 749.
Lakatos, I. y Musgrave, A. (Eds.) (1970). Criti- Michell, J. (1986). Measurement scales and
cism and the growth of knowledge. Londres: statistics: a clash of paradigms. Psychological
Cambridge University Press. Bulletin, 100, 398-407.
Lawley, D. N. (1943). On problems connected Michell, J. (1990). An introduction to the logic of
with item selection and test construction. Pro- psychological measurement. Hillsdale, NJ:
ceedings of the Royal Society of Edimburg, LEA.
61, 273-287. Michell, J. (1997). Quantitative science and the
Linn, R. L. (1997). Evaluating the validity of as- definition of measurement in psychology.
sessments: the consequences of use. Educa- British Journal of Psychology, 88, 355-383.
tional Measurement: Issues and Practice, Muiz, J. (1991). Introduccin a los mtodos
16(2), 14-16. psicofsicos. Barcelona: PPU.
Lpez-Pina, J. A. (1995). Teora de respuesta al Muiz, J. (1994). Teora clsica de los tests. Ma-
tem: fundamentos. Barcelona: PPU. drid: Pirmide. (2 ed.).
Lord, F. M. (1952). A theory of test scores. Psy- Muiz, J. (1996a). Fiabilidad. En J. Muiz (Co-
chometric Monographs, n 7. or.), Psicometra. Madrid: Universitas.
Lord, F. M. (1953a). An application of confiden- Muiz, J. (Coor.). (1996b). Psicometra. Madrid:
ce intervals of maximum likelihood to the es- Universitas.
timation of an examinees ability. Psychome- Muiz, J. (1997). Introduccin a la teora de
trika, 18, 57-75. respuesta a los tems. Madrid: Pirmide.
Lord, F. M. (1953b). On the statistical treatment Muiz, J. (en prensa). Aspectos ticos y deonto-
of football numbers. The American Psycholo- lgicos de la evaluacin psicolgica. En Eva-
gist, 8, 750-751. luacin Psicolgica, Madrid: TEA Ediciones.
Psicothema, 1998 19
Muiz, J. y Hambleton, R. K. (1992). Medio si- Roberts, F. S. (1979). Measurement theory. Rea-
glo de teora de respuesta a los tems. Anuario ding, MA: Addison Wesley.
de Psicologa, 52, 41-66. Rulon, P. J. (1939). A simplified procedure for
Narens, L. (1985). Abstract measurement: the determining the reliability of a test by split-
theory of numerical assignment. Psychologi- halves. Harvard Educational Review 9, 99-
cal Bulletin, 99, 166-180. 103.
Narens, L. y Luce, R.D. (1986). Measurement: Russell, B. (1937). The Principles of Mathema-
the theory of numerical assignment. Psycho- tics (2 Ed.). Nueva York: Norton.
logical Bulletin, 99, 166-180. Santisteban, C. (1990). Psicometra. Teora y
Neisser, U. et al. (1996). Intelligence: knowns prctica en la construcccin de tests. Madrid:
and unknows. American Psychologist, 51(2), Norma.
77-101. Savage, L. W. y Ehrlich, R. (Eds.). (1990). Phi-
Novick, M. R. (1966). The axioms and principal losophical and foundational issues in measu-
results of classical test theory. Journal of rement theory. Hillsdale, NJ: LEA.
Mathematical Psychology, 3, 1-18. Schmeiser, C. B. (1992). Ethical codes in the
Olea, J. y Ponsoda, V. (1996). Tests adaptativos professions. Educational Measurement: Is-
informatizados. En J. Muiz (Coor.), Psico- sues and Practice, 5-11.
metra. Madrid: Universitas. Schmidt, F. L. y Hunter, J. E. (1996). Measu-
Paz, M. D. (1994). Teora de la Generalizabili- rement error in psychological research: les-
dad. En J. Muiz, Teora clsica de los tests. sons from 26 research scenarios. Psychologi-
Madrid: Pirmide. cal Methods, 1(2), 199-223.
Paz, M. D. (1996). Validez. En J. Muiz (Coor.), Schuler, H. (1982). Ethical problems in psycho-
Psicometra. Madrid: Universitas. logical research. London: Academic Press.
Paz, M. D. y Muiz, J. (1989). Potenciales evo- Schwager, K. W. (1991). The representational
cados y tiempos de reaccin. Psicothema, 1, theory of measurement: an assessment. Psy-
97-117. chological Bulletin, 110(3), 618-626.
Pfanzagl, J. (1968). Theory of measurement. Shavelson, R. y Webb, N. (1991). Generalizabi-
Nueva York: Wiley. lity theory. Beverly Hills, CA: Sage.
Pinillos, J. L. (1980). Problemas actuales de la Shavelson, R. Webb, N. y Rowley, G. L. (1989).
psicologa cientfica. Anlisis y Modificacin Generalizability Theory. American Psycholo-
de Conducta, 6, 11-12. gist, 44 (6), 922-932.
Popham, W. J. (1997). Consequential validity: Shepard, L. A. (1997). The centrality of test use
right concern-wrong concept. Educational Me- and consequences for test validity. Educatio-
asurement: Issues and Practice, 16(2), 9-13. nal Measurement: Issues and Practice, 16(2),
Popper, K. R. (1959). The logic of scientific dis- 5-8.
covery. Londres: Hutchinson. Spearman, C. (1904). The proof and measu-
Popper, K. R. (1963). Conjectures and refuta- rement of association between two things.
tions. Nueva York: Harper. American Journal of Psychology, 15, 72-101.
Popper, K. R. (1972). Objective knowledge. Ox- Spearman, C. (1907). Demonstration of formulae
ford: Clarenton Press. for true measurement of correlation. Ameri-
Qualls, A. L. (1992). A comparison of score le- can Journal of Psychology, 18, 161-169.
vel estimates of the standard error of measu- Spearman, C. (1913). Correlations of sums and
rement. Journal of Educational Measu- differences. British Journal of Psychology, 5,
rement, 29(3), 213-225. 417-126.
Rasch, G. (1960). Probabilistic models for some Spielberger, C. D. y Vagg, P. R. (Eds.) (1995).
intelligence and attainment tests. Copenha- Test anxiety. Theory, assessment and treat-
gen: The Danish Institute for Educational Re- ment. Washington, DC: Taylor and Francis.
search. Staats, A. W. (1983). Psychologys crisis of de-
Renom, J. (1993). Tests adaptativos computeri- sunity. Philosophy and method for a unified
zados. Barcelona: PPU. science. Nueva York: Praeger.
Richardson, M. W. (1936). The relationship bet- Staats, A. W. y Mos, L. P. (Eds.) (1987). Annals
ween difficulty and the differential validity of of theoretical psychology. Vol. 5. Nueva
a test. Psychometrika, 1, 33-49. York: Plenum Press.
20 Psicothema, 1998
JOS MUIZ
Stanley, B. H., Sieber, J. E. y Melton, G. B. Thorndike, R. L. (1982). Applied Psychometrics.

(Eds.). (1996). Research ethics. A psychologi- Boston: Hougton Mifflin.
cal approach. Lincoln, NE: University of Ne- Thurstone, L. L. (1927). A law of comparative
braska Press. judgment. Psychological Review, 34, 273-
Stanley, J. C. (1971). Reliability. En R. L. Thorn- 286.
dike (ed.), Educational Measurement. Was- Thurstone, L. L. (1928). Attitudes can be measu-
hington. DC: American Council on Educa- red. American Journal of Sociology, 33, 529-
tion. 554.
Sternberg, R. J. y Kaufman, J. C. (1996). Inno- Torgerson, W. S. (1958). Theory and methods of
vation and intelligence testing: the curious ca- scaling. Nueva York: Wiley.
se of the dog that didnt bark. European Jour- Toulmin, S. (1972). Human understanding. Prin-
nal of Psychological Assessment, 12(3), 175- ceton: Princeton University Press.
182. Townsend, J. T. y Ashby, F. G. (1984). Measu-
Stevens, S. S. (1946). On the theory of scales of rement scales and statistics: the misconcep-
measurement. Science, 103, 677-680. tion misconceived. Psychological Bulletin,
Stevens, S. S. (1951). Mathematics, measu- 96, 394-401.
rement and psychophysics. En S. S. Stevens Traub, R. E. (1994). Reliability for the social
(Ed.), Handbook of experimental psychology. sciences: Theory and applications. Londres:
Nueva York: Wiley. Sage.
Stevens, S. S. (1961). To honor Fechner and re- Triandis, H. C. (1971). Attitude and attitude
peal his law. Science, 133, 80-86. change. Nueva York: Wiley.
Stevens, S. S. (1975). Psychophysics: introduc- Tucker, L. R. (1946). Maximum validity of a test
tion to its perceptual, neural, and social pros- with equivalent items. Psychometrika, 11, 1-
pects. Nueva York: Wiley. 13.
Stine, W. W. (1989). Meaningful inference: the Van der Linden, W. J. y Hambleton, R. K. (Eds.).
role of measurement in statistics. Psychologi- (1997). Handbook of modern item response
cal Bulletin, 105, 1, 147-155. theory. Nueva York: Springer-Verlag.
Summers, G. F. (Ed.) (1970). Attitude measu- Wainer, H. (Ed.). (1990). Computerized adaptive
rement. Chicago: Rand McNally. testing: a primer. Hillsdale, NJ: LEA.
Suppe, F. (Ed.). The structure of scientific theo- Wainer, H. (1993). Measurement problems.
ries. Urbana, IL: University of Illinois Press. Journal of Educational Measurement, 30(1),
Suppes, P. y Zinnes, J. L. (1963). Basic measu- 1-21.
rement theory. En R. D. Luce, R. R. Bush y E. Wainer, H. y Braun, H. I. (Eds.). (1988). Test va-
Galanter (Eds.), Handbook of mathematical lidity. Hillsdale, NJ: LEA.
psychology. Vol. I, pgs. 1-76. Nueva York: Yela, M. (1984). Introduccin a la teora de los
Wiley. tests. Madrid: Facultad de Psicologa, Univer-
Sutcliffe, J. P. (1965). A probability model for sidad Complutense.
error of classification, I: General considera- Yela, M. (1987). Toward a unified psychological
tions. Psychometrika, 30, 73-96. science. En A. W. Staats y L. P. Mos (Eds.),
Swets, J. A. (1996). Signal detection theory and Annals of theoretical psychology. Vol. 5. Nue-
ROC analysis in psychology and diagnostics: va York: Plenum Press.
collected papers. Mahwah, NJ: LEA. Yela, M. (1994). El problema del mtodo cient-
Thorndike, R. L. (1951). Reliability. En E. L. fico en psicologa. Anuario de Psicologa, 60,
Lindquist (Ed.), Educational Measurement 3-12.
(pgs. 560-620). Washington, DC: American
Council on Education. Aceptado el 10 de octubre de 1997
Psicothema, 1998 21

La Medición de Lo Psicológico

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

La Medición de Lo Psicológico

Caricato da

Copyright:

Formati disponibili

Psicothema

Disponible en: http://www.redalyc.org/articulo.oa?id=72710101

Cmo citar el artculo

Se analiza la problemtica implicada en la medicin de las variables psicolgicas,

Psychological measurement. This paper analyzes the principle issues involved in

Correspondencia: Jos Muiz

La propuesta de Spearman para estimar

selectividad es manifiestamente mejorable, jetos con las probabilidades de que acier-

Modelos Logsticos de 1, 2 y 3 parmetros donde:

En suma, bajo el enfoque de la teora de

ca vendr de la mano de Stevens (1946, sigue avanzando en el campo emprico, sino

Allen, M. J. y Yen, W. M. (1979). Introduction to Blanco, M. (1996). Psicofsica. Madrid: Univer-

Campbell, N. R. (1938). Symposium: Measu- Ferrando, P. J. (1996). Evaluacin de la unidi-

Stanley, B. H., Sieber, J. E. y Melton, G. B. Thorndike, R. L. (1982). Applied Psychometrics.

Potrebbero piacerti anche