Tema 1.1.medición en Psicología

Normas para la evaluación
de los tests
Rosario Martínez Arias

María José Hernández Lloreda
UCM
1
¿Qué es un test?
•  “Un test es un instrumento evaluativo o procedimiento sistemático con el que se

obtiene una muestra de la conducta de los examinados en un dominio especificado
y posteriormente es evaluada y puntuada usando un procedimiento
estandarizado”(AERA et al., 2014).
•  “Un test psicológico es un procedimiento sistemático para obtener muestras de

conducta relevantes para el funcionamiento cognitivo, afectivo o interpersonal, y
para puntuar y evaluar dichas muestras de acuerdo a procedimientos
estandarizados” (Urbina, 2014, p.2)
2
¿Qué es un test?
Palabras clave de la definición

•  “Procedimiento sistemático”, se entiende que el test es un procedimiento uniforme,
que no depende de la persona que aplica el test.
•  “Muestra de conductas”, entendemos que sus contenidos están formados por una
muestra cuidadosamente seleccionada y representativa de un dominio mucho más
amplio, de la que se intenta extraer inferencias válidas sobre el atributo evaluado,
que suele pertenecer a algún dominio cognitivo, afectivo o de funcionamiento
interpersonal.
•  “Estandarizado”, se entiende que la forma como se puntúa o asigna una categoría

numérica al resultado no depende de la decisión subjetiva del examinador, sino que
está basado en criterios y estándares objetivos, iguales para todos los sujetos. La
utilización o asignación de números o categorías requiere del uso de modelos
estadísticos.
3
¿Qué es un test?
Otras características
•  Los test sirven para algún tipo de decisión: clasificación, selección, diagnóstico,
planificación de tratamientos, evaluación de programas/intervenciones o
investigación.
•  En adelante utilizamos la palabra test para referirnos a cualquiera de los tipos de

instrumentos de medición, que cumplen con los anteriores criterios, establecidos en
la definición. Por lo tanto, en el desarrollo del proceso de evaluación, toda la teoría
que explicamos puede aplicarse tanto a los test de rendimiento, aptitudes, actitudes,
personalidad, desempeño, etc.
4
Test vs. Evaluación (Assessment)
•  Los test son instrumentos al servicio del proceso de evaluación.

Ambos términos, test y evaluación (assessment) a veces se utilizan
como sinónimos, pero son diferentes).
•  Los test psicológicos son simplemente uno de los instrumentos

utilizados en el proceso de la evaluación psicológica. Urbina (2014, p.
27) establece una clara diferenciación entre ambos términos.
•  No obstante, el Glosario de los SEPT (AERA et al., 2014) no deja

suficientemente clara esta distinción que es importante.
5
Normas que debe cumplir un test
•  La construcción de test está regulada por un conjunto de estándares y

guías, especialmente por los SEPT publicados por la American
Educational Research Association (AERA), American Psychological
Association (APA) y National Council on Measurement Education
(NCME). La versión más recienteha sido publicada en 2014 y han
pasado por diferentes versiones (1954, 1966, 1974, 1985, 1999, 2014).
•  Toda la información que el potencial usuario del test debe consultar

para la evaluación se encontrará en el Manual del Test.
6
Manual del Test
1.  Fundamentación teórica (o del dominio)

2.  Usos a los que se puede destinar el test
3.  Poblaciones
4.  Instrucciones completas para su administración
5.  Coeficientes de fiabilidad o datos de precisión de la medida
6.  Evidencias de validez para los usos a los que está destinado
7.  Sugerencias sobre posibles usos de las puntuaciones de los tests
8.  Criterios o normas para la interpretación de las puntuaciones
9.  A veces es necesario un manual técnico elaborado o su inclusión
como apéndices
7
DIFICULTADES ESPECIALES DE LOS TEST COMO INSTRUMENTOS
DE MEDICIÓN EN PSICOLOGÍA Y EDUCACIÓN
•  La mayor parte de los atributos de interés que intentamos medir no son observables
directamente, debiendo acudir a indicadores indirectos de los mismos: las conductas
observables representadas en los elementos del test.
•  La idea central que subyace al uso del test es que hay un atributo único, el constructo,
que es lo que el instrumento intenta medir y que en ese atributo, utilizando las
puntuaciones del test, pueden situarse las personas y los estímulos o ítems del test.
•  Tras la aplicación del instrumento y siguiendo una regla que se aplica a las respuestas u
observaciones, obtenemos una o más puntuaciones numéricas del sujeto. Suponemos
que estas cantidades observadas reflejan de algún modo la cantidad que el sujeto posee
en el atributo o propiedad medida, pero, no podemos asumir directamente que refleje
bien la verdadera cantidad de interés.
8
De las tareas al constructo o atributo
•  Los SEPT (AERAet al., 2014) dan una definición amplia del término
constructo que permite que se pueda aplicar a los diferentes tipos de
test: “constructo es el concepto o característica para cuya medición se
ha diseñado el test” (p.11).
•  Existe una cadena de inferencias que dependen de modelos

estadísticos y probabilísticos, que asocian las puntuaciones del test
con las propiedades psicométricas a las que se refieren términos como
fiabilidad, validez y comparabilidad.
•  Fórmulas y procedimientos de la teoría de los test proporcionan

definiciones de trabajo e instrumentos prácticos para tratar estos
aspectos, que cumplen su función en la cadena de inferencias que va
de las observaciones al constructo. 9
CONSTRUCTO: Red nomológica, relaciones con otros
Teoría junto con constructos, conductas, etc.
predicciones derivadas
Validez
Puntuación verdadera
Habilidad, etc.
Fiabilidad
Puntuación observada
Patrón de respuestas, etc.
Muestra
Escalamiento
Tests, instrumentos:
muestras de conducta
Observaciones,
Tests de papel y lápiz Tests informatizados
***** entrevistas, etc.
10
La inferencia psicométrica
•  Como puede observarse en la figura, en primer lugar se construyen una serie de

tareas que permiten obtener indicadores observables (los ítems del test) a las que se
pide al sujeto que responda. Normalmente estas tareas se construyen a partir de las
especificaciones del constructo o dominio de contenidos que conviene que sean
lo más detalladas posibles.
•  La presentación y las respuestas a estas tareas pueden adoptar múltiples

modalidades, como puede observarse en la figura.
•  Son las respuestas a estas tareas la única parte observable del proceso. Estas
respuestas reciben una puntuación numérica que suele denominarse también
puntuación observada o puntuación estimada por medio del proceso conocido
como escalamiento.
11
Modelos para las puntuaciones
•  Existen diversos procedimientos según el modelo de puntuaciones

seguido en la construcción del test (Teoría Clásica de los Test o alguna
de sus extensiones, Teoría de la Respuesta al Ítem), pero el resultado
del proceso siempre es una puntuación.
•  La puntuación del sujeto solamente refleja la puntuación en un
conjunto particular o muestra de tareas, que puede reflejar mejor o
peor la auténtica capacidad del sujeto y puede considerarse como un
estimador muestral de ésta.
•  El grado en que la puntuación observada representa la puntuación
verdadera o su posición en el dominio (V en la TCT, puntuación del
Universo en la TG y habilidad en la TRI) se conoce como la fiabilidad
del instrumento o precisión de la medida (en TCT), generalizabilidad
(en la TG) e información (en la TRI).
12
Aspectos a cuidar en teoría de los tests
•  Fiabilidad o ausencia de errores, para lo que usa modelos

probabilísticos del error
•  Ordenación: para poder situar a los sujetos (items) en el continuo del
rasgo o variable y diferenciarlos, debe cumplir la relación de
ordenación en la variable
•  Comparabilidad
•  Fairness (equidad, ausencia de discriminación)
•  Reglas de combinación de las respuestas para obtener puntuaciones
•  Utilidad: las puntuaciones solo tienen sentido si permiten obtener
inferencias sobre los usos a los que se destina el test (Validez)
•  Sensibilidad (en algunos test)
•  Responsiveness (sensibilidad al cambio)
13
Fiabilidad de las puntuaciones
•  Este principio tiene que ver con los errores cometidos en el

proceso de medición, por lo que responde al problema de hasta
qué punto las cantidades observadas reflejan con precisión la
puntuación verdadera (puntuación del universo o aptitud) de la
persona. En la práctica, tal como señala Brennan (2001), tiene
que ver con el proceso de repetición o generalización de la
medida
•  La fiabilidad es una característica de las puntuaciones de los test
y no del test, por lo que no es inmutable y debe tenerse en cuenta
y estimarse cada vez que se emplea el test (AERA et al., 2014).
14
•  En psicometría estudiamos diferentes formas de estimar la fiabilidad

de las puntuaciones, todas designadas por el mismo término
(fiabilidad). No obstante, bajo esta denominación única, hay
diferentes formas en las que puede afectar el error:
ü  Muestreo de tiempos (fiabilidad test-retest)
ü  Muestreo de contenidos (consistencia de los resultados mediante formas
alternativas)
ü  Inconsistencia entre los ítems (fiabilidad como dos mitades o consistencia
interna, como el coeficiente alpha o sus casos particulares y extensiones)
ü  Muestreo de tiempos y contenidos (formas alternativas con retest)
ü  Inconsistencia entre calificadores (fiabilidad como acuerdo entre calificadores)
•  La extensión de la Teoría Clásica de los Test conocida como Teoría

de la Generalizabilidad (TG; Brennan, 2001) permite examinar
simultáneamente los efectos de diferentes fuentes de error.
15
•  Diferentes usos de las puntuaciones de los test pueden requerir distintos abordajes del
problema de la fiabilidad.
•  Por ejemplo, si las puntuaciones del test implican un juicio subjetivo, debe tenerse en
cuenta la fiabilidad como acuerdo entre calificadores. Si las puntuaciones del test se van
a utilizar para evaluar cambios o mejoras tras intervenciones, la fiabilidad como test-
retest es esencial. Cuando se ha de examinar al sujeto para confirmar o ratificar
resultados previos, es importante disponer de formas alternativas. Si se desea
consistencia a lo largo del test entero puede utilizarse el coeficiente alpha o alguno de
sus casos particulares o extensiones. Finalmente, si las puntuaciones del test son
susceptibles de diferentes fuentes de error, se considerará utilizar los coeficientes
derivados de la Teoría de la Generalizabilidad (Brennan, 2001).
16
•  Otros métodos de estimar la fiabilidad y el error de medida están

disponibles en la Teoría de la Respuesta al Ítem
•  Aquí la fiabilidad y el error de medida son aproximados desde la

función de información de los ítems individuales y permiten
obtener estimaciones diferentes para las distintas puntuaciones,
pudiendo el mismo test proporcionar puntuaciones con niveles
de error diferentes
•  Esta aproximación es especialmente adecuada en los test

“adaptativos-informatizados”
17
Preguntas para evaluar la fiabilidad
Preguntas típicas que el usuario del test debe hacerse en cuanto a la

fiabilidad de las puntuaciones son algunas de las siguientes:
•  ¿Cómo se han calculado las estimaciones de la fiabilidad?, ¿se han utilizado los
procedimientos adecuados? (Por ejemplo, procedimientos basados en
consistencia interna, no deben usarse con test de velocidad)
•  ¿Se han calculado estimaciones para diferentes grupos de sujetos?
•  ¿Es el coeficiente de fiabilidad suficientemente alto para el uso que se hará de

las puntuaciones?
•  ¿Hasta qué punto los grupos en los que se ha calculado el coeficiente de

fiabilidad son similares a los sujetos a los que se aplicará el test?
18
Guía para los coeficientes de fiabilidad (Nunnally y
Berstein, 1994)
•  0,90 y más excelente
•  0,80-0,89: buena
•  0,70-0,79: adecuada
•  Menos de 0,70: aplicabilidad limitada
•  Debe tenerse en cuenta el contexto en el que se utilizará el test
19
VALIDEZ
•  La finalidad de los test psicológicos es ayudarnos a hacer inferencias sobre los atributos de los
sujetos
•  La validez, que es el aspecto fundamental de un test, nos aporta evidencias para apoyar las
inferencias que hacemos a partir de los resultados del test
•  Los SEPT la definen como “grado en que la evidencia y la teoría soportan la interpretación de las
puntuaciones del test para el uso pretendido” (AERA et al., 2014, p. 11)
•  La validez es una cuestión de juicio basado en el uso dado a las puntuaciones para un propósito
en un determinado contexto
•  La validación es el proceso mediante el que se obtienen las evidencias de validez
•  Debido a los diferentes propósitos para los que se usan las puntuaciones, las evidencias pueden
obtenerse a partir de una gran diversidad de métodos
20
Aproximaciones a la validez de las puntuaciones
•  Las versiones más antiguas de los SEPT distinguían entre un

número de variedades de validez, tales como contenido, criterio,
y constructo
•  En los SEPT más recientes, la validez es el tema más importante

y se define como un concepto unitario, la validez del
constructo. Los distintos tipos de validez son considerados
como diferentes formas de evidencia que pueden dar luz sobre
aspectos diferentes de la validez, algunos más relevantes que
otros, dependiendo del contexto de aplicación.
21
Evidencias de validez
A. Contenido del test

ü  Se refiere al grado en que las cuestiones o tareas de test representan los diferentes aspectos
del atributo a evaluar
ü  Sus principales amenazas son la “infrarrepresentación del constructo” o la inclusión de
“aspectos irrelevantes para el constructo”.
B. Procesos de respuesta
ü  Los procesos mentales que sigue el sujeto para responder a los ítems del test. Técnicas de
imagen. Protocolos verbales. Grupos contrastados (expertos-novatos). Entrevista cognitiva
(Miller, Wilson, Chepp y Padilla, 2014).
C. Estructura interna
ü  AFE y AFC
D. Relaciones con otras variables

ü  Otras medidas del mismo constructo, criterios, Matriz Multirasgo-Multimétodo. Diferencias
de edades. Sensibilidad/Especificidad. Grupos contrastados.
E. Consecuencias del uso del test

22
ü  Más polémica y difícil de evaluar. Imposible seguramente cuando se construye el test (Cizek).
Algunas guías (SIOP) para la relación con
criterios
•  Por encima de 0,35: Muy útiles

•  0,21-0,35, probablemente útiles
•  0,11-0,20, depende de las circunstancias
•  Menos de 0,11: no es útil
•  Raramente son superiores a 0,40
•  Otros valores para sensibilidad-especificidad (en general, ambas
superiores a 0,70)
23
COMPARABILIDAD Y NORMAS DE
INTERPRETACIÓN DE LAS PUNTUACIONES
•  El problema de la comparabilidad responde a cuestiones tales como

ü  ¿puede haber diferencias sistemáticas en las conclusiones si observamos las
respuestas del test A en vez de las del test B? ¿en un TAI (test adaptativo
informatizado) frente a uno de lápiz y papel?, ¿con un evaluador frente a otro?
•  A la hora de hacer inferencias deben eliminarse estas posibles

explicaciones alternativas
24
LAS NORMAS Y LA INTERPRETACIÓN DE LAS"
PUNTUACIONES DE LOS TEST
Dependiendo del propósito de su aplicación, los criterios se basan

en uno o ambos de los siguientes marcos de referencia:
•  Normas o interpretación referida a las normas
•  Criterios o interpretación referida a criterios
25
Interpretación normativa
•  Esta interpretación se basa en las puntuaciones obtenidas en el test

por grupos específicos. Las normas se refieren a las puntuaciones
en el test de uno o más grupos de referencia y suelen presentarse en
forma de tablas, junto con estadísticos descriptivos, que resumen
las puntuaciones del grupo en cuestión.
•  Los grupos a partir de los que se construyen estas normas se

denominan grupos normativos o muestras de estandarización. La
construcción de estas normas es uno de los aspectos esenciales que
se deben reflejarse claramente en el Manual del test.
•  Las normas representan el marco de referencia más utilizado en los

test cognitivos y de personalidad.
26
Puntuaciones basadas en normas
•  La cuestión a la que permiten responder es ¿cómo es la puntuación de este sujeto en

comparación con los sujetos del grupo? Para ello se sitúa la puntuación del sujeto
dentro de una distribución de puntuaciones obtenida el grupo normativo.
•  Los tipos de normas más frecuentes para la interpretación son algunas de las siguientes:
percentiles, puntuaciones típicas o típicas normalizadas
ü  Puntuaciones típicas derivadas como las puntuaciones T (con media 50 y
desviación típica 10)
ü  Los cocientes de desviación (media 100 y desviación típica usualmente de 15)
ü  Estaninos (con media 5 y desviación típica 2; puntuaciones enteras entre 1 y 9)
ü  Decatipos (con media 5,5 y desviación típica 2; puntuaciones enteras entre 1 y 10)
ü  Puntuaciones en test de rendimiento en las evaluaciones internacionales a gran
escala (con media 500 y desviación típica 100).
27
Evaluación de las normas
•  El potencial usuario del test debe juzgar la calidad de las normas y su adecuación para los sujetos
que examinará con el test y toda la información requerida se recogerá en el Manual del test
•  Esta valoración incluirá preguntas sobre el tamaño de la muestra, cómo se reclutó

(procedimientos probabilísticos o no, si es de conveniencia,….) y los criterios de selección
•  Cómo se recogieron los datos, examinadores, composición de la muestra en términos de edad,

sexo, etnia, lengua materna, nivel educativo, titularidad del centro educativo (en test para niños y
adolescentes), estatus socioeconómico, distribución geográfica, etc.
•  En ocasiones es importante recoger otros aspectos como el estatus en cuanto a variables de
salud mental o la pertenencia a grupos atípicos que puedan influir en los resultados del test
•  El usuario decidirá si estas normas son adecuadas
28
Evaluación de las normas
•  Otra consideración importante es la que se refiere a la antigüedad de las normas que

aparecen en el Manual
•  Los autores y editores de los test deben revisarlas para cada cierto tiempo, ya que las
puntuaciones pueden cambiar
•  El uso de normas obsoletas es una de las razones esgrimidas para explicar el

denominado “efecto Flynn” (Flynn, 1987), por el que aparentemente se detectaron
incrementos en los Cocientes Intelectuales en diversos países
29
Otras consideraciones sobre las normas y
comparación de puntuaciones
•  El usuario del test debe ser consciente de que hay otros aspectos a tener en cuenta
para poder comparar las puntuaciones del test con las normas que figuran en el
Manual
•  En general, las puntuaciones no pueden compararse en los siguientes casos:

1.  La versión del test utilizada es diferente
2.  Los grupos de referencia son diferentes
3.  Las escalas de las puntuaciones difieren, salvo que se hayan establecido
procedimientos de equiparación (Kolen y Brennan, 2014)
30
Interpretación referida a criterios
•  Puede seguirse esta interpretación cuando la relación entre los ítems o tareas del test y un
conjunto de criterios está bien definida
•  Es frecuente en los test de rendimiento y competencias académicas y permiten valorar en qué

medida el sujeto alcanza unos niveles determinados de rendimiento
•  En contextos académicos los test se usan con frecuencia para determinar si un sujeto ha
alcanzado un nivel de competencia requerido y en estos casos, el rendimiento de un individuo
o grupo no se compara con el de otras personas, sino con un criterio o estándar previamente
establecido
•  Estos estándares se definen en términos de niveles con puntos de corte definidos
•  En las aplicaciones clínicas también se utilizan con frecuencia criterios definidos mediante
puntos de corte para determinar la presencia o ausencia de determinados trastornos.
•  En el Manual del test deben especificarse claramente los procedimientos utilizados para
establecer los puntos de corte
31
Normas vs. Criterios
•  La diferencia fundamental entre las dos aproximaciones a la

interpretación de las puntuaciones radica en sus objetivos
ü  En los test de interpretación normativa, el objetivo primario es diferenciar entre

individuos o grupos en término del atributo o rasgo evaluado por el test
ü  En los test referidos a criterios, el objetivo es evaluar a un individuo o grupo en

términos de un criterio establecido de antemano
ü  Estos dos objetivos no siempre son mutuamente excluyentes y en ocasiones, el

mismo instrumento puede utilizarse para ambos objetivos, dependiendo del
propósito para el que se usan las puntuaciones del test
32
EQUIDAD O IMPARCIALIDAD (FAIRNESS)
•  En general, bajo esta problemática nos referiremos a explicaciones alternativas de los

resultados de la evaluación que pueden estar relacionadas con factores tales como
diferencias sociodemográficas, de la historia personal de cada individuo, el lenguaje,
familiaridad con las representaciones, etc.
•  Es preciso examinar el impacto de dichos factores
•  Esta cuestión se examina técnicamente bajo la consideración del sesgo del test y del
funcionamiento diferencial de los ítems
•  Deben examinarse los ítems en cuanto a la posibilidad de que resulten ofensivos para
algunos grupos y en cuanto a posibles dependencias culturales, utilizando estadísticos
para identificar ítems que funcionan de forma diferente y examinando las evidencias
de validez de criterio del test para diferentes grupos con objeto de identificar posibles
sesgos (variables moderadoras)
33
Conclusiones
•  Cuando el test cumple con los criterios de calidad que se han

presentado aquí , así como otros aspectos no tratados de tipo ético, es
un instrumento valioso e imprescindible para recoger información
sobre sujetos o grupos, que puede ser utilizada adecuadamente para
distintos tipos de decisiones: diagnóstico, selección, consejo,
orientación, clasificación, asignación a grupos o detección de
problemas
•  Para un uso adecuado, es necesario que el potencial usuario del test

examine cuidadosamente el Manual del test, antes de utilizarlo para
una finalidad determinada
34
Conclusiones
•  Es imprescindible que el Manual recoja toda la información

necesaria para que el usuario pueda evaluar sus propiedades y la
finalidad de su uso.
•  En ocasiones, será desaconsejable el uso de un determinado test,

cuando no esté clara la finalidad de su uso, la documentación
sobre fiabilidad o validez es inadecuada o insuficiente, los ítems
del test no son imparciales o son ofensivos para determinados
grupos o las normas del test están obsoletas o no son adecuadas
para los sujetos o grupos a los que va a evaluar
35
Guías para uso de los test y validación
Standards for Educational and Psychological Testing (AERA et al.2014)
Consensus-Based Standards for the Selection of Health Measurement Instruments

(COSMIN; Mokkink et al. 2010ª)
Evaluating the Measurement of Patient-Reported Outcomes (EMPRO; Valderas et al.

2008)
Principles for the Validation and Use of Personnel Selection Procedures (Society for
Industrial and Organizational Psychology, SIOP, 2003)
European Federation of Psychologists’ Associations (EFPA) review model (Evers et al.

2013)
36
Otras guías de interés
•  Standards for Quality and Fairness (Educational Testing Service, 2014;

http://www.ets.org
•  Technical Standards for IEA Studies (Martín, Rust y Adams, 1999, http://www.iea.org)
•  Otros criterios de calidad son los establecidos por la International Test Commission
(2013), disponibles online y con traducción a varios idiomas, entre otros el español
(http://intestcom.org/ guideliness/).
•  En España, el Colegio Oficial de Psicólogos ha publicado unas guías que incluyen las
normas para la evaluación y el uso de los test, incluyendo los test educativos y que
pueden consultarse en http://www.cop.es/index.php?page=evaluacion-tests-editados-
en-espana.
•  Para las normas éticas, puede consultarse además: código ético de la American
Psychological Association (APA, 2010) http://www.apa.org/ethics/code/index.aspx.
37
Referencias
American Educational Research Association, American Psychological Association,

National Council on Measurement in Education. (2014). Standards for Educational
and Psychological Tests. Washington, DC: AERA.
American Psychological Association (2010). Ethical principles psychologists and code of conduct.
Washington, DC: APA. Disponible en: http://www.apa. org/ethics/code/
index.aspx
Educational Testing Service (2014). Standards fot quality and fairness. Disponible en:
http://www.ets.org
European Federation of Psychologists’ Associations (2013). EFPA test review model.

Disponible en http://www.efpa.eu/.../650d0d4ecd407a51139ca44ee704f
International Test Commission (2005). ITC Guideliness on Computer-Based and Internet

Delivered Testing. Disponible en: http://www.intestcom.org/guidelines/
International Test Commission (2013). ITC Guideliness on test use. Disponible en 38

http://www.intestcom.org/guidelines/
Referencias
Mokkink, L.B. et al. (2010). Consensus-Based Standards for the Selection of Health
Measurement Instruments. COSMIN. Disponible en:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2852520/
PROMIS® Instrument Development and Validation (2013). Scientific Standards. Version

2.0 . Disponible en: http://www.nihpromis.org/science/methodology
Rudner, Lawrence M. (1994). Questions to ask when evaluating tests. Practical Assessment,
Research & Evaluation, 4(2). Disponible en:
http://PAREonline.net/getvn.asp?v=4&n=2.
Society for Industrial and Organizational Psychology, SIOP (2003). Principles for the
Validation and Use of Personnel Selection Procedures. Disponible en:
www.siop.org/_principles/principles.pdf
Valderas, J.M. et al. (2008). Development of EMPRO: a tool for the standardized
assessment of patient-reported outcome measures. Value Health, 11, 700-708. 39
Medidas
APA: Contenido y estructura del manuscrito de un estudio empírico (cont.)

2. Método: Medidas
•  Definición precisa de todas las variables principales y secundarias
medidas, incluso aunque no se vaya a realizar ningún análisis con
ellas
•  Descripción del procedimiento de aplicación de los instrumentos

de medida

Medidas en las Publicaciones
Método: Medidas (cont.)

•  Descripción detallada de los instrumentos utilizados:
ü Propiedades psicométricas de los mismos, en especial aquellas
que sean relevantes para la investigación: por ejemplo, para
ver si ha tenido efecto un tratamiento es fundamental la
fiabilidad test-retest
ü Propiedades psicométricas con los datos de la muestra
ü En caso de ser un instrumento adaptado de otra cultura:
procedimiento de adaptación y comprobación de las
propiedades psicométricas
ü Si es un instrumento creado “ad hoc” hay que comprobar las
propiedades psicométricas del mismo

Problemas frecuentes
Medidas
•  Falta información sobre las propiedades psicométricas relevantes
para la investigación, no se pueden hacer afirmaciones de tipo: “el instrumento
es válido y fiable”
•  Faltan medidas objetivas más allá del autoinforme
•  No se combinan medidas de diferente tipo y diferentes fuentes (ej:
neurológicas, genéticas, hormonales,…)
•  Faltan las propiedades psicométricas calculadas con los datos de la
muestra
•  Nunca se tiene en cuenta la fiabilidad de las puntuaciones diferencia
•  La forma de llamar a una misma variable cambia a lo largo del
artículo

Medidas (cont.)
•  Problemas derivados del autoinforme:
1.  Validez de constructo
2.  Efecto del método en las correlaciones entre las variables
3.  Deseabilidad social:
ü  No afectan por igual a todas las variables
ü  Métodos para solucionar este tipo de sesgos (Podsakoff el al.,
2003)

Medidas (cont.)
•  No crear en la medida de lo posible instrumentos nuevos, utilizar los que ya

han demostrado buenas propiedades y son de uso general
•  En caso de tener que crear uno nuevo, justificar muy bien dicha
necesidad
•  Confusión entre estudios para analizar las propiedades psicométricas del

instrumento y estudios donde se utiliza el instrumento con otros fines, para lo
cual deben estar comprobadas las propiedades

Medidas (cont.)
•  Los constructos en muchas ocasiones no están definidos o lo
están definidos de forma vaga
•  Muchas definiciones son tautológicas o definen el constructo por

sus consecuencias
•  En caso de tener que crear un nuevo instrumento para medir un
constructo, justificar muy bien dicha necesidad
•  Confusión entre estudios para analizar las propiedades psicométricas del

instrumento y estudios donde se utiliza el instrumento con otros fines, para lo
cual deben estar comprobadas las propiedades
Medidas (cont.)
•  Categorizar variables continuas presenta importantes problemas
metodológicos, salvo por algún motivo teórico (apoyado
empíricamente), no es una práctica aceptable
•  Para categorizar, cuando esté apoyado por algún motivo teórico,

es necesario acudir a los baremos externos y no a los generados
en la propia muestra

Rendimiento
Media
DepresiónCategórica 1 27,64
2 44,46
Rendimiento
Media
DepresiónBaremo 1 29,29
2 50,86

Medidas (cont.)
•  Análisis factorial:
ü  La mayoría de los autores no indican el método de extracción
de factores que utilizan en el AFE
ü  Utilización del método de componentes principales que es un
método de reducción de datos, produce resultados diferentes
si las comunalidades y/o el número de variables por factor es
pequeño
ü  Utilización de rotaciones ortogonales, cuando la
recomendación es utilizar rotación oblicua (Russell, 2002)

Problemas frecuentes y soluciones
Medidas (cont.)
•  Análisis factorial (cont.):
ü  Utilizar la regla de autovalor mayor que uno, poco fiable
ü  Se debe utilizar preferiblemente un criterio teórico
ü  En caso de utilizar un procedimiento empírico:
•  Screeplot
•  Análisis paralelo (PA)
ü  Información a proporcionar en un artículo sobre el análisis
factorial (Benson & Nasser, 1998)

Tema 1.1.medición en Psicología

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Tema 1.1.medición en Psicología

Caricato da

Copyright:

Formati disponibili

Normas para la evaluación

Rosario Martínez Arias

• “Un test es un instrumento evaluativo o procedimiento sistemático con el que se

• “Un test psicológico es un procedimiento sistemático para obtener muestras de

Palabras clave de la definición

• “Estandarizado”, se entiende que la forma como se puntúa o asigna una categoría

• En adelante utilizamos la palabra test para referirnos a cualquiera de los tipos de

• Los test son instrumentos al servicio del proceso de evaluación.

• Los test psicológicos son simplemente uno de los instrumentos

• No obstante, el Glosario de los SEPT (AERA et al., 2014) no deja

• La construcción de test está regulada por un conjunto de estándares y

• Toda la información que el potencial usuario del test debe consultar

1. Fundamentación teórica (o del dominio)

• Existe una cadena de inferencias que dependen de modelos

• Fórmulas y procedimientos de la teoría de los test proporcionan

• Como puede observarse en la figura, en primer lugar se construyen una serie de

• La presentación y las respuestas a estas tareas pueden adoptar múltiples

• Existen diversos procedimientos según el modelo de puntuaciones

• Fiabilidad o ausencia de errores, para lo que usa modelos

• Este principio tiene que ver con los errores cometidos en el

• En psicometría estudiamos diferentes formas de estimar la fiabilidad

• La extensión de la Teoría Clásica de los Test conocida como Teoría

• Otros métodos de estimar la fiabilidad y el error de medida están

• Aquí la fiabilidad y el error de medida son aproximados desde la

• Esta aproximación es especialmente adecuada en los test

Preguntas típicas que el usuario del test debe hacerse en cuanto a la

• ¿Se han calculado estimaciones para diferentes grupos de sujetos?

• ¿Es el coeficiente de fiabilidad suficientemente alto para el uso que se hará de

• ¿Hasta qué punto los grupos en los que se ha calculado el coeficiente de

• 0,90 y más excelente

• Menos de 0,70: aplicabilidad limitada

• Debe tenerse en cuenta el contexto en el que se utilizará el test

• La validación es el proceso mediante el que se obtienen las evidencias de validez

• Las versiones más antiguas de los SEPT distinguían entre un

• En los SEPT más recientes, la validez es el tema más importante

A. Contenido del test

D. Relaciones con otras variables

E. Consecuencias del uso del test

• Por encima de 0,35: Muy útiles

• El problema de la comparabilidad responde a cuestiones tales como

• A la hora de hacer inferencias deben eliminarse estas posibles

Dependiendo del propósito de su aplicación, los criterios se basan

• Normas o interpretación referida a las normas

• Criterios o interpretación referida a criterios

• Esta interpretación se basa en las puntuaciones obtenidas en el test

• Los grupos a partir de los que se construyen estas normas se

• Las normas representan el marco de referencia más utilizado en los

• La cuestión a la que permiten responder es ¿cómo es la puntuación de este sujeto en

• Esta valoración incluirá preguntas sobre el tamaño de la muestra, cómo se reclutó

• Cómo se recogieron los datos, examinadores, composición de la muestra en términos de edad,

• El usuario decidirá si estas normas son adecuadas

• Otra consideración importante es la que se refiere a la antigüedad de las normas que

• El uso de normas obsoletas es una de las razones esgrimidas para explicar el

• En general, las puntuaciones no pueden compararse en los siguientes casos:

• Es frecuente en los test de rendimiento y competencias académicas y permiten valorar en qué

• Estos estándares se definen en términos de niveles con puntos de corte definidos

• La diferencia fundamental entre las dos aproximaciones a la

ü En los test de interpretación normativa, el objetivo primario es diferenciar entre

ü En los test referidos a criterios, el objetivo es evaluar a un individuo o grupo en

ü Estos dos objetivos no siempre son mutuamente excluyentes y en ocasiones, el

• En general, bajo esta problemática nos referiremos a explicaciones alternativas de los

• Es preciso examinar el impacto de dichos factores

• Cuando el test cumple con los criterios de calidad que se han

•  “Un test es un instrumento evaluativo o procedimiento sistemático con el que se

•  “Un test psicológico es un procedimiento sistemático para obtener muestras de

•  “Estandarizado”, se entiende que la forma como se puntúa o asigna una categoría

•  En adelante utilizamos la palabra test para referirnos a cualquiera de los tipos de

•  Los test son instrumentos al servicio del proceso de evaluación.

•  Los test psicológicos son simplemente uno de los instrumentos

•  No obstante, el Glosario de los SEPT (AERA et al., 2014) no deja

•  La construcción de test está regulada por un conjunto de estándares y

•  Toda la información que el potencial usuario del test debe consultar

1.  Fundamentación teórica (o del dominio)

•  Existe una cadena de inferencias que dependen de modelos

•  Fórmulas y procedimientos de la teoría de los test proporcionan

•  Como puede observarse en la figura, en primer lugar se construyen una serie de

•  La presentación y las respuestas a estas tareas pueden adoptar múltiples

•  Existen diversos procedimientos según el modelo de puntuaciones

•  Fiabilidad o ausencia de errores, para lo que usa modelos

•  Este principio tiene que ver con los errores cometidos en el

•  En psicometría estudiamos diferentes formas de estimar la fiabilidad

•  La extensión de la Teoría Clásica de los Test conocida como Teoría

•  Otros métodos de estimar la fiabilidad y el error de medida están

•  Aquí la fiabilidad y el error de medida son aproximados desde la

•  Esta aproximación es especialmente adecuada en los test

•  ¿Se han calculado estimaciones para diferentes grupos de sujetos?

•  ¿Es el coeficiente de fiabilidad suficientemente alto para el uso que se hará de

•  ¿Hasta qué punto los grupos en los que se ha calculado el coeficiente de

•  0,90 y más excelente

•  Menos de 0,70: aplicabilidad limitada

•  Debe tenerse en cuenta el contexto en el que se utilizará el test

•  La validación es el proceso mediante el que se obtienen las evidencias de validez

•  Las versiones más antiguas de los SEPT distinguían entre un

•  En los SEPT más recientes, la validez es el tema más importante

•  Por encima de 0,35: Muy útiles

•  El problema de la comparabilidad responde a cuestiones tales como

•  A la hora de hacer inferencias deben eliminarse estas posibles

•  Normas o interpretación referida a las normas

•  Criterios o interpretación referida a criterios

•  Esta interpretación se basa en las puntuaciones obtenidas en el test

•  Los grupos a partir de los que se construyen estas normas se

•  Las normas representan el marco de referencia más utilizado en los

•  La cuestión a la que permiten responder es ¿cómo es la puntuación de este sujeto en

•  Esta valoración incluirá preguntas sobre el tamaño de la muestra, cómo se reclutó

•  Cómo se recogieron los datos, examinadores, composición de la muestra en términos de edad,

•  El usuario decidirá si estas normas son adecuadas

•  Otra consideración importante es la que se refiere a la antigüedad de las normas que

•  El uso de normas obsoletas es una de las razones esgrimidas para explicar el

•  En general, las puntuaciones no pueden compararse en los siguientes casos:

•  Es frecuente en los test de rendimiento y competencias académicas y permiten valorar en qué

•  Estos estándares se definen en términos de niveles con puntos de corte definidos

•  La diferencia fundamental entre las dos aproximaciones a la

ü  En los test de interpretación normativa, el objetivo primario es diferenciar entre

ü  En los test referidos a criterios, el objetivo es evaluar a un individuo o grupo en

ü  Estos dos objetivos no siempre son mutuamente excluyentes y en ocasiones, el

•  En general, bajo esta problemática nos referiremos a explicaciones alternativas de los

•  Es preciso examinar el impacto de dichos factores

•  Cuando el test cumple con los criterios de calidad que se han

•  Para un uso adecuado, es necesario que el potencial usuario del test

•  Es imprescindible que el Manual recoja toda la información

•  En ocasiones, será desaconsejable el uso de un determinado test,

•  Standards for Quality and Fairness (Educational Testing Service, 2014;

•  Descripción del procedimiento de aplicación de los instrumentos

•  No crear en la medida de lo posible instrumentos nuevos, utilizar los que ya

•  Confusión entre estudios para analizar las propiedades psicométricas del

•  Muchas definiciones son tautológicas o definen el constructo por

•  Confusión entre estudios para analizar las propiedades psicométricas del

•  Para categorizar, cuando esté apoyado por algún motivo teórico,