Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
de los tests
1
¿Qué es un test?
2
¿Qué es un test?
• “Muestra de conductas”, entendemos que sus contenidos están formados por una
muestra cuidadosamente seleccionada y representativa de un dominio mucho más
amplio, de la que se intenta extraer inferencias válidas sobre el atributo evaluado,
que suele pertenecer a algún dominio cognitivo, afectivo o de funcionamiento
interpersonal.
Otras características
• Los test sirven para algún tipo de decisión: clasificación, selección, diagnóstico,
planificación de tratamientos, evaluación de programas/intervenciones o
investigación.
4
Test vs. Evaluación (Assessment)
5
Normas que debe cumplir un test
6
Manual del Test
7
DIFICULTADES ESPECIALES DE LOS TEST COMO INSTRUMENTOS
DE MEDICIÓN EN PSICOLOGÍA Y EDUCACIÓN
• La mayor parte de los atributos de interés que intentamos medir no son observables
directamente, debiendo acudir a indicadores indirectos de los mismos: las conductas
observables representadas en los elementos del test.
• La idea central que subyace al uso del test es que hay un atributo único, el constructo,
que es lo que el instrumento intenta medir y que en ese atributo, utilizando las
puntuaciones del test, pueden situarse las personas y los estímulos o ítems del test.
• Tras la aplicación del instrumento y siguiendo una regla que se aplica a las respuestas u
observaciones, obtenemos una o más puntuaciones numéricas del sujeto. Suponemos
que estas cantidades observadas reflejan de algún modo la cantidad que el sujeto posee
en el atributo o propiedad medida, pero, no podemos asumir directamente que refleje
bien la verdadera cantidad de interés.
8
De las tareas al constructo o atributo
• Los SEPT (AERAet al., 2014) dan una definición amplia del término
constructo que permite que se pueda aplicar a los diferentes tipos de
test: “constructo es el concepto o característica para cuya medición se
ha diseñado el test” (p.11).
Validez
Puntuación verdadera
Habilidad, etc.
Fiabilidad
Puntuación observada
Patrón de respuestas, etc.
Muestra
Escalamiento
Tests, instrumentos:
muestras de conducta
Observaciones,
Tests de papel y lápiz Tests informatizados
***** entrevistas, etc.
10
La inferencia psicométrica
• Son las respuestas a estas tareas la única parte observable del proceso. Estas
respuestas reciben una puntuación numérica que suele denominarse también
puntuación observada o puntuación estimada por medio del proceso conocido
como escalamiento.
11
Modelos para las puntuaciones
14
Fiabilidad de las puntuaciones
• Diferentes usos de las puntuaciones de los test pueden requerir distintos abordajes del
problema de la fiabilidad.
• Por ejemplo, si las puntuaciones del test implican un juicio subjetivo, debe tenerse en
cuenta la fiabilidad como acuerdo entre calificadores. Si las puntuaciones del test se van
a utilizar para evaluar cambios o mejoras tras intervenciones, la fiabilidad como test-
retest es esencial. Cuando se ha de examinar al sujeto para confirmar o ratificar
resultados previos, es importante disponer de formas alternativas. Si se desea
consistencia a lo largo del test entero puede utilizarse el coeficiente alpha o alguno de
sus casos particulares o extensiones. Finalmente, si las puntuaciones del test son
susceptibles de diferentes fuentes de error, se considerará utilizar los coeficientes
derivados de la Teoría de la Generalizabilidad (Brennan, 2001).
16
Fiabilidad de las puntuaciones
17
Preguntas para evaluar la fiabilidad
18
Guía para los coeficientes de fiabilidad (Nunnally y
Berstein, 1994)
• 0,80-0,89: buena
• 0,70-0,79: adecuada
19
VALIDEZ
• La finalidad de los test psicológicos es ayudarnos a hacer inferencias sobre los atributos de los
sujetos
• La validez, que es el aspecto fundamental de un test, nos aporta evidencias para apoyar las
inferencias que hacemos a partir de los resultados del test
• Los SEPT la definen como “grado en que la evidencia y la teoría soportan la interpretación de las
puntuaciones del test para el uso pretendido” (AERA et al., 2014, p. 11)
• La validez es una cuestión de juicio basado en el uso dado a las puntuaciones para un propósito
en un determinado contexto
• Debido a los diferentes propósitos para los que se usan las puntuaciones, las evidencias pueden
obtenerse a partir de una gran diversidad de métodos
20
Aproximaciones a la validez de las puntuaciones
21
Evidencias de validez
B. Procesos de respuesta
ü Los procesos mentales que sigue el sujeto para responder a los ítems del test. Técnicas de
imagen. Protocolos verbales. Grupos contrastados (expertos-novatos). Entrevista cognitiva
(Miller, Wilson, Chepp y Padilla, 2014).
C. Estructura interna
ü AFE y AFC
23
COMPARABILIDAD Y NORMAS DE
INTERPRETACIÓN DE LAS PUNTUACIONES
24
LAS NORMAS Y LA INTERPRETACIÓN DE LAS"
PUNTUACIONES DE LOS TEST
25
Interpretación normativa
• Los tipos de normas más frecuentes para la interpretación son algunas de las siguientes:
percentiles, puntuaciones típicas o típicas normalizadas
ü Puntuaciones típicas derivadas como las puntuaciones T (con media 50 y
desviación típica 10)
ü Los cocientes de desviación (media 100 y desviación típica usualmente de 15)
ü Estaninos (con media 5 y desviación típica 2; puntuaciones enteras entre 1 y 9)
ü Decatipos (con media 5,5 y desviación típica 2; puntuaciones enteras entre 1 y 10)
ü Puntuaciones en test de rendimiento en las evaluaciones internacionales a gran
escala (con media 500 y desviación típica 100).
27
Evaluación de las normas
• El potencial usuario del test debe juzgar la calidad de las normas y su adecuación para los sujetos
que examinará con el test y toda la información requerida se recogerá en el Manual del test
28
Evaluación de las normas
• Los autores y editores de los test deben revisarlas para cada cierto tiempo, ya que las
puntuaciones pueden cambiar
29
Otras consideraciones sobre las normas y
comparación de puntuaciones
• El usuario del test debe ser consciente de que hay otros aspectos a tener en cuenta
para poder comparar las puntuaciones del test con las normas que figuran en el
Manual
30
Interpretación referida a criterios
• Puede seguirse esta interpretación cuando la relación entre los ítems o tareas del test y un
conjunto de criterios está bien definida
• En contextos académicos los test se usan con frecuencia para determinar si un sujeto ha
alcanzado un nivel de competencia requerido y en estos casos, el rendimiento de un individuo
o grupo no se compara con el de otras personas, sino con un criterio o estándar previamente
establecido
• En las aplicaciones clínicas también se utilizan con frecuencia criterios definidos mediante
puntos de corte para determinar la presencia o ausencia de determinados trastornos.
• En el Manual del test deben especificarse claramente los procedimientos utilizados para
establecer los puntos de corte
31
Normas vs. Criterios
32
EQUIDAD O IMPARCIALIDAD (FAIRNESS)
• Esta cuestión se examina técnicamente bajo la consideración del sesgo del test y del
funcionamiento diferencial de los ítems
• Deben examinarse los ítems en cuanto a la posibilidad de que resulten ofensivos para
algunos grupos y en cuanto a posibles dependencias culturales, utilizando estadísticos
para identificar ítems que funcionan de forma diferente y examinando las evidencias
de validez de criterio del test para diferentes grupos con objeto de identificar posibles
sesgos (variables moderadoras)
33
Conclusiones
34
Conclusiones
35
Guías para uso de los test y validación
Principles for the Validation and Use of Personnel Selection Procedures (Society for
Industrial and Organizational Psychology, SIOP, 2003)
36
Otras guías de interés
• Technical Standards for IEA Studies (Martín, Rust y Adams, 1999, http://www.iea.org)
• Otros criterios de calidad son los establecidos por la International Test Commission
(2013), disponibles online y con traducción a varios idiomas, entre otros el español
(http://intestcom.org/ guideliness/).
• En España, el Colegio Oficial de Psicólogos ha publicado unas guías que incluyen las
normas para la evaluación y el uso de los test, incluyendo los test educativos y que
pueden consultarse en http://www.cop.es/index.php?page=evaluacion-tests-editados-
en-espana.
• Para las normas éticas, puede consultarse además: código ético de la American
Psychological Association (APA, 2010) http://www.apa.org/ethics/code/index.aspx.
37
Referencias
American Psychological Association (2010). Ethical principles psychologists and code of conduct.
Washington, DC: APA. Disponible en: http://www.apa. org/ethics/code/
index.aspx
Educational Testing Service (2014). Standards fot quality and fairness. Disponible en:
http://www.ets.org
Mokkink, L.B. et al. (2010). Consensus-Based Standards for the Selection of Health
Measurement Instruments. COSMIN. Disponible en:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2852520/
Rudner, Lawrence M. (1994). Questions to ask when evaluating tests. Practical Assessment,
Research & Evaluation, 4(2). Disponible en:
http://PAREonline.net/getvn.asp?v=4&n=2.
Society for Industrial and Organizational Psychology, SIOP (2003). Principles for the
Validation and Use of Personnel Selection Procedures. Disponible en:
www.siop.org/_principles/principles.pdf
Valderas, J.M. et al. (2008). Development of EMPRO: a tool for the standardized
assessment of patient-reported outcome measures. Value Health, 11, 700-708. 39
Medidas
Medidas
• Falta información sobre las propiedades psicométricas relevantes
para la investigación, no se pueden hacer afirmaciones de tipo: “el instrumento
es válido y fiable”
• Faltan medidas objetivas más allá del autoinforme
• No se combinan medidas de diferente tipo y diferentes fuentes (ej:
neurológicas, genéticas, hormonales,…)
• Faltan las propiedades psicométricas calculadas con los datos de la
muestra
• Nunca se tiene en cuenta la fiabilidad de las puntuaciones diferencia
• La forma de llamar a una misma variable cambia a lo largo del
artículo
Medidas (cont.)
• Problemas derivados del autoinforme:
1. Validez de constructo
2. Efecto del método en las correlaciones entre las variables
3. Deseabilidad social:
ü No afectan por igual a todas las variables
ü Métodos para solucionar este tipo de sesgos (Podsakoff el al.,
2003)
Medidas (cont.)
• En caso de tener que crear uno nuevo, justificar muy bien dicha
necesidad
Medidas (cont.)
• Los constructos en muchas ocasiones no están definidos o lo
están definidos de forma vaga
Medidas (cont.)
• Categorizar variables continuas presenta importantes problemas
metodológicos, salvo por algún motivo teórico (apoyado
empíricamente), no es una práctica aceptable
Rendimiento
Media
DepresiónCategórica 1 27,64
2 44,46
Rendimiento
Media
DepresiónBaremo 1 29,29
2 50,86
Medidas (cont.)
• Análisis factorial:
ü La mayoría de los autores no indican el método de extracción
de factores que utilizan en el AFE
ü Utilización del método de componentes principales que es un
método de reducción de datos, produce resultados diferentes
si las comunalidades y/o el número de variables por factor es
pequeño
ü Utilización de rotaciones ortogonales, cuando la
recomendación es utilizar rotación oblicua (Russell, 2002)
Medidas (cont.)
• Análisis factorial (cont.):
ü Utilizar la regla de autovalor mayor que uno, poco fiable
ü Se debe utilizar preferiblemente un criterio teórico
ü En caso de utilizar un procedimiento empírico:
• Screeplot
• Análisis paralelo (PA)
ü Información a proporcionar en un artículo sobre el análisis
factorial (Benson & Nasser, 1998)