1. Conceptos básicos de confiabilidad y validez. La etapa de construcción de las pruebas psicológicas requiere del manejo de amplios conocimientos teóricos relacionados con los fenómenos psicológicos que son objeto de estudio, sin embargo esto no suele ser suficiente para comprobar la precisión y capacidad y sensibilidad que posee el instrumento de medición, por tanto se deben aplicar una serie de procedimientos estadísticos con los cuales se realiza una especie de calibración del test, el cual corresponde a un ajuste de la prueba para que mida de manera consistente el atributo del cual se desea obtener una valoración numérica. Este proceso resulta de gran importancia para cualquier instrumento de medición, puesto que los resultados de la prueba son fundamentales para la fase de diagnóstico y tratamiento, por tanto se debe evitar al máximo cualquier tipo de inconsistencias o sesgos en las pruebas que el profesional administre al momento de realizar el pro ceso de evaluación psicológica. Según Muñiz citado por Aragón (2015), afirma que un instrumento con grados altos de confiabilidad tiene la característica de ser estable y continua, por tanto los resultados tienden a presentarse de manera similar u homogénea, con lo cual podrán ser generalizados en múltiples situaciones. Hogan (2015), afirma que la confiabilidad representa la consistencia con que el instrumento mide el atributo, lo cual es posible identificar a partir de la similitud entre las puntuaciones, es decir que si el sujeto obtuvo una calificación en un test de matemáticas de 4,8 sobre 5.0, probablemente si se aplica el mismo test en una segunda oportunidad las puntuaciones serán similares a la calificación inicial, de lo contrario es probable que la prueba no sea confiable. Según Aragón (2015), la confiabilidad es el indicador que identifica el nivel de consistencia interna de las mediciones, el cual se basa en la estimación del error para evaluar la estabilidad de la medida y generalizar los resultados, es decir que una prueba es confiable cuando la puntuación empírica no varía significativamente frente a las múltiples condiciones en las que pueda medirse un atributo, lo cual sucede al minimizar el error. Martínez y Hernández (2014), afirman que existen múltiples procedimientos para estimar la confiabilidad de los test, sin embargo todos concuerdan con la idea de que a través de la correspondencia entre las puntuaciones es posible identificar si los resultados pueden ser generalizables, es decir que entre menos diferencias existan entre las puntuaciones empíricas, el instrumento será más confiable. Cabe resaltar que los resultados no serán exactamente iguales en las mediciones posteriores, puesto que como se afirma en la teoría clásica de los test, existen errores aleatorios que no son previsibles para el evaluador, sin embargo no generan un impacto significativo para considerar sesgos importantes en la medición. Un claro ejemplo de la importancia de estimar la confiabilidad de los test puede observarse a través de un caso hipotético, en donde el sujeto CP es remitido a psicología para la evaluación de ansiedad y depresión, si la el diagnóstico se realiza con un instrumento que presenta bajo grado de confiabilidad, posiblemente los resultados de la prueba podrían indicar que el sujeto presenta niveles irregulares de depresión y ansiedad, si esto sucede, es altamente probable que CP sea intervenido de manera inmediata por profesionales de psicología y psiquiatría, a través de psicoterapia y farmacología, los cuales pueden es bien sabido que generan alteraciones fisiológicas que seguramente tendrán un efecto en la salud física, psicológica y social de CP. Hogan (2015), afirma que antes de realizar procedimientos estadísticos para estimar la confiabilidad, es necesario considerar algunas fuentes o condiciones que afectan la estabilidad de la medición, tales como: a) calificación de la prueba; b) contenido de la prueba; c) condiciones de aplicación de la prueba y d) condiciones personales. En el primer caso, la calificación de la prueba puede representar una condición que afecta la confiabilidad en aquellas situaciones en que los resultados son producto de una valoración subjetiva por parte del evaluador, es decir que cuando las normas de calificación no son explícitas y claras, la valoración en el desempeño de los participantes podrá presentar gran variabilidad entre cada una de las mediciones, aun cuando el instrumento tenga alto grado de confiabilidad, lo cual resulta ser un factor de sesgo que aumenta el margen de error no sistemático; por tanto, el diseñador del instrumento deberá especificar de manera concreta cada una de las pautas y criterios estandarizados con los cuales se realizará la calificación de la prueba, de esta forma se podrá reducir el sesgo de subjetividad. Respecto al contenido de la prueba, Hogan afirma que el muestreo de los reactivos debe representar de manera simétrica y/o equitativa todas las dimensiones del constructo, puesto que al presentar variaciones en el conjunto de los reactivos se pueden generar diferencias aleatorias que no permiten identificar la verdadera cantidad del rasgo psicológico que se desea medir, es decir que si la prueba presenta preferencia por algún atributo, el constructo no se logra medir de manera completa. Para ejemplificar este aspecto podría suponer que al elaborar una prueba de motivación académica, que contiene 10 preguntas sobre motivación intrínseca y 20 sobre motivación extrínseca, podría fácilmente inferirse que cualquier sujeto que aplicase esta prueba, mostrará mayor tendencia a presentar motivación externa que interna, lo cual puede que no corresponda con la realidad. En relación a las condiciones de aplicación de la prueba es posible afirmar que las condiciones ambientales, instrucciones e inclusive el tiempo de aplicación de la prueba, podrá afectar la estabilidad en las puntuaciones del test, en este aspecto se considera adecuado que los estímulos ambientales puedan ser evaluados antes de realizar la aplicación formal de la prueba. De igual forma las instrucciones deberán ser sometidas a prueba informal por parte de los participantes, en este caso el evaluador deberá indagar sobre la comprensión y claridad en la forma de responder el test, adicionalmente podrá valerse de ejemplos para confirmar que la ejecución de la tarea sea comprendida. Una de las situaciones que han sido objeto de gran debate en término de la confiabilidad de las pruebas han sido las condiciones personales de los examinados, puesto que factores asociados a variables físicas, psicológicas y sociales pueden afectar el desempeño durante la aplicación de la prueba. Considere un caso hipotético en donde se evalúa la motivación académica del estudiante CP, no obstante al terminar la prueba el evaluador identifica que el examinado desea hablar con un Psicólogo que pueda orientarle en el proceso de duelo ocasionado por la separación de su compañera sentimental, de acuerdo a la situación observada ¿cómo podrían ser las calificaciones de motivación académica del estudiante? Cabe resaltar que cada una de las condiciones analizadas anteriormente representan eventos asociados a errores aleatorios que no generan un impacto significativo en la capacidad de medición de los rasgos psicológicos, sin embargo es importante que cada una de estas situaciones sean consideradas por el evaluador, con el fin reducir al máximo las fuentes que pueden generar variabilidad en las calificaciones de la prueba, de igual forma se sugiere realizar una valoración inicial de las condiciones personales de los examinados al momento de aplicar la prueba, puesto que generalmente estas ligeras diferencias pueden ser causa de disminución en el rendimiento de las pruebas, esto ha sido comprobado por múltiples estudios en donde variables como el estrés, la ansiedad, y el bajo estado de ánimo dificultan el rendimiento del estudiante en el contexto académico, específicamente durante situaciones asociadas a la aplicación de exámenes, sustentaciones en público, y prácticas académicas, entre otras, lo cual, Según Fencl, & Scheel, 2005, implica una disminución de la seguridad en el estudiante. 2. Procedimientos para estimar la confiabilidad.
Según Martínez et al (2014), existen múltiples procedimientos que permiten
determinar el grado de confiabilidad de los test, dentro de los cuales se reconocen cuatro métodos que son utilizados con mayor frecuenta:
Confiabilidad test – retest.
División por mitades Formas paralelas Coeficiente alfa de Cronbach.
De acuerdo con Hogan (2014), cada uno de los procedimientos anteriormente
nombrados, se enfocan en las diferentes fuentes que alteran las variaciones entre las puntuaciones, lo cual representa un impacto para la confiabilidad de las pruebas, por tanto cada uno de los métodos se basan en el cálculo del coeficiente de correlación de Pearson para identificar el grado de correlación entre las puntuaciones de los test, de esta forma será posible afirmar que entre más cercanas a 1, existirá mayor relación entre dos pruebas, lo cual significaría que existe pocas diferencias entre las puntuaciones, por tanto los resultados deberán ser interpretados de acuerdo a la siguiente tabla. Confiabilidad test – retest: se utiliza para evaluar el error asociado con la aplicación de la prueba en dos momentos diferentes, para esto se debe tener en cuenta que el constructo de medición carezca de variaciones significativas a lo largo tiempo, es decir que el rasgo no sea resultado de una condición temporal en el examinado, por ejemplo la personalidad, los intereses, inteligencia, procesos cognitivos, entre otros. Para identificar el grado de confiabilidad se deberá utilizar el coeficiente de correlación entre las calificaciones obtenidas luego de aplicar dos veces el mismo test, es decir que para utilizar este procedimiento se deberá aplicar en dos ocasiones la misma prueba a los mismos sujetos, y al obtener los resultados se deberán estimar los coeficientes de correlación.
2.1. Conceptos básicos y métodos de validez.
Generalmente se habla de validez cuando se hace referencia al propósito de medición que tiene una prueba, es decir que realmente mida para lo cual fue diseñado, sin embargo Hogan (2015),propone que la validez deberá estar orientada en las puntuaciones, puesto que éstas ofrecen una representación real del constructo que se pretende medir, lo cual es fundamental para la interpretación de los resultados en un sentido práctico. Dentro de los tipos de validez se encuentran:
Validez referida al contenido.
Validez referida al criterio. Validez del constructo, los cuales se encargan de contrastar la capacidad de medición de los reactivos respecto al constructo. La validez de contenido pretende identificar si la cantidad y calidad de los reactivos realmente miden de manera integral todo el constructo, para lo cual es necesario de una buena relación entre el contenido de la prueba y el constructo, puesto que se desea confirmar si los ítems son una muestra representativa del contenido de la prueba. Para validar el contenido de la prueba, Martínez et al (2014) sugiere una serie de procedimientos que incluyen la evaluación de las dimensiones del constructo, especificar los conceptos, utilizar el juicio de uno o más expertos y estimar la confiabilidad de los resultados indicados por los jueces. Para realizar una validación de criterio, generalmente se recurre a la comparación con otras fuentes de medición que hayan sido previamente validadas, es decir que los resultados arrojados por la prueba que se encuentra en fase de validación deberán ser similares a los datos obtenidos por una prueba de referencia. En este sentido, la validación del criterio requiere de realizar:
Correlaciones o análisis de varianzas con otras pruebas.
Contraste entre grupos. Confirmaciones con criterios externos. En el primer caso se puede utilizar el coeficiente de correlación de Pearson para medir el grado de relación entre la prueba que se desea validar y una prueba de referencia, en donde los resultados próximos a 1 mostrarán un grado de validez adecuado para la prueba. En el contraste entre grupos el evaluador deberá comparar sujetos que presenten el rasgo con sujetos que no lo tengan, de esta forma los resultados podrán indicar si la prueba tiene la capacidad para discriminar a los examinados que posean el constructo de medición. Las confirmaciones de criterios externos corresponden a las valoraciones aportadas por otras fuentes de información que pueden ser complementarias, dentro de las cuales pueden encontrarse: medidas fisiológicas, criterios diagnósticos, valoración clínica, entre otras. La validez del constructo es uno de los procedimientos más importantes para la aplicación de las pruebas, ésta consiste en confirmar si los resultados de la prueba son indicadores del constructo, es decir que implica la evaluación del contenido y el criterio, con el cual se logra identificar si existe relación entre el ítem, atributo y constructo, con el fin de buscar evidencia estadística para garantizar que la prueba realmente mida el constructo. Para validar el constructo de un test se requiere que el evaluador tenga preparación estadística avanzada, puesto que los procedimientos actuales incluyen análisis factorial, ecuaciones estructurales y redes Bayesianas, los cuales se encargan de identificar si los ítems se agrupan de acuerdo a los atributos o dimensiones y éstos en relación al constructo. GLOSARIO DE TÉRMINOS
Confiabilidad: procedimiento que utiliza para estimar la consistencia entre
las puntuaciones obtenidas en una prueba. Validez: método que se encarga de confirmar si los reactivos de un test cumplen con los objetivos de medición. Correlación: procedimiento estadístico que se encarga de medir el grado de relación entre las variables.